일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Kotlin
- Spring
- SQL
- Eclipse
- tomcat
- hadoop
- Express
- window
- 보조정렬
- SPC
- 공정능력
- MSSQL
- JavaScript
- mybatis
- NPM
- table
- xPlatform
- react
- Python
- Android
- Sqoop
- plugin
- GIT
- IntelliJ
- SSL
- es6
- R
- Java
- mapreduce
- vaadin
- Today
- Total
목록ETL (3)
DBILITY
staging에서 target table로는 프로세스가 하나만 도는가 보다. extracter는 mapper, loader가 0이 아닌경우 reduce task도 실행이 되네. extracter 8, loader 0일때가 extractor 4, loader 4보다 빠르네. 아마도 loader를 설정하면 reduce task로 sort,shuffle하는 시간이 많이 걸리나 보다. 거기다 heap oom이 발생하기도 한다. 메모리를 늘려야겠다.... 테스트환경마다 다르겠지. oracle parallel load랑 비교해 봐야겠다. bulk load형태로 rdb table의 storage param중 logging을 off하고 해보는것도 좋겠다. 약 700M 크기의 csv 파일을 로드하는데 paritioner..
Sqoop 5 Minutes Demo를 참고하여 oracle etl 테스트를 해보았다. link를 생성, job을 생성할때 from link, to link 지정, job을 기술한다. 테스트할 ETL UseCase는 oracle db의 테스트용 임시 데이터를 생성하고, 이 데이터를 sqoop job을 통해 hdfs에 저장한다. SQOOP_SERVER_EXTRA_LIB에 oracle jdbc driver가 설치되어 있어야 한다. link생성시 비밀번호에 특수문자가 포함되어 있으니 안된다..shell에서만 안되는 것일까? oracle-jdbc-connector를 썼더니,mapper에서 oralce.jdbc.OracleDriver를 load하지 못하였다. sqoop2는 서버기반이라 서버쪽에만 jdbc driv..
당연하게 하나 이상 입력 경로를 지정할 수 있다. 입력경로가 디렉토리일 경우 하위 파일을 모두 읽어 드리는 것을 확인하였습니다. addInputPath(Job job, Path path) , addInputPaths(Job job, String commaSeparatedPaths), setInputPaths(Job job, String commaSeparatedPaths) , setInputPaths(Job job, Path[] inputPaths)꼭 Reducer를 써야 하는 것은 아니다. org.apache.hadoop.mapreduce.Job.class setNumReduceTasks(int tasks)Reducer를 이용하면 SQL의 group by 효과를 볼 수 있다. Map = Transfor..