알지오 평생교육원

로그인|회원가입|고객센터
HOME>IT전문가>데이터베이스>Hadoop

Hadoop

Hadoop
20회차 속성과정
전체 : 13시간 10분|회차당 평균 : 39분30초

이용기간 2개월

전문강사 : 알지오 R&D [IT]

200,000125,000



Hadoop 인강 평생교육원 교육 안내
대용량데이터를 관리하기에 적합한 시스템으로 분산시스템개발 시 사용하면 좋습니다. 학습의 이해를 원활하게 하기 위해서는 기본적으로 자바프로그래밍 관련지식이 있어야 합니다. 데이터를 응용하는 내용으로 구성되기때문에 데이터베이스와 리눅스의 기본 개념을 같이 학습하는 것을 권장합니다.
  • 01.38분 hadoop의 소개와 개발 준비

    빅데이터, 하둡 에코 시스템, ETL, 실행모드, 리눅스 서버 준비, 호스트 파일 수정, 인코딩 방식 설정, 자바와 하둡 설치

    책갈피 : [00:59] 빅데이터의 정의/[01:38] 빅데이터의 특징/[01:49] 빅데이터의 3대 요소/[05:30] 비정형 데이타/[11:07] 하둡과 관련된 제품/[20:00] scribe/[32:22] 설치 파일 실행/[36:30] ssh 접속 시도

  • 02.36분 개발 준비와 하둡 분산 파일 시스템

    하둡 환경설정 파일 수정, 하둡 실행, 예제 실행, 이클립스 설정, 프로젝트 빌드, HDFS 기초, HDFS 아키텍처, 네임노드와 데이터노드, 블록구조 파일시스템

    책갈피 : [00:03] 환경 설정 파일 수정/[05:46] hadoop classpath 옵션/[10:15] dfs.http.address/[16:22] jps로 하둡 실행 여부 확인/[22:45] 빌드 결과 확인/[32:37] 네임노드와 데이터노드

  • 03.38분 HDFS의 파일 저장 동작방식과 읽기 동작방식

    HDFS 기초, HDFS 아키텍처, HDFS 명렁어 사용, 클러스터 웹 인터페이스

    책갈피 : [00:13] 파일 저장에 대한 동작방식 그림/[02:23] 데이터 저장시 장애가 발생할 경우/[05:56] 에디트 로그와 파일 시스템 이미지의 동작방식/[10:41] HDFS 명령어 사용법/[23:21] mv 명령어/[31:03] stat 명령어/[37:22] Dead Nodes

  • 04.37분 HDFS 입출력과 맵리듀스

    HDFS 입출력 예제, 맵리듀스 개념, 아키텍처, WordCount

    책갈피 : [00:04] HDFS 입출력 예제/[06:43] 맵과 리듀스의 동작/[16:15] 잡 할당 과정/[22:00] Interface Writable/[28:22] 매퍼 클래스 소스코드 보기/[34:22] class OutputFormat/[36:15] class LazyOutputForma

  • 05.36분 WordCount 맵리듀스 프로그램

    분석용 데이터, 항공 출발 지연 데이터 분석, 항공 도착 지연 데이터 분석

    책갈피 : [00:04] WordCount 맵리듀스 프로그램 만들기/[01:17] 자세한 소스 보기/[05:30] 리듀스 메소드 재정의/[2:31] 출력 로그 자세히 보기/[23:29] 필요한 데이터 다운/[31:48] 출력 데이터 생성 확인/[35:50] 사용자 정의 옵션 사용

  • 06.32분 맵리듀스 기초

    사용자 정의 옵션, 카운터 사용, 다수의 파일 출력, 체인

    책갈피 : [00:06] 사용자 정의 옵션/[01:25] GenericOptionsParser/[06:15] Interface Tool/[14:11] 로그 보기/[21:37] Class MultipleOutputs/[30:02] 매소드 보기/[31:52] 세번째 매퍼 설정할 경우

  • 07.38분 맵리듀스 정렬 구현

    보조 정렬, 부분 정렬, 전체 정렬

    책갈피 : [00:06] 정렬 구현/[02:15] 보조 정렬 순서/[05:57] 복합키 비교기 보기/[12:09] 리듀서 소스 보기/[21:03] 맵 리듀스 파일 실행/[32:05] 전체 정렬 작동 방식/[37:06] 정렬 확인

  • 08.40분 조인과 맵리듀스 튜닝

    주인 구현, 조인 준비, 맵-사이드 조인, 리듀스-사이드 조인, 셔플 튜닝

    책갈피 : [00:07] 조인/[05:00] Class DistributedCache/[13:09] 리듀스-사이드 조인/[22:44] 출력 경로 조회/[32:07] 리듀스/[39:34] 주의할 점

  • 09.44분 맵리듀스 튜닝과 하둡 운영

    콤바이너 클래스 적용, 맵 출력 데이터 압축, DFS 블록 사이즈 수정, JVM 재사용, 투기적 잡 실행, 네임노드 HA 구성, 파일시스템 상태 확인, HDFS 어드민 명령어

    책갈피 : [00:05] 콤바이너 클래스 적용/[05:30] snappy/[06:46] ArrivalDelayCount에 snappy 적용/[12:43] 결과 비교/[21:56] 개별적인 잡에 대한 투기적 잡 실행/[30:48] 생성자 로그의 정보 보기/[38:45] -saveNamespace 옵션/[43:30] 파일 저장 용량 설정 방법

  • 10.43분 하둡 운영

    데이터 저장공간 관리, 데이터노드 제거 및 추가, 네임노드와 데이터노드 장애복구, 하둡 사용자 관리, 하둡 주요 포트

    책갈피 : [00:02] 데이터 저장공간 관리/[04:30] 데이터노드 제거/데이터노드 추가/[06:15] hdfs-site.xml 파일 내용 보기/[12:35] 에러가 나는 이유/[22:36] 네임노드 메타데이타 이중화/[33:35] 하둡 부가기능/[41:20] 제너릭 옵션 설명/[43:00] -archives

  • 11.37분 하둡 부가기능

    하둡 스트리밍, 스트리밍 실행 옵션, 스틀리밍 구현, 잡스케줄러

    책갈피 : [00:02] 하둡 스트리밍 구현/[01:07] 첫번째 job 구현/[05:56] 명령어 파이프라인 사용//[15:11] 하둡 스트리밍 실행/[24:06] 페어스케줄러/[33:28] 풀 설정 파일 정의/[36:09] 전체에 대한 속성 보기

  • 12.39분 하둡 부가기능과 하이브

    페어 스케줄러, 커패시티 스케줄러, contrib 패키지, 하이브 아키텍처, 하이브 설치, 하이브QL, 하이브 칼럼 타입

    책갈피 : [00:08] 페어 스케줄러 적용/[06:30] 커패시티 스케줄러/[11:31] 속성값 살펴보기/[18:26] 관리 화면에서 queue 조회/[23:56] 구성요소 보기/[33:19] 테이블 생성 내용//[38:22] drop 테이블

  • 13.40분 하이브QL과 하둡 적용

    데이터업로드, 하이브 내장집계함수, 하이브 내장함수, 조인, 조인 제약사항, 버킷활용, 하둡과 몽고DB 이용, 히둡 에코시스템 활용한 분석 플랫폼 구축, 빅데이터 기술 이용한 소셜 네트워크 데이터 분석

    책갈피 : [00:09] 데이터 업로드/[00:39] 첫번째 라인 삭제한 이유/[06:42] 하이브 주요 내장함수/[14:07] 조인하기/[24:55] 스토리지 사용 추이 데이터 보기/[33:52] 확장성과 실시간성 확보/[37:37] sns 데이터 분석 시스템 구성

  • 14.37분 하둡 데이터 이동 part1

    인그레스, 이그레스, 플룸 아키텍처, 스크라이브 아키텍처, 추크와 아키텍처, 하둡에 로그파일 집어넣기

    책갈피 : [00:05] 하둡 데이터의 이동/[06:00] 복구 가능성/[12:11] 하둡으로 데이터를 옮길때 쓸수 있는 주된 방법/[17:55] 플룸 노드 데몬 시작 화면/[21:55] 플룸 마스터에서 설정 변경하는 방법/[30:52] 장애극복 모드/[35:09] 출력 포맷 보기

  • 15.45분 하둡 데이터 이동 part2

    반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기, 파일슬러퍼, 우지, 데이터베이스로부터 데이터 풀링, 맵리듀스활용, 스쿱

    책갈피 : [00:23] 반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기/[01:32] 파일 슬러퍼/[06:00] 슬러퍼의 중요한 특징/[15:58] 실제 작업 흐름 보기/[26:14] DB 구조 살펴보기/[36:58] 두가지 예제 더 보기/[42:57] 맵 리듀스의 데이터 소스로서 HBase를 사용하는 경우

  • 16.40분 하둡 데이터 이동 part3

    하둡 밖으로 데이터 옮기기, 로컬 파일시스템으로의 이그레스, 데이터베이스, HBase, 하이브를 활용한 데이터 분석, 로그 파일 로딩, UDF 및 압축 파티션 테이블 쓰기

    책갈피 : [00:08] 하둡 밖으로 데이터 옮기기/[05:45] input-fields-terminated-by/[10:03] HBase shell 에서 테이블 만들기/[16:29] 직렬화 및 역직렬화(SerDe)/[21:41] RegexSerDe 작동 보기/[30:11] 버킷 설정 두가지 방법/[37:00] udf 클래스 살펴보기/[39:45] description 보기

  • 17.44분 하이브 활용과 피그

    하이브를 활용한 데이터 분석, 하이브 조인 튜닝, 그루핑, 정렬, Explain, 피그 기본, 피그로 데이터 로드

    책갈피 : [00:05] 하이브 조인 튜닝/[05:15] Full outer join/[10:50] 세미 조인/[24:48] 피그 라틴 데이터 타입 보기/[33:52] 완전한 기능을 갖춘 로그 로더 제공 방법/[40:00] 로드 하기/[41:59] 커먼 로그 로드 펑션을 사용해 로드 하는 법 알아보기

  • 18.42분 피그

    피그 파이프라인, 필터링 및 투영, UDF 그루핑 및 취합, UDF 활용 위치 찾기, 스트리밍, 조인, 정렬, 데이터저장

    책갈피 : [00:57] 필터링/[01:11] 투영/[02:07] 필터링 과정/[07:46] 필터 연산 결과로 ip 주소별로 로그 엔트리 그루핑하고 계산하기/[13:01] getfinal/[22:56] exec 메소드/[29:18] 스트리밍/[36:30] 시퀀스 파일로 저장하는 이유/[41:07] 커스텀 로드 펑션 실행

  • 19.40분 피그와 그런치 및 그 외 기술

    사용자 작업 흐름 최적화, LIMIT, SAMPLE, ILLUSTRATE, EXPLAIN, 성능, 그런치

    책갈피 : [00:57] 사용자 작업 흐름 최적화/[05:41] RandomSampleLoader 인자 보기/[12:01] Map Reduce Plan/[21:41] 피그에서 리듀서를 사용하는 연산자/[29:52] configure 메서드/[35:52] 크런치에서 완전한 맵 리듀스 잡 실행하기/[38:34] uniqueValues 메서드 살펴보기

  • 20.44분 데스트와 디버깅

    로그에서 가장 인기있는 URL 찾기, 조인, 케스케이딩, 튜플, 파이프, 탭, 테스트, 사용자 공간 문제 디버깅, 맵리듀스 주의 사항

    책갈피 : [00:03] 로그에서 가장 인기있는 URL 찾기/[02:59] initialize를 통한 선언 초기화/[06:46] 크런치 조인 파이프라인/[15:33] 테스트 요소 살펴보기/[24:07] run 메서드/[32:06] 테스크 출력 값 보기/[40:14] 투기적 실행 경쟁 조건/[43:21] 지나치게 많은 카운터





주소 : 경기 의정부시 시민로122번길 41-46, 2F|e-mail : help@alzio.co.kr|호스팅 제공자 : SK브로드밴드
회사명 : 알지오|대표 : 채명수|개인정보관리자 : 박진엽|사업자등록번호 : 217-90-17793|통신판매 제2008-0312호
SSL발급자 Equifax Secure Global eBusiness CA-1|Copyright since 2003ⓒalzio.co.,Ltd all rights reserved. SNS

* 중소기업진흥공단 신기술밴처지원

* 서울기술보증 제 20031501호