日本에서 CLOUDERA의 本格的 HADOOP/BIG DATA 基盤

2016년 9월 26일(월)오후 5:00-9:00까지 大崎驛부근 다목적홀에서 CLOUDERA(株)(마켓팅 MANAGER 木村正光)가 주최하는 HADOOP/BIG DATA 基盤에 대한 勉强會(STUDY)가 있었다.

최근 개인정보, 빅데이터와 연계된 생활에의 영향을 생각하면서 CLOUDERA의 HADOOP와 BIG DATA에 대해 자세히 알고 싶어 참가했지만 설명을 듣고 나서도 완전 이해를 하기 에는 부족했다.

이날 설명회에서는 포인트를 중심으로 한 포괄적 설명이 있었다.

ㆍHADOOP는 무엇인가“ 빅 데이터 기반은 무엇인가?

ㆍCOH:100% OPEN 소-스의 HADOOP 디스토리 버전

ㆍ엔터 플라이스 환경에서의 그라스트 관리 툴 CLOUDERA MANAGER.

ㆍ그라스터 환경에서의 HADOOP구출 툴, CLOUDERA DIRECTOR

ㆍ빅데이터 관리 툴 CLOUDERA NAVIGATOR들에 대한 설명이 있었다.

CLOUDERA셀스 엔지니어(佐藤貴彦)는 고객들이 CLOUDERA제품을 활용할 수 있도록 함께 의논하자는 STUDY이다.

CLOUDERA는 APACHE HADOOP의 패키지 제품을 개발 제공하고 있는 테크놀러지 기업이다.

고객들에게 비즈니스상의 여러 과제 해결을 실현해야 하는 최선단 기술과 테크니컬 서포트를 제공한다.

2008년 ORACLE, YAHOO, FACEBOOK, GOOGLE등 4사 출신의 사원에 의해 설립하여 누계 투자는 $740M이고 종업원수는 세계 전체에 1,300인 이상이며 27개국에 사업을 전개하고 있는 글로벌 기업이다.

HADOOP와 BIGDATA 기반

APACHE HADOOP™는 ? GOOGLE의 공개논문을 참고로 개발된 오픈 소스 소프트웨어이다.

데이터 스트레지와 분산처리를 위한 플렛트 폼이다 ‘키워드는 확장성, 내장해성(耐障害性), 분산처리“이다.

기존의 테크놀러지에서는 대응이 어려웠던 빅데이터(다종다양, 확대된 량, 빈번하게 생성된)에의 새로운 해결책으로서 등장한 테크놀러지이다.

널리 퍼지는 HADOOP의 생각의 방법으로는 HDFS + YARN +MAPREDUCE이다.

금융, 정부 TELECOM, 공장, 에너지, HEALTHCARE등의 여러 업계에서 활용되고 있다.

개개의 고객을 다면적 종합적으로 파악(제품 시스템, 디바이스, 대화채널)이란 입구를 횡단하며 개인 고객의 깊은 이해로 만족도 향상, 재고관리 최적화, 매상 증가를 실현한다.

장기적 모든 종류의 데이터를 대량, 고속, 저가격으로 처리 할 수 있게 되고 사이버 공격의 파악이 신속화되고 통계, 기계학 등으로 보다 복잡한 사이버 공격의 검출이 가능하다.

HADOOP상에서 센서 데이터와 다른 내부, 외부 데이터와 조합하게 되어 고속, 유연, 씨큐리티에 분석을 실행 가능하게 되었다.

리얼타임도 비구조데이터로 처리한다.

분산된 데이터를 한 곳에 통합시켜 진정한 기업 데이터 통합기반이며 장기간 데이터를 저코스트에 고속 처리 할 수 있기 때문에 신규 비즈니스의 신속한 수법과 코스트 삭감, 높은 씨큐리티를 동시에 실현한다.

BT, FINRA, MASTER CARD, NET APP들의 과제와 해결에 대해 설명했다.

빅데이터 기반의 용도

밧치처리, 업무 시스템 백엔드 DB, 데이터 분석기반, 데이터 엔지니어를 위한 기반, 엔터플라이스 스테다하브(위의 시스템)들의 조합이다.

빅 데이터 기반 구축에 있어서 검토 포인트로 데이터관리설계, 리소스관리 설계, 씨큐리티 설계들이고 또 글라스터 설계, 전체의 아키텍쳐 설계 등이다.

클라우드 엔터 트라이스는 HADOOP를 고속화, 사용편리, 씨큐리티 보장 환경을 실현한다.

시험으로 QUICK START VM, CLOUDERA DIRECTOR, CDH는 CLOUDERAs DISTRIBUTION INCLUDING APACHE HADOOP의 약자이다.

HADOOP에코 시스템을 일반 이용자가 이용하도록 形으로 정리해 낸 것이 CDH이다.

이어 HADOOP에 데이터 취입, 스켄, 엑세스, 갱신 가능한 분석 스트레지, 리소스관리, 강력한 데이터처리, MPP분석, SQL, 네이티브한 검색들에 대해 설명하고 1부를 끝냈다.

2부에서는 CLOUDERA 시스템 엔지니어(三宅剛史)는 JAVA(JVM)을 좋아하고 소프트웨어 개발의 경력이 오래되었다고 자기 소개를 했고, CLOUDERA MANAGER를 소개했다.

3개의 단순한 스텦에서 글라스터의 구축, 1노드를 찾고 2인스톨하고 3롤을 할당한다.

INSTALL준비과정을 설명하고 CLOUDERA MANAGER HOMEPAGE화면 찾는 과정들을 설명했다.

서비스, 스테타스로 GOOD, CONCERNING(잠재적인 문제가 있는 상태), BAD(테스트에 실패 or 크리티칼한 문제가 있는 상태), NONE(기동하지 않는 e.g.HDFS BALANCER/GATEWAYROLE), 기동 중, 섵 다운중, 정지 중 들을 설명했다.

스테타스 엑세스메뉴, 타임스케쥴과 차트, 설정변경, 설정 변경 이력관리, 로그검색, 호스트

인스펙터, 로링 업그레이드, 서비스추가 등의 설명과 CLOUDERA manager API에 의한 조작으로는 HTTP REST API를 이용하면 프로그램으로 CLOUDERAMANAGER의 도착을 행할 수 있다는 것을 소개했다.

CLOUDERA DIRECTOR개요와 기술적 설명이 있었다.

이는 CORE로 CLOUDERA EDH를 클라우드 환경에서 관리하기 위한 어플리케이션이고, 몇 개의 베스트 플탁티스를 통일하고 더욱 커스텀마이스를 하기 위한 후크를 제공한다.

클라스터의 라이프싸이클을 관리 CLOUDERA MANAGER 의 코어(중심)기능의 확장이다.

MAIN GOALS : CLOUDERA 제품을 테프로이 할 때의 TIME-TO-VALUE의 삭감, 새로운 이용패턴(온데만도 글라스터)임을 설명했다.

테프로이 모델 선택의 비교, LIFT-AND-SHIFT 사용케이스,

클라우드 NATIVE 어플리케이션 패턴의 스트레이시와 계산의 분산, 코스트 삭감, 워크로드의 최적화의 설명, 오브젝트 스트레이지와 ELASTIC COMPUTING의 활용에 대한 설명이 구체적으로 있었고 기술적인 설명들이 있었다.

CLOUDERA ENTER PRISE는 HADOOP를 FAST, EASY, AND SECURE하게 할 수 있다는 것이다.

이들에 대한 구체적 설명과 기술적 설명들이 있었다.

설명을 듣고 나서도 전체적 기술적 파악은 어려웠으나 한가지 느낀 것은 빅데이터 속에 중심을 이루고 고속성, 편리하게 그리고 이변성을 손상치 않고 씨큐리티를 담보 할 수 있는 제품으로 이의 차별성을 잘 정리하여 활용할 수 있게 한 것 같다는 느낌을 받았다.

시간이 되면 좀 더 확실한 포인트를 잡아 정리하고 싶다는 느낌이 들었다.

이날 CLOUDERA 마켓팅 manager(大林正光), 엔지니어(佐藤貴彦), 엔지니어(三宅剛史), 시니어 세일즈메니저(玄野淑文), 셀스메니저(瀧久宽之)들을 만났다.

이를 잘 활용하면 신문사나 방송 혹은 개인이 빅데이터의 필요한 부분을 정리하여 할 수 있어서 지금 우려하고 있는 부분을 개인들도 활용 가능 할 것 같았다.

2016년 11월 8일에는 CLOUDERA WOLD TOKYO 2016이 개최된다.

CLOUDERA WOLD TOKYO 2016 이번 행사는 IOT/BIG DATA 의 비즈니스에 활용하는 HADOOP탄생 10주년을 기념하는 행사로 관심과 기대가 크다

2016년 9월 26일

本社顧問兼特派員趙相祿 sangrokjui@hotmail.com