빅데이터에서 돈이 될 만한 것을 뽑아내는 기술로 정의 되어있다.
빅데이터분석이 쉬워진것은 하둡(Hadoop)이 개발되면서 부터이다.
하둡은 대용량 데이터를 적은비용으로 더 빠르게 분석할 수 있는 소프트웨어이며, 빅데이터 처리와 분석을 위한 플랫폼 중 사실상 표준으로 자리잡고 있다.
여러대의 컴퓨터로 데이터를 분석하고 저장하는 방식으로 분석에 필요했던 많은 비용과 시간을 단축 할수 있게 되었다.
페이스북의 자동 이미지검색, 금융거래 내역 분석을 통한 사기방지, 검색 패턴을 통한 광고타켓 및 마케팅 등 여러분야에서 활용 될수 있다.
국내외를 막론하고 빅데이터를 다루는 개발자는 하둡 생태계를 통해 빅데이터를 보다 원활하고 효율적으로 분석할 수있다.
하둡은 여러개의 컴퓨터를 하나로 묶어 대용량데이터를 처리하는 기술로 , 수천대의 분산된 x86장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템과, 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석하는 맵리듀스 플랫폼으로 구성되어 있다.
하둡은 아파치 루씬 창업자인 더그 커팅이 2006년 야후 엔지니어로 일하면서 개발되었으며, 오픈소스로 공개 여러 개발자가 자유롭게 활용하여 발전 시킬 수 있다.
실제로 페이스북은 데이터의 일부를 하둡에 저장하는데, 그양은 약 30PB로 미국내도사관에 저장된정보의 3배에 이른다.
페이스북은 대용량의 사진 데이터를 약 2천여개의 서버가 데이터처리를 하여, 사용자가 이미지를 업로드하거나 검색할수 있게 해 준다.
국내 기업 SK도 2008년 하둡을 도입하여, 실시간으로 데이터를 수집하여 사용자 맞춤형 서비스 개발에 나섰다.
[출처] [빅데이터] 하둡(Hadoop)이란?|작성자 에이콘아카데미
'Data > Processing' 카테고리의 다른 글
Hadoop이란 ?-정의편 (0) | 2019.04.03 |
---|