본문 바로가기

토픽

왜 하둡(Hadoop)인가?



하둡


하둡(Hadoop)은 2006년 야후(Yahoo)의 투자 아래 더그 커팅(Doug Cutting)가 개발했다. 이후 하둡은 아파치(Apache) 재단으로 넘어가 누구나 이용할 수 있는 오픈소스 소프트웨어가 되었다. 


하둡은 구글(Google)의 분산 파일 시스템(GFS)이 공개된 이후 이에 대응하고자 개발되었다하둡은 빅데이터를 상징하는 코끼리로 로고를 정했는데, 2011년 오픈 소스 아파치 하둡(Apache Hadoop) 사업을 위해 야후에서 분사한 기업의 이름을 지을 때도, 코끼리가 주인공인 동화에 나오는 코끼리 이름인 호튼(Horton)을 따와서 호튼웍스(Hortonworks)라고 회사명을 지었다.


하둡은 여러 개의 컴퓨터를 하나로 묶어 저장 공간을 늘리고 처리 속도를 향상시킨다. 또한 하둡의 기술은 오픈소스로 공개되어 있기 때문에 비용이 저렴하다. 


하둡의 특징은 기존의 RDBMS(Relational Database Management System) 방식으로는 처리가 어려운 데이터를 다루기 위해 데이터를 여러 컴퓨터에서 병렬로 처리하는 것이다. 


정형화된 데이터의 경우 기존의 RDBMS로 처리가 가능하지만 웹 로그나 웹 크롤러에 의해 발생한 데이터처럼 예측불가능한 무제한적인 데이터의 경우 RDBMS에 저장하기에는 너무 방대한 양이다. 또한 상용화된 RDBMS 환경을 구축하기에는 너무나 많은 비용과 물리적 한계량이 존재한다. 


하지만 하둡은 여러 대의 서버에 정보를 나눠서 저장하고 해당 정보를 각각의 서버에서 동시에 처리하기 때문에 저렴하고 빠른 속도로 처리할 수 있다. 하둡은 HDFS(Hadoop Distributed File System)이라는 기술을 통해 데이터를 분산 저장하고 맵 리듀스(Map Reduce)라는 프레임워크로 분산 처리한다. 


이러한 하둡은 오픈소스 군단의 핵심이자 빅데이터의 표준으로 떠오를 수 밖에 없었다. 오픈소스의 특성상 접근성이 높아 개량과 발전이 급속도로 이루어지기 때문이다. 


이에 상용 소프트웨어 기업들 역시 자신의 기술을 하둡과 연동하여 더욱 발전된 서비스를 제공하기 위해 애쓰고 있다. 오라클, IBM, 마이크로소프트, 테라데이터 등 RDBMS 업체들은 뿐만 아니라, SAS, 마이크로스트레티지, 인포매티카 등 분석 업체들까지 뛰어들며 고군분투하고 있다.