요즘 가장 이슈가 되는 프레임웍 중에 하나가 하둡(Hadoop)이 아닐까 싶다. 하둡이 무엇이고, 왜 탄생하게 되었는지 알아보도록 하자. 아무래도 이런 확실한 정보들을 얻기에는 공식 홈페이지가 가장 큰 도움이 된다. 여기에서 언급하는 대부분의 정보도 하둡 공식 홈페이지인 Apache™ Hadoop™에 있는 정보들을 기반으로 하고 있다.
아파치(Apache)에서 진행하고 있는 아파치 하둡 프로젝트는 안정적이이서 신뢰할 수 있고(reliable), 확장이 용이하며(scalable), 분산 컴퓨팅(distributed computing) 환경을 지원하는 오픈 소스(open-source) 소프트웨어를 개발하는 프로젝트이다. 이 세가지 특징을 잘 기억해 두길 바란다. 인터넷이 발전하면서 "어떻게 사용하는지 아는 것(know-how)"을 찾는 것은 그렇게 어렵지 않은 것 같다. 하지만 전문가가 되기 위해서는 이제 "왜 만들어졌는지 아는 것(know-why)"이 더 중요해 지는 것 같다. 하둡이 왜 시작되었는지 알 수 있는 세 가지가 여기서 이야기 하고 있는 신뢰성, 확장성, 분산 컴퓨팅 지원이다.
아파치 하둡 소프트웨어 라이브러리(library)는 방대한 양의 데이터가 간결한 프로그래밍 모델을 이용하여 여러대의 컴퓨터로 이루어진 클러스터(cluster)에서 분산 처리(distributed processing)될 수 있도록 도와주는 프레임웍(framework)이다. 아파치 하둡은 처리 장치와 기억 장치를 가지는 하나의 컴퓨터에서 처리되던 방대한 작업들을 수천대의 컴퓨터로 작업을 분산해서 처리할 수 있는 확장성을 제공하기 위해서 설계되었다. 또한 고가용성(high-availability)을 지원하기 위해서 하드웨어에 의존했던 기존의 방식을 탈피하여, 라이브러리 자체가 하드웨어가 아닌 애플리케이션에서 에러를 발견하고 적합한 조치를 취할 수 있도록 설계되었다.
아파치 하둡에는 다음과 같은 3개의 하위 프로젝트들이 있다.
또한 아파치는 하둡과 관련있는 다음과 같은 프로젝들도 지원하고 있다.
아파치 하둡 릴리즈 페이지로 가면 하둡을 다운로드할 수 있다.
많은 분야에서 여러 회사들과 단체들이 연구 목적으로 그리고 실제 개발 목적으로 하둡을 사용하고 있다. 하둡PoweredBy 위키 페이지에 가면 현재 어떤 회사들과 단체들에서 하둡을 사용하고 있는지 볼 수 있다. 또한 현재 하둡을 사용하고 있다면 위키 페이지에 회사나 단체 이름을 추가해 주기 바란다.
출처 : http://linuxism.tistory.com/888
하둡이란 이름이 왜 붙었을까? 하둡을 맨 처음 만든 더그 컷팅(Doug Cutting)이 아들이 가지고 놀고 있던 노란 코끼리 인형을 하둡이라고 부르는 것을 보고 거기에서 이름을 가져왔다고 한다. 그게 하둡 로고에 노란 코끼리가 있는 이유이다. 아래 사진은 더그 컷팅이 그 노란 코끼리 인형을 들고 있는 모습니다.
출처: Hadoop, a Free Software Program, Finds Uses Beyond Search - The New York Times