Nutch

컴퓨터/Nutch 2014. 3. 17. 13:22

출처1(원문) : https://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html

출처2(해석) : http://www.joinc.co.kr/modules/moniwiki/wiki.php/Site/Search/Document/nutch/Crawling

다음 글은 출처1과 출처2, 그리고 구글번역을 도움으로 하여 작성되었습니다. 작성자의 영어실력이 초딩수준(요즘은 초등학생도 잘한다던데...)인 관계로 구글번역과 앞뒤 개연성만 가지고 작업하였으니 오역이 많을 수 있습니다. 더 좋은 번역이 가능한 부분(혹은 오역)이 있으면 댓글을 달아 주시면 수정하겠습니다.


Nutch is an open source Java implementation of a search engine. It provides all of the tools you need to run your own search engine. But Why would anyone want to run their own search engine? After all, there's always Google. There are at least three reasons.

Nutch는 자바로 구현된 오픈소스 검색엔진입니다. 이것(Nutch)은 당신이 자신만의 검색엔진을 만드는데 필요한 모든 도구(Tools)를 제공합니다. 구글이 있는데 왜 자신만의 검색엔진이 필요할까? 여기엔 세 가지 이유가 있습다.


1. Transparency.

Nutch is open source, so anyone can see how the ranking algorithms work. With commercial search engines, the precise details of the algorithms are secret so you can never know why a particular search result is ranked as it is. Furthermore, some search engines allow rankings to be based on payments, rather than on the relevance of the site's contents. Nutch is a good fit for academic and government organizations, where the perception of fairness of rankings may be more important. 

1. 투명성

Nutch는 오픈소스이기 때문에, 이것이 어떻게 순위 알고리즘을 작업하는지 볼 수 있습니다. 상용 검색엔진의 경우 랭킹엔진과 관련된 세부 사항은 감추어져 있습니다. 또한, 일부 검색 엔진에서는 순위가 내용의 관련성 보다는 해당 사이트의 과금(혹은 지불)을 기반으로 하고 있습니다. Nutch는 랭킹에 대한 공정성이 중요한 학계나 정부 기관에 적합할 것입니다.


2. Understanding.

 We don't have the source code to Google, so Nutch is probably the best we have. It's interesting to see how a large search engine works. Nutch has been built using ideas from academia and industry: for instance, core parts of Nutch arecurrently being re-implemented to use the "http://labs.google.com/papers/mapreduce.html">Map Reducedistributed processing model, which emerged from Google Labs last year. And Nutch is attractive for researchers who want to try out new search algorithms, since it is so easy to extend.

2. 이해의 편리성

 우리에게는 구글의 소스코드가 없습니다. 따라서 거대한 검색 엔진의 작동 방식을 이해하는데 Nutch가 최고입니다. Nutch는 검색엔진과 관련된 다양한 이론들은 포함하고 있습니다. 예를들어, Nutch의 핵심 중 하나인 Map Reduce는 지난해, 구글 연구소에서 등장한 distributed processing model(분산 처리 모델)이 사용되었습니다. 이 외에도 Nutch는 최근에 연구되어지고 있는 검색 알고리즘을 적용하고 테스트하기 위한 시도를 하고 있으니, 관련된 이론적인 지식을 알고 있다면, 쉽게 이해할 수 있다.


3. Extensibility.

 Don't like the way other search engines display their results? Write your own search engine--using Nutch! Nutch is very flexible: it can be customized and incorporated into your application. For developers, Nutch is a great platform for adding search to heterogeneous collections of information, and being able to customize the search interface, or extend the out-of-the-box functionality through the plugin mechanism. For example, you can integrate it into your site to add a search capability.

3. 확장성

 다른 검색 엔진들의 결과 표시 방식이 좋지 않다면? Nutch를 이용하여 자신만의 검색 엔진을 만들면 된다. Nutch는 아주 유연합니다. Nutch는 사용자가 커스터마이징 할 수 있고, 응용프로그램에 통합 할 수도 있습니다. 개발자에게 너치 정보 컬렉션에 추가하거나, 검색 인터페이스를 변경하거나, 또는 플러그인 매커니즘을 활용할 수 있는 훌륭한 플랫폼입니다. 예를들어