2007년 1월 23일 화요일

POPFile - 자동화된 메일 분류 도구




POPFile
은 일종의 POP3 Proxy입니다. POP3 서버와 메일 클라이언트 사이에 위치하면서 메일을 자동으로 분류해주는 기능을 하게 됩니다. 얼마 전에 소개해드린 SpamBayes가 Outlook Add-in 방식을 지원하는 것과 비교하면 POPFile이 설치 및 사용에 있어 조금 더 귀찮은 것이 사실입니다. 그러나 POPFile만의 장점도 있으니 계속 읽어보시기 바랍니다. ;-)



POPFile은 Perl로 만들어졌는데, Python을 사용하여 만들어진 SpamBayes와 기본적으로 거의 동일한 알고리즘을 사용하는 것이기 때문에 성능에 대해서는 따로 말씀을 드릴 필요가 없으리라 생각됩니다. 대신, POPFile만의 특징이 있는데 차근히 하나씩 살펴보도록 하죠.

1. 단순히 스팸 메일만 분류해주는 것이 아니라 다양한 bucket('양동이'란 말로 POPFile에서는 분류 기준이 되는 단위를 지칭합니다.)을 두고 여러 가지로 분류를 해주는 것이 가능합니다.

2. SpamBayes처럼 메일을 직접 특정폴더로 이동하는 것이 아니라 메일의 제목에 특정 문자열을 붙여준다거나 혹은 메일 헤더에 특정 문자열을 삽입하는 방식을 이용하기 때문에 이것을 사용해서 실제 메일 클라이언트의 분류 규칙을 따로 설정해야 합니다. 얼핏보면 오히려 불편해보일 수 있겠지만, POP3 Proxy로서는 이것이 최선일 겁니다. 대신 분류 기준을 만드는 것이 훨씬 수월해지는 것은 사실이니 그것만 해도 충분하지 않을까요?

3. POPFile은 Perl로 만들어졌기 때문에 Perl을 사용할 수 있는 거의 모든 플랫폼에서 사용할 수 있습니다. Windows용으로는 친절하게도 초보자를 위해 설치 프로그램도 제공이 됩니다. Perl을 따로 설치할 필요도 없고 Perl에 대해서 아무 것도 몰라도 됩니다.

4. POPFile은 아직 별도의 GUI 프로그램은 제공하지 않고 있으며, localhost의 8080 포트로 웹페이지 형태의 인터페이스를 제공합니다. (설정을 바꾸면 8080 대신 다른 포트를 사용할 수 있습니다.)그렇기 때문에 설정이나 분류 오류에 대한 정정 등은 브라우저를 사용해서 웹 인터페이스에 접속한 후 이용 가능합니다.

5. 다국어를 지원합니다. 당연히 한국어도 지원합니다. :)



단순히 spam과 ham(spam이 아닌 'good' 메일을 지칭)만을 구분하기 위한 용도라면 SpamBayes가 오히려 더 편리할 수 있으니 굳이 POPFile에 목숨 걸지 않으셔도 됩니다. POPFile의 진정한 힘은 다양한 종류의 메일을 적절히 구분하기 위해서 Outlook(혹은 다른 어떤 메일 클라이언트라도)의 분류 규칙과 씨름하시는 분들만 느낄 수 있는 것입니다.

처음 설치를 하게 되면 POPFile 역시 '바부팅이 문어 대가리(POPFile 홈페이지에 문어가 등장합니다.)'에 불과합니다. 아무 것도 모르죠. 그래서 하나씩 차근차근 가르쳐야 합니다. Bucket을 많이 만들수록 가르치는 과정도 더 오래 걸릴 것입니다. 하지만, 잘 가르친 문어는 복잡한 메일의 분류를 정말 손쉽게 처리할 수 있도록 해줍니다. 문어실수(잘못 분류하는 일)를 하게 되면 웹인터페이스의 분류 히스토리 페이지로 가서 정정해주시면 됩니다. 가르치는 방법은 단지 그것뿐입니다.

저는 업무 상 받는 메일들이 꽤 다양해서 업무 관련 bucket만 6 개가 됩니다. 그리고, 기타 개인 메일들을 위한 bucket이 3 개, 스팸 메일용 bucket 1 개, 합이 10 개입니다. 문어를 가르치기 시작한지 이틀째인데, 처음 서너번 정도 실수한 것을 교정해주었더니 이제는 제법 척척 잘 가려주는군요. 스팸 메일은 가차 없습니다. 현재까지 필터율 98% 입니다. 어찌보면 SpamBayes보다 더 잘 가려주는 것 같은 느낌도 들 정도네요.

POPFile 공식 홈페이지는 다음과 같습니다.

LINK: http://popfile.sourceforge.net/

소개글을 쓰는 제가 굳이 설치나 사용법에 대해 언급하지 않아도 될 만큼 공식 홈페이지에서 설치부터 사용법까지 매우 친절하고 상세하게 잘 설명해줍니다.

복잡한 메일을 자동으로 분류하기 위해서 Outlook 분류 규칙에 목숨 걸지 마세요. 메일 클라이언트가 바뀌기라도 하면 어쩌시려구요? 설마 분류 기준을 처음부터 다시 만들 생각은 아니겠죠? 문어(POPFile) 한 마리 키워보세요. ;-)

댓글 없음:

댓글 쓰기