티스토리 뷰



  컴퓨터라는 도구가 언제나 우리 생활에 유용하게만 사용되는 것은 아니다. 컴퓨터를 활용해서 '쓰레기 데이터'를 생성하는 것 역시 우리 주변에서 쉽게 볼 수 있는 나쁜 사례 중 하나이다. 인터넷 카페는 물론이고, 지금 이 글을 읽는 블로그의 댓글에도 컴퓨터를 이용하여 무차별적인 쓰레기 댓글을 달아서 불특정 사이트로 유입을 불러오려고 하는 과정을 우리는 주변에서 흔하게 볼 수 있다.




  컴퓨터는 알 수 없고, 사람만 알 수 있도록 구분짓는 것이 바로 '캡차(Captcha)'이다. 캡차(Captcha)에 대해서 조금 더 자세히 살펴보면...



  2000년 Luis Von Ahn 교수가 만든 자동계정생성 방지 프로그램이 캡차(captcha)이다. 컴퓨터에 의한 자동 가입을 방지하기 위한 인증 작업이 필요했고, 전세계 수억명의 인터넷 사용자들은 CAPTCHA(캡차)를 통해서 일정 시간(약 10초)과 노력을 투자할 수 밖에 없었다.


  이런 시간과 노력이 단지 '인증'을 위해서만 사용되는 것이 안타깝다고 생각한 천재교수 Luis Von Ahn 교수는 'reCAPTCHA(리캡차)'라는 새로운 인증 프로그램을 추가했다.





  reCAPTCHA(리캡차)는 하나의 단어가 아닌 두개의 단어로 조합되어 있다. 하나는 인증을 위한 단어이며, 다른 하나는 미국 도서관에서 종이 문서를 디지털 문서화(digital archive)에 사용되는 OCR(광학판독)프로그램 중 일정 부분 발생하는 오류(오차)를 바로 잡기 위한 사람의 수작업을 위함이다.



  위 샘플 이미지를 살펴보면 'Scanned type'를 디지털 문서화 하기 위해서 OCR 한 것이 아래 문장이다. 이 글을 읽는 분들도 윗 문장의 시작이 'This'라는 것을 육안으로 확인할 수 있지만, OCR에서는 This가 아닌 niis로 인식되었다. 이 하나의 오차가 문장 전체를 혼란스럽게 만들 수 있다.


  This를 niis가 아닌 This로 바꿔주는 과정에 '사람의 시간과 노력'이 필요한데, 이것을 reCAPTCHA(리캡차)를 통해서 전세계 사용자의 도움(시간과 노력)을 받는 것이다.




  인류 역사에 기여하는 너와 나의 10초, 프로젝트 구텐베르크라는 이름으로 인터넷에 회자된 EBS 프로그램을 확인하면 보다 쉽게 이해될 것이다.


관련 EBS 방송 캡쳐본 확인하기





  추가로 관련 정보가 궁금한 분들은 'TED'를 통해서도 확인이 가능하다.


루이스 폰 안 : 대규모 온라인 협업 TED 바로가기







댓글