Screenshot reCaptcha |
Slovo captcha pochází z anglického "capture" (chytit, polapit) a skutečně: je to nejhůře prolomitelná past na roboty (automatické programy), které vkládají reklamu.
Princip captchy je jednoduchý - pokud je totiž text napsán čitelně a pomocí písmen, dokáže jej robot rozeznat a "přepsat", pokud je však text (záměrně) poškozen, nedokáže písmenka správně přečíst a je v koncích. Naproti tomu člověk rozezná správně písmenko i když je mírně zdeformované, přeškrtnuté nebo málo kontrastní vůči pozadí. Má totiž něco, co spamovací programy nemají: fantazii.
Systém funguje jednoduše: server vezme z databáze náhodně vybrané slovo, to nějakým způsobem zdeformuje a nabídne uživateli formou obrázku. Člověk slovo nebo sled číslic opíše a pokud se shoduje s původním textem, systém jej pustí dál. Dokonale se tak oddělí myslící lidé od programů.
Běžná captcha je však relativně neužitečná - její jediný smysl je ochrana před spamem. Po celém světě se ale digitalizují obrovská množství starších tisků, novin, přepisů a záznamů, jednak aby se ušetřilo místo v knihovnách a hlavně, aby byly přístupné široké veřejnosti kdekoliv na světě prostřednictvím internetu. Digitalizace probíhá automaticky, pomocí skenerů, které naskenovanou stránku dokáží uložit jako text, a nikoliv jako obrázek, jako běžný skener. Část textu však může být poškozena špatnou kvalitou originálního textu, vlhkostí nebo je třeba psaná nestandardním písmem. Software pak nedokáže slovo správně rozeznat a předá jej k "ručnímu zpracování", tedy člověku, který je schopen si chybějící nebo rozmazaná písmenka domyslet a slovo správně určit. Tato činnost je však extrémně zdlouhavá a náročná na množství lidí.
Vědci a studenti na Carnegie Mellon University si uvědomili, že rozpoznávání nečitelného textu a jeho přepis do smysluplné podoby je věc, kterou dělají miliony lidí každý den ve formě "captchy". Vymysleli a spustili tedy systém reCAPTCHA (www.recaptcha.net), který mohou využívat provozovatelé webových stránek místo běžné captchy. Systém reCAPTCHA totiž zobrazuje dvě až tři slova, z nichž jedno je již "vyluštěno" a jeho potvrzení dalšími a dalšími uživateli jen potvrzuje správnost jeho určení. Druhé či třetí slovo je dosud pro systém neznámé. Člověk slovo přepíše, čímž systému umožní slovo zdigitalizovat a kromě ochrany před spamem tak ještě pomůže dobré věci. Pokud by existovala pouze reCAPTCHA místo jiných, neužitečných systémů, podařilo by se každý den zdigitalizovat na 60 milionů slov (což je skoro osmdesátkrát víc než má Bible). Kromě ochrany před spamem v komentářích, kde se reCAPTCHA používá nejvíce, s ní však lze chránit před spammery i emailové adresy zveřejňované na internetu. Systém totiž několik znaků z emailové adresy nahradí tečkami, jež fungují jako odkaz na reCAPTCHU - po jejím vyřešení je uživateli zobrazena celá a správná emailová adresa.
Kromě těchto použití má reCAPTCHA i další potenciál, například může zabránit robotům v automatickém hlasování v různých anketách či automatickým (falešným) registracím v různých online systémech. Může také zamezit tzv. slovníkovým útokům na prolomení hesel (kdy automatický program zkouší zadávat jako hesla slova ze slovníků s tím, že se dříve nebo později trefí u těch uživatelů, kteří mají jako heslo běžné slovo nebo jméno - a takových je bohužel většina). Dokonce se objevuje čím dál více velkých firem a provozovatelů serverů, kteří byli spamem obtěžováni natolik, že zavedli jednoduché pravidlo: veškeré emaily jsou automaticky smazány, pokud je nepíše člověk.
Zdroj: rozhlas.cz