reCaptcha (y quizás otros sistemas de captcha) sirven más que para su cometido.
Y es que el cometido obvio, por así decirlo, de los sistemas de captcha es el de generar un desafío (challenge en inglés) para que ante un formulario el sistema web pueda asegurarse de que el que realizó la acción fue un ser humano y no un script o bot programado. Es entendible entonces como los sistemas de captcha evolucionan y van poniendo las letras cada vez mas complejas, tachadas o incompletas, ya que hecha la ley, hecha la trampa, y muchos hackers programan sistemas OCR para que rellenen automáticamente estos desafíos y completen automáticamente cualquier formulario o lo que sea.
Pero, al menos en reCaptcha, también hay otro objetivo (que no conocía… gracias a Pablo que me lo explicó) y es genial como lo implementan.
Este sistema, comprado por Google hace unos años, utiliza la “inteligencia colectiva” para que los humanos que rellenan formularios (o sea, nosotros) ayudemos a digitalizar textos. Los que han usado esto sabrán que cuando nos enfrentamos a un reCaptcha vemos 2 palabas: Una es la de control y la otra es el desafío (para el sistema). La de control el sistema la conoce, y la otra es la que el sistema está ingresando… ¿Pero a qué y para qué?
El tema es así, supongamos que somos Google y queremos digitalizar ediciones muy viejas de el New York Times. Primero le pagamos a gente para que ponga las hojas en un scanner (o sean escaneados por sistemas automáticos, da igual). La cuestión es que por más bueno que sea el software OCR, los diarios antiguos, por la mala calidad de impresión sumado al tiempo, tienen palabras irreconocibles…
El software OCR toma las palabras irreconocibles, las remarca, y se las manda a la API de reCaptcha para que los humanos que llenan formularios escriban “lo que les parece que dice”.
Obviamente si el sistema pone mil veces la siguiente palabra…
Mediante el algoritmo va a ir tomando los ingresos de los humanos que llenan formularios y determinará que esa palabra es DOUGLAS, (con coma) y a partir de que miles y miles escriban lo mismo, dará la palabra por sentado y además lo tendrá ingresado en la API como un desafío confiable.
Una vez que el sistema envía y recibe el feedback oculto de la comunidad (todo esto sin que casi nadie se entere que trabaja digitalizando texto) puede entregar el texto digitalizado con un 99,5% de efectividad ¿Groso? Miren el resultado final.
Ahora, ¿qué pasa si tenemos la “suerte” de que somos el primero o el segundo en recibir una nueva palabra? En ese caso es probable que si escribimos cualquier cosa el sistema nos deje pasar de todos modos, ya que la base de datos de esa palabra no existe.
El sistema no «valida» la palabra nueva como challenge, solamente lo hace con la de control, así que la primera (a veces varía el orden) es como desafío y la segunda es para «digitalizar».
Si están con ganas de más les recomiendo este PDF (en inglés)
Solo tenes que escribir la palabra que tiene sombra , a veces la intercambian y en la segunda palabra le podes poner cualquier cosa osea lo tenes que rellenar con algo así como «sadfsadfsadfasd»
pero como ya que estoy es mas fácil escribirlas y ayudar a digitalizar libros
En fin Buen Post !
Saludos
Wow, impresionante, no sabía que funcionaba así, muchas gracias por la información
Que genios estos de Google. Ahora sé el por qué de la leyenda «Stop Spam, Read Books».
Saludos!!
Muy buena la data, Guille.
Voy a probarlo con algunos libros viejos que tengo que sé que no están en la web. Si no es mentira, es impresionante el resultado de un texto en baja calidad:
http://www.google.com/recaptcha/digitizing
Gracias!
Me irritaban los captchas, pero si ayudan a digitalizar texto los voy a descifrar con otro humor.
Creo que no terminaste de entender el mecanismo. reCaptcha, como tú dices utiliza dos palabras. Una la genera Google, y la otra es la digitalizada. Da igual que te toque una palabra por primera vez, la única válida es la generada por Google, que sí sabe lo que pone.
[…] Para qué sirve reCaptcha tecnovortex.com/para-que-sirve-recaptcha/ por gledkoom hace 3 segundos […]
mmm ya me sonaba… hay veces que invento lo q veo en el captcha de torrentleech pero es muy irreconocible, igual lo toma… igual el mayor desafio eran los perros y gatos de rapidshare… el que no sabia leer ingles se jodia!
Los Cpachas son irritantes, especialmente para la gente mayor que tiene problemas de visión, pero aun son pasables si los comparamos con otros sistemas de validación mas reboludos. Hace años, en un foro matemático, para poder entrar, te hacían la siguiente pregunta en un panel: ¿Cual es la longitud de la arista de un cubo, en el que la suma de las longitudes de las aristas, mas la superficie de las caras, mas el volumen, es igual a diecinueve?
Tenias que meter la respuesta o no entrabas…
Me imagino que la respuesta a la pregunta era otra pregunta: ¿19 que? Caso contrario, la que estaba equivocada era la pregunta original.
Saludos
Javier
La respuesta era:
La Arista mide un metro
Ni que decir que era una de esas rarezas para entrar en los foros de Matematicas.. semejante al de «No entre aquí quien no sepa geometria». Esta ultima frase se podía leer encima de la puerta de entrada a la Academia de Platón (siglo IV a. de C.)
Un saludo
offtopic:: LoL, hace mucho que no me reía tanto, para que se necesita saber 19 que, btw la respuesta es 1 :: offtopic
Con respecto a los capchas, la verdad que no lo sabia, buena la info.
Enzo: es que sumar longitud, área y volúmen es como sumar peras, naranjas y manzanas. La pregunta correcta debería haber dicho «la suma de los valores absolutos de las longitudes de las aristas, mas los valores absolutos de las superficies» etc etc. y ahi recién sacás que el valor de long. de la arista es 1.
Si pretendés sumar 12 x + 6 x2 + 1 x3, donde x sea la unidad que mas te guste (m, cm, mm), no hay suma posible.
Saludos.
Sabes que…… tenes razon, jajaja. Bueno, supongo que es lo que pasa cuando hago mucho calculo y poca fisica XD
Otra vez vos, a la grande hombre.
Todo muy bonito, mientras no te toque esto:
http://twitpic.com/5qafk7
Saludos
Mariano Sigman habló sobre esto en una charla interesante de GarageLab
http://garagelab.tumblr.com/post/275277357/marianosigman-glab2-neurorobotics
Tremanda Charla Matt, un capo el flaco!
Saludos.
Un poco mas de data: no lo invento Google, lo compro en el 2009.
http://googlesystem.blogspot.com/2009/09/google-buys-recaptcha.html
Buen post!
[…] via Alt-tab […]
Excelente Articulo! conocía de oído el tema de que lo estaban utilizando para digitalizar documentos viejos como un ejemplo de Crowdsourcing pero no sabia que era propiedad de Google.
Vaya!!! muy bueno, no sabia que nos utilizaban para lucrarse jejejeje. Mira podrían destinar eso que se ahorran a una ONG o algo por el estilo.
Por la parte que te toca, me parece un POST interesantísimo.
Que loco, todos los días se aprende algo nuevo.
[…] Vía: Alt-Tab […]
Cuando me entere de esto me entretenia poniendo una sola de las dos palabras… La idea era encontrar la palabra que el sistema sabia que yo tenia que poner y la otra dejarla en blanco…
Con que poco se entretiene alguien como yo ¿no?
Sabia ke el reCaptcha servia para digitalizar textos, pero no sabia como lo hacia. Esto de la palabra de control, por ejemplo, me estoy enterando ahora!
Por este tipo de cosas Google se va ganando el corazon de muchos…
[…] sistemas de captcha, que en la mayor parte del tiempo resultan MUY molestos. Sin embargo, gracias a este artículo de alt-tab, ahora descubrí que en algunos casos también sirven para ayudar a digitalizar […]
[…] sistemas de captcha, que en la mayor parte del tiempo resultan MUY molestos. Sin embargo, gracias a este artículo de alt-tab, ahora descubrí que en algunos casos también sirven para ayudar a digitalizar […]
[…] a LibreOffice.Videoconferencia: “Por qué tener un blog en la era de las redes sociales”.¿Para qué sirve reCaptcha?.Ha comenzado la segunda temporada de Panico en el Nucleo, un podcast de linux y software […]
Muy buen artículo! Esta explicado de una manera muy entendible. Lo voy a compartir con mis compañeros de clase.
Gracias y saludos!
[…] servía Captcha? Para aquellos con mala memoria o que no hayan leído el artículo voy a ser breve. reCaptcha es un servicio que permitir discernir si uno es humano o es un programa informático a […]