Saturday, May 9, 2009

robots.txt

En la 2600 de la primavera 2009, aparece un artículo llamado "robots.txt Mining Script for the Lazy" y aunque hay muchas cosas que se esconden en estos robots.txt (en los CMS generalmente la pantalla de login), existen cosas que no deberías de ver, ¿cómo cuáles? preguntále a Irongeek.

El uso de los robots.txt, es un ejemplo de sigue existiendo gente que cree que puede confiar en la gente. ¡Bien por ellos! =P

Tuesday, April 7, 2009

Code Page Detection

Recientemente me encontré con un problema en el que tenía que identificar la codificación de caracteres de un archivo de texto, y descubrí una muy buena herramienta que se llama cpdetector (http://cpdetector.sourceforge.net/), la cuál utiliza varios algoritmos para detectar la codificación de caracteres. Uno de los algoritmos que utiliza es el de Mozilla, una buena referencia de este algoritmo se puede encontrar aquí --> http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html