About the work
Crawler diseñado para la monitorización activa de fuentes buscando la presencia de palabras clave/expresiones regulares y supervisar la disponiblidad de diversos sitios web.
Entre las funcionalidades actuales se hayan:
-Configuración de las fuentes a través de un documento Excel.
-Uso de caché en disco con el estado de la ejecución.
-Envío por email de los segmentos html de cada resultado.
-Captura de pantalla del redenrizado de cada segmento html.
-Tamaño de la caché lógica en función de la fuente.
-Uso del cálculo de la distancia de Damerau-Levenshtein para eliminar resultados similares (>85%)
-Tratamiento personalizado en función del tipo de elemento DOM
-Optimizado para reducir el consumo de CPU y RAM al mínimo (1% CPU y 20-50MB RAM).
Tecnologías: .Net + Excel + PhantomJS + JavaScript
Print work information
Work information
Title BasicCrawler
Crawler diseñado para la monitorización activa de fuentes buscando la presencia de palabras clave/expresiones regulares y supervisar la disponiblidad de diversos sitios web.
Entre las funcionalidades actuales se hayan:
-Configuración de las fuentes a través de un documento Excel.
-Uso de caché en disco con el estado de la ejecución.
-Envío por email de los segmentos html de cada resultado.
-Captura de pantalla del redenrizado de cada segmento html.
-Tamaño de la caché lógica en función de la fuente.
-Uso del cálculo de la distancia de Damerau-Levenshtein para eliminar resultados similares (>85%)
-Tratamiento personalizado en función del tipo de elemento DOM
-Optimizado para reducir el consumo de CPU y RAM al mínimo (1% CPU y 20-50MB RAM).
Tecnologías: .Net + Excel + PhantomJS + JavaScript
Work type Software and Database designs
Tags crawler, software, scrapper
-------------------------
Registry info in Safe Creative
Identifier 1502233312435
Entry date Feb 23, 2015, 9:47 AM UTC
License All rights reserved
-------------------------
Copyright registered declarations
Author. Holder José Miguel Soriano de la Cámara. Date Feb 23, 2015.
Information available at https://www.safecreative.org/work/1502233312435-basiccrawler