Cómo bloquear Bots Maliciosos utilizando User Agents y Cloudflare

Actualizada:

Si tienes una página web, seguro que te has pasado por los logs de Apache o Nginx y has empezado a ver cómo han pasado por tu web multitud de Bad Bots para hacer scraping de tu contenido, pera análisis SEO, para comprobaciones de seguridad, spamming… De todo. Y, aunque no puedes bloquear todos sus intentos (hay cientos de bots recorriendo internet), sí que puede minimizar el impacto en tu web mediante la configuración de unas sencillas reglas en Cloudflare (o en tu archivo .htaccess del servidor).

¿Por qué prefiero hacerlo en Cloudflare? Primero, porque este dominio está gestionado mediante los DNS de Cloudflare. Segundo, porque es mejor bloquear estos bots gracias a la infraestructura de Cloudflare y en nuestro servidor: nos ahorramos recursos. Cloudflare proporciona protección a nivel de red, incluyendo mitigación de ataques DDoS y otras amenazas antes de que lleguen a tu servidor, y la gestión de sus reglas es muy sencilla. Te vas a tu panel de control y todo viene muy bien explicado. Además, te va a ofrecer estadísticas de los bloqueos.

¿Quieres comprobar si estás afectado por el tráfico de estos Bots maliciosos? Solo tienes que ir a los logs de tu servidor. Si tienes Apache, normalmente las puedes encontrar en:

/var/log/apache2/access.log
/var/log/httpd/access.log

Dependiendo de tu sistema operativo Linux (Debian, Ubuntu o Red Hat, Rocky Linux, Alma Linux). Si usas PHP-FPM en tu servidor, estos logs se pueden haber trasladado a logs individuales:

/var/log/php-fpm/ejemplo_access.log

En esos logs, vas a encontrar todos los User Agents (Agentes de usuario) de todos los bots que visitan tu web.

User Agent de Ahrefs en los logs Access de Apache.

¡Ojo! Lo que para mí puede ser un bot malicioso, a lo mejor para ti no lo es. Tienes que adaptar estas reglas a tu entorno. Un ejemplo. ¿Usas herramientas SEO como Ahrefs o SEMrush? Pues entonces debes quitar sus User Agents del listado. Luego te cuento más.

Vale. Mucha gente opta por incluir reglas de bloqueo directamente en .htaccess en su servidor, como por ejemplo las que ofrecen en Perishable Press y su 8G Firewall Addon. Esta configuración tiene muchas opciones, pero hay una específica para User Agents:

# 8G FIREWALL v1.3 20240222
# https://perishablepress.com/8g-firewall/

# 8G:[USER AGENT]
<IfModule mod_rewrite.c>

	RewriteCond %{HTTP_USER_AGENT} ([a-z0-9]{2000,}) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (&lt;|%0a|%0d|%27|%3c|%3e|%00|0x00|\\\x22) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (ahrefs|archiver|curl|libwww-perl|pycurl|scan) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (oppo\sa33|(c99|php|web)shell|site((.){0,2})copier) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (base64_decode|bin/bash|disconnect|eval|unserializ) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (acapbot|acoonbot|alexibot|asterias|attackbot|awario|backdor|becomebot|binlar|blackwidow|blekkobot|blex|blowfish|bullseye|bunnys|butterfly|careerbot|casper) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (checkpriv|cheesebot|cherrypick|chinaclaw|choppy|clshttp|cmsworld|copernic|copyrightcheck|cosmos|crescent|datacha|(\b)demon(\b)|diavol|discobot|dittospyder) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (dotbot|dotnetdotcom|dumbot|econtext|emailcollector|emailsiphon|emailwolf|eolasbot|eventures|extract|eyenetie|feedfinder|flaming|flashget|flicky|foobot|fuck) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (g00g1e|getright|gigabot|go-ahead-got|gozilla|grabnet|grafula|harvest|heritrix|httracks?|icarus6j|jetbot|jetcar|jikespider|kmccrew|leechftp|libweb|liebaofast) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (linkscan|linkwalker|loader|lwp-download|majestic|masscan|miner|mechanize|mj12bot|morfeus|moveoverbot|netmechanic|netspider|nicerspro|nikto|ninja|nominet|nutch) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (octopus|pagegrabber|petalbot|planetwork|postrank|proximic|purebot|queryn|queryseeker|radian6|radiation|realdownload|remoteview|rogerbot|scan|scooter|seekerspid) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (semalt|siclab|sindice|sistrix|sitebot|siteexplorer|sitesnagger|skygrid|smartdownload|snoopy|sosospider|spankbot|spbot|sqlmap|stackrambler|stripper|sucker|surftbot) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (sux0r|suzukacz|suzuran|takeout|teleport|telesoft|true_robots|turingos|turnit|vampire|vikspider|voideye|webleacher|webreaper|webstripper|webvac|webviewer|webwhacker) [NC,OR]
	RewriteCond %{HTTP_USER_AGENT} (winhttp|wwwoffle|woxbot|xaldon|xxxyy|yamanalab|yioopbot|youda|zeus|zmeu|zune|zyborg) [NC]

	RewriteRule .* - [F]

	# RewriteRule .* /nG_log.php?log [END,NE,E=nG_USER_AGENT:%1]

</IfModule>

Es una opción a considerar adaptando las reglas a tus necesidades. En mi caso, prefiero la opción de Cloudflare, pero los User Agents que han elegido en Perishable Press te pueden servir de guía para crear tu propia lista. Es un listado con relativamente pocos User Agents y es bastante manejable.

Si quieres listados más grandes, también los tienes, por ejemplo, el de https://github.com/mitchellkrogza/nginx-ultimate-bad-bot-blocker/blob/master/_generator_lists/bad-user-agents.list, con casi 700 User Agents. ¡Ojo! Nunca es recomendable ponerlos tal cual. Analiza tus necesidades. También puedes consultar: https://community.cloudflare.com/t/top-50-user-agents-to-block/222594.

¿Puedes hacer estos bloqueos en robots.txt? Puedes intentarlo, pero muchos de ellos se lo van a saltar a la torera. Este archivo debe estar ubicado en la raíz de tu servidor web (por ejemplo, https://www.tusitio.com/robots.txt) y tendrías que poner algo como esto:

User-agent: ahrefs
Disallow: /

User-agent: alexibot
Disallow: /

User-agent: aspiegelbot
Disallow: /

Configuración en Cloudflare para bloquear Bots Maliciosos utilizando User Agents

¿De verdad tenemos que hacer todo esto si Cloudflare ya tiene un par de modos de luchar contra los bots: Bot Fight Mode y Super Bot Fight Mode? Pues sí, porque entre los «buenos bots» que tienen en su listado tenemos algunas opciones que no me gustan nada, cómo AhrefsBot, DataForSEO, ContentKing, Botify o Awario. ¡Ojo! Siempre puedes personalizar la regla del WAF con (cf.client.bot), que llama directamente a su listado. Puede ser útil en algunas ocasiones. El problema es que está lista no está publicada en su totalidad, así que no podemos saber si hay otros bots que no nos gusten.

Lo primero que tienes que tener en cuenta, es que las reglas del WAF de Cloudflare solo pueden contener hasta 4000 caracteres, y que no admiten Regex en sus planes gratuitos (solo en los empresariales).

Vale. Lo primero que tenemos que hacer es ir al panel de Cloudflare, sección Security > WAF:

Panel de Cloudflare, sección Security > WAF: configuración de bloqueo de User agents de bad bots.

En mi caso, ya tengo configuradas tres reglas. Las dos primeras las tengo con User Agents que ya he comprobado que me afectan, y que no rompen nada de mi configuración. En la tercera regla, pruebo nuevos User Agents y veo de vez en cuando que están bloqueando. En las estadísticas ves los bloqueos de las últimas 24 horas. En mi caso no he puesto bloqueo, sino que se les presenta a estos bots un desafío Managed Challenge, que normalmente es suficiente para pararlos. Lo he dejado así por si hay algún falso positivo.

¿Qué tienes que hacer tú? Pincha en Create Rule y copia lo siguiente. Lo he dividido en tres reglas. Analízalas y decide si quieres usar los mismos User Agents que yo. Es decir, tienes que crear 3 reglas diferentes y pegar en cada una de ellas una de estas configuraciones de bloqueo (tienes que ponerlo en Edit Expression):

Panel de Cloudflare, sección Security > WAF: configuración de bloqueo de User agents de bad bots. Editamos las reglas.

Regla 1

(http.user_agent contains "ahrefs") or (http.user_agent contains "acapbot") or (http.user_agent contains "acoonbot") or (http.user_agent contains "alexibot") or (http.user_agent contains "asterias") or (http.user_agent contains "attackbot") or (http.user_agent contains "awario") or (http.user_agent contains "backdor") or (http.user_agent contains "becomebot") or (http.user_agent contains "binlar") or (http.user_agent contains "blackwidow") or (http.user_agent contains "blekkobot") or (http.user_agent contains "blex") or (http.user_agent contains "blowfish") or (http.user_agent contains "bullseye") or (http.user_agent contains "bunnys") or (http.user_agent contains "butterfly") or (http.user_agent contains "careerbot") or (http.user_agent contains "casper") or (http.user_agent contains "whatcms") or (http.user_agent contains "trendictionbot") or (http.user_agent contains "linkfluence") or (http.user_agent contains "magpie-crawler") or (http.user_agent contains "mediatoolkitbot") or (http.user_agent contains "aspiegelbot") or (http.user_agent contains "domainstatsbot") or (http.user_agent contains "cincraw") or (http.user_agent contains "nimbostratus") or (http.user_agent contains "checkpriv") or (http.user_agent contains "cheesebot") or (http.user_agent contains "cherrypick") or (http.user_agent contains "chinaclaw") or (http.user_agent contains "choppy") or (http.user_agent contains "clshttp") or (http.user_agent contains "cmsworld") or (http.user_agent contains "copernic") or (http.user_agent contains "copyrightcheck") or (http.user_agent contains "cosmos") or (http.user_agent contains "crescent") or (http.user_agent contains "datacha") or (http.user_agent contains "demon") or (http.user_agent contains "diavol") or (http.user_agent contains "discobot") or (http.user_agent contains "dittospyder") or (http.user_agent contains "dotbot") or (http.user_agent contains "dotnetdotcom") or (http.user_agent contains "dumbot") or (http.user_agent contains "econtext") or (http.user_agent contains "emailcollector") or (http.user_agent contains "emailsiphon") or (http.user_agent contains "emailwolf") or (http.user_agent contains "eolasbot") or (http.user_agent contains "eventures") or (http.user_agent contains "extract") or (http.user_agent contains "eyenetie") or (http.user_agent contains "feedfinder") or (http.user_agent contains "flaming") or (http.user_agent contains "flashget") or (http.user_agent contains "flicky") or (http.user_agent contains "foobot") or (http.user_agent contains "fuck") or (http.user_agent contains "g00g1e") or (http.user_agent contains "getright") or (http.user_agent contains "gigabot") or (http.user_agent contains "go-ahead-got") or (http.user_agent contains "gozilla") or (http.user_agent contains "grabnet") or (http.user_agent contains "grafula") or (http.user_agent contains "harvest") or (http.user_agent contains "heritrix") or (http.user_agent contains "httrack") or (http.user_agent contains "icarus6j") or (http.user_agent contains "jetbot") or (http.user_agent contains "jetcar") or (http.user_agent contains "jikespider") or (http.user_agent contains "kmccrew") or (http.user_agent contains "leechftp") or (http.user_agent contains "libweb") or (http.user_agent contains "liebaofast") or (http.user_agent contains "linkscan") or (http.user_agent contains "linkwalker") or (http.user_agent contains "loader") or (http.user_agent contains "lwp-download") or (http.user_agent contains "majestic") or (http.user_agent contains "masscan") or (http.user_agent contains "miner") or (http.user_agent contains "mechanize") or (http.user_agent contains "mj12bot") or (http.user_agent contains "morfeus") or (http.user_agent contains "moveoverbot") or (http.user_agent contains "netmechanic") or (http.user_agent contains "netspider") or (http.user_agent contains "nicerspro") or (http.user_agent contains "nikto")
  • Acción a elegir: Te recomiendo Managed Challenge o Block.
  • Le das a Deploy para que se ponga en marcha.

Regla 2

(http.user_agent contains "ninja") or (http.user_agent contains "nominet") or (http.user_agent contains "nutch") or (http.user_agent contains "octopus") or (http.user_agent contains "pagegrabber") or (http.user_agent contains "petalbot") or (http.user_agent contains "planetwork") or (http.user_agent contains "postrank") or (http.user_agent contains "proximic") or (http.user_agent contains "purebot") or (http.user_agent contains "queryn") or (http.user_agent contains "queryseeker") or (http.user_agent contains "radian6") or (http.user_agent contains "radiation") or (http.user_agent contains "realdownload") or (http.user_agent contains "remoteview") or (http.user_agent contains "rogerbot") or (http.user_agent contains "scooter") or (http.user_agent contains "seekerspid") or (http.user_agent contains "serpstatbot") or (http.user_agent contains "semrush") or (http.user_agent contains "semalt") or (http.user_agent contains "siclab") or (http.user_agent contains "sindice") or (http.user_agent contains "sistrix") or (http.user_agent contains "sitebot") or (http.user_agent contains "siteexplorer") or (http.user_agent contains "sitesnagger") or (http.user_agent contains "skygrid") or (http.user_agent contains "smartdownload") or (http.user_agent contains "snoopy") or (http.user_agent contains "sosospider") or (http.user_agent contains "spankbot") or (http.user_agent contains "spbot") or (http.user_agent contains "sqlmap") or (http.user_agent contains "stackrambler") or (http.user_agent contains "stripper") or (http.user_agent contains "sucker") or (http.user_agent contains "surftbot") or (http.user_agent contains "sux0r") or (http.user_agent contains "suzukacz") or (http.user_agent contains "suzuran") or (http.user_agent contains "takeout") or (http.user_agent contains "teleport") or (http.user_agent contains "telesoft") or (http.user_agent contains "true_robots") or (http.user_agent contains "turingos") or (http.user_agent contains "turnit") or (http.user_agent contains "vampire") or (http.user_agent contains "vikspider") or (http.user_agent contains "voideye") or (http.user_agent contains "webleacher") or (http.user_agent contains "webreaper") or (http.user_agent contains "webstripper") or (http.user_agent contains "webvac") or (http.user_agent contains "webviewer") or (http.user_agent contains "webwhacker") or (http.user_agent contains "winhttp") or (http.user_agent contains "wwwoffle") or (http.user_agent contains "woxbot") or (http.user_agent contains "xaldon") or (http.user_agent contains "xxxyy") or (http.user_agent contains "yamanalab") or (http.user_agent contains "yioopbot") or (http.user_agent contains "youda") or (http.user_agent contains "zeus") or (http.user_agent contains "zmeu") or (http.user_agent contains "zune") or (http.user_agent contains "zyborg")
  • Acción a elegir: Te recomiendo Managed Challenge o Block.
  • Le das a Deploy para que se ponga en marcha.

Regla 3

(http.user_agent contains "internet-structure-research-project-bot") or (http.user_agent contains "sqlmap") or (http.user_agent contains "nessus") or (http.user_agent contains "masscan") or (http.user_agent contains "megaindex") or (http.user_agent contains "scrapy") or (http.user_agent contains "voluumdsp") or (http.user_agent contains "barkrowler") or (http.user_agent contains "semanticbot") or (http.user_agent contains "cocolyzebot") or (http.user_agent contains "domcopbot") or (http.user_agent contains "riddler") or (http.user_agent contains "pubmatic") or (http.user_agent contains "moatbot") or (http.user_agent contains "ltx71") or (http.user_agent contains "bomborabot") or (http.user_agent contains "seekport") or (http.user_agent contains "gulperbot") or (http.user_agent contains "rasabot") or (http.user_agent contains "zoominfobot") or (http.user_agent contains "coccocbot") or (http.user_agent contains "tineye") or (http.user_agent contains "webtechbot") or (http.user_agent contains "clickagy") or (http.user_agent contains "sbl-bot") or (http.user_agent contains "semantic-visions") or (http.user_agent contains "expanseinc") or (http.user_agent contains "screaming") or (http.user_agent contains "okhttp") or (http.user_agent contains "dataforseo") or (http.user_agent contains "contentking") or (http.user_agent contains "siteauditbot") or (http.user_agent contains "botify")
  • Acción a elegir: Te recomiendo Managed Challenge o Block.
  • Le das a Deploy para que se ponga en marcha.

¿Qué estás poniendo en estas reglas de bloqueo? Un ejemplo:

  1. http.user_agent: Es el encabezado HTTP que indica el agente de usuario, que describe el navegador web, bot o cualquier otra herramienta que realiza la solicitud. Este encabezado incluye información sobre el software y, a veces, sobre el sistema operativo del cliente.
  2. contains «ahrefs»: Esta parte de la expresión verifica si el agente de usuario contiene la cadena «ahrefs».
    • AhrefsBot: Es un bot utilizado por Ahrefs, una herramienta de análisis SEO que rastrea sitios web para recopilar datos sobre enlaces, contenido y otras métricas SEO. Aunque es legítimo, puede consumir muchos recursos del servidor debido a su naturaleza intensiva de rastreo.
  3. or: Operador lógico que indica que si cualquiera de las condiciones evaluadas es verdadera, la expresión completa se considera verdadera.

Todo esto es mucho más sencillo de implementar en Cloudflare que en tú .htaccess. En cuanto le des a Deploy, el Firewall de Cloudflare se pondrá como un loco a bloquear estos bots. Si pinchas en las estadísticas, lo puedes comprobar:

Bloqueo de bad bots en Cloudflare después de configurar las reglas del WAF.

Listado de User Agents de Bots que he elegido

¿Tienes que poner todos Agentes de Usuarios de todos estos bots? Tienes que valorarlo tú mismo. Aquí te dejo una tabla explicándote que hace cada uno de los que elegido yo, e indicándote de 0 a 10 (siendo 10 la puntuación más alta) si merece la pena bloquearlos o no (con una puntuación de 7 a 10 los bloquearía).

User AgentDescripciónClasificación de Bloqueo
1acapbotUtilizado para análisis y scraping de contenido.7
2acoonbotUtilizado para indexar contenido, puede ser intensivo en recursos.7
3ahrefsUtilizado por Ahrefs para análisis SEO y backlinks.6
4alexibotRealiza scraping masivo de contenido, a menudo con fines maliciosos.10
5aspiegelbotUtilizado por Huawei para indexación y análisis de contenido web.6
6asteriasRealiza scraping web, potencialmente agresivo en términos de solicitudes.8
7attackbotUtilizado para ataques y scraping agresivo.10
8awarioUtilizado para monitoreo de redes sociales y análisis de contenido.5
9backdorBusca vulnerabilidades en sitios web.10
10barkrowlerRealiza scraping intensivo que puede afectar el rendimiento del servidor.9
11becomebotUtilizado para indexar contenido, generalmente no muy intensivo.4
12binlarConocido por su actividad agresiva y no deseada.9
13blackwidowHerramienta de scraping y prueba de penetración, puede ser maliciosa.10
14blekkobotUtilizado por Blekko, un motor de búsqueda.5
15blexRealiza scraping y análisis de contenido.7
16blowfishConocido por scraping y actividades de hacking.10
17bomborabotRealiza análisis y recopilación de datos para marketing.5
18botifyUtilizado para análisis SEO y auditoría de sitios web.5
19bullseyeRealiza scraping intensivo utilizado para recopilar datos.9
20bunnysUtilizado para scraping de contenido, potencialmente intensivo.7
21butterflyRealiza rastreo web y scraping, puede ser intensivo en recursos.7
22careerbotUtilizado para buscar ofertas de empleo y contenido relacionado.3
23casperUtilizado en herramientas de automatización web para scraping.8
24checkprivRealiza pruebas de seguridad, puede buscar vulnerabilidades.9
25cheesebotUtilizado para recopilar datos de sitios web.7
26cherrypickUtilizado para scraping y posibles ataques.10
27chinaclawRealiza scraping intensivo, a menudo bloqueado por su agresividad.8
28choppyRealiza scraping web, potencialmente malicioso.8
29cincrawUtilizado para indexar contenido.5
30clickagyUtilizado para publicidad y análisis, puede ser intensivo en recursos.6
31clshttpUtilizado para pruebas de rendimiento y carga.7
32cmsworldRealiza análisis y scraping de contenido web.7
33coccocbotBot de un motor de búsqueda vietnamita, similar a Googlebot.4
34cocolyzebotRealiza análisis y scraping web, utilizado para SEO.6
35copernicUtilizado para indexar contenido web, puede ser intensivo.6
36copyrightcheckUtilizado para verificar infracciones de derechos de autor.4
37cosmosRealiza scraping web y análisis de contenido.7
38crescentRealiza scraping, puede ser malicioso o intensivo.8
39datachaRealiza scraping y análisis de contenido web.7
40dataforseoUtilizado para análisis SEO y recopilación de datos.5
41demonConocido por scraping y actividades de hacking.10
42diavolSimilar a demon, realiza actividades de hacking y scraping.10
43discobotUtilizado en plataformas de discusión y foros para scraping.6
44dittospyderRealiza scraping y análisis de contenido.7
45domainstatsbotUtilizado para recopilar estadísticas de dominios.5
46domcopbotRealiza análisis SEO y rastreo web.5
47dotbotRealiza scraping y análisis de contenido web.6
48dotnetdotcomRealiza análisis y scraping web.6
49dumbotConocido por scraping agresivo.9
50econtextRealiza análisis de contenido y scraping.6
User AgentDescripciónClasificación de Bloqueo
51emailcollectorRecolecta direcciones de correo electrónico, generalmente con fines maliciosos.10
52emailsiphonSimilar a emailcollector, utilizado para recolectar correos electrónicos.10
53emailwolfRecolecta correos electrónicos, generalmente con fines de spam.10
54eolasbotRealiza scraping y análisis web.6
55eventuresRealiza scraping y análisis de contenido.6
56expanseincRealiza análisis de seguridad y scraping.7
57extractRealiza scraping web, potencialmente malicioso.8
58eyenetieRealiza scraping y análisis de contenido.7
59feedfinderEncuentra y analiza feeds RSS.5
60flamingRealiza scraping y posibles ataques.10
61flashgetGestor de descargas que puede generar múltiples solicitudes.6
62flickyRealiza scraping y análisis de contenido.7
63foobotRealiza scraping web, potencialmente intensivo en recursos.7
64fuckRealiza actividades de scraping agresivo.10
65getrightGestor de descargas, puede generar múltiples solicitudes y consumir recursos.6
66gigabotUtilizado por Gigablast, un motor de búsqueda.5
67go-ahead-gotRealiza scraping web, puede ser intensivo en recursos.7
68gozillaGestor de descargas, similar a flashget.6
69grabnetRealiza scraping web para recopilar datos.7
70grafulaConocido por su agresividad en scraping.9
71gulperbotRealiza scraping y análisis de contenido web.7
72harvestRealiza scraping web, puede ser intensivo en recursos.8
73heritrixUtilizado por Internet Archive para archivar web.4
74httrackHerramienta de clonación de sitios web, puede generar muchas solicitudes.8
75icarus6jRealiza scraping, potencialmente malicioso.9
76internet-structure-research-project-botRealiza análisis de estructura de internet, no respeta robots.txt y puede ser muy intensivo.10
77jetbotRealiza scraping y análisis de contenido web.7
78jetcarGestor de descargas, similar a gozilla y flashget.6
79jikespiderRealiza scraping web, puede ser intensivo en recursos.7
80kmccrewRealiza scraping y análisis de contenido web.7
81leechftpHerramienta de descarga FTP, puede generar múltiples solicitudes.6
82libwebBiblioteca de HTTP, a menudo utilizada en scripts de scraping.6
83liebaofastRealiza scraping web, potencialmente intensivo.7
84linkfluenceRealiza análisis de enlaces y contenido web.5
85linkpadbotUtilizado en SEO para análisis de enlaces.5
86linkscanRealiza análisis de enlaces y contenido web.5
87linkwalkerRealiza análisis de enlaces y contenido web.5
88loaderRealiza scraping web, puede ser intensivo en recursos.7
89ltx71Realiza scraping y análisis de contenido web.7
90lwp-downloadBiblioteca utilizada en scripts de descarga y scraping.6
91magpie-crawlerRealiza scraping y análisis de contenido web.7
92majesticRealiza análisis SEO y rastreo web.5
93masscanHerramienta de escaneo de puertos, potencialmente peligrosa.10
94mechanizeBiblioteca de automatización web, utilizada en scraping.7
95mediatoolkitbotRealiza análisis de contenido y monitoreo de medios.5
96megaindexRealiza análisis SEO y scraping de contenido.6
97minerRealiza minería de datos, puede ser intensivo en recursos.8
98mj12botRealiza análisis SEO y rastreo web.5
99moatbotUtilizado para análisis de publicidad y contenido.6
100morfeusRealiza actividades de scraping y posibles ataques.10
User AgentDescripciónClasificación de Bloqueo
101moveoverbotRealiza scraping web y puede ser intensivo en recursos.7
102netmechanicRealiza análisis de sitios web, puede ser intensivo.6
103netspiderRealiza scraping web y análisis de contenido.7
104nicersproRealiza scraping web y puede ser intensivo.7
105niktoHerramienta de análisis de vulnerabilidades, potencialmente peligrosa.10
106nimbostratusRealiza scraping web y análisis de contenido.7
107ninjaRealiza scraping y análisis de contenido web.7
108nominetRealiza análisis de contenido y scraping.6
109nutchHerramienta de rastreo web, puede ser intensiva en recursos.6
110octopusRealiza scraping web, potencialmente malicioso.8
111okhttpBiblioteca de cliente HTTP, utilizada en scripts de scraping.6
112pagegrabberRealiza scraping web, puede ser intensivo en recursos.7
113petalbotUtilizado por Petal Search para indexación y análisis de contenido.5
114planetworkRealiza scraping web y análisis de contenido.7
115postrankRealiza análisis de contenido y monitoreo de medios.5
116proximicRealiza análisis de contenido web, generalmente con fines publicitarios.6
117purebotRealiza scraping y análisis de contenido web.7
118pubmaticUtilizado para análisis de publicidad, puede ser intensivo.6
119querynRealiza scraping web y análisis de contenido.7
120queryseekerRealiza scraping web, puede ser intensivo en recursos.7
121radian6Utilizado para monitoreo de redes sociales y análisis de contenido.5
122radiationRealiza scraping web y análisis de contenido.7
123rasabotRealiza scraping web, conocido por ser intensivo.8
124realdownloadGestor de descargas, puede generar múltiples solicitudes.6
125remoteviewRealiza scraping web y análisis de contenido.7
126riddlerRealiza scraping web, conocido por su actividad intensiva.9
127rogerbotRealiza análisis SEO y rastreo web.5
128scanRealiza escaneo de sitios web en busca de vulnerabilidades.9
129sbl-botRealiza scraping web, conocido por ser intensivo.7
130scooterRealiza scraping web y análisis de contenido.7
131scrapyFramework de scraping, utilizado para scraping masivo de contenido.9
132seekerspidRealiza scraping web y análisis de contenido.7
133seekportUtilizado por motores de búsqueda para rastreo web.5
134semantic-visionsRealiza análisis de contenido web, generalmente con fines de monitoreo.6
135semanticbotRealiza scraping web y análisis de contenido.7
136semaltUtilizado para análisis SEO y rastreo web.7
137semrushUtilizado por Semrush para análisis SEO y backlinks.6
138serpstatbotUtilizado para análisis SEO y rastreo web.5
139siclabRealiza scraping web y análisis de contenido.7
140sindiceRealiza scraping web y análisis de contenido.7
141sistrixUtilizado por Sistrix para análisis SEO y rastreo web.5
142siteauditbotRealiza auditorías de sitios web, utilizado para análisis SEO.5
143sitebotRealiza scraping y análisis de contenido web.7
144siteexplorerRealiza análisis SEO y rastreo web.6
145sitesnaggerRealiza scraping web, puede ser intensivo en recursos.7
146skygridRealiza análisis de contenido web y monitoreo de medios.5
147smartdownloadGestor de descargas, similar a flashget.6
148snoopyUtilizado en scripts de scraping y análisis de contenido.6
149sosospiderUtilizado por Sogou, un motor de búsqueda chino.5
150spankbotRealiza scraping web y análisis de contenido.7
151spbotRealiza scraping web y análisis de contenido.7
152sqlmapHerramienta utilizada para detectar vulnerabilidades SQL, frecuentemente con fines maliciosos.10
153stackramblerRealiza scraping web y análisis de contenido.7
154stripperRealiza scraping web, potencialmente malicioso.8
155suckerRealiza scraping web y puede ser intensivo en recursos.7
156surftbotRealiza scraping web y análisis de contenido.7
157sux0rRealiza scraping web y análisis de contenido.7
158suzukaczRealiza scraping web, puede ser intensivo.7
159suzuranRealiza scraping web y análisis de contenido.7
160takeoutRealiza scraping web, potencialmente malicioso.8
161teleportHerramienta de clonación de sitios web, puede generar muchas solicitudes.8
162telesoftRealiza scraping y análisis de contenido web.7
163tineyeUtilizado para búsqueda inversa de imágenes.5
164trendictionbotUtilizado para monitoreo de tendencias y análisis de contenido.5
165true_robotsRealiza scraping y análisis de contenido web.7
166turingosRealiza scraping y análisis de contenido web.7
167turnitRealiza scraping y análisis de contenido web.7
168vampireRealiza scraping web, conocido por ser intensivo en recursos.8
169vikspiderRealiza scraping web, puede ser intensivo.7
170voideyeRealiza scraping web y análisis de contenido.7
171voluumdspRealiza análisis de publicidad digital, puede consumir recursos significativamente.8
172webleacherRealiza scraping web, puede ser intensivo en recursos.7
173webreaperHerramienta de scraping y clonación de sitios web.8
174webstripperRealiza scraping web y puede ser intensivo.7
175webtechbotRealiza análisis tecnológico de sitios web.6
176webvacRealiza scraping web, puede ser intensivo en recursos.7
177webviewerRealiza scraping web y análisis de contenido.7
178webwhackerHerramienta de clonación de sitios web, puede generar muchas solicitudes.8
User AgentDescripciónClasificación de Bloqueo
179whatcmsUtilizado para identificar CMS utilizados en sitios web.6
180winhttpBiblioteca HTTP de Windows, utilizada en scripts y herramientas de scraping.6
181wwwoffleHerramienta de caching web, puede generar múltiples solicitudes.6
182woxbotRealiza scraping web y análisis de contenido.7
183xaldonRealiza scraping web, puede ser intensivo en recursos.7
184xxxyyRealiza scraping web y análisis de contenido.7
185yamanalabRealiza scraping web y análisis de contenido.7
186yioopbotUtilizado en motores de búsqueda, realiza rastreo web.5
187youdaRealiza scraping web, puede ser intensivo.7
188zeusRealiza scraping web y análisis de contenido.7
189zmeuRealiza scraping web, potencialmente malicioso.8
190zoominfobotRealiza scraping web y recopilación de datos para análisis.7
191zuneBiblioteca utilizada en herramientas de scraping y análisis.6
192zyborgRealiza scraping web y análisis de contenido.7

Descubre más desde algoentremanos.com

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Foto del autor

Ivan Benito

Apasionado de la lectura y los viajes, experto en tecnología e informática y fan de la privacidad online. Desde el año 2007 me he dedicado al SEO, a escribir y a crear páginas web con WordPress sobre todo tipo de temáticas. Si tienes alguna duda y necesitas ayuda... ¡Pregúntame!

Si tienes preguntas, quieres que hagamos una review de una app, programa o producto, simplemente mándanos un e-mail mediante nuestro formulario de contacto. Te contestaremos en el menor tiempo posible. ¡Muchas gracias y salU2! Algoentremanos realiza reviews de manera profesional y en muchas ocasiones recibimos compensación de las compañías cuyos productos revisamos. Probamos cada producto a fondo y otorgamos altas calificaciones solo a los mejores. La propiedad de Algoentremanos.com es independiente y las opiniones expresadas aquí son solo nuestras. Algunos enlaces del artículo son afiliados: pueden generar un beneficio a algoentremanos.com. Saber más.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.