O recuncho de Suso

Filtrando bounces como spam

, Domingo 4 de Julio de 2004, 12:18

Desde que empecé a usar bogofilter (la herramienta de filtrado estadístico de correo por algoritmos bayesianos), lo había utilizado sólo como filtro para mensajes de publicidad (en aquella época estos mensajes eran el 99% del correo no deseado), y con resultados excelentes.

Poco a poco se fueron haciendo importantes los mensajes de virus y los bounces (mensajes que te devuelve un servidor de correo cuando algún robot envía un mensaje, generalmente un virus, utilizando tu dirección como origen). Podía haber intentado filtrarlos también con bogofilter, pero no quería para no contaminar la base de datos (los virus son difíciles de detectar con estadísticas de palabras), y para mantener los bounces localizados (a veces te llega alguno debido a correo que realmente has enviado, y es bueno saber cuándo no te llega un mensaje)

Para los virus opté por un script de mi cosecha, que básicamente comprueba todos los attachments .exe, .scr, .pif… con un conjunto de virus conocidos que he ido elaborando poco a poco a partir de esos mismos attachments (actualmente tengo 95 distintos). Los resultados son formidables, como veréis más abajo.

Los bounces son en general menos numerosos, pero igual de molestos, y en algunos días concretos pueden llegar hasta 70 o 80. La solución que empecé a usar la semana pasada es crear una base de datos de bogofilter independiente a la del resto de spam. Simplemente añadiento el parámetro “-d ~/.bogofilter/bounce", mantengo en ese directorio una wordlist diferente, que me permite clasificar los bounces en una carpeta distinta y así tenerlos localizados por si tengo que revisarlos. Todavía le queda por aprender, pero hasta ahora los resultados son bastante satisfactorios.

A continuación pongo unas tablas con las estadísticas de mensajes que me llegan diariamente. Los datos son sólo de 48 horas, así que no es muy científico, pero a grandes rasgos puede valer. En primer lugar, una tabla con las cifras globales de correo:

Correo total diario:
321 mensajes
Correo deseado:
63 (19,6%)
Correo no deseado:
258 (80,4%)
Spam:
149 (46,4%)
Virus:
91 (28,4%)
Bounce:
18 (5,6%)

Escalofriante, ¿eh? Estoy por suscribirme a una lista de correo de alto tráfico para aumentar el porcentaje de correo deseado que recibo, y no sentirme tan mal ;) Bueno, ahora vamos a por lo interesante, la tabla con los porcentajes de correo no deseado que se filtra correctamente:

Tipo Filtrado No filtrado
Spam 137 (91,9%) 12 (8,1%)
Virus 88 (96,7%) 3 (3,3%)
Bounce 15 (83,3%) 3 (16,7%)
Total 240 (93%) 18 (7%)

Como veis, en una semana ya me detecta el 83% de bounces. No es mucho, pero hay que tener en cuenta que hay algunos que no filtro, como las solicitudes de suscripción a listas de correo (no quiero que me las filtre si soy yo el que me quiero suscribir a una :D). En cualquier caso, contribuye a que el porcentaje de correo no deseado que filtra sea del 93%, y subiendo. 18-20 mensajes al día para filtrar a mano aún son bastantes, pero desde luego nada que ver con los 260 que me llegan en total. A veces me pregunto qué haría si no tuviera el bogofilter… Me entran escalofríos ;)

Comentarios

Aún no hay comentarios.

Deja un comentario

Disculpe, los comentarios están cerrados.