Detectar el fraude de datos mediante la Ley de Benford

Imaginad que nos plantean la siguiente prueba, nos dan un informe super-tocho de unas 200 páginas que contiene miles de números ( por ejemplo unos 9000 números en total ) que provienen de estadísticas, encuestas, y otros datos numéricos.

A continuación nos proponen que rellenemos en menos de dos minutos la siguiente tabla haciendo una estimación :

De los 9000 números en total del informe cuantos empiezan por 1 :  ……

De los 9000 números en total del informe cuantos empiezan por 2 :  ……

De los 9000 números en total del informe cuantos empiezan por 3 :  ……

De los 9000 números en total del informe cuantos empiezan por 4 :  ……

De los 9000 números en total del informe cuantos empiezan por 5 :  ……

De los 9000 números en total del informe cuantos empiezan por 6 :  ……

De los 9000 números en total del informe cuantos empiezan por 7 :  ……

De los 9000 números en total del informe cuantos empiezan por 8 :  ……

De los 9000 números en total del informe cuantos empiezan por 9 :  ……

Probablemente respondamos que existe una probabilidad más o menos similar para todos los casos, con lo que parecería lógico rellenar la tabla poniendo algo así :

De los 9000 números en total del informe cuantos empiezan por 1 :  1000

De los 9000 números en total del informe cuantos empiezan por 2 :  1000

De los 9000 números en total del informe cuantos empiezan por 3 :  1000

De los 9000 números en total del informe cuantos empiezan por 4 :  1000

De los 9000 números en total del informe cuantos empiezan por 5 :  1000

De los 9000 números en total del informe cuantos empiezan por 6 :  1000

De los 9000 números en total del informe cuantos empiezan por 7 :  1000

De los 9000 números en total del informe cuantos empiezan por 8 :  1000

De los 9000 números en total del informe cuantos empiezan por 9 :  1000

Pues sorpresa, nada más lejos de la realidad, existe una divertida propiedad en los números que manejamos en la vida real ( no puede aplicarse a series aleatorias ), dicha propiedad es la Ley de Benford, y según la wikipedia se define así : La ley de Benford, también conocida como la ley del primer dígito, asegura que, en los números que existen en la vida real, la primera cifra es 1 con mucha más frecuencia que el resto de los números. Además, según crece este primer dígito, más improbable es que se encuentre en la primera posición. Esta ley se puede aplicar a hechos relacionados con el mundo natural o con elementos sociales:

Según la Ley de Benford lo correcto hubiese sido responder con los siguientes valores :

De los 9000 números en total del informe cuantos empiezan por 1 :  3010

De los 9000 números en total del informe cuantos empiezan por 2 :  1760

De los 9000 números en total del informe cuantos empiezan por 3 :  1250

De los 9000 números en total del informe cuantos empiezan por 4 :  970

De los 9000 números en total del informe cuantos empiezan por 5 :  790

De los 9000 números en total del informe cuantos empiezan por 6 :  670

De los 9000 números en total del informe cuantos empiezan por 7 :  580

De los 9000 números en total del informe cuantos empiezan por 8 :  510

De los 9000 números en total del informe cuantos empiezan por 9 :  460

Esta Ley os puedo garantizar que se cumple, y cuantos más datos tengamos más se acercará. De hecho es una verificación que puede aplicarse para detectar fraude en los datos de multitud de series ( declaraciones de renta, encuestas, balances económicos, etc… ). Según dicen la multinacional americana ENRON que desapareció del mapa al descubrirse que falsificaba sus cuentas fue descubierta mediante el análisis de sus balences mediante este sencilla verificación.

MORALEJA :  Si algún día se te ocurre falsificar cualquier tipo de informe, documento, declaración, balance, fíjate que por lo menos los números que te inventes cumplan la Ley de Benford. En cualquier caso no recomiendo a nadie falsificar nada, porque al final siempre te van a pillar, pero puede serte útil para detectar informes sospechosos o datos que no cuadran en documentos manipulados.

Por último os dejo una utilidad buenísma para calcular de forma online la Ley de Benford de cualquier serie que podamos pegar en la página mediante copy&paste : Benford Law Online Calculator

Como ejemplo he copiado los datos de un informe que estuve hojeando recientemente donde aparecen miles de datos, concretamente 48017 números. Es un informe de las pymes catalanas publicado por Pimec.  El resultado no fue perfecto ( de hecho la calculadora nos da una probabilidad media de manipulación )  pero tiene un patrón que se aproxima al esperado. Podéis probarlo con cualquier documento que contenga números no aleatorios.

Resultados de aplicación de la Ley de Benford en el informe de PIMEC

Resultados de aplicación de la Ley de Benford en el informe de PIMEC

NOTA IMPORTANTE : No pongo en duda ni mucho menos los datos de este informe de PIMEC, simplemente lo he seleccionado como ejemplo porque era un informe que había ojeado recientemente y recordaba que incorporaba un montón de números.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s