Las claves para entender las métricas de las herramientas antifraude de Meelo
6
Mín
•
19.05.2025
Continuemos con nuestra inmersión entre bastidores en la solución Meelo centrándonos en las métricas de evaluación utilizadas en nuestras herramientas antifraude. Si bien el índice de Gini sigue siendo un estándar histórico y reconocido en el sector bancario, nuestro compromiso con una detección cada vez más eficiente y responsable nos impulsa a ir más allá e integrar las métricas del mercado más relevantes. Teniendo esto en cuenta, hemos optado por adoptar, además del Gini, una medida aún más precisa en su lectura probabilística: la puntuación de Brier. ¿Cuál es nuestro objetivo? Le ofrecemos una lectura precisa de sus predicciones y una mayor confianza en la toma de decisiones. ¡Explicaciones!
Matriz de confusión, curva ROC y AUC: los fundamentos de la evaluación del aprendizaje automático
Para evaluar el rendimiento de nuestras herramientas de detección de fraude, confiamos en la matriz de confusión, a partir de la cual construimos y analizamos el Curva ROC (Característica de funcionamiento del receptor) y su indicador asociado, elAUC (Área bajo la curva).
La matriz de confusión nos permite, en un primer momento, visualizar los cuatro escenarios posibles en una tarea de clasificación binaria.
¿Qué es una tarea de clasificación binaria?
Esto equivale a construir un modelo capaz de clasificar una situación en dos categorías posibles: «sí» o «no».
Tomemos el caso de las pruebas de COVID-19 en el momento en que, afortunadamente, terminó la pandemia. Las pruebas podrían ofrecer cuatro escenarios posibles:
- Verdadero positivo: la persona tenía COVID y la prueba dio positivo.
- Verdadero negativo: la persona no tenía COVID y la prueba fue negativa.
- Falso positivo: la persona no tenía COVID, pero la prueba dio positivo.
- Falso negativo: la persona tenía COVID, pero la prueba fue negativa.
Transpuesto a la detección del fraude, es exactamente el mismo principio. Pretendemos clasificar a las personas en las categorías de «defraudadores» o «no defraudadores», como en el caso anterior con las categorías de «enfermos» o «no enfermos». Y eso, a la vez que cometemos el menor número posible de errores de clasificación.
En Meelo, nuestro objetivo es :
- detectar tantos verdaderos positivos como sea posible: estafadores comprobados;
- tratar de minimizar los falsos positivos: clientes identificados erróneamente como estafadores;
- y, sobre todo, no dejes pasar los falsos negativos: estafadores que no están identificados como tales.
A partir de la matriz de confusión, podemos calcular indicadores clave, como Curva ROC (Característica operativa del receptor), que ilustra gráficamente las ventajas y desventajas entre la detección del fraude (la tasa de verdaderos positivos o el fraude detectado correctamente) y los errores de alerta (la tasa de falsos positivos, es decir, las transacciones legítimas notificadas de forma incorrecta) para diferentes umbrales de decisión.
Al variar los umbrales de decisión o «umbrales de alerta» (ya que se podría variar la sensibilidad de la prueba de COVID para detectar el virus), obtenemos diferentes puntos en la curva, lo que refleja el rendimiento del modelo en varios escenarios.
LAAUC (Área bajo la curva), o» Área bajo la curva » en francés, mide el área bajo la curva ROC. Al poder dar un valor entre 0,5 y 1, el AUC representa la capacidad general del modelo para distinguir el fraude de las transacciones normales, teniendo en cuenta todos los umbrales de decisión. Cuanto más cerca esté el AUC de 1, mejor será el rendimiento del modelo. Un AUC de 0,5 indicaría que el modelo no tendría nada mejor que el azar, como lanzar una moneda al aire.
De AUC a Gini, solo hay un paso...
El Coeficiente de Gini se deriva del AUC. Mientras que el AUC toma un valor entre 0,5 y 1, Gini normaliza esta medida para que varíe entre 0 y 1, lo que suele ser más intuitivo. Matemáticamente, el Gini se calcula, a partir del AUC, según la fórmula:
Gini = 2 × AUC − 1
Por lo tanto, el Gini varía entre 0 y 1 (o entre 0% y 100%). Cuanto más alto sea, mayor será el poder discriminatorio del modelo. Al igual que el AUC, un coeficiente de Gini de 0,5 (50%) corresponde a un modelo aleatorio (moneda o moneda), mientras que un coeficiente de Gini de 1 (100%) representa un modelo perfecto.
El Coeficiente de Gini es una métrica ampliamente adoptada, especialmente en el sector bancario, para evaluar la eficacia general de un modelo de puntuación.
Sin embargo, a pesar de su popularidad, tiene una limitación crucial. Se centra principalmente en la capacidad general del modelo para discriminar entre perfiles «buenos» y «malos», sin tener en cuenta el desequilibrio entre las clases, la distribución de las puntuaciones de probabilidad o la confianza que se puede depositar en cada predicción individual.
En los casos en que las clases estén muy desequilibradas (por ejemplo, un 99% negativo y un 1% positivo), el Gini puede sobreestimar el rendimiento del modelo. Esto es precisamente lo que observamos en la mayoría de los problemas que encuentran nuestros clientes. Afortunadamente, las tasas de fraude son bajas: suelen rondar entre el 1 y el 2% de las transacciones.
Por lo tanto, Gini ofrece una buena indicación general de la eficacia de un modelo, pero se limita a una visión bruta del rendimiento, sin tener en cuenta la explicabilidad de las predicciones.
Es por eso que Meelo ha optado por integrar otra métrica en sus herramientas además de Gini: el Brier Score.
Para Gini y más allá... ¡gracias al Brier Score!
A diferencia de Gini, que mide la capacidad del modelo para separar los perfiles buenos y malos, el Puntuación más breve Evalúe si nuestros puntajes de probabilidad se acercan a la realidad. Por ejemplo, si nuestro modelo predice una probabilidad del 80% de fraude, Puntuación más breve comprueba si, en promedio, este tipo de casos es realmente fraudulento en 8 de cada 10 casos.
Imaginemos dos modelos con un coeficiente de Gini equivalente. El primero asigna puntuaciones muy claras (cercanas al 0 o al 100%), mientras que el segundo centra la mayoría de sus predicciones en torno a una zona gris (entre, por ejemplo, entre el 40 y el 60%). Si bien su capacidad de discriminación global puede ser comparable, el primer modelo inspira más confianza porque parece más fiable en sus decisiones.
Es precisamente esta noción de confiabilidad la que Puntuación más breve mide evaluando la diferencia entre la probabilidad pronosticada por el modelo (riesgo del 80%, por ejemplo) y el resultado observado (0 o 1). Cuanto menor sea esta brecha, más consistentes y cercanas serán las predicciones a la realidad.
¿Cuáles son los beneficios del Brier Score?
En Meelo, estamos convencidos de que Relevancia de la puntuación de Brier. Gracias a esta poderosa métrica:
- nuestras decisiones están más informadas, porque no solo separamos las buenas de las malas, sino que evaluamos la certeza de cada predicción;
- generamos menos «áreas grises» »: la optimización del Brier Score impulsa a nuestros modelos a generar puntajes más extremos, lo que reduce los riesgos y los controles adicionales, que son sinónimos de costos y fricciones en el recorrido del cliente;
- nuestro enfoque es aún más ético : las políticas conservadoras se evitan en la medida de lo posible gracias a decisiones más acertadas basadas en una convicción real del riesgo;
- nuestros usuarios están más satisfechos : al ofrecer una perspectiva complementaria a la de Gini, el Brier Score permite a nuestros clientes comprender mejor la confiabilidad y la distribución de los puntajes de fraude.
-
¿Y la puntuación de habilidad de Brier, Kézaco?
Para facilitar la interpretación de Puntuación más breve, utilizamos con frecuencia el Puntuación de habilidad más breve (BAJO). El BSS mide si nuestro modelo de predicción es mejor que un modelo de referencia simple. Cuanto más alta sea la puntuación, más preciso será nuestro modelo en sus predicciones. Esta es nuestra forma de validar que nuestro modelo realmente aporta valor añadido a nuestros clientes.
Optimización de las métricas de evaluación: los resultados hablan por sí solos
Durante el reentrenamiento de nuestros modelos, la integración del Brier Score permitió mejorar significativamente nuestro rendimiento. Según los mismos datos, la puntuación pasó de 35 a poco más de 60 puntos, es decir, Una ganancia de 30 puntos.
Por lo tanto, estamos identificando más fraudes de una manera más formal. Este enfoque garantiza la confiabilidad de nuestras predicciones y reduce el riesgo de que el modelo se comporte de manera inestable frente a perfiles atípicos.
En Meelo, estamos convencidos de que el rendimiento de un modelo de detección de fraudes no se limita a su capacidad de discriminar a nivel mundial. Al ir más allá de los indicadores estándar, generamos una confianza sólida mediante una detección del fraude verdaderamente informada y proporcionamos a nuestros clientes una solución que es a la vez eficiente y responsable.
KYC, KYB, Solvencia
Para una relación instantánea, segura y responsable

.jpg)
.jpg)