La Galerna
·01 de fevereiro de 2025
La Galerna
·01 de fevereiro de 2025
Con la venia. Vayamos por partes. Imaginen que una tarde de aburrimiento, mucho aburrimiento, deciden hacer un experimento. El experimento consiste en lanzar un dado 600 veces e ir apuntando los resultados. Imagínense que el 6 ha salido 250 veces. Saben que eso no es posible. Saben que la probabilidad de obtener un 6 al lanzar un dado es de 1/6. Y también saben que en 600 lanzamientos, el 6 habrá salido un número de veces muy próximo 100, ya sea por exceso o por defecto. E intuitivamente saben que si ese número se aleja mucho de 100 es que hay gato encerrado. La pregunta es: ¿dónde está la línea roja a partir de la cual algo empieza a oler a podrido en Dinamarca?
Existen herramientas estadísticas que nos permiten fijar ese límite a partir del cual las diferencias existentes entre lo esperado y lo obtenido es significativamente tan distante como para sospechar que no solo el azar o la casualidad son los responsables. El gato encerrado o el hedor en Dinamarca. Y ahora vayamos al limpio y transparente fútbol patrio, en concreto a esa herramienta llamada VAR que venía a ayudar a los árbitros en aquellas jugadas conflictivas. Esa herramienta que es gestionada por personas imparciales, objetivas y sin conflictos de intereses con otras instituciones.
Hecha esta introducción, estaba yo dando una vuelta por X, y hete aquí que tropecé con varios posts que incluían pantallazos de cuadros con información estadística sobre goles anulados por el mencionado VAR. Seguro que todos aquellos de ustedes que tienen cuenta en X ya sabrán a qué me refiero. Esta información era aportada por dos ingenieros de telecomunicaciones (vía @AtalayaBro37373 y @imlsaman en X. Les recomiendo que sigan sus cuentas en X y el canal de youtube del primero, El Teleco Calvo, se echarán unas risas). En un primer vistazo, la cuestión me pareció tan grosera que no daba crédito. Y entonces recordé el caso de los dados cargados que nos solían poner de ejemplo en la Facultad para explicarnos los contrastes de homegeneidad/independencia. Los datos que les acompaño a continuación desprenden el mismo hedor que el ejemplo de los dados que les he referido en el primer párrafo.
Esta información no necesita de añadidos y explicaciones. Es, por sí misma, lo suficientemente descriptiva. Nuestro dado parece estar trucado, pero ¿a partir de qué medida, información, magnitud o valor de alguna variable lo podemos afirmar? Para saberlo, tiré de mis tiempos lejanos de universidad, y utilicé el test estadístico de la Chi-cuadrado. Este test nos proporciona un número adimensional sin magnitud. En síntesis, este número (X2), que en adelante llamaremos La Palanka, para que nos resulte más familiar y menos repelente o propio de estiraos, nos mide la diferencia entre los goles observados y los goles esperados. Tanto para los validados como para los anulados. Intuitivamente: cuanto mayor sea este número, mayor será la diferencia entre lo real y lo esperado. Nos indica si podemos albergar motivos para dudar de que la realidad se aleja mucho más de los razonable de lo que teóricamente debería haber sucedido.
Lo real lo conozco, es lo que hemos observado. Para el caso del Real Madrid, 489 goles validados y 33 goles anulados. ¿Cómo calculo lo esperado? En el caso de los dados, el cálculo es muy sencillo. Si lanzo un dado 600 veces, sabiendo que la probabilidad de cada cara del dado es de 1/6, espero que el 6, como valor más probable, salga 600 * 1/6 = 100 veces. Cada uno de los seis números del dado tendrán una distribución teórica esperada de 100. Esta distribución teórica la compararemos con los datos observados de nuestro experimento.
En nuestro caso, para calcular los valores esperados, debería conocer la probabilidad de que un gol sea anulado por el VAR. A diferencia del ejemplo de los dados no conozco este dato, pero lo puedo estimar del siguiente modo: 165 / 4120 = 0,04. A partir de ahí, para el caso del Real Madrid, opero de la siguiente manera: 0.04 * 522 = 20,91 goles anulados esperados. La diferencia de lo observado a lo esperado: 33 – 20,91 = 12,09. Es decir, en teoría, han sido anulados 12,09 goles más de los esperados. Luego los goles esperados no anulados serán los 489 goles validados más 12,09 goles que no deberían haber sido anulados. O sea, 501,09 goles esperados.
Ambas diferencias, goles anulados y goles validados, observados y esperados, han de ser tenidas en cuenta para el cálculo de La Palanka. Con ambas diferencias, procedo a calcular los datos que aparecen en las dos últimas columnas del cuadro que sigue un poco más abajo.
Y ya no les quiero aburrir con más cálculos de frikis. A continuación, el cálculo anterior lo repito con todos los equipos y hago una serie de operaciones con las diferencias, sumo todo y obtengo La Palanka. Acompaño los resultados, por si hay algún que otro friki en la sala al que, extrañamente, pudiera resultarle de interés:
(*) Los datos que aparecen se calculan de la siguiente manera: cada diferencia se eleva al cuadrado y el resultado se divide por el valor esperado.
La Palanka sería el resultado de sumar 0,8068 más 19,3384. O sea, 20,1452.
Otra cosa más antes de pasar a interpretar el resultado de La Palanka. La información abarca desde el inicio de la temporada 18/19 hasta la jornada 20 de la actual temporada. Dado que la historia del VAR comenzó en España en la temporada 18/19, contemplamos un escenario de casi 300 partidos por equipo, por lo que la muestra es tan amplia que los datos no incluidos de la jornada 21 afectarán, en su caso, mínimamente a las conclusiones finales.
Los dos ingenieros aportan mucha más información muy interesante. Les recomiendo que vayan a sus cuentas de X y la analicen sin cabrearse demasiado. Yo solo he tomado una parte mínima, y por ello les doy las gracias porque, como todo el que ha trabajado con la estadística sabe, lo más difícil es buscar información, depurarla y elaborar un formato sencillo e inteligible.
Y vamos con lo mollar, la esencia de este humilde artículo.
Intentaré explicar esto como a mí me gusta que me explican las cosas. Lo que sigue a continuación no es estadística descriptiva que, como su propio nombre indica, describe. Ahora hablamos de tomar decisiones e inferir en base al comportamiento de variables aleatorias.
Queremos saber si la proporción de goles anulados por el VAR es la misma para todos los equipos. Esta será nuestra hipótesis nula. En estadística, cuando se plantea una hipótesis nula, se debe acompañar de cierto margen de riesgo que estamos dispuestos a asumir. Se llama nivel de significación y los niveles de significación más utilizados son del 10%, 5% y 1%. Fijaremos para nuestro caso un nivel de significación del 5%. Esto implica que estamos dispuestos a asumir que rechazaremos la hipótesis nula, siendo cierta, solo en el 5% de los casos.
El valor calculado (La Palanka) es en realidad un estadístico que se ajusta a una función matemática que recibe el nombre de función de densidad de distribución de probabilidad y nos proporciona una probabilidad en función del valor calculado. Viceversa, para una probabilidad determinada, esta función me dice cuanto vale dicho estadístico (La Palanka). Me explico: imaginen una función que nos proporcionase los tomates que se podrían comprar con una cantidad de dinero determinada o, viceversa, cuanto dinero necesitaría para comprar una cantidad de tomates determinada. La función de densidad y el valor de La Palanka es lo mismo.
En nuestro caso concreto, estamos dispuestos a asumir un riesgo de equivocación del 5%. Esta es la probabilidad determinada. El valor límite que se corresponde con esa probabilidad (Excel nos da ese valor) es de 18,3070. Todo lo que esté por debajo de esa cifra me vale para aceptar mi hipótesis nula de que el VAR anula goles a todos los equipos en la misma proporción. Sin embargo, nuestro valor calculado en base a la diferencia entre la muestra observada y la esperada, nos da una cifra superior (20,1452). Luego hemos de rechazar, al nivel de significación del 5%, la hipótesis de que el VAR anula goles a los equipos en la misma proporción, más allá de las diferencias lógicas debidas al azar o la casualidad. Hay una evidencia estadística suficiente para sugerir que lo que propone la hipótesis nula no es verdadero.
Rechazamos la hipótesis de que el VAR, por los motivos que fueren, no anula goles en la misma proporción. Sin más. Y que cada cual saque las conclusiones que quiera
Tomando el ejemplo de los tomates. Ustedes parten de la idea de que pueden comprar un número de tomates determinado a cambio de una cantidad de dinero. Una vez hechas las comprobaciones de dinero en efectivo disponible y del precio de los tomates, nos dicen que no podemos comprar los tomates deseados porque nos falta dinero.
Rechazar la hipótesis nula no significa que demos validez a una posible hipótesis alternativa que podría ser la de que el VAR actúa fraudulentamente por conflicto de intereses, por ejemplo. Simplemente, rechazamos la hipótesis de que el VAR, por los motivos que fueren, no anula goles en la misma proporción. Sin más. Y que cada cual saque las conclusiones que quiera.
Y acabo. Para los recontraconspiranoicos: si el riesgo que estuviéramos dispuestos a asumir fuera solo del 1%, la hipótesis nula no podría ser rechazada. Pero les aclaro: si los datos de goles anulados siguen evolucionando como hasta ahora, dentro de una temporada o dos, a lo sumo, ni siquiera ese nivel de riesgo tan pequeño, permitirá aceptar la hipótesis nula.
Perdón por el peñazo. Una aspirina y se les pasará. Y gracias por llegar hasta aquí.
Getty Images.