¿Son tus LLMs capaces de razonamiento estable?Are Your LLMs Capable of Stable Reasoning?
El rápido avance de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) ha demostrado un progreso notable en tareas de razonamiento complejo. Sin embargo, persiste una discrepancia significativa entre el rendimiento en pruebas de referencia y las aplicaciones del mundo real. Identificamos esta brecha como derivada principalmente de los protocolos de evaluación y métricas actuales, que capturan de manera inadecuada todo el espectro de capacidades de los LLMs, especialmente en tareas de razonamiento complejo donde la precisión y la consistencia son cruciales. Este trabajo realiza dos contribuciones clave. En primer lugar, presentamos G-Pass@k, una métrica de evaluación novedosa que proporciona una evaluación continua del rendimiento del modelo a lo largo de múltiples intentos de muestreo, cuantificando tanto el potencial de rendimiento máximo del modelo como su estabilidad. En segundo lugar, presentamos LiveMathBench, un banco de pruebas dinámico que comprende problemas matemáticos desafiantes y contemporáneos diseñados para minimizar los riesgos de fuga de datos durante la evaluación. A través de experimentos extensos utilizando G-Pass@k en LLMs de última generación con LiveMathBench, ofrecemos una visión integral tanto de sus capacidades máximas como de su consistencia operativa. Nuestros hallazgos revelan un amplio margen de mejora en las capacidades de razonamiento "realistas" de los LLMs, destacando la necesidad de métodos de evaluación más sólidos. El banco de pruebas y los resultados detallados están disponibles en: https://github.com/open-compass/GPassK.