¿Son tus LLMs capaces de razonamiento estable?

Resumen

El rápido avance de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) ha demostrado un progreso notable en tareas de razonamiento complejo. Sin embargo, persiste una discrepancia significativa entre el rendimiento en pruebas de referencia y las aplicaciones del mundo real. Identificamos esta brecha como derivada principalmente de los protocolos de evaluación y métricas actuales, que capturan de manera inadecuada todo el espectro de capacidades de los LLMs, especialmente en tareas de razonamiento complejo donde la precisión y la consistencia son cruciales. Este trabajo realiza dos contribuciones clave. En primer lugar, presentamos G-Pass@k, una métrica de evaluación novedosa que proporciona una evaluación continua del rendimiento del modelo a lo largo de múltiples intentos de muestreo, cuantificando tanto el potencial de rendimiento máximo del modelo como su estabilidad. En segundo lugar, presentamos LiveMathBench, un banco de pruebas dinámico que comprende problemas matemáticos desafiantes y contemporáneos diseñados para minimizar los riesgos de fuga de datos durante la evaluación. A través de experimentos extensos utilizando G-Pass@k en LLMs de última generación con LiveMathBench, ofrecemos una visión integral tanto de sus capacidades máximas como de su consistencia operativa. Nuestros hallazgos revelan un amplio margen de mejora en las capacidades de razonamiento "realistas" de los LLMs, destacando la necesidad de métodos de evaluación más sólidos. El banco de pruebas y los resultados detallados están disponibles en: https://github.com/open-compass/GPassK.

English

The rapid advancement of Large Language Models (LLMs) has demonstrated remarkable progress in complex reasoning tasks. However, a significant discrepancy persists between benchmark performances and real-world applications. We identify this gap as primarily stemming from current evaluation protocols and metrics, which inadequately capture the full spectrum of LLM capabilities, particularly in complex reasoning tasks where both accuracy and consistency are crucial. This work makes two key contributions. First, we introduce G-Pass@k, a novel evaluation metric that provides a continuous assessment of model performance across multiple sampling attempts, quantifying both the model's peak performance potential and its stability. Second, we present LiveMathBench, a dynamic benchmark comprising challenging, contemporary mathematical problems designed to minimize data leakage risks during evaluation. Through extensive experiments using G-Pass@k on state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights into both their maximum capabilities and operational consistency. Our findings reveal substantial room for improvement in LLMs' "realistic" reasoning capabilities, highlighting the need for more robust evaluation methods. The benchmark and detailed results are available at: https://github.com/open-compass/GPassK.

¿Son tus LLMs capaces de razonamiento estable?

Are Your LLMs Capable of Stable Reasoning?

Resumen

Support