¿Son tus LLMs capaces de razonamiento estable?
Are Your LLMs Capable of Stable Reasoning?
December 17, 2024
Autores: Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen
cs.AI
Resumen
El rápido avance de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) ha demostrado un progreso notable en tareas de razonamiento complejo. Sin embargo, persiste una discrepancia significativa entre el rendimiento en pruebas de referencia y las aplicaciones del mundo real. Identificamos esta brecha como derivada principalmente de los protocolos de evaluación y métricas actuales, que capturan de manera inadecuada todo el espectro de capacidades de los LLMs, especialmente en tareas de razonamiento complejo donde la precisión y la consistencia son cruciales. Este trabajo realiza dos contribuciones clave. En primer lugar, presentamos G-Pass@k, una métrica de evaluación novedosa que proporciona una evaluación continua del rendimiento del modelo a lo largo de múltiples intentos de muestreo, cuantificando tanto el potencial de rendimiento máximo del modelo como su estabilidad. En segundo lugar, presentamos LiveMathBench, un banco de pruebas dinámico que comprende problemas matemáticos desafiantes y contemporáneos diseñados para minimizar los riesgos de fuga de datos durante la evaluación. A través de experimentos extensos utilizando G-Pass@k en LLMs de última generación con LiveMathBench, ofrecemos una visión integral tanto de sus capacidades máximas como de su consistencia operativa. Nuestros hallazgos revelan un amplio margen de mejora en las capacidades de razonamiento "realistas" de los LLMs, destacando la necesidad de métodos de evaluación más sólidos. El banco de pruebas y los resultados detallados están disponibles en: https://github.com/open-compass/GPassK.
English
The rapid advancement of Large Language Models (LLMs) has demonstrated
remarkable progress in complex reasoning tasks. However, a significant
discrepancy persists between benchmark performances and real-world
applications. We identify this gap as primarily stemming from current
evaluation protocols and metrics, which inadequately capture the full spectrum
of LLM capabilities, particularly in complex reasoning tasks where both
accuracy and consistency are crucial. This work makes two key contributions.
First, we introduce G-Pass@k, a novel evaluation metric that provides a
continuous assessment of model performance across multiple sampling attempts,
quantifying both the model's peak performance potential and its stability.
Second, we present LiveMathBench, a dynamic benchmark comprising challenging,
contemporary mathematical problems designed to minimize data leakage risks
during evaluation. Through extensive experiments using G-Pass@k on
state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights
into both their maximum capabilities and operational consistency. Our findings
reveal substantial room for improvement in LLMs' "realistic" reasoning
capabilities, highlighting the need for more robust evaluation methods. The
benchmark and detailed results are available at:
https://github.com/open-compass/GPassK.Summary
AI-Generated Summary