Vos LLM sont-ils capables de raisonner de manière stable ?
Are Your LLMs Capable of Stable Reasoning?
December 17, 2024
Auteurs: Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen
cs.AI
Résumé
Les progrès rapides des Modèles de Langage de Grande Taille (LLMs) ont démontré des avancées remarquables dans les tâches de raisonnement complexe. Cependant, une disparité significative persiste entre les performances des références et les applications du monde réel. Nous identifions cette lacune comme provenant principalement des protocoles d'évaluation et des métriques actuels, qui capturent de manière inadéquate l'ensemble des capacités des LLM, en particulier dans les tâches de raisonnement complexe où à la fois l'exactitude et la cohérence sont cruciales. Ce travail apporte deux contributions majeures. Tout d'abord, nous introduisons G-Pass@k, une nouvelle métrique d'évaluation qui fournit une évaluation continue des performances du modèle à travers de multiples tentatives d'échantillonnage, quantifiant à la fois le potentiel de performance maximale du modèle et sa stabilité. Ensuite, nous présentons LiveMathBench, un banc d'essai dynamique comprenant des problèmes mathématiques contemporains et stimulants conçus pour minimiser les risques de fuite de données lors de l'évaluation. À travers des expériences approfondies en utilisant G-Pass@k sur des LLMs de pointe avec LiveMathBench, nous fournissons des aperçus complets à la fois de leurs capacités maximales et de leur cohérence opérationnelle. Nos résultats révèlent un espace substantiel pour l'amélioration des capacités de raisonnement "réaliste" des LLMs, soulignant le besoin de méthodes d'évaluation plus robustes. Le banc d'essai et les résultats détaillés sont disponibles sur : https://github.com/open-compass/GPassK.
English
The rapid advancement of Large Language Models (LLMs) has demonstrated
remarkable progress in complex reasoning tasks. However, a significant
discrepancy persists between benchmark performances and real-world
applications. We identify this gap as primarily stemming from current
evaluation protocols and metrics, which inadequately capture the full spectrum
of LLM capabilities, particularly in complex reasoning tasks where both
accuracy and consistency are crucial. This work makes two key contributions.
First, we introduce G-Pass@k, a novel evaluation metric that provides a
continuous assessment of model performance across multiple sampling attempts,
quantifying both the model's peak performance potential and its stability.
Second, we present LiveMathBench, a dynamic benchmark comprising challenging,
contemporary mathematical problems designed to minimize data leakage risks
during evaluation. Through extensive experiments using G-Pass@k on
state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights
into both their maximum capabilities and operational consistency. Our findings
reveal substantial room for improvement in LLMs' "realistic" reasoning
capabilities, highlighting the need for more robust evaluation methods. The
benchmark and detailed results are available at:
https://github.com/open-compass/GPassK.Summary
AI-Generated Summary