Vos LLM sont-ils capables de raisonner de manière stable ?

Résumé

Les progrès rapides des Modèles de Langage de Grande Taille (LLMs) ont démontré des avancées remarquables dans les tâches de raisonnement complexe. Cependant, une disparité significative persiste entre les performances des références et les applications du monde réel. Nous identifions cette lacune comme provenant principalement des protocoles d'évaluation et des métriques actuels, qui capturent de manière inadéquate l'ensemble des capacités des LLM, en particulier dans les tâches de raisonnement complexe où à la fois l'exactitude et la cohérence sont cruciales. Ce travail apporte deux contributions majeures. Tout d'abord, nous introduisons G-Pass@k, une nouvelle métrique d'évaluation qui fournit une évaluation continue des performances du modèle à travers de multiples tentatives d'échantillonnage, quantifiant à la fois le potentiel de performance maximale du modèle et sa stabilité. Ensuite, nous présentons LiveMathBench, un banc d'essai dynamique comprenant des problèmes mathématiques contemporains et stimulants conçus pour minimiser les risques de fuite de données lors de l'évaluation. À travers des expériences approfondies en utilisant G-Pass@k sur des LLMs de pointe avec LiveMathBench, nous fournissons des aperçus complets à la fois de leurs capacités maximales et de leur cohérence opérationnelle. Nos résultats révèlent un espace substantiel pour l'amélioration des capacités de raisonnement "réaliste" des LLMs, soulignant le besoin de méthodes d'évaluation plus robustes. Le banc d'essai et les résultats détaillés sont disponibles sur : https://github.com/open-compass/GPassK.

English

The rapid advancement of Large Language Models (LLMs) has demonstrated remarkable progress in complex reasoning tasks. However, a significant discrepancy persists between benchmark performances and real-world applications. We identify this gap as primarily stemming from current evaluation protocols and metrics, which inadequately capture the full spectrum of LLM capabilities, particularly in complex reasoning tasks where both accuracy and consistency are crucial. This work makes two key contributions. First, we introduce G-Pass@k, a novel evaluation metric that provides a continuous assessment of model performance across multiple sampling attempts, quantifying both the model's peak performance potential and its stability. Second, we present LiveMathBench, a dynamic benchmark comprising challenging, contemporary mathematical problems designed to minimize data leakage risks during evaluation. Through extensive experiments using G-Pass@k on state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights into both their maximum capabilities and operational consistency. Our findings reveal substantial room for improvement in LLMs' "realistic" reasoning capabilities, highlighting the need for more robust evaluation methods. The benchmark and detailed results are available at: https://github.com/open-compass/GPassK.

Vos LLM sont-ils capables de raisonner de manière stable ?

Are Your LLMs Capable of Stable Reasoning?

Résumé

Support