Vos LLM sont-ils capables de raisonner de manière stable ?Are Your LLMs Capable of Stable Reasoning?
Les progrès rapides des Modèles de Langage de Grande Taille (LLMs) ont démontré des avancées remarquables dans les tâches de raisonnement complexe. Cependant, une disparité significative persiste entre les performances des références et les applications du monde réel. Nous identifions cette lacune comme provenant principalement des protocoles d'évaluation et des métriques actuels, qui capturent de manière inadéquate l'ensemble des capacités des LLM, en particulier dans les tâches de raisonnement complexe où à la fois l'exactitude et la cohérence sont cruciales. Ce travail apporte deux contributions majeures. Tout d'abord, nous introduisons G-Pass@k, une nouvelle métrique d'évaluation qui fournit une évaluation continue des performances du modèle à travers de multiples tentatives d'échantillonnage, quantifiant à la fois le potentiel de performance maximale du modèle et sa stabilité. Ensuite, nous présentons LiveMathBench, un banc d'essai dynamique comprenant des problèmes mathématiques contemporains et stimulants conçus pour minimiser les risques de fuite de données lors de l'évaluation. À travers des expériences approfondies en utilisant G-Pass@k sur des LLMs de pointe avec LiveMathBench, nous fournissons des aperçus complets à la fois de leurs capacités maximales et de leur cohérence opérationnelle. Nos résultats révèlent un espace substantiel pour l'amélioration des capacités de raisonnement "réaliste" des LLMs, soulignant le besoin de méthodes d'évaluation plus robustes. Le banc d'essai et les résultats détaillés sont disponibles sur : https://github.com/open-compass/GPassK.