Évaluation générative du raisonnement complexe dans les modèles de langage à grande échelle
Generative Evaluation of Complex Reasoning in Large Language Models
April 3, 2025
Auteurs: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI
Résumé
Avec les puissants modèles de langage à grande échelle (LLMs) démontrant des capacités de raisonnement surpassant celles des humains, une question cruciale se pose : les LLMs raisonnent-ils véritablement, ou se contentent-ils de rappeler des réponses issues de leurs vastes ensembles de données d'entraînement extraits du web ? Les benchmarks publiés deviennent inévitablement contaminés une fois intégrés dans les ensembles d'entraînement ultérieurs des LLMs, compromettant ainsi leur fiabilité en tant qu'évaluations fidèles. Pour répondre à cela, nous introduisons KUMO, un cadre d'évaluation génératif conçu spécifiquement pour évaluer le raisonnement des LLMs. KUMO combine de manière synergique les LLMs avec des moteurs symboliques pour produire dynamiquement des tâches de raisonnement diversifiées, à plusieurs étapes, partiellement observables et ajustables en difficulté. Grâce à un pipeline automatisé, KUMO génère continuellement de nouvelles tâches dans des domaines ouverts, obligeant les modèles à démontrer une véritable généralisation plutôt qu'une simple mémorisation. Nous avons évalué 23 LLMs de pointe sur 5 000 tâches réparties dans 100 domaines créés par KUMO, comparant leurs capacités de raisonnement à celles d'étudiants universitaires. Nos résultats révèlent que de nombreux LLMs surpassent les performances universitaires sur des tâches de raisonnement simples, et que les LLMs optimisés pour le raisonnement atteignent des performances universitaires sur des défis de raisonnement complexes. De plus, les performances des LLMs sur les tâches KUMO sont fortement corrélées avec les résultats sur des benchmarks de raisonnement récemment publiés, soulignant la valeur de KUMO en tant qu'outil d'évaluation robuste et durable des véritables capacités de raisonnement des LLMs.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning
capabilities, a critical question arises: Do LLMs genuinely reason, or do they
merely recall answers from their extensive, web-scraped training datasets?
Publicly released benchmarks inevitably become contaminated once incorporated
into subsequent LLM training sets, undermining their reliability as faithful
assessments. To address this, we introduce KUMO, a generative evaluation
framework designed specifically for assessing reasoning in LLMs. KUMO
synergistically combines LLMs with symbolic engines to dynamically produce
diverse, multi-turn reasoning tasks that are partially observable and
adjustable in difficulty. Through an automated pipeline, KUMO continuously
generates novel tasks across open-ended domains, compelling models to
demonstrate genuine generalization rather than memorization. We evaluated 23
state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO,
benchmarking their reasoning abilities against university students. Our
findings reveal that many LLMs have outperformed university-level performance
on easy reasoning tasks, and reasoning-scaled LLMs reach university-level
performance on complex reasoning challenges. Moreover, LLM performance on KUMO
tasks correlates strongly with results on newly released real-world reasoning
benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for
genuine LLM reasoning capabilities.Summary
AI-Generated Summary