Évaluation générative du raisonnement complexe dans les modèles de langage à grande échelle

papers.abstract

Avec les puissants modèles de langage à grande échelle (LLMs) démontrant des capacités de raisonnement surpassant celles des humains, une question cruciale se pose : les LLMs raisonnent-ils véritablement, ou se contentent-ils de rappeler des réponses issues de leurs vastes ensembles de données d'entraînement extraits du web ? Les benchmarks publiés deviennent inévitablement contaminés une fois intégrés dans les ensembles d'entraînement ultérieurs des LLMs, compromettant ainsi leur fiabilité en tant qu'évaluations fidèles. Pour répondre à cela, nous introduisons KUMO, un cadre d'évaluation génératif conçu spécifiquement pour évaluer le raisonnement des LLMs. KUMO combine de manière synergique les LLMs avec des moteurs symboliques pour produire dynamiquement des tâches de raisonnement diversifiées, à plusieurs étapes, partiellement observables et ajustables en difficulté. Grâce à un pipeline automatisé, KUMO génère continuellement de nouvelles tâches dans des domaines ouverts, obligeant les modèles à démontrer une véritable généralisation plutôt qu'une simple mémorisation. Nous avons évalué 23 LLMs de pointe sur 5 000 tâches réparties dans 100 domaines créés par KUMO, comparant leurs capacités de raisonnement à celles d'étudiants universitaires. Nos résultats révèlent que de nombreux LLMs surpassent les performances universitaires sur des tâches de raisonnement simples, et que les LLMs optimisés pour le raisonnement atteignent des performances universitaires sur des défis de raisonnement complexes. De plus, les performances des LLMs sur les tâches KUMO sont fortement corrélées avec les résultats sur des benchmarks de raisonnement récemment publiés, soulignant la valeur de KUMO en tant qu'outil d'évaluation robuste et durable des véritables capacités de raisonnement des LLMs.

English

With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.

Évaluation générative du raisonnement complexe dans les modèles de langage à grande échelle

Generative Evaluation of Complex Reasoning in Large Language Models

papers.abstract

Support