General365 : Évaluation des capacités de raisonnement général des grands modèles de langage sur des tâches diverses et exigeantes

Résumé

Les grands modèles de langage (LLM) contemporains ont démontré des capacités de raisonnement remarquables, particulièrement dans des domaines spécialisés comme les mathématiques et la physique. Cependant, leur capacité à généraliser ces compétences de raisonnement à des contextes plus généraux et étendus - souvent qualifiée de raisonnement général - reste peu explorée. Contrairement au raisonnement spécifique à un domaine, le raisonnement général s'appuie moins sur des connaissances expertes mais présente néanmoins des défis redoutables, tels que des contraintes complexes, des branches logiques imbriquées et des interférences sémantiques. Pour combler cette lacune, nous présentons General365, un benchmark spécifiquement conçu pour évaluer le raisonnement général des LLM. En limitant les connaissances de base à un niveau lycée, General365 dissocie explicitement le raisonnement de l'expertise spécialisée. Le benchmark comprend 365 problèmes de base et 1 095 problèmes variantes répartis en huit catégories, garantissant à la fois une haute difficulté et une grande diversité. Les évaluations sur 26 LLM leaders révèlent que même le modèle le plus performant n'atteint que 62,8% de précision, contrastant fortement avec les performances quasi parfaites des LLM dans les benchmarks de mathématiques et de physique. Ces résultats suggèrent que les capacités de raisonnement des LLM actuels sont fortement dépendantes du domaine, laissant une marge d'amélioration significative pour des applications plus larges. Nous envisageons General365 comme un catalyseur pour faire progresser le raisonnement des LLM au-delà des tâches spécifiques à un domaine vers des scénarios réels robustes et polyvalents. Code, jeu de données et classement : https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365 : Évaluation des capacités de raisonnement général des grands modèles de langage sur des tâches diverses et exigeantes

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Résumé

Support