ProtoReasoning : Les prototypes comme fondement du raisonnement généralisable dans les LLM
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
June 18, 2025
Auteurs: Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan
cs.AI
Résumé
Les récents progrès des modèles de raisonnement à grande échelle (LRMs) entraînés avec des chaînes de raisonnement longues (Long CoT) ont démontré des capacités remarquables de généralisation interdomaines. Cependant, les mécanismes sous-jacents qui soutiennent un tel transfert restent mal compris. Nous émettons l'hypothèse que la généralisation interdomaines découle de prototypes de raisonnement abstraits partagés — des schémas de raisonnement fondamentaux qui capturent l'essence des problèmes à travers les domaines. Ces prototypes minimisent les nuances de la représentation, révélant que des tâches apparemment diverses reposent sur des structures de raisonnement communes. Sur la base de cette hypothèse, nous proposons ProtoReasoning, un cadre qui améliore la capacité de raisonnement des LLMs en exploitant des représentations prototypiques évolutives et vérifiables (Prolog pour le raisonnement logique, PDDL pour la planification). ProtoReasoning comprend : (1) un pipeline automatisé de construction de prototypes qui transforme les problèmes en représentations prototypiques correspondantes ; (2) un système de vérification complet fournissant un retour fiable via des interpréteurs Prolog/PDDL ; (3) la capacité à synthétiser des problèmes de manière arbitraire dans l'espace des prototypes tout en garantissant leur exactitude. Des expériences approfondies montrent que ProtoReasoning améliore de 4,7 % les modèles de base en raisonnement logique (Enigmata-Eval), de 6,3 % en tâches de planification, de 4,0 % en raisonnement général (MMLU) et de 1,0 % en mathématiques (AIME24). De manière significative, nos études d'ablation confirment que l'apprentissage dans l'espace des prototypes démontre également une meilleure généralisation à des problèmes structurellement similaires par rapport à un entraînement uniquement sur des représentations en langage naturel, validant ainsi notre hypothèse selon laquelle les prototypes de raisonnement constituent la base d'un raisonnement généralisable dans les grands modèles de langage.
English
Recent advances in Large Reasoning Models (LRMs) trained with Long
Chain-of-Thought (Long CoT) reasoning have demonstrated remarkable cross-domain
generalization capabilities. However, the underlying mechanisms supporting such
transfer remain poorly understood. We hypothesize that cross-domain
generalization arises from shared abstract reasoning prototypes -- fundamental
reasoning patterns that capture the essence of problems across domains. These
prototypes minimize the nuances of the representation, revealing that seemingly
diverse tasks are grounded in shared reasoning structures.Based on this
hypothesis, we propose ProtoReasoning, a framework that enhances the reasoning
ability of LLMs by leveraging scalable and verifiable prototypical
representations (Prolog for logical reasoning, PDDL for
planning).ProtoReasoning features: (1) an automated prototype construction
pipeline that transforms problems into corresponding prototype representations;
(2) a comprehensive verification system providing reliable feedback through
Prolog/PDDL interpreters; (3) the scalability to synthesize problems
arbitrarily within prototype space while ensuring correctness. Extensive
experiments show that ProtoReasoning achieves 4.7% improvement over baseline
models on logical reasoning (Enigmata-Eval), 6.3% improvement on planning
tasks, 4.0% improvement on general reasoning (MMLU) and 1.0% on mathematics
(AIME24). Significantly, our ablation studies confirm that learning in
prototype space also demonstrates enhanced generalization to structurally
similar problems compared to training solely on natural language
representations, validating our hypothesis that reasoning prototypes serve as
the foundation for generalizable reasoning in large language models.