ProtoReasoning: Prototypen als Grundlage für generalisierbares Denken in großen Sprachmodellen
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
June 18, 2025
Autoren: Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Reasoning Models (LRMs), die mit Long Chain-of-Thought (Long CoT)-Reasoning trainiert wurden, haben bemerkenswerte Fähigkeiten zur domänenübergreifenden Generalisierung gezeigt. Die zugrunde liegenden Mechanismen, die einen solchen Transfer unterstützen, sind jedoch noch weitgehend unverstanden. Wir stellen die Hypothese auf, dass die domänenübergreifende Generalisierung auf gemeinsamen abstrakten Reasoning-Prototypen beruht – grundlegenden Denkmustern, die das Wesen von Problemen über verschiedene Domänen hinweg erfassen. Diese Prototypen minimieren die Nuancen der Darstellung und zeigen, dass scheinbar unterschiedliche Aufgaben auf gemeinsamen Reasoning-Strukturen basieren. Basierend auf dieser Hypothese schlagen wir ProtoReasoning vor, ein Framework, das die Reasoning-Fähigkeit von LLMs verbessert, indem es skalierbare und verifizierbare prototypische Darstellungen nutzt (Prolog für logisches Reasoning, PDDL für Planung). ProtoReasoning umfasst: (1) eine automatisierte Pipeline zur Prototypkonstruktion, die Probleme in entsprechende Prototypdarstellungen transformiert; (2) ein umfassendes Verifikationssystem, das zuverlässiges Feedback durch Prolog/PDDL-Interpreter bereitstellt; (3) die Skalierbarkeit, um Probleme beliebig innerhalb des Prototypraums zu synthetisieren und dabei die Korrektheit sicherzustellen. Umfangreiche Experimente zeigen, dass ProtoReasoning eine Verbesserung von 4,7 % gegenüber Baseline-Modellen beim logischen Reasoning (Enigmata-Eval), 6,3 % bei Planungsaufgaben, 4,0 % beim allgemeinen Reasoning (MMLU) und 1,0 % in der Mathematik (AIME24) erzielt. Insbesondere bestätigen unsere Ablationsstudien, dass das Lernen im Prototypraum auch eine verbesserte Generalisierung auf strukturell ähnliche Probleme im Vergleich zum Training ausschließlich auf natürlichen Sprachdarstellungen zeigt. Dies bestätigt unsere Hypothese, dass Reasoning-Prototypen die Grundlage für generalisierbares Reasoning in großen Sprachmodellen darstellen.
English
Recent advances in Large Reasoning Models (LRMs) trained with Long
Chain-of-Thought (Long CoT) reasoning have demonstrated remarkable cross-domain
generalization capabilities. However, the underlying mechanisms supporting such
transfer remain poorly understood. We hypothesize that cross-domain
generalization arises from shared abstract reasoning prototypes -- fundamental
reasoning patterns that capture the essence of problems across domains. These
prototypes minimize the nuances of the representation, revealing that seemingly
diverse tasks are grounded in shared reasoning structures.Based on this
hypothesis, we propose ProtoReasoning, a framework that enhances the reasoning
ability of LLMs by leveraging scalable and verifiable prototypical
representations (Prolog for logical reasoning, PDDL for
planning).ProtoReasoning features: (1) an automated prototype construction
pipeline that transforms problems into corresponding prototype representations;
(2) a comprehensive verification system providing reliable feedback through
Prolog/PDDL interpreters; (3) the scalability to synthesize problems
arbitrarily within prototype space while ensuring correctness. Extensive
experiments show that ProtoReasoning achieves 4.7% improvement over baseline
models on logical reasoning (Enigmata-Eval), 6.3% improvement on planning
tasks, 4.0% improvement on general reasoning (MMLU) and 1.0% on mathematics
(AIME24). Significantly, our ablation studies confirm that learning in
prototype space also demonstrates enhanced generalization to structurally
similar problems compared to training solely on natural language
representations, validating our hypothesis that reasoning prototypes serve as
the foundation for generalizable reasoning in large language models.