ProtoReasoning: Prototipi come Fondamento per il Ragionamento Generalizzabile nei Modelli Linguistici di Grande Dimensione
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
June 18, 2025
Autori: Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan
cs.AI
Abstract
I recenti progressi nei Modelli di Ragionamento su Grande Scala (LRMs) addestrati con il Ragionamento a Lunga Catena di Pensiero (Long CoT) hanno dimostrato notevoli capacità di generalizzazione cross-dominio. Tuttavia, i meccanismi sottostanti che supportano tale trasferimento rimangono poco compresi. Ipotesizziamo che la generalizzazione cross-dominio derivi da prototipi di ragionamento astratti condivisi — modelli di ragionamento fondamentali che catturano l'essenza dei problemi attraverso i domini. Questi prototipi minimizzano le sfumature della rappresentazione, rivelando che compiti apparentemente diversi sono radicati in strutture di ragionamento condivise. Basandoci su questa ipotesi, proponiamo ProtoReasoning, un framework che migliora la capacità di ragionamento dei LLM sfruttando rappresentazioni prototipiche scalabili e verificabili (Prolog per il ragionamento logico, PDDL per la pianificazione). ProtoReasoning include: (1) una pipeline automatizzata per la costruzione di prototipi che trasforma i problemi in corrispondenti rappresentazioni prototipiche; (2) un sistema di verifica completo che fornisce feedback affidabile attraverso interpreti Prolog/PDDL; (3) la scalabilità per sintetizzare problemi arbitrariamente all'interno dello spazio dei prototipi garantendone la correttezza. Esperimenti estensivi mostrano che ProtoReasoning ottiene un miglioramento del 4,7% rispetto ai modelli di base nel ragionamento logico (Enigmata-Eval), del 6,3% nei compiti di pianificazione, del 4,0% nel ragionamento generale (MMLU) e dell'1,0% in matematica (AIME24). Significativamente, i nostri studi di ablazione confermano che l'apprendimento nello spazio dei prototipi dimostra anche una maggiore generalizzazione a problemi strutturalmente simili rispetto all'addestramento esclusivo su rappresentazioni in linguaggio naturale, validando la nostra ipotesi che i prototipi di ragionamento servano come fondamento per un ragionamento generalizzabile nei grandi modelli linguistici.
English
Recent advances in Large Reasoning Models (LRMs) trained with Long
Chain-of-Thought (Long CoT) reasoning have demonstrated remarkable cross-domain
generalization capabilities. However, the underlying mechanisms supporting such
transfer remain poorly understood. We hypothesize that cross-domain
generalization arises from shared abstract reasoning prototypes -- fundamental
reasoning patterns that capture the essence of problems across domains. These
prototypes minimize the nuances of the representation, revealing that seemingly
diverse tasks are grounded in shared reasoning structures.Based on this
hypothesis, we propose ProtoReasoning, a framework that enhances the reasoning
ability of LLMs by leveraging scalable and verifiable prototypical
representations (Prolog for logical reasoning, PDDL for
planning).ProtoReasoning features: (1) an automated prototype construction
pipeline that transforms problems into corresponding prototype representations;
(2) a comprehensive verification system providing reliable feedback through
Prolog/PDDL interpreters; (3) the scalability to synthesize problems
arbitrarily within prototype space while ensuring correctness. Extensive
experiments show that ProtoReasoning achieves 4.7% improvement over baseline
models on logical reasoning (Enigmata-Eval), 6.3% improvement on planning
tasks, 4.0% improvement on general reasoning (MMLU) and 1.0% on mathematics
(AIME24). Significantly, our ablation studies confirm that learning in
prototype space also demonstrates enhanced generalization to structurally
similar problems compared to training solely on natural language
representations, validating our hypothesis that reasoning prototypes serve as
the foundation for generalizable reasoning in large language models.