ProtoReasoning: Прототипы как основа для обобщающего рассуждения в больших языковых моделях
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
June 18, 2025
Авторы: Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan
cs.AI
Аннотация
Недавние достижения в области крупных моделей рассуждений (Large Reasoning Models, LRMs), обученных с использованием длинных цепочек рассуждений (Long Chain-of-Thought, Long CoT), продемонстрировали впечатляющие способности к кросс-доменной генерализации. Однако механизмы, лежащие в основе такого переноса, остаются малоизученными. Мы предполагаем, что кросс-доменная генерализация возникает благодаря общим абстрактным прототипам рассуждений — фундаментальным шаблонам, которые отражают суть задач в различных областях. Эти прототипы минимизируют нюансы представления, показывая, что, казалось бы, разнородные задачи основаны на общих структурах рассуждений. Основываясь на этой гипотезе, мы предлагаем ProtoReasoning — фреймворк, который улучшает способность крупных языковых моделей (LLMs) к рассуждениям за счет использования масштабируемых и проверяемых прототипных представлений (Prolog для логических рассуждений, PDDL для планирования). ProtoReasoning включает: (1) автоматизированный конвейер построения прототипов, который преобразует задачи в соответствующие прототипные представления; (2) комплексную систему верификации, обеспечивающую надежную обратную связь через интерпретаторы Prolog/PDDL; (3) масштабируемость для синтеза задач в пределах пространства прототипов с гарантией корректности. Эксперименты показывают, что ProtoReasoning обеспечивает улучшение на 4,7% по сравнению с базовыми моделями в логических рассуждениях (Enigmata-Eval), на 6,3% в задачах планирования, на 4,0% в общих рассуждениях (MMLU) и на 1,0% в математике (AIME24). Важно отметить, что наши исследования подтверждают, что обучение в пространстве прототипов также демонстрирует улучшенную генерализацию на структурно схожие задачи по сравнению с обучением исключительно на естественно-языковых представлениях, что подтверждает нашу гипотезу о том, что прототипы рассуждений служат основой для обобщаемых рассуждений в крупных языковых моделях.
English
Recent advances in Large Reasoning Models (LRMs) trained with Long
Chain-of-Thought (Long CoT) reasoning have demonstrated remarkable cross-domain
generalization capabilities. However, the underlying mechanisms supporting such
transfer remain poorly understood. We hypothesize that cross-domain
generalization arises from shared abstract reasoning prototypes -- fundamental
reasoning patterns that capture the essence of problems across domains. These
prototypes minimize the nuances of the representation, revealing that seemingly
diverse tasks are grounded in shared reasoning structures.Based on this
hypothesis, we propose ProtoReasoning, a framework that enhances the reasoning
ability of LLMs by leveraging scalable and verifiable prototypical
representations (Prolog for logical reasoning, PDDL for
planning).ProtoReasoning features: (1) an automated prototype construction
pipeline that transforms problems into corresponding prototype representations;
(2) a comprehensive verification system providing reliable feedback through
Prolog/PDDL interpreters; (3) the scalability to synthesize problems
arbitrarily within prototype space while ensuring correctness. Extensive
experiments show that ProtoReasoning achieves 4.7% improvement over baseline
models on logical reasoning (Enigmata-Eval), 6.3% improvement on planning
tasks, 4.0% improvement on general reasoning (MMLU) and 1.0% on mathematics
(AIME24). Significantly, our ablation studies confirm that learning in
prototype space also demonstrates enhanced generalization to structurally
similar problems compared to training solely on natural language
representations, validating our hypothesis that reasoning prototypes serve as
the foundation for generalizable reasoning in large language models.