ChatPaper.aiChatPaper

Смешанные рассуждения: обучение крупных языковых моделей рассуждению с использованием адаптивных стратегий

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

July 1, 2025
Авторы: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI

Аннотация

Крупные языковые модели (LLMs) демонстрируют высокие результаты в сложных задачах благодаря продвинутым техникам подсказок, таким как "Цепочка мыслей" (Chain-of-Thought, CoT) и "Дерево мыслей" (Tree-of-Thought, ToT). Однако их зависимость от ручного создания специфических для задачи подсказок ограничивает адаптивность и эффективность. Мы представляем "Смесь рассуждений" (Mixture of Reasoning, MoR) — обучающую структуру, которая внедряет разнообразные стратегии рассуждений в LLMs для автономного, адаптивного к задачам рассуждения без необходимости внешнего инжиниринга подсказок. MoR состоит из двух этапов: "Генерация мыслей", где создаются шаблоны цепочек рассуждений с использованием моделей, таких как GPT-4o, и "Построение набора данных для тонкой настройки" (SFT Dataset Construction), где шаблоны связываются с эталонными наборами данных для контролируемой тонкой настройки. Наши эксперименты показывают, что MoR значительно улучшает производительность: MoR150 достигает показателя 0.730 (улучшение на 2,2%) с использованием CoT-подсказок и 0.734 (улучшение на 13,5%) по сравнению с базовыми методами. MoR устраняет необходимость в специфических для задачи подсказках, предлагая универсальное решение для устойчивого рассуждения в разнообразных задачах.
English
Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.
PDF31July 2, 2025