ChatPaper.aiChatPaper

Mistura de Raciocínios: Ensine Grandes Modelos de Linguagem a Raciocinar com Estratégias Adaptativas

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

July 1, 2025
Autores: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) se destacam em tarefas complexas por meio de técnicas avançadas de prompting, como Chain-of-Thought (CoT) e Tree-of-Thought (ToT), mas sua dependência de prompts específicos para cada tarefa, criados manualmente, limita a adaptabilidade e a eficiência. Apresentamos o Mixture of Reasoning (MoR), um framework de treinamento que incorpora diversas estratégias de raciocínio em LLMs para um raciocínio autônomo e adaptativo a tarefas, sem a necessidade de engenharia de prompts externa. O MoR possui duas fases: Geração de Pensamento, que cria templates de cadeias de raciocínio com modelos como o GPT-4o, e Construção do Conjunto de Dados SFT, que emparelha esses templates com conjuntos de dados de referência para ajuste fino supervisionado. Nossos experimentos mostram que o MoR melhora significativamente o desempenho, com o MoR150 alcançando 0,730 (melhoria de 2,2%) usando prompting CoT e 0,734 (melhoria de 13,5%) em comparação com as baselines. O MoR elimina a necessidade de prompts específicos para cada tarefa, oferecendo uma solução generalizável para um raciocínio robusto em diversas tarefas.
English
Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.
PDF31July 2, 2025