Mezcla de Razonamientos: Enseñar a los Modelos de Lenguaje de Gran Escala a Razonar con Estrategias Adaptativas

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) destacan en tareas complejas mediante técnicas avanzadas de *prompting*, como *Chain-of-Thought* (CoT) y *Tree-of-Thought* (ToT). Sin embargo, su dependencia de *prompts* específicos para cada tarea, elaborados manualmente, limita su adaptabilidad y eficiencia. Presentamos *Mixture of Reasoning* (MoR), un marco de entrenamiento que integra diversas estrategias de razonamiento en los LLMs para un razonamiento autónomo y adaptable a la tarea, sin necesidad de ingeniería externa de *prompts*. MoR consta de dos fases: *Generación de Pensamientos*, que crea plantillas de cadenas de razonamiento utilizando modelos como GPT-4o, y *Construcción del Conjunto de Datos SFT*, que empareja estas plantillas con conjuntos de datos de referencia para un ajuste fino supervisado. Nuestros experimentos demuestran que MoR mejora significativamente el rendimiento, con MoR150 alcanzando 0.730 (una mejora del 2.2%) utilizando *prompting* CoT y 0.734 (una mejora del 13.5%) en comparación con los baselines. MoR elimina la necesidad de *prompts* específicos para cada tarea, ofreciendo una solución generalizable para un razonamiento robusto en diversas tareas.

English

Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.

Mezcla de Razonamientos: Enseñar a los Modelos de Lenguaje de Gran Escala a Razonar con Estrategias Adaptativas

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

Resumen

Support