Mélange de Raisonnements : Enseigner aux Grands Modèles de Langage à Raisonner avec des Stratégies Adaptatives

Résumé

Les grands modèles de langage (LLMs) excellent dans les tâches complexes grâce à des techniques de sollicitation avancées telles que la Chaîne de Pensée (Chain-of-Thought, CoT) et l'Arbre de Pensée (Tree-of-Thought, ToT). Cependant, leur dépendance à des prompts spécifiques et manuellement conçus limite leur adaptabilité et leur efficacité. Nous introduisons le Mélange de Raisonnement (Mixture of Reasoning, MoR), un cadre d'entraînement qui intègre des stratégies de raisonnement diversifiées dans les LLMs pour un raisonnement autonome et adaptatif aux tâches, sans nécessiter d'ingénierie de prompts externe. MoR se déroule en deux phases : la Génération de Pensée, qui crée des modèles de chaînes de raisonnement avec des modèles comme GPT-4o, et la Construction de Jeu de Données pour l'Apprentissage Supervisé (SFT Dataset Construction), qui associe ces modèles à des ensembles de données de référence pour un ajustement fin supervisé. Nos expériences montrent que MoR améliore significativement les performances, avec MoR150 atteignant 0,730 (une amélioration de 2,2 %) en utilisant la sollicitation CoT et 0,734 (une amélioration de 13,5 %) par rapport aux bases de référence. MoR élimine le besoin de prompts spécifiques à la tâche, offrant une solution généralisable pour un raisonnement robuste dans diverses tâches.

English

Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.

Mélange de Raisonnements : Enseigner aux Grands Modèles de Langage à Raisonner avec des Stratégies Adaptatives

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

Résumé

Support