Mélange de Raisonnements : Enseigner aux Grands Modèles de Langage à Raisonner avec des Stratégies Adaptatives
Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
July 1, 2025
Auteurs: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI
Résumé
Les grands modèles de langage (LLMs) excellent dans les tâches complexes grâce à des techniques de sollicitation avancées telles que la Chaîne de Pensée (Chain-of-Thought, CoT) et l'Arbre de Pensée (Tree-of-Thought, ToT). Cependant, leur dépendance à des prompts spécifiques et manuellement conçus limite leur adaptabilité et leur efficacité. Nous introduisons le Mélange de Raisonnement (Mixture of Reasoning, MoR), un cadre d'entraînement qui intègre des stratégies de raisonnement diversifiées dans les LLMs pour un raisonnement autonome et adaptatif aux tâches, sans nécessiter d'ingénierie de prompts externe. MoR se déroule en deux phases : la Génération de Pensée, qui crée des modèles de chaînes de raisonnement avec des modèles comme GPT-4o, et la Construction de Jeu de Données pour l'Apprentissage Supervisé (SFT Dataset Construction), qui associe ces modèles à des ensembles de données de référence pour un ajustement fin supervisé. Nos expériences montrent que MoR améliore significativement les performances, avec MoR150 atteignant 0,730 (une amélioration de 2,2 %) en utilisant la sollicitation CoT et 0,734 (une amélioration de 13,5 %) par rapport aux bases de référence. MoR élimine le besoin de prompts spécifiques à la tâche, offrant une solution généralisable pour un raisonnement robuste dans diverses tâches.
English
Large language models (LLMs) excel in complex tasks through advanced
prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but
their reliance on manually crafted, task-specific prompts limits adaptability
and efficiency. We introduce Mixture of Reasoning (MoR), a training framework
that embeds diverse reasoning strategies into LLMs for autonomous,
task-adaptive reasoning without external prompt engineering. MoR has two
phases: Thought Generation, creating reasoning chain templates with models like
GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets
for supervised fine-tuning.Our experiments show that MoR significantly enhances
performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting
and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need
for task-specific prompts, offering a generalizable solution for robust
reasoning across diverse tasks.