Miscela di Ragionamenti: Insegnare ai Modelli Linguistici di Grandi Dimensioni a Ragionare con Strategie Adattive
Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
July 1, 2025
Autori: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono in compiti complessi grazie a tecniche avanzate di prompting come la Catena del Pensiero (Chain-of-Thought, CoT) e l'Albero del Pensiero (Tree-of-Thought, ToT), ma la loro dipendenza da prompt specifici per ogni task, creati manualmente, limita adattabilità ed efficienza. Introduciamo il Mixture of Reasoning (MoR), un framework di addestramento che incorpora strategie di ragionamento diversificate nei LLM per un ragionamento autonomo e adattivo ai task, senza la necessità di ingegnerizzazione esterna dei prompt. MoR si articola in due fasi: Generazione del Pensiero, che crea modelli di catene di ragionamento con modelli come GPT-4o, e Costruzione del Dataset SFT, che abbina tali modelli a dataset di benchmark per il fine-tuning supervisionato. I nostri esperimenti dimostrano che MoR migliora significativamente le prestazioni, con MoR150 che raggiunge 0.730 (un miglioramento del 2.2%) utilizzando il prompting CoT e 0.734 (un miglioramento del 13.5%) rispetto ai baseline. MoR elimina la necessità di prompt specifici per ogni task, offrendo una soluzione generalizzabile per un ragionamento robusto su una vasta gamma di compiti.
English
Large language models (LLMs) excel in complex tasks through advanced
prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but
their reliance on manually crafted, task-specific prompts limits adaptability
and efficiency. We introduce Mixture of Reasoning (MoR), a training framework
that embeds diverse reasoning strategies into LLMs for autonomous,
task-adaptive reasoning without external prompt engineering. MoR has two
phases: Thought Generation, creating reasoning chain templates with models like
GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets
for supervised fine-tuning.Our experiments show that MoR significantly enhances
performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting
and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need
for task-specific prompts, offering a generalizable solution for robust
reasoning across diverse tasks.