Miscela di Ragionamenti: Insegnare ai Modelli Linguistici di Grandi Dimensioni a Ragionare con Strategie Adattive

Abstract

I grandi modelli linguistici (LLM) eccellono in compiti complessi grazie a tecniche avanzate di prompting come la Catena del Pensiero (Chain-of-Thought, CoT) e l'Albero del Pensiero (Tree-of-Thought, ToT), ma la loro dipendenza da prompt specifici per ogni task, creati manualmente, limita adattabilità ed efficienza. Introduciamo il Mixture of Reasoning (MoR), un framework di addestramento che incorpora strategie di ragionamento diversificate nei LLM per un ragionamento autonomo e adattivo ai task, senza la necessità di ingegnerizzazione esterna dei prompt. MoR si articola in due fasi: Generazione del Pensiero, che crea modelli di catene di ragionamento con modelli come GPT-4o, e Costruzione del Dataset SFT, che abbina tali modelli a dataset di benchmark per il fine-tuning supervisionato. I nostri esperimenti dimostrano che MoR migliora significativamente le prestazioni, con MoR150 che raggiunge 0.730 (un miglioramento del 2.2%) utilizzando il prompting CoT e 0.734 (un miglioramento del 13.5%) rispetto ai baseline. MoR elimina la necessità di prompt specifici per ogni task, offrendo una soluzione generalizzabile per un ragionamento robusto su una vasta gamma di compiti.

English

Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.

Miscela di Ragionamenti: Insegnare ai Modelli Linguistici di Grandi Dimensioni a Ragionare con Strategie Adattive

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

Abstract

Support