ChatPaper.aiChatPaper

BOLT: Bootstrap di Lunghe Catene di Pensiero nei Modelli Linguistici senza Distillazione

BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

February 6, 2025
Autori: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI

Abstract

I grandi modelli linguistici (LLM), come o1 di OpenAI, hanno dimostrato notevoli capacità di ragionamento. o1 genera una lunga catena di pensiero (LongCoT) prima di rispondere a una domanda. Il LongCoT consente ai LLM di analizzare problemi, ideare piani, riflettere e tornare sui propri passi in modo efficace. Queste azioni permettono ai LLM di risolvere problemi complessi. Dopo il rilascio di o1, molte squadre hanno cercato di replicare il suo LongCoT e le capacità di ragionamento. In termini di metodi, si basano principalmente sulla distillazione della conoscenza con dati provenienti da modelli esistenti con capacità LongCoT (ad esempio, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), lasciando significative incertezze nello sviluppo sistematico di tali capacità di ragionamento. In termini di domini di dati, questi lavori si concentrano principalmente sulla matematica, mentre alcuni includono anche il coding, limitandone la generalizzabilità. Questo articolo introduce un nuovo approccio per abilitare la capacità LongCoT dei LLM senza distillazione da modelli simili a o1 o costose annotazioni umane, dove avviamo LongCoT (BOLT) da un modello instruct standard. BOLT coinvolge tre fasi: 1) avvio dei dati LongCoT con apprendimento in contesto su un modello instruct standard; 2) fine-tuning supervisionato del LongCoT; 3) addestramento online per affinare ulteriormente le capacità LongCoT. In BOLT, durante la fase di avvio sono necessari solo alcuni esempi in contesto; nei nostri esperimenti abbiamo creato 10 esempi, dimostrando la fattibilità di questo approccio. Utilizziamo Llama-3.1-70B-Instruct per avviare il LongCoT e applichiamo il nostro metodo a varie scale di modelli (7B, 8B, 70B). Otteniamo prestazioni impressionanti su una varietà di benchmark, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, che valutano diverse capacità di risoluzione di compiti e ragionamento.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated remarkable reasoning capabilities. o1 generates a long chain-of-thought (LongCoT) before answering a question. LongCoT allows LLMs to analyze problems, devise plans, reflect, and backtrack effectively. These actions empower LLM to solve complex problems. After the release of o1, many teams have attempted to replicate its LongCoT and reasoning capabilities. In terms of methods, they primarily rely on knowledge distillation with data from existing models with LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving significant uncertainties on systematically developing such reasoning abilities. In terms of data domains, these works focus narrowly on math while a few others include coding, limiting their generalizability. This paper introduces a novel approach to enable LLM's LongCoT capacity without distillation from o1-like models or expensive human annotations, where we bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three stages: 1) LongCoT data bootstrapping with in-context learning on a standard instruct model; 2) LongCoT supervised finetuning; 3) online training to further refine LongCoT capacities. In BOLT, only a few in-context examples need to be constructed during the bootstrapping stage; in our experiments, we created 10 examples, demonstrating the feasibility of this approach. We use Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various model scales (7B, 8B, 70B). We achieve impressive performance on a variety of benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which evaluate diverse task-solving and reasoning capabilities.

Summary

AI-Generated Summary

PDF242February 7, 2025