ChatPaper.aiChatPaper

BOLT: Bootstrap Lang Keten-van-Gedachten in Taalmodellen zonder Destillatie

BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

February 6, 2025
Auteurs: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI

Samenvatting

Grote taalmodellen (LLM's), zoals o1 van OpenAI, hebben opmerkelijke redeneervermogens aangetoond. o1 genereert een lange keten-van-denken (LongCoT) voordat het een vraag beantwoordt. LongCoT stelt LLM's in staat om problemen te analyseren, plannen te bedenken, te reflecteren en effectief terug te gaan. Deze acties stellen LLM's in staat om complexe problemen op te lossen. Na de release van o1 hebben veel teams geprobeerd om zijn LongCoT en redeneervermogens te repliceren. Wat betreft methoden vertrouwen ze voornamelijk op kennisdestillatie met gegevens van bestaande modellen met LongCoT-capaciteiten (bijv. OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), wat aanzienlijke onzekerheden met zich meebrengt bij het systematisch ontwikkelen van dergelijke redeneervermogens. Wat betreft datadomeinen richten deze werken zich voornamelijk op wiskunde, terwijl enkelen ook codering omvatten, waardoor hun generaliseerbaarheid beperkt is. Dit artikel introduceert een nieuwe benadering om de LongCoT-capaciteit van LLM's mogelijk te maken zonder destillatie van o1-achtige modellen of dure menselijke annotaties, waarbij we LongCoT (BOLT) bootstrappen vanuit een standaardinstructiemodel. BOLT omvat drie fasen: 1) Bootstrappen van LongCoT-gegevens met in-context leren op een standaardinstructiemodel; 2) Onder toezicht finetunen van LongCoT; 3) Online training om de LongCoT-capaciteiten verder te verfijnen. Bij BOLT hoeven slechts een paar in-context voorbeelden te worden gemaakt tijdens de bootstrappingfase; in onze experimenten hebben we 10 voorbeelden gecreëerd, waarbij we de haalbaarheid van deze benadering hebben aangetoond. We gebruiken Llama-3.1-70B-Instruct om LongCoT te bootstrappen en passen onze methode toe op verschillende modelgroottes (7B, 8B, 70B). We behalen indrukwekkende prestaties op verschillende benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, die diverse taakoplossings- en redeneervermogens evalueren.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated remarkable reasoning capabilities. o1 generates a long chain-of-thought (LongCoT) before answering a question. LongCoT allows LLMs to analyze problems, devise plans, reflect, and backtrack effectively. These actions empower LLM to solve complex problems. After the release of o1, many teams have attempted to replicate its LongCoT and reasoning capabilities. In terms of methods, they primarily rely on knowledge distillation with data from existing models with LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving significant uncertainties on systematically developing such reasoning abilities. In terms of data domains, these works focus narrowly on math while a few others include coding, limiting their generalizability. This paper introduces a novel approach to enable LLM's LongCoT capacity without distillation from o1-like models or expensive human annotations, where we bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three stages: 1) LongCoT data bootstrapping with in-context learning on a standard instruct model; 2) LongCoT supervised finetuning; 3) online training to further refine LongCoT capacities. In BOLT, only a few in-context examples need to be constructed during the bootstrapping stage; in our experiments, we created 10 examples, demonstrating the feasibility of this approach. We use Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various model scales (7B, 8B, 70B). We achieve impressive performance on a variety of benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which evaluate diverse task-solving and reasoning capabilities.

Summary

AI-Generated Summary

PDF242February 7, 2025