BOLT: Bootstrap langer Gedankenkette in Sprachmodellen ohne Destillation
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
February 6, 2025
Autoren: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) wie o1 von OpenAI haben bemerkenswerte Fähigkeiten im Bereich des logischen Denkens gezeigt. o1 generiert eine lange Gedankenreihe (LongCoT) bevor es eine Frage beantwortet. LongCoT ermöglicht es LLMs, Probleme zu analysieren, Pläne zu entwerfen, zu reflektieren und effektiv zurückzugehen. Diese Handlungen befähigen LLMs komplexe Probleme zu lösen. Nach der Veröffentlichung von o1 haben viele Teams versucht, dessen LongCoT und logische Fähigkeiten zu replizieren. In Bezug auf Methoden verlassen sie sich hauptsächlich auf Wissensvermittlung mit Daten aus bestehenden Modellen mit LongCoT-Fähigkeiten (z.B. OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), was erhebliche Unsicherheiten bei der systematischen Entwicklung solcher Denkfähigkeiten hinterlässt. In Bezug auf Datenbereiche konzentrieren sich diese Arbeiten eng auf Mathematik, während einige wenige auch Programmieren einschließen, was ihre Verallgemeinerbarkeit einschränkt. Dieser Artikel stellt einen neuartigen Ansatz vor, um die LongCoT-Fähigkeit von LLMs ohne Wissensvermittlung von o1-ähnlichen Modellen oder teuren menschlichen Anmerkungen zu ermöglichen, bei dem wir LongCoT (BOLT) von einem Standard-Instruct-Modell starten. BOLT umfasst drei Phasen: 1) Bootstrapping von LongCoT-Daten mit kontextbezogenem Lernen auf einem Standard-Instruct-Modell; 2) Überwachtes Feintuning von LongCoT; 3) Online-Training zur weiteren Verfeinerung der LongCoT-Fähigkeiten. Bei BOLT müssen nur wenige kontextbezogene Beispiele während der Bootstrapping-Phase erstellt werden; in unseren Experimenten haben wir 10 Beispiele erstellt, um die Machbarkeit dieses Ansatzes zu demonstrieren. Wir verwenden Llama-3.1-70B-Instruct, um LongCoT zu bootstrappen und wenden unsere Methode auf verschiedene Modellskalen (7B, 8B, 70B) an. Wir erzielen beeindruckende Leistungen in einer Vielzahl von Benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, die verschiedene Aufgabenlösungs- und Denkfähigkeiten bewerten.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated
remarkable reasoning capabilities. o1 generates a long chain-of-thought
(LongCoT) before answering a question. LongCoT allows LLMs to analyze problems,
devise plans, reflect, and backtrack effectively. These actions empower LLM to
solve complex problems. After the release of o1, many teams have attempted to
replicate its LongCoT and reasoning capabilities. In terms of methods, they
primarily rely on knowledge distillation with data from existing models with
LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving
significant uncertainties on systematically developing such reasoning
abilities. In terms of data domains, these works focus narrowly on math while a
few others include coding, limiting their generalizability. This paper
introduces a novel approach to enable LLM's LongCoT capacity without
distillation from o1-like models or expensive human annotations, where we
bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three
stages: 1) LongCoT data bootstrapping with in-context learning on a standard
instruct model; 2) LongCoT supervised finetuning; 3) online training to further
refine LongCoT capacities. In BOLT, only a few in-context examples need to be
constructed during the bootstrapping stage; in our experiments, we created 10
examples, demonstrating the feasibility of this approach. We use
Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various
model scales (7B, 8B, 70B). We achieve impressive performance on a variety of
benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which
evaluate diverse task-solving and reasoning capabilities.Summary
AI-Generated Summary