BOLT: Bootstrap langer Gedankenkette in Sprachmodellen ohne Destillation

papers.abstract

Große Sprachmodelle (LLMs) wie o1 von OpenAI haben bemerkenswerte Fähigkeiten im Bereich des logischen Denkens gezeigt. o1 generiert eine lange Gedankenreihe (LongCoT) bevor es eine Frage beantwortet. LongCoT ermöglicht es LLMs, Probleme zu analysieren, Pläne zu entwerfen, zu reflektieren und effektiv zurückzugehen. Diese Handlungen befähigen LLMs komplexe Probleme zu lösen. Nach der Veröffentlichung von o1 haben viele Teams versucht, dessen LongCoT und logische Fähigkeiten zu replizieren. In Bezug auf Methoden verlassen sie sich hauptsächlich auf Wissensvermittlung mit Daten aus bestehenden Modellen mit LongCoT-Fähigkeiten (z.B. OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), was erhebliche Unsicherheiten bei der systematischen Entwicklung solcher Denkfähigkeiten hinterlässt. In Bezug auf Datenbereiche konzentrieren sich diese Arbeiten eng auf Mathematik, während einige wenige auch Programmieren einschließen, was ihre Verallgemeinerbarkeit einschränkt. Dieser Artikel stellt einen neuartigen Ansatz vor, um die LongCoT-Fähigkeit von LLMs ohne Wissensvermittlung von o1-ähnlichen Modellen oder teuren menschlichen Anmerkungen zu ermöglichen, bei dem wir LongCoT (BOLT) von einem Standard-Instruct-Modell starten. BOLT umfasst drei Phasen: 1) Bootstrapping von LongCoT-Daten mit kontextbezogenem Lernen auf einem Standard-Instruct-Modell; 2) Überwachtes Feintuning von LongCoT; 3) Online-Training zur weiteren Verfeinerung der LongCoT-Fähigkeiten. Bei BOLT müssen nur wenige kontextbezogene Beispiele während der Bootstrapping-Phase erstellt werden; in unseren Experimenten haben wir 10 Beispiele erstellt, um die Machbarkeit dieses Ansatzes zu demonstrieren. Wir verwenden Llama-3.1-70B-Instruct, um LongCoT zu bootstrappen und wenden unsere Methode auf verschiedene Modellskalen (7B, 8B, 70B) an. Wir erzielen beeindruckende Leistungen in einer Vielzahl von Benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, die verschiedene Aufgabenlösungs- und Denkfähigkeiten bewerten.

English

Large language models (LLMs), such as o1 from OpenAI, have demonstrated remarkable reasoning capabilities. o1 generates a long chain-of-thought (LongCoT) before answering a question. LongCoT allows LLMs to analyze problems, devise plans, reflect, and backtrack effectively. These actions empower LLM to solve complex problems. After the release of o1, many teams have attempted to replicate its LongCoT and reasoning capabilities. In terms of methods, they primarily rely on knowledge distillation with data from existing models with LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving significant uncertainties on systematically developing such reasoning abilities. In terms of data domains, these works focus narrowly on math while a few others include coding, limiting their generalizability. This paper introduces a novel approach to enable LLM's LongCoT capacity without distillation from o1-like models or expensive human annotations, where we bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three stages: 1) LongCoT data bootstrapping with in-context learning on a standard instruct model; 2) LongCoT supervised finetuning; 3) online training to further refine LongCoT capacities. In BOLT, only a few in-context examples need to be constructed during the bootstrapping stage; in our experiments, we created 10 examples, demonstrating the feasibility of this approach. We use Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various model scales (7B, 8B, 70B). We achieve impressive performance on a variety of benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which evaluate diverse task-solving and reasoning capabilities.

BOLT: Bootstrap langer Gedankenkette in Sprachmodellen ohne Destillation

BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

papers.abstract

Support