BOLT : Bootstrap Long Chain-of-Thought dans les Modèles de Langage sans Distillation
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
February 6, 2025
Auteurs: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI
Résumé
Les grands modèles de langage (GML), tels que o1 d'OpenAI, ont démontré des capacités de raisonnement remarquables. o1 génère une longue chaîne de pensées (LongCoT) avant de répondre à une question. Le LongCoT permet aux GML d'analyser les problèmes, de concevoir des plans, de réfléchir et de revenir en arrière de manière efficace. Ces actions permettent aux GML de résoudre des problèmes complexes. Après la sortie de o1, de nombreuses équipes ont tenté de reproduire son LongCoT et ses capacités de raisonnement. En termes de méthodes, elles s'appuient principalement sur la distillation des connaissances avec des données provenant de modèles existants ayant des capacités LongCoT (par exemple, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), laissant des incertitudes significatives sur le développement systématique de telles capacités de raisonnement. En termes de domaines de données, ces travaux se concentrent étroitement sur les mathématiques tandis que quelques-uns incluent la programmation, limitant leur généralisabilité. Cet article présente une nouvelle approche pour permettre la capacité LongCoT des GML sans distillation à partir de modèles similaires à o1 ou d'annotations humaines coûteuses, où nous initialisons LongCoT (BOLT) à partir d'un modèle instruct standard. BOLT comprend trois étapes : 1) l'amorçage des données LongCoT avec un apprentissage en contexte sur un modèle instruct standard ; 2) le fine-tuning supervisé de LongCoT ; 3) l'entraînement en ligne pour affiner davantage les capacités LongCoT. Dans BOLT, seuls quelques exemples en contexte doivent être construits lors de l'étape d'amorçage ; dans nos expériences, nous avons créé 10 exemples, démontrant la faisabilité de cette approche. Nous utilisons Llama-3.1-70B-Instruct pour initialiser LongCoT et appliquons notre méthode à diverses échelles de modèles (7B, 8B, 70B). Nous obtenons des performances impressionnantes sur une variété de références, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, qui évaluent des capacités diverses de résolution de tâches et de raisonnement.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated
remarkable reasoning capabilities. o1 generates a long chain-of-thought
(LongCoT) before answering a question. LongCoT allows LLMs to analyze problems,
devise plans, reflect, and backtrack effectively. These actions empower LLM to
solve complex problems. After the release of o1, many teams have attempted to
replicate its LongCoT and reasoning capabilities. In terms of methods, they
primarily rely on knowledge distillation with data from existing models with
LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving
significant uncertainties on systematically developing such reasoning
abilities. In terms of data domains, these works focus narrowly on math while a
few others include coding, limiting their generalizability. This paper
introduces a novel approach to enable LLM's LongCoT capacity without
distillation from o1-like models or expensive human annotations, where we
bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three
stages: 1) LongCoT data bootstrapping with in-context learning on a standard
instruct model; 2) LongCoT supervised finetuning; 3) online training to further
refine LongCoT capacities. In BOLT, only a few in-context examples need to be
constructed during the bootstrapping stage; in our experiments, we created 10
examples, demonstrating the feasibility of this approach. We use
Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various
model scales (7B, 8B, 70B). We achieve impressive performance on a variety of
benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which
evaluate diverse task-solving and reasoning capabilities.Summary
AI-Generated Summary