BOLT: Bootstrap Long Chain-of-Thought en Modelos de Lenguaje sin Destilación
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
February 6, 2025
Autores: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs), como o1 de OpenAI, han demostrado notables capacidades de razonamiento. o1 genera una larga cadena de pensamiento (LongCoT) antes de responder una pregunta. LongCoT permite a los LLMs analizar problemas, idear planes, reflexionar y retroceder de manera efectiva. Estas acciones capacitan a los LLMs para resolver problemas complejos. Tras el lanzamiento de o1, muchos equipos han intentado replicar su LongCoT y capacidades de razonamiento. En cuanto a los métodos, principalmente se basan en destilación de conocimiento con datos de modelos existentes con capacidades LongCoT (por ejemplo, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), lo que deja incertidumbres significativas sobre el desarrollo sistemático de tales habilidades de razonamiento. En cuanto a los dominios de datos, estos trabajos se centran estrechamente en matemáticas, mientras que algunos incluyen programación, limitando su generalizabilidad. Este artículo presenta un enfoque novedoso para habilitar la capacidad LongCoT de los LLMs sin destilación de modelos similares a o1 o anotaciones humanas costosas, donde bootstrap LongCoT (BOLT) a partir de un modelo instructivo estándar. BOLT involucra tres etapas: 1) arranque de datos LongCoT con aprendizaje en contexto en un modelo instructivo estándar; 2) ajuste fino supervisado de LongCoT; 3) entrenamiento en línea para refinar aún más las capacidades LongCoT. En BOLT, solo se necesitan construir unos pocos ejemplos en contexto durante la etapa de arranque; en nuestros experimentos, creamos 10 ejemplos, demostrando la viabilidad de este enfoque. Utilizamos Llama-3.1-70B-Instruct para arrancar LongCoT y aplicamos nuestro método a diversas escalas de modelos (7B, 8B, 70B). Logramos un rendimiento impresionante en una variedad de pruebas, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, que evalúan diversas capacidades de resolución de tareas y razonamiento.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated
remarkable reasoning capabilities. o1 generates a long chain-of-thought
(LongCoT) before answering a question. LongCoT allows LLMs to analyze problems,
devise plans, reflect, and backtrack effectively. These actions empower LLM to
solve complex problems. After the release of o1, many teams have attempted to
replicate its LongCoT and reasoning capabilities. In terms of methods, they
primarily rely on knowledge distillation with data from existing models with
LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving
significant uncertainties on systematically developing such reasoning
abilities. In terms of data domains, these works focus narrowly on math while a
few others include coding, limiting their generalizability. This paper
introduces a novel approach to enable LLM's LongCoT capacity without
distillation from o1-like models or expensive human annotations, where we
bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three
stages: 1) LongCoT data bootstrapping with in-context learning on a standard
instruct model; 2) LongCoT supervised finetuning; 3) online training to further
refine LongCoT capacities. In BOLT, only a few in-context examples need to be
constructed during the bootstrapping stage; in our experiments, we created 10
examples, demonstrating the feasibility of this approach. We use
Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various
model scales (7B, 8B, 70B). We achieve impressive performance on a variety of
benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which
evaluate diverse task-solving and reasoning capabilities.Summary
AI-Generated Summary