BOLT: Bootstrap Long Chain-of-Thought в языковых моделях без дистилляции
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
February 6, 2025
Авторы: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI
Аннотация
Большие языковые модели (LLM), такие как o1 от OpenAI, продемонстрировали выдающиеся способности к рассуждениям. o1 генерирует длинную цепочку мыслей (LongCoT) перед ответом на вопрос. LongCoT позволяет LLM анализировать проблемы, разрабатывать планы, размышлять и эффективно откатываться. Эти действия делают LLM способными решать сложные задачи. После выпуска o1 многие команды пытались воссоздать его LongCoT и способности к рассуждениям. В методологическом плане они в основном полагаются на дистилляцию знаний с данными из существующих моделей с возможностями LongCoT (например, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), что оставляет значительные неопределенности в систематическом развитии таких способностей к рассуждениям. В отношении областей данных эти работы узко сосредоточены на математике, в то время как некоторые включают в себя также программирование, что ограничивает их обобщаемость. В данной статье представлен новый подход для развития возможностей LongCoT у LLM без дистилляции из моделей типа o1 или дорогостоящих аннотаций людей, где мы создаем LongCoT (BOLT) из стандартной модели instruct. BOLT включает три этапа: 1) бутстрапинг данных LongCoT с обучением в контексте на стандартной модели instruct; 2) надзорное дообучение LongCoT; 3) онлайн-обучение для дальнейшего совершенствования возможностей LongCoT. В BOLT на этапе бутстрапинга требуется создать всего несколько примеров в контексте; в наших экспериментах мы создали 10 примеров, демонстрируя осуществимость данного подхода. Мы используем Llama-3.1-70B-Instruct для бутстрапинга LongCoT и применяем наш метод к различным масштабам моделей (7B, 8B, 70B). Мы достигаем впечатляющих результатов на различных бенчмарках, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, которые оценивают разнообразные способности к решению задач и рассуждениям.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated
remarkable reasoning capabilities. o1 generates a long chain-of-thought
(LongCoT) before answering a question. LongCoT allows LLMs to analyze problems,
devise plans, reflect, and backtrack effectively. These actions empower LLM to
solve complex problems. After the release of o1, many teams have attempted to
replicate its LongCoT and reasoning capabilities. In terms of methods, they
primarily rely on knowledge distillation with data from existing models with
LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving
significant uncertainties on systematically developing such reasoning
abilities. In terms of data domains, these works focus narrowly on math while a
few others include coding, limiting their generalizability. This paper
introduces a novel approach to enable LLM's LongCoT capacity without
distillation from o1-like models or expensive human annotations, where we
bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three
stages: 1) LongCoT data bootstrapping with in-context learning on a standard
instruct model; 2) LongCoT supervised finetuning; 3) online training to further
refine LongCoT capacities. In BOLT, only a few in-context examples need to be
constructed during the bootstrapping stage; in our experiments, we created 10
examples, demonstrating the feasibility of this approach. We use
Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various
model scales (7B, 8B, 70B). We achieve impressive performance on a variety of
benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which
evaluate diverse task-solving and reasoning capabilities.Summary
AI-Generated Summary