ChatPaper.aiChatPaper

BOLT: Bootstrap Long Chain-of-Thought em Modelos de Linguagem sem Destilação

BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

February 6, 2025
Autores: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong
cs.AI

Resumo

Grandes modelos de linguagem (LLMs), como o1 da OpenAI, têm demonstrado notáveis capacidades de raciocínio. O o1 gera uma longa cadeia de pensamento (LongCoT) antes de responder a uma pergunta. O LongCoT permite que os LLMs analisem problemas, elaborem planos, reflitam e retrocedam de forma eficaz. Essas ações capacitam os LLMs a resolver problemas complexos. Após o lançamento do o1, muitas equipes tentaram replicar seu LongCoT e capacidades de raciocínio. Em termos de métodos, eles dependem principalmente da destilação de conhecimento com dados de modelos existentes com capacidades de LongCoT (por exemplo, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), deixando significativas incertezas sobre o desenvolvimento sistemático de tais habilidades de raciocínio. Em relação aos domínios de dados, esses trabalhos se concentram estreitamente em matemática, enquanto alguns poucos incluem programação, limitando sua generalizabilidade. Este artigo apresenta uma abordagem inovadora para capacitar a capacidade de LongCoT dos LLMs sem destilação de modelos semelhantes ao o1 ou anotações humanas caras, onde nós inicializamos o LongCoT (BOLT) a partir de um modelo instrutivo padrão. BOLT envolve três etapas: 1) inicialização de dados de LongCoT com aprendizado em contexto em um modelo instrutivo padrão; 2) ajuste fino supervisionado de LongCoT; 3) treinamento online para refinar ainda mais as capacidades de LongCoT. No BOLT, apenas alguns exemplos em contexto precisam ser construídos durante a etapa de inicialização; em nossos experimentos, criamos 10 exemplos, demonstrando a viabilidade dessa abordagem. Utilizamos o Llama-3.1-70B-Instruct para inicializar o LongCoT e aplicamos nosso método a várias escalas de modelos (7B, 8B, 70B). Alcançamos um desempenho impressionante em uma variedade de benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, que avaliam diversas capacidades de resolução de tarefas e raciocínio.
English
Large language models (LLMs), such as o1 from OpenAI, have demonstrated remarkable reasoning capabilities. o1 generates a long chain-of-thought (LongCoT) before answering a question. LongCoT allows LLMs to analyze problems, devise plans, reflect, and backtrack effectively. These actions empower LLM to solve complex problems. After the release of o1, many teams have attempted to replicate its LongCoT and reasoning capabilities. In terms of methods, they primarily rely on knowledge distillation with data from existing models with LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving significant uncertainties on systematically developing such reasoning abilities. In terms of data domains, these works focus narrowly on math while a few others include coding, limiting their generalizability. This paper introduces a novel approach to enable LLM's LongCoT capacity without distillation from o1-like models or expensive human annotations, where we bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three stages: 1) LongCoT data bootstrapping with in-context learning on a standard instruct model; 2) LongCoT supervised finetuning; 3) online training to further refine LongCoT capacities. In BOLT, only a few in-context examples need to be constructed during the bootstrapping stage; in our experiments, we created 10 examples, demonstrating the feasibility of this approach. We use Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various model scales (7B, 8B, 70B). We achieve impressive performance on a variety of benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which evaluate diverse task-solving and reasoning capabilities.

Summary

AI-Generated Summary

PDF242February 7, 2025