O1-Pruner: Ajuste Fino de Harmonização de Comprimento para Poda de Raciocínio semelhante a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
January 22, 2025
Autores: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI
Resumo
Recentemente, modelos de linguagem de longo pensamento, como o O1 da OpenAI, adotam processos de raciocínio estendidos semelhantes à forma como os humanos ponderam sobre problemas complexos. Esse paradigma de raciocínio melhora significativamente as habilidades de resolução de problemas do modelo e tem alcançado resultados promissores. No entanto, o processo de raciocínio de longo pensamento leva a um aumento substancial no tempo de inferência. Um desafio urgente é reduzir o overhead de inferência dos modelos de linguagem de longo pensamento, garantindo ao mesmo tempo a precisão. Neste artigo, demonstramos experimentalmente que os modelos de raciocínio de longo pensamento têm dificuldade em alocar efetivamente orçamentos de tokens com base na dificuldade do problema e nas redundâncias de raciocínio. Para lidar com isso, propomos o Ajuste Fino de Harmonização de Comprimento (O1-Pruner), com o objetivo de minimizar o overhead de raciocínio mantendo a precisão. Este método eficaz de ajuste fino primeiro estima o desempenho de base do modelo de linguagem de longo pensamento por meio de pré-amostragem e, em seguida, utiliza o ajuste fino no estilo RL para incentivar o modelo a gerar processos de raciocínio mais curtos sob restrições de precisão. Isso permite que o modelo alcance um raciocínio eficiente com menor redundância, mantendo a precisão. Experimentos em diversos benchmarks de raciocínio matemático mostram que o O1-Pruner não apenas reduz significativamente o overhead de inferência, mas também alcança maior precisão, oferecendo uma solução inovadora e promissora para esse desafio. Nosso código estará disponível em breve em https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended
reasoning processes similar to how humans ponder over complex problems. This
reasoning paradigm significantly enhances the model's problem-solving abilities
and has achieved promising results. However, long-thought reasoning process
leads to a substantial increase in inference time. A pressing challenge is
reducing the inference overhead of long-thought LLMs while ensuring accuracy.
In this paper, we experimentally demonstrate that long-thought reasoning models
struggle to effectively allocate token budgets based on problem difficulty and
reasoning redundancies. To address this, we propose Length-Harmonizing
Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while
maintaining accuracy. This effective fine-tuning method first estimates the
LLM's baseline performance through pre-sampling and then uses RL-style
fine-tuning to encourage the model to generate shorter reasoning processes
under accuracy constraints. This allows the model to achieve efficient
reasoning with lower redundancy while maintaining accuracy. Experiments on
various mathematical reasoning benchmarks show that O1-Pruner not only
significantly reduces inference overhead but also achieves higher accuracy,
providing a novel and promising solution to this challenge. Our code is coming
soon at https://github.com/StarDewXXX/O1-PrunerSummary
AI-Generated Summary