ChatPaper.aiChatPaper

Potatore O1: Ottimizzazione Fine per l'Armonizzazione della Lunghezza per il Potatura del Ragionamento Simile a O1

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

January 22, 2025
Autori: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI

Abstract

Recentemente, i modelli di ragionamento a lungo pensiero, come l'O1 di OpenAI, adottano processi di ragionamento estesi simili a come gli esseri umani riflettono su problemi complessi. Questo paradigma di ragionamento migliora significativamente le capacità di risoluzione dei problemi del modello e ha ottenuto risultati promettenti. Tuttavia, il processo di ragionamento a lungo pensiero porta a un notevole aumento del tempo di inferenza. Una sfida urgente è ridurre il sovraccarico di inferenza dei modelli di ragionamento a lungo pensiero garantendo al contempo l'accuratezza. In questo articolo, dimostriamo sperimentalmente che i modelli di ragionamento a lungo pensiero faticano a allocare in modo efficace i budget di token in base alla difficoltà del problema e alle ridondanze di ragionamento. Per affrontare questo problema, proponiamo il Fine-Tuning dell'Armonizzazione della Lunghezza (O1-Pruner), con l'obiettivo di minimizzare il sovraccarico di ragionamento mantenendo l'accuratezza. Questo efficace metodo di fine-tuning stima prima le prestazioni di base del LLM attraverso il pre-campionamento e poi utilizza il fine-tuning in stile RL per incoraggiare il modello a generare processi di ragionamento più brevi sotto vincoli di accuratezza. Ciò consente al modello di ottenere un ragionamento efficiente con una minore ridondanza mantenendo l'accuratezza. Gli esperimenti su vari benchmark di ragionamento matematico mostrano che O1-Pruner non solo riduce significativamente il sovraccarico di inferenza, ma raggiunge anche una maggiore accuratezza, offrendo una soluzione innovativa e promettente a questa sfida. Il nostro codice sarà presto disponibile su https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended reasoning processes similar to how humans ponder over complex problems. This reasoning paradigm significantly enhances the model's problem-solving abilities and has achieved promising results. However, long-thought reasoning process leads to a substantial increase in inference time. A pressing challenge is reducing the inference overhead of long-thought LLMs while ensuring accuracy. In this paper, we experimentally demonstrate that long-thought reasoning models struggle to effectively allocate token budgets based on problem difficulty and reasoning redundancies. To address this, we propose Length-Harmonizing Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while maintaining accuracy. This effective fine-tuning method first estimates the LLM's baseline performance through pre-sampling and then uses RL-style fine-tuning to encourage the model to generate shorter reasoning processes under accuracy constraints. This allows the model to achieve efficient reasoning with lower redundancy while maintaining accuracy. Experiments on various mathematical reasoning benchmarks show that O1-Pruner not only significantly reduces inference overhead but also achieves higher accuracy, providing a novel and promising solution to this challenge. Our code is coming soon at https://github.com/StarDewXXX/O1-Pruner

Summary

AI-Generated Summary

PDF282January 23, 2025