Potatore O1: Ottimizzazione Fine per l'Armonizzazione della Lunghezza per il Potatura del Ragionamento Simile a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
January 22, 2025
Autori: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI
Abstract
Recentemente, i modelli di ragionamento a lungo pensiero, come l'O1 di OpenAI, adottano processi di ragionamento estesi simili a come gli esseri umani riflettono su problemi complessi. Questo paradigma di ragionamento migliora significativamente le capacità di risoluzione dei problemi del modello e ha ottenuto risultati promettenti. Tuttavia, il processo di ragionamento a lungo pensiero porta a un notevole aumento del tempo di inferenza. Una sfida urgente è ridurre il sovraccarico di inferenza dei modelli di ragionamento a lungo pensiero garantendo al contempo l'accuratezza. In questo articolo, dimostriamo sperimentalmente che i modelli di ragionamento a lungo pensiero faticano a allocare in modo efficace i budget di token in base alla difficoltà del problema e alle ridondanze di ragionamento. Per affrontare questo problema, proponiamo il Fine-Tuning dell'Armonizzazione della Lunghezza (O1-Pruner), con l'obiettivo di minimizzare il sovraccarico di ragionamento mantenendo l'accuratezza. Questo efficace metodo di fine-tuning stima prima le prestazioni di base del LLM attraverso il pre-campionamento e poi utilizza il fine-tuning in stile RL per incoraggiare il modello a generare processi di ragionamento più brevi sotto vincoli di accuratezza. Ciò consente al modello di ottenere un ragionamento efficiente con una minore ridondanza mantenendo l'accuratezza. Gli esperimenti su vari benchmark di ragionamento matematico mostrano che O1-Pruner non solo riduce significativamente il sovraccarico di inferenza, ma raggiunge anche una maggiore accuratezza, offrendo una soluzione innovativa e promettente a questa sfida. Il nostro codice sarà presto disponibile su https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended
reasoning processes similar to how humans ponder over complex problems. This
reasoning paradigm significantly enhances the model's problem-solving abilities
and has achieved promising results. However, long-thought reasoning process
leads to a substantial increase in inference time. A pressing challenge is
reducing the inference overhead of long-thought LLMs while ensuring accuracy.
In this paper, we experimentally demonstrate that long-thought reasoning models
struggle to effectively allocate token budgets based on problem difficulty and
reasoning redundancies. To address this, we propose Length-Harmonizing
Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while
maintaining accuracy. This effective fine-tuning method first estimates the
LLM's baseline performance through pre-sampling and then uses RL-style
fine-tuning to encourage the model to generate shorter reasoning processes
under accuracy constraints. This allows the model to achieve efficient
reasoning with lower redundancy while maintaining accuracy. Experiments on
various mathematical reasoning benchmarks show that O1-Pruner not only
significantly reduces inference overhead but also achieves higher accuracy,
providing a novel and promising solution to this challenge. Our code is coming
soon at https://github.com/StarDewXXX/O1-PrunerSummary
AI-Generated Summary