ChatPaper.aiChatPaper

O1-Pruner: Тонкая настройка для согласования длины для обрезки рассуждений, подобных O1

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

January 22, 2025
Авторы: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI

Аннотация

Недавно долгие рассуждения LLM, такие как O1 от OpenAI, принимают расширенные процессы рассуждений, аналогичные тому, как люди обдумывают сложные проблемы. Этот парадигма рассуждений значительно улучшает способности модели в решении проблем и показывает многообещающие результаты. Однако долгий процесс рассуждений приводит к существенному увеличению времени вывода. Одной из насущных задач является снижение накладных расходов на вывод у LLM с долгими рассуждениями, обеспечивая при этом точность. В данной статье мы экспериментально демонстрируем, что модели с долгими рассуждениями испытывают затруднения в эффективном распределении токенов в зависимости от сложности проблемы и избыточности рассуждений. Для решения этой проблемы мы предлагаем метод тонкой настройки длины (O1-Pruner), нацеленный на минимизацию накладных расходов на рассуждения при сохранении точности. Этот эффективный метод тонкой настройки сначала оценивает базовую производительность LLM через предварительную выборку, а затем использует тонкую настройку в стиле RL для стимулирования модели к созданию более коротких процессов рассуждения при ограничениях точности. Это позволяет модели достигать эффективных рассуждений с меньшей избыточностью при сохранении точности. Эксперименты на различных бенчмарках математических рассуждений показывают, что O1-Pruner не только значительно снижает накладные расходы на вывод, но также достигает более высокой точности, предлагая новое и многообещающее решение этой проблемы. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended reasoning processes similar to how humans ponder over complex problems. This reasoning paradigm significantly enhances the model's problem-solving abilities and has achieved promising results. However, long-thought reasoning process leads to a substantial increase in inference time. A pressing challenge is reducing the inference overhead of long-thought LLMs while ensuring accuracy. In this paper, we experimentally demonstrate that long-thought reasoning models struggle to effectively allocate token budgets based on problem difficulty and reasoning redundancies. To address this, we propose Length-Harmonizing Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while maintaining accuracy. This effective fine-tuning method first estimates the LLM's baseline performance through pre-sampling and then uses RL-style fine-tuning to encourage the model to generate shorter reasoning processes under accuracy constraints. This allows the model to achieve efficient reasoning with lower redundancy while maintaining accuracy. Experiments on various mathematical reasoning benchmarks show that O1-Pruner not only significantly reduces inference overhead but also achieves higher accuracy, providing a novel and promising solution to this challenge. Our code is coming soon at https://github.com/StarDewXXX/O1-Pruner

Summary

AI-Generated Summary

PDF282January 23, 2025