O1-Pruner: Ajuste Fino de Armonización de Longitud para la Poda de Razonamiento Similar a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
January 22, 2025
Autores: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI
Resumen
Recientemente, los LLMs de razonamiento prolongado, como el O1 de OpenAI, adoptan procesos de razonamiento extendidos similares a cómo los humanos reflexionan sobre problemas complejos. Este paradigma de razonamiento mejora significativamente las habilidades del modelo para resolver problemas y ha logrado resultados prometedores. Sin embargo, el proceso de razonamiento prolongado conlleva un aumento sustancial en el tiempo de inferencia. Un desafío apremiante es reducir la sobrecarga de inferencia de los LLMs de razonamiento prolongado mientras se garantiza la precisión. En este documento, demostramos experimentalmente que los modelos de razonamiento prolongado tienen dificultades para asignar eficazmente presupuestos de tokens basados en la dificultad del problema y las redundancias de razonamiento. Para abordar esto, proponemos el Ajuste Fino de Armonización de Longitud (O1-Pruner), con el objetivo de minimizar la sobrecarga de razonamiento manteniendo la precisión. Este método efectivo de ajuste fino primero estima el rendimiento base del LLM mediante pre-muestreo y luego utiliza un ajuste fino de estilo RL para alentar al modelo a generar procesos de razonamiento más cortos bajo restricciones de precisión. Esto permite que el modelo logre un razonamiento eficiente con una menor redundancia manteniendo la precisión. Experimentos en varios bancos de pruebas de razonamiento matemático muestran que O1-Pruner no solo reduce significativamente la sobrecarga de inferencia, sino que también logra una mayor precisión, ofreciendo una solución novedosa y prometedora a este desafío. Nuestro código estará disponible próximamente en https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended
reasoning processes similar to how humans ponder over complex problems. This
reasoning paradigm significantly enhances the model's problem-solving abilities
and has achieved promising results. However, long-thought reasoning process
leads to a substantial increase in inference time. A pressing challenge is
reducing the inference overhead of long-thought LLMs while ensuring accuracy.
In this paper, we experimentally demonstrate that long-thought reasoning models
struggle to effectively allocate token budgets based on problem difficulty and
reasoning redundancies. To address this, we propose Length-Harmonizing
Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while
maintaining accuracy. This effective fine-tuning method first estimates the
LLM's baseline performance through pre-sampling and then uses RL-style
fine-tuning to encourage the model to generate shorter reasoning processes
under accuracy constraints. This allows the model to achieve efficient
reasoning with lower redundancy while maintaining accuracy. Experiments on
various mathematical reasoning benchmarks show that O1-Pruner not only
significantly reduces inference overhead but also achieves higher accuracy,
providing a novel and promising solution to this challenge. Our code is coming
soon at https://github.com/StarDewXXX/O1-PrunerSummary
AI-Generated Summary