Aprendizaje de Razonamiento Paralelo Adaptativo con Modelos de Lenguaje
Learning Adaptive Parallel Reasoning with Language Models
April 21, 2025
Autores: Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
cs.AI
Resumen
El escalado del cómputo en tiempo de inferencia ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje. Sin embargo, los métodos existentes presentan limitaciones significativas: los enfoques serializados de cadena de pensamiento generan salidas excesivamente largas, lo que aumenta la latencia y agota las ventanas de contexto, mientras que los métodos paralelos, como la autoconsistencia, sufren de una coordinación insuficiente, lo que resulta en cómputos redundantes y ganancias de rendimiento limitadas. Para abordar estas deficiencias, proponemos Razonamiento Paralelo Adaptativo (APR, por sus siglas en inglés), un marco de razonamiento novedoso que permite a los modelos de lenguaje orquestar tanto cómputos serializados como paralelos de extremo a extremo. APR generaliza los métodos de razonamiento existentes al permitir inferencia multi-hilo adaptativa mediante operaciones de spawn() y join(). Una innovación clave es nuestra estrategia de aprendizaje por refuerzo de extremo a extremo, que optimiza tanto los hilos de inferencia principales como los secundarios para mejorar la tasa de éxito en las tareas sin requerir estructuras de razonamiento predefinidas. Los experimentos en la tarea de razonamiento Countdown demuestran los beneficios significativos de APR: (1) mayor rendimiento dentro de la misma ventana de contexto (83.4% vs. 60.0% en 4k de contexto); (2) escalabilidad superior con un aumento en el cómputo (80.1% vs. 66.6% en 20k tokens totales); (3) mayor precisión con latencia equivalente (75.2% vs. 57.3% en aproximadamente 5,000ms). APR representa un paso hacia la habilitación de modelos de lenguaje para optimizar autónomamente sus procesos de razonamiento mediante la asignación adaptativa de cómputo.
English
Scaling inference-time computation has substantially improved the reasoning
capabilities of language models. However, existing methods have significant
limitations: serialized chain-of-thought approaches generate overly long
outputs, leading to increased latency and exhausted context windows, while
parallel methods such as self-consistency suffer from insufficient
coordination, resulting in redundant computations and limited performance
gains. To address these shortcomings, we propose Adaptive Parallel Reasoning
(APR), a novel reasoning framework that enables language models to orchestrate
both serialized and parallel computations end-to-end. APR generalizes existing
reasoning methods by enabling adaptive multi-threaded inference using spawn()
and join() operations. A key innovation is our end-to-end reinforcement
learning strategy, optimizing both parent and child inference threads to
enhance task success rate without requiring predefined reasoning structures.
Experiments on the Countdown reasoning task demonstrate significant benefits of
APR: (1) higher performance within the same context window (83.4% vs. 60.0% at
4k context); (2) superior scalability with increased computation (80.1% vs.
66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2%
vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling
language models to autonomously optimize their reasoning processes through
adaptive allocation of computation.Summary
AI-Generated Summary