Aprendizaje de Razonamiento Paralelo Adaptativo con Modelos de Lenguaje

Resumen

El escalado del cómputo en tiempo de inferencia ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje. Sin embargo, los métodos existentes presentan limitaciones significativas: los enfoques serializados de cadena de pensamiento generan salidas excesivamente largas, lo que aumenta la latencia y agota las ventanas de contexto, mientras que los métodos paralelos, como la autoconsistencia, sufren de una coordinación insuficiente, lo que resulta en cómputos redundantes y ganancias de rendimiento limitadas. Para abordar estas deficiencias, proponemos Razonamiento Paralelo Adaptativo (APR, por sus siglas en inglés), un marco de razonamiento novedoso que permite a los modelos de lenguaje orquestar tanto cómputos serializados como paralelos de extremo a extremo. APR generaliza los métodos de razonamiento existentes al permitir inferencia multi-hilo adaptativa mediante operaciones de spawn() y join(). Una innovación clave es nuestra estrategia de aprendizaje por refuerzo de extremo a extremo, que optimiza tanto los hilos de inferencia principales como los secundarios para mejorar la tasa de éxito en las tareas sin requerir estructuras de razonamiento predefinidas. Los experimentos en la tarea de razonamiento Countdown demuestran los beneficios significativos de APR: (1) mayor rendimiento dentro de la misma ventana de contexto (83.4% vs. 60.0% en 4k de contexto); (2) escalabilidad superior con un aumento en el cómputo (80.1% vs. 66.6% en 20k tokens totales); (3) mayor precisión con latencia equivalente (75.2% vs. 57.3% en aproximadamente 5,000ms). APR representa un paso hacia la habilitación de modelos de lenguaje para optimizar autónomamente sus procesos de razonamiento mediante la asignación adaptativa de cómputo.

English

Scaling inference-time computation has substantially improved the reasoning capabilities of language models. However, existing methods have significant limitations: serialized chain-of-thought approaches generate overly long outputs, leading to increased latency and exhausted context windows, while parallel methods such as self-consistency suffer from insufficient coordination, resulting in redundant computations and limited performance gains. To address these shortcomings, we propose Adaptive Parallel Reasoning (APR), a novel reasoning framework that enables language models to orchestrate both serialized and parallel computations end-to-end. APR generalizes existing reasoning methods by enabling adaptive multi-threaded inference using spawn() and join() operations. A key innovation is our end-to-end reinforcement learning strategy, optimizing both parent and child inference threads to enhance task success rate without requiring predefined reasoning structures. Experiments on the Countdown reasoning task demonstrate significant benefits of APR: (1) higher performance within the same context window (83.4% vs. 60.0% at 4k context); (2) superior scalability with increased computation (80.1% vs. 66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2% vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling language models to autonomously optimize their reasoning processes through adaptive allocation of computation.

Aprendizaje de Razonamiento Paralelo Adaptativo con Modelos de Lenguaje

Learning Adaptive Parallel Reasoning with Language Models

Resumen

Support