Apprendimento del Ragionamento Parallelo Adattivo con Modelli Linguistici

Abstract

Il ridimensionamento del calcolo durante l'inferenza ha migliorato significativamente le capacità di ragionamento dei modelli linguistici. Tuttavia, i metodi esistenti presentano limitazioni importanti: gli approcci serializzati a catena di pensiero generano output eccessivamente lunghi, portando a una maggiore latenza e all'esaurimento delle finestre di contesto, mentre i metodi paralleli come l'autoconsistenza soffrono di una coordinazione insufficiente, risultando in calcoli ridondanti e guadagni di prestazioni limitati. Per affrontare queste carenze, proponiamo il Ragionamento Parallelo Adattivo (APR), un nuovo framework di ragionamento che consente ai modelli linguistici di orchestrare sia calcoli serializzati che paralleli end-to-end. APR generalizza i metodi di ragionamento esistenti abilitando l'inferenza multi-thread adattiva utilizzando operazioni spawn() e join(). Un'innovazione chiave è la nostra strategia di apprendimento per rinforzo end-to-end, che ottimizza sia i thread di inferenza principali che quelli secondari per migliorare il tasso di successo del compito senza richiedere strutture di ragionamento predefinite. Gli esperimenti sul compito di ragionamento Countdown dimostrano i significativi vantaggi di APR: (1) prestazioni superiori all'interno della stessa finestra di contesto (83,4% vs. 60,0% con contesto di 4k); (2) scalabilità superiore con un aumento del calcolo (80,1% vs. 66,6% con 20k token totali); (3) maggiore accuratezza a latenza equivalente (75,2% vs. 57,3% a circa 5.000ms). APR rappresenta un passo verso l'abilitazione dei modelli linguistici a ottimizzare autonomamente i loro processi di ragionamento attraverso l'allocazione adattiva del calcolo.

English

Scaling inference-time computation has substantially improved the reasoning capabilities of language models. However, existing methods have significant limitations: serialized chain-of-thought approaches generate overly long outputs, leading to increased latency and exhausted context windows, while parallel methods such as self-consistency suffer from insufficient coordination, resulting in redundant computations and limited performance gains. To address these shortcomings, we propose Adaptive Parallel Reasoning (APR), a novel reasoning framework that enables language models to orchestrate both serialized and parallel computations end-to-end. APR generalizes existing reasoning methods by enabling adaptive multi-threaded inference using spawn() and join() operations. A key innovation is our end-to-end reinforcement learning strategy, optimizing both parent and child inference threads to enhance task success rate without requiring predefined reasoning structures. Experiments on the Countdown reasoning task demonstrate significant benefits of APR: (1) higher performance within the same context window (83.4% vs. 60.0% at 4k context); (2) superior scalability with increased computation (80.1% vs. 66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2% vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling language models to autonomously optimize their reasoning processes through adaptive allocation of computation.

Apprendimento del Ragionamento Parallelo Adattivo con Modelli Linguistici

Learning Adaptive Parallel Reasoning with Language Models

Abstract

Support