Apprentissage d'un raisonnement parallèle adaptatif avec des modèles de langage
Learning Adaptive Parallel Reasoning with Language Models
April 21, 2025
Auteurs: Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
cs.AI
Résumé
L'augmentation des calculs lors de l'inférence a considérablement amélioré les capacités de raisonnement des modèles de langage. Cependant, les méthodes existantes présentent des limitations significatives : les approches sérialisées de type chaîne de pensée produisent des sorties excessivement longues, entraînant une latence accrue et l'épuisement des fenêtres de contexte, tandis que les méthodes parallèles telles que l'auto-cohérence souffrent d'une coordination insuffisante, conduisant à des calculs redondants et à des gains de performance limités. Pour remédier à ces lacunes, nous proposons le Raisonnement Parallèle Adaptatif (APR), un nouveau cadre de raisonnement qui permet aux modèles de langage d'orchestrer à la fois des calculs sérialisés et parallèles de bout en bout. APR généralise les méthodes de raisonnement existantes en permettant une inférence multi-threadée adaptative grâce aux opérations spawn() et join(). Une innovation clé est notre stratégie d'apprentissage par renforcement de bout en bout, optimisant à la fois les threads d'inférence parents et enfants pour améliorer le taux de réussite des tâches sans nécessiter de structures de raisonnement prédéfinies. Les expériences sur la tâche de raisonnement Countdown démontrent les avantages significatifs d'APR : (1) une performance supérieure dans la même fenêtre de contexte (83,4 % contre 60,0 % à 4k de contexte) ; (2) une meilleure scalabilité avec l'augmentation des calculs (80,1 % contre 66,6 % à 20k tokens au total) ; (3) une précision améliorée à latence équivalente (75,2 % contre 57,3 % à environ 5 000 ms). APR représente une étape vers la capacité des modèles de langage à optimiser de manière autonome leurs processus de raisonnement grâce à l'allocation adaptative des calculs.
English
Scaling inference-time computation has substantially improved the reasoning
capabilities of language models. However, existing methods have significant
limitations: serialized chain-of-thought approaches generate overly long
outputs, leading to increased latency and exhausted context windows, while
parallel methods such as self-consistency suffer from insufficient
coordination, resulting in redundant computations and limited performance
gains. To address these shortcomings, we propose Adaptive Parallel Reasoning
(APR), a novel reasoning framework that enables language models to orchestrate
both serialized and parallel computations end-to-end. APR generalizes existing
reasoning methods by enabling adaptive multi-threaded inference using spawn()
and join() operations. A key innovation is our end-to-end reinforcement
learning strategy, optimizing both parent and child inference threads to
enhance task success rate without requiring predefined reasoning structures.
Experiments on the Countdown reasoning task demonstrate significant benefits of
APR: (1) higher performance within the same context window (83.4% vs. 60.0% at
4k context); (2) superior scalability with increased computation (80.1% vs.
66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2%
vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling
language models to autonomously optimize their reasoning processes through
adaptive allocation of computation.Summary
AI-Generated Summary