Apprentissage d'un raisonnement parallèle adaptatif avec des modèles de langage

papers.abstract

L'augmentation des calculs lors de l'inférence a considérablement amélioré les capacités de raisonnement des modèles de langage. Cependant, les méthodes existantes présentent des limitations significatives : les approches sérialisées de type chaîne de pensée produisent des sorties excessivement longues, entraînant une latence accrue et l'épuisement des fenêtres de contexte, tandis que les méthodes parallèles telles que l'auto-cohérence souffrent d'une coordination insuffisante, conduisant à des calculs redondants et à des gains de performance limités. Pour remédier à ces lacunes, nous proposons le Raisonnement Parallèle Adaptatif (APR), un nouveau cadre de raisonnement qui permet aux modèles de langage d'orchestrer à la fois des calculs sérialisés et parallèles de bout en bout. APR généralise les méthodes de raisonnement existantes en permettant une inférence multi-threadée adaptative grâce aux opérations spawn() et join(). Une innovation clé est notre stratégie d'apprentissage par renforcement de bout en bout, optimisant à la fois les threads d'inférence parents et enfants pour améliorer le taux de réussite des tâches sans nécessiter de structures de raisonnement prédéfinies. Les expériences sur la tâche de raisonnement Countdown démontrent les avantages significatifs d'APR : (1) une performance supérieure dans la même fenêtre de contexte (83,4 % contre 60,0 % à 4k de contexte) ; (2) une meilleure scalabilité avec l'augmentation des calculs (80,1 % contre 66,6 % à 20k tokens au total) ; (3) une précision améliorée à latence équivalente (75,2 % contre 57,3 % à environ 5 000 ms). APR représente une étape vers la capacité des modèles de langage à optimiser de manière autonome leurs processus de raisonnement grâce à l'allocation adaptative des calculs.

English

Scaling inference-time computation has substantially improved the reasoning capabilities of language models. However, existing methods have significant limitations: serialized chain-of-thought approaches generate overly long outputs, leading to increased latency and exhausted context windows, while parallel methods such as self-consistency suffer from insufficient coordination, resulting in redundant computations and limited performance gains. To address these shortcomings, we propose Adaptive Parallel Reasoning (APR), a novel reasoning framework that enables language models to orchestrate both serialized and parallel computations end-to-end. APR generalizes existing reasoning methods by enabling adaptive multi-threaded inference using spawn() and join() operations. A key innovation is our end-to-end reinforcement learning strategy, optimizing both parent and child inference threads to enhance task success rate without requiring predefined reasoning structures. Experiments on the Countdown reasoning task demonstrate significant benefits of APR: (1) higher performance within the same context window (83.4% vs. 60.0% at 4k context); (2) superior scalability with increased computation (80.1% vs. 66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2% vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling language models to autonomously optimize their reasoning processes through adaptive allocation of computation.

Apprentissage d'un raisonnement parallèle adaptatif avec des modèles de langage

Learning Adaptive Parallel Reasoning with Language Models

papers.abstract

Support