Planification et Budget : Mise à l'échelle efficace et efficiente des tests sur le raisonnement des grands modèles de langage
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
May 22, 2025
Auteurs: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont obtenu des succès remarquables dans des tâches de raisonnement complexe, mais leur inférence reste inefficace sur le plan computationnel. Nous observons un mode d'échec commun à de nombreux LLMs répandus, le *surraisonnement*, où les modèles génèrent des traces de raisonnement verbeuses et tangentielles même pour des requêtes simples. Des travaux récents ont tenté de remédier à cela en imposant des budgets fixes de tokens, mais cela peut conduire à un *sous-raisonnement*, en particulier sur des problèmes plus difficiles. Par une analyse empirique, nous identifions que cette inefficacité découle souvent de stratégies de résolution de problèmes peu claires. Pour formaliser cela, nous développons un modèle théorique, BBAM (Bayesian Budget Allocation Model), qui modélise le raisonnement comme une séquence de sous-questions avec des incertitudes variables, et introduisons la métrique E^3 pour capturer le compromis entre la justesse et l'efficacité computationnelle. En nous appuyant sur les résultats théoriques de BBAM, nous proposons Plan-and-Budget, un framework agnostique au modèle et applicable au moment du test, qui décompose les requêtes complexes en sous-questions et alloue des budgets de tokens en fonction de la complexité estimée grâce à une planification adaptative. Plan-and-Budget améliore l'efficacité du raisonnement sur une gamme de tâches et de modèles, obtenant des gains de précision allant jusqu'à +70 %, une réduction de tokens de -39 % et une amélioration de +187,5 % sur la métrique E^3. Fait notable, il permet à un modèle plus petit (DS-Qwen-32B) d'égaler l'efficacité d'un modèle plus grand (DS-LLaMA-70B), démontrant ainsi la capacité de Plan-and-Budget à combler les écarts de performance sans réentraînement. Notre code est disponible à l'adresse anonymous.4open.science/r/P-and-B-6513/.
English
Large Language Models (LLMs) have achieved remarkable success in complex
reasoning tasks, but their inference remains computationally inefficient. We
observe a common failure mode in many prevalent LLMs, overthinking, where
models generate verbose and tangential reasoning traces even for simple
queries. Recent works have tried to mitigate this by enforcing fixed token
budgets, however, this can lead to underthinking, especially on harder
problems. Through empirical analysis, we identify that this inefficiency often
stems from unclear problem-solving strategies. To formalize this, we develop a
theoretical model, BBAM (Bayesian Budget Allocation Model), which models
reasoning as a sequence of sub-questions with varying uncertainty, and
introduce the E^3 metric to capture the trade-off between correctness and
computation efficiency. Building on theoretical results from BBAM, we propose
Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex
queries into sub-questions and allocates token budgets based on estimated
complexity using adaptive scheduling. Plan-and-Budget improves reasoning
efficiency across a range of tasks and models, achieving up to +70% accuracy
gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it
elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger
model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close
performance gaps without retraining. Our code is available at
anonymous.4open.science/r/P-and-B-6513/.