L'art d'optimiser la puissance de calcul lors des tests pour les grands modèles de langage
The Art of Scaling Test-Time Compute for Large Language Models
December 1, 2025
papers.authors: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
papers.abstract
L'ajustement à l'inférence (TTS) – l'allocation dynamique de la puissance de calcul pendant l'inférence – est une voie prometteuse pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, une comparaison systématique des stratégies TTS bien connues dans des conditions identiques fait défaut, et l'influence du type de modèle et de la difficulté du problème sur les performances reste floue. Pour combler ces lacunes, nous menons la première étude à grande échelle sur le TTS, couvrant plus de trente milliards de tokens générés à l'aide de huit LLM open-source (de 7B à 235B paramètres) et sur quatre ensembles de données de raisonnement. Nous observons trois tendances constantes : (1) aucune stratégie TTS unique ne domine universellement ; (2) les modèles de raisonnement présentent des profils distincts de qualité de trace en fonction de la difficulté du problème et de la longueur de la trace, formant des catégories d'horizon court et d'horizon long ; et (3) pour un type de modèle donné, la performance TTS optimale augmente de manière monotone avec le budget de calcul. Sur la base de ces observations, nous proposons une méthode pratique pour sélectionner la meilleure stratégie TTS, en tenant compte de la difficulté du problème, du type de modèle et du budget de calcul, fournissant ainsi un guide pratique pour une mise à l'échelle efficace à l'inférence.
English
Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.