Amélioration des LLMs par les LLMs : Découverte agentique pour la mise à l'échelle au moment du test

Résumé

La mise à l'échelle au moment du test (TTS) est devenue une approche efficace pour améliorer les performances des modèles de langage de grande taille en allouant des ressources de calcul supplémentaires lors de l'inférence. Cependant, les stratégies TTS existantes sont largement conçues manuellement : les chercheurs conçoivent à la main des schémas de raisonnement et ajustent des heuristiques par intuition, laissant une grande partie de l'espace d'allocation des calculs inexplorée. Nous proposons un cadre piloté par l'environnement, AutoTTS, qui modifie ce que les chercheurs conçoivent : passant d'heuristiques TTS individuelles à des environnements où les stratégies TTS peuvent être découvertes automatiquement. La clé d'AutoTTS réside dans la construction de l'environnement : l'environnement de découverte doit rendre l'espace de contrôle traitable et fournir un retour d'information peu coûteux et fréquent pour la recherche de stratégies TTS. En tant qu'instanciation concrète, nous formulons le TTS largeur-profondeur comme une synthèse de contrôleurs sur des trajectoires de raisonnement pré-collectées et des signaux de sondage, où les contrôleurs décident quand bifurquer, continuer, sonder, élaguer ou s'arrêter, et peuvent être évalués à moindre coût sans appels répétés au LLM. Nous introduisons en outre une paramétrisation bêta pour rendre la recherche traitable et un retour sur la trace d'exécution à grain fin pour améliorer l'efficacité de la découverte en aidant l'agent à diagnostiquer pourquoi un programme TTS échoue. Les expériences sur des benchmarks de raisonnement mathématique montrent que les stratégies découvertes améliorent le compromis global précision-coût par rapport à des références fortes conçues manuellement. Les stratégies découvertes se généralisent à des benchmarks réservés et à des échelles de modèles, tandis que l'ensemble de la découverte ne coûte que 39,9 $ et 160 minutes. Nos données et notre code seront mis en open source à l'adresse https://github.com/zhengkid/AutoTTS.

English

Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.