LLMs verbessern LLMs: Agentische Entdeckung für Testzeit-Skalierung

Zusammenfassung

Testzeit-Skalierung (TTS) hat sich zu einem effektiven Ansatz zur Verbesserung der Leistung großer Sprachmodelle entwickelt, indem während der Inferenz zusätzliche Rechenleistung zugewiesen wird. Allerdings sind bestehende TTS-Strategien weitgehend handgefertigt: Forscher entwerfen manuell Denkmuster und stimmen Heuristiken intuitiv ab, wodurch ein Großteil des Raums der Rechenzuweisung unerforscht bleibt. Wir schlagen ein umgebungsgetriebenes Framework, AutoTTS, vor, das ändert, was Forscher entwerfen: von einzelnen TTS-Heuristiken zu Umgebungen, in denen TTS-Strategien automatisch entdeckt werden können. Der Schlüssel zu AutoTTS liegt im Aufbau der Umgebung: Die Entdeckungsumgebung muss den Kontrollraum handhabbar machen und kostengünstiges, häufiges Feedback für die TTS-Suche bereitstellen. Als konkrete Instanziierung formulieren wir Breiten-Tiefen-TTS als Controller-Synthese über vorab gesammelte Reasoning-Trajektorien und Sondierungssignale, wobei Controller entscheiden, wann verzweigt, fortgesetzt, sondiert, beschnitten oder gestoppt wird, und ohne wiederholte LLM-Aufrufe kostengünstig evaluiert werden können. Wir führen weiterhin eine Beta-Parametrisierung ein, um die Suche handhabbar zu machen, sowie detailliertes Ausführungs-Trace-Feedback, um die Entdeckungseffizienz zu verbessern, indem es dem Agenten hilft zu diagnostizieren, warum ein TTS-Programm fehlschlägt. Experimente mit Benchmarks zum mathematischen Denken zeigen, dass die entdeckten Strategien den Gesamtkompromiss zwischen Genauigkeit und Kosten im Vergleich zu starken manuell entworfenen Baselines verbessern. Die entdeckten Strategien verallgemeinern sich auf zurückgehaltene Benchmarks und Modellskalen, während die gesamte Entdeckung nur 39,9 $ und 160 Minuten kostet. Unsere Daten und unser Code werden unter https://github.com/zhengkid/AutoTTS als Open Source verfügbar sein.

English

Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.