S*: Testzeit-Skalierung für Codegenerierung

papers.abstract

Die Erhöhung der Rechenleistung zur Testzeit für LLMs zeigt vielversprechende Ergebnisse in verschiedenen Bereichen, bleibt jedoch in der Codegenerierung trotz umfangreicher Studien in der Mathematik weitgehend unerforscht. In diesem Artikel stellen wir S* vor, das erste hybride Framework zur Skalierung zur Testzeit, das die Abdeckung und Auswahlgenauigkeit von generiertem Code erheblich verbessert. S* erweitert das bestehende Paradigma der parallelen Skalierung durch sequenzielle Skalierung, um die Leistungsgrenzen zu erweitern. Es nutzt zudem einen neuartigen Auswahlmechanismus, der adaptiv unterscheidende Eingaben für paarweise Vergleiche generiert, kombiniert mit ausführungsbasierten Informationen, um korrekte Lösungen robust zu identifizieren. Wir evaluieren 12 Large Language Models und Large Reasoning Models und zeigen: (1) S* verbessert kontinuierlich die Leistung über Modellfamilien und -größen hinweg und ermöglicht es einem 3B-Modell, GPT-4o-mini zu übertreffen; (2) S* ermöglicht es Nicht-Reasoning-Modellen, Reasoning-Modelle zu übertreffen – GPT-4o-mini mit S* übertrifft o1-preview um 3,7 % auf LiveCodeBench; (3) S* steigert weiterhin die Leistung von state-of-the-art Reasoning-Modellen – DeepSeek-R1-Distill-Qwen-32B mit S* erreicht 85,7 % auf LiveCodeBench und nähert sich o1 (high) mit 88,5 % an. Der Code wird unter https://github.com/NovaSky-AI/SkyThought verfügbar sein.

English

Increasing test-time compute for LLMs shows promise across domains but remains underexplored in code generation, despite extensive study in math. In this paper, we propose S*, the first hybrid test-time scaling framework that substantially improves the coverage and selection accuracy of generated code. S* extends the existing parallel scaling paradigm with sequential scaling to push performance boundaries. It further leverages a novel selection mechanism that adaptively generates distinguishing inputs for pairwise comparison, combined with execution-grounded information to robustly identify correct solutions. We evaluate across 12 Large Language Models and Large Reasoning Model and show: (1) S* consistently improves performance across model families and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables non-reasoning models to surpass reasoning models - GPT-4o-mini with S* outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S* achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be available under https://github.com/NovaSky-AI/SkyThought.

S*: Testzeit-Skalierung für Codegenerierung

S*: Test Time Scaling for Code Generation

papers.abstract

Support