S*: Testtijd Schaling voor Codegeneratie
S*: Test Time Scaling for Code Generation
February 20, 2025
Auteurs: Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
cs.AI
Samenvatting
Het verhogen van de rekentijd tijdens het testen van LLM's toont belofte in verschillende domeinen, maar blijft onderbelicht in codegeneratie, ondanks uitgebreid onderzoek in wiskunde. In dit artikel stellen we S* voor, het eerste hybride test-time schalingsframework dat de dekking en selectienauwkeurigheid van gegenereerde code aanzienlijk verbetert. S* breidt het bestaande parallelle schalingsparadigma uit met sequentiële schaling om de prestatiegrenzen te verleggen. Het maakt verder gebruik van een nieuw selectiemechanisme dat adaptief onderscheidende invoer genereert voor paarsgewijze vergelijking, gecombineerd met uitvoeringsgebaseerde informatie om correcte oplossingen robuust te identificeren. We evalueren over 12 Large Language Models en Large Reasoning Models en tonen aan: (1) S* verbetert consistent de prestaties over modelfamilies en -groottes, waardoor een 3B-model GPT-4o-mini kan overtreffen; (2) S* stelt niet-redeneermodellen in staat redeneermodellen te overtreffen - GPT-4o-mini met S* presteert 3,7% beter dan o1-preview op LiveCodeBench; (3) S* versterkt verder state-of-the-art redeneermodellen - DeepSeek-R1-Distill-Qwen-32B met S* behaalt 85,7% op LiveCodeBench, wat dicht in de buurt komt van o1 (hoog) op 88,5%. De code zal beschikbaar zijn op https://github.com/NovaSky-AI/SkyThought.
English
Increasing test-time compute for LLMs shows promise across domains but
remains underexplored in code generation, despite extensive study in math. In
this paper, we propose S*, the first hybrid test-time scaling framework that
substantially improves the coverage and selection accuracy of generated code.
S* extends the existing parallel scaling paradigm with sequential scaling to
push performance boundaries. It further leverages a novel selection mechanism
that adaptively generates distinguishing inputs for pairwise comparison,
combined with execution-grounded information to robustly identify correct
solutions. We evaluate across 12 Large Language Models and Large Reasoning
Model and show: (1) S* consistently improves performance across model families
and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables
non-reasoning models to surpass reasoning models - GPT-4o-mini with S*
outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts
state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S*
achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be
available under https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary