S*: Testtijd Schaling voor Codegeneratie

Samenvatting

Het verhogen van de rekentijd tijdens het testen van LLM's toont belofte in verschillende domeinen, maar blijft onderbelicht in codegeneratie, ondanks uitgebreid onderzoek in wiskunde. In dit artikel stellen we S* voor, het eerste hybride test-time schalingsframework dat de dekking en selectienauwkeurigheid van gegenereerde code aanzienlijk verbetert. S* breidt het bestaande parallelle schalingsparadigma uit met sequentiële schaling om de prestatiegrenzen te verleggen. Het maakt verder gebruik van een nieuw selectiemechanisme dat adaptief onderscheidende invoer genereert voor paarsgewijze vergelijking, gecombineerd met uitvoeringsgebaseerde informatie om correcte oplossingen robuust te identificeren. We evalueren over 12 Large Language Models en Large Reasoning Models en tonen aan: (1) S* verbetert consistent de prestaties over modelfamilies en -groottes, waardoor een 3B-model GPT-4o-mini kan overtreffen; (2) S* stelt niet-redeneermodellen in staat redeneermodellen te overtreffen - GPT-4o-mini met S* presteert 3,7% beter dan o1-preview op LiveCodeBench; (3) S* versterkt verder state-of-the-art redeneermodellen - DeepSeek-R1-Distill-Qwen-32B met S* behaalt 85,7% op LiveCodeBench, wat dicht in de buurt komt van o1 (hoog) op 88,5%. De code zal beschikbaar zijn op https://github.com/NovaSky-AI/SkyThought.

English

Increasing test-time compute for LLMs shows promise across domains but remains underexplored in code generation, despite extensive study in math. In this paper, we propose S*, the first hybrid test-time scaling framework that substantially improves the coverage and selection accuracy of generated code. S* extends the existing parallel scaling paradigm with sequential scaling to push performance boundaries. It further leverages a novel selection mechanism that adaptively generates distinguishing inputs for pairwise comparison, combined with execution-grounded information to robustly identify correct solutions. We evaluate across 12 Large Language Models and Large Reasoning Model and show: (1) S* consistently improves performance across model families and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables non-reasoning models to surpass reasoning models - GPT-4o-mini with S* outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S* achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be available under https://github.com/NovaSky-AI/SkyThought.

S*: Testtijd Schaling voor Codegeneratie

S*: Test Time Scaling for Code Generation

Samenvatting

Support