S* : Mise à l'échelle au moment du test pour la génération de code

papers.abstract

L'augmentation du calcul au moment des tests pour les LLM montre des résultats prometteurs dans divers domaines, mais reste peu explorée dans la génération de code, malgré des études approfondies en mathématiques. Dans cet article, nous proposons S*, le premier cadre d'échelle hybride au moment des tests qui améliore considérablement la couverture et la précision de sélection du code généré. S* étend le paradigme d'échelle parallèle existant avec une échelle séquentielle pour repousser les limites de performance. Il exploite en outre un mécanisme de sélection novateur qui génère de manière adaptative des entrées distinctives pour une comparaison par paires, combiné à des informations basées sur l'exécution pour identifier de manière robuste les solutions correctes. Nous évaluons 12 modèles de langage de grande taille (LLM) et un modèle de raisonnement de grande taille (LRM) et montrons : (1) S* améliore systématiquement les performances à travers les familles de modèles et leurs tailles, permettant à un modèle de 3B de surpasser GPT-4o-mini ; (2) S* permet aux modèles non spécialisés en raisonnement de surpasser les modèles de raisonnement - GPT-4o-mini avec S* surpasse o1-preview de 3,7 % sur LiveCodeBench ; (3) S* renforce encore les modèles de raisonnement de pointe - DeepSeek-R1-Distill-Qwen-32B avec S* atteint 85,7 % sur LiveCodeBench, approchant o1 (haut) à 88,5 %. Le code sera disponible sous https://github.com/NovaSky-AI/SkyThought.

English

Increasing test-time compute for LLMs shows promise across domains but remains underexplored in code generation, despite extensive study in math. In this paper, we propose S*, the first hybrid test-time scaling framework that substantially improves the coverage and selection accuracy of generated code. S* extends the existing parallel scaling paradigm with sequential scaling to push performance boundaries. It further leverages a novel selection mechanism that adaptively generates distinguishing inputs for pairwise comparison, combined with execution-grounded information to robustly identify correct solutions. We evaluate across 12 Large Language Models and Large Reasoning Model and show: (1) S* consistently improves performance across model families and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables non-reasoning models to surpass reasoning models - GPT-4o-mini with S* outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S* achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be available under https://github.com/NovaSky-AI/SkyThought.

S* : Mise à l'échelle au moment du test pour la génération de code

S*: Test Time Scaling for Code Generation

papers.abstract

Support