S*: Escalonamento no Tempo de Teste para Geração de Código
S*: Test Time Scaling for Code Generation
February 20, 2025
Autores: Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumo
O aumento do poder computacional durante o teste para LLMs mostra-se promissor em diversos domínios, mas permanece pouco explorado na geração de código, apesar dos extensos estudos em matemática. Neste artigo, propomos S*, o primeiro framework híbrido de escalonamento em tempo de teste que melhora substancialmente a cobertura e a precisão de seleção do código gerado. S* estende o paradigma de escalonamento paralelo existente com escalonamento sequencial para expandir os limites de desempenho. Além disso, ele aproveita um novo mecanismo de seleção que gera entradas diferenciadoras de forma adaptativa para comparação pareada, combinado com informações fundamentadas na execução para identificar robustamente soluções corretas. Avaliamos 12 Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Raciocínio de Grande Escala e mostramos: (1) S* melhora consistentemente o desempenho em diferentes famílias e tamanhos de modelos, permitindo que um modelo de 3B supere o GPT-4o-mini; (2) S* permite que modelos não especializados em raciocínio superem modelos de raciocínio - o GPT-4o-mini com S* supera o o1-preview em 3,7% no LiveCodeBench; (3) S* impulsiona ainda mais os modelos de raciocínio state-of-the-art - o DeepSeek-R1-Distill-Qwen-32B com S* alcança 85,7% no LiveCodeBench, aproximando-se do o1 (alto) com 88,5%. O código estará disponível em https://github.com/NovaSky-AI/SkyThought.
English
Increasing test-time compute for LLMs shows promise across domains but
remains underexplored in code generation, despite extensive study in math. In
this paper, we propose S*, the first hybrid test-time scaling framework that
substantially improves the coverage and selection accuracy of generated code.
S* extends the existing parallel scaling paradigm with sequential scaling to
push performance boundaries. It further leverages a novel selection mechanism
that adaptively generates distinguishing inputs for pairwise comparison,
combined with execution-grounded information to robustly identify correct
solutions. We evaluate across 12 Large Language Models and Large Reasoning
Model and show: (1) S* consistently improves performance across model families
and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables
non-reasoning models to surpass reasoning models - GPT-4o-mini with S*
outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts
state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S*
achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be
available under https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary