Escalonamento em Tempo de Teste com Modelo Generativo Reflexivo
Test-Time Scaling with Reflective Generative Model
July 2, 2025
Autores: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
Resumo
Apresentamos nosso primeiro modelo generativo reflexivo, o MetaStone-S1, que obtém o desempenho do OpenAI o3 por meio do modelo de recompensa de processo auto-supervisionado (SPRM, na sigla em inglês). Ao compartilhar a rede principal e utilizar cabeças específicas para tarefas de previsão do próximo token e pontuação de processo, respectivamente, o SPRM integra com sucesso o modelo de política e o modelo de recompensa de processo (PRM) em uma interface unificada, sem a necessidade de anotações adicionais de processo, reduzindo mais de 99% dos parâmetros do PRM para um raciocínio eficiente. Equipado com o SPRM, o MetaStone-S1 é naturalmente adequado para escalonamento em tempo de teste (TTS), e oferecemos três modos de esforço de raciocínio (baixo, médio e alto), baseados no comprimento controlável do pensamento. Além disso, estabelecemos empiricamente uma lei de escalonamento que revela a relação entre o cálculo total do pensamento e o desempenho do TTS. Experimentos demonstram que nosso MetaStone-S1 alcança um desempenho comparável à série OpenAI-o3-mini com apenas 32 bilhões de parâmetros. Para apoiar a comunidade de pesquisa, disponibilizamos o MetaStone-S1 em código aberto em https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.