ChatPaper.aiChatPaper

Escalonamento em Tempo de Teste com Modelo Generativo Reflexivo

Test-Time Scaling with Reflective Generative Model

July 2, 2025
Autores: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI

Resumo

Apresentamos nosso primeiro modelo generativo reflexivo, o MetaStone-S1, que obtém o desempenho do OpenAI o3 por meio do modelo de recompensa de processo auto-supervisionado (SPRM, na sigla em inglês). Ao compartilhar a rede principal e utilizar cabeças específicas para tarefas de previsão do próximo token e pontuação de processo, respectivamente, o SPRM integra com sucesso o modelo de política e o modelo de recompensa de processo (PRM) em uma interface unificada, sem a necessidade de anotações adicionais de processo, reduzindo mais de 99% dos parâmetros do PRM para um raciocínio eficiente. Equipado com o SPRM, o MetaStone-S1 é naturalmente adequado para escalonamento em tempo de teste (TTS), e oferecemos três modos de esforço de raciocínio (baixo, médio e alto), baseados no comprimento controlável do pensamento. Além disso, estabelecemos empiricamente uma lei de escalonamento que revela a relação entre o cálculo total do pensamento e o desempenho do TTS. Experimentos demonstram que nosso MetaStone-S1 alcança um desempenho comparável à série OpenAI-o3-mini com apenas 32 bilhões de parâmetros. Para apoiar a comunidade de pesquisa, disponibilizamos o MetaStone-S1 em código aberto em https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
PDF1064July 14, 2025