PRISM: Expandindo as Fronteiras do Pensamento Profundo por meio de Inferência Guiada por Modelo de Recompensa de Processo

Resumo

Os métodos DEEPTHINK melhoram o raciocínio através da geração, refinamento e agregação de populações de soluções candidatas, o que permite um desempenho robusto em tarefas matemáticas e científicas complexas. No entanto, as estruturas existentes frequentemente carecem de sinais de correção confiáveis durante a inferência, criando um gargalo de aprimoramento populacional no qual uma deliberação mais profunda amplifica erros, suprime soluções corretas minoritárias e produz retornos fracos para computação adicional. Neste artigo, introduzimos uma decomposição funcional dos sistemas DEEPTHINK e propomos o PRISM, um algoritmo de inferência guiado por um Modelo de Recompensa de Processo (PRM) que utiliza verificação em nível de etapa para orientar tanto o refinamento populacional quanto a agregação de soluções. Durante o refinamento, o PRISM trata as soluções candidatas como partículas em um panorama de energia definido pelo PRM e remodela a população através de reamostragem guiada por pontuação e refinamento estocástico, o que concentra a massa de probabilidade em raciocínios de maior qualidade, preservando a diversidade. Em benchmarks de matemática e ciências, o PRISM é competitivo ou supera os métodos DEEPTHINK existentes, atingindo 90,0%, 75,4% e 71,4% com o modelo gpt-oss-20b no AIME25, HMMT25 e GPQA Diamond, respectivamente, enquanto equipara ou excede o desempenho do modelo gpt-oss-120b. Adicionalmente, nossa análise mostra que o PRISM produz correção líquida direcional consistente durante o refinamento, mantém-se confiável quando a população inicial contém poucos candidatos corretos e frequentemente situa-se na fronteira de Pareto entre precisão e custo computacional.

English

DEEPTHINK methods improve reasoning by generating, refining, and aggregating populations of candidate solutions, which enables strong performance on complex mathematical and scientific tasks. However, existing frameworks often lack reliable correctness signals during inference, which creates a population-enhancement bottleneck where deeper deliberation amplifies errors, suppresses correct minority solutions, and yields weak returns to additional compute. In this paper, we introduce a functional decomposition of DEEPTHINK systems and propose PRISM, a Process Reward Model (PRM)-guided inference algorithm that uses step-level verification to guide both population refinement and solution aggregation. During refinement, PRISM treats candidate solutions as particles in a PRM-defined energy landscape and reshapes the population through score-guided resampling and stochastic refinement, which concentrates probability mass on higher-quality reasoning while preserving diversity. Across mathematics and science benchmarks, PRISM is competitive with or outperforms existing DEEPTHINK methods, reaching 90.0%, 75.4%, and 71.4% with gpt-oss-20b on AIME25, HMMT25, and GPQA Diamond, respectively, while matching or exceeding gpt-oss-120b. Additionally, our analysis shows that PRISM produces consistent net-directional correction during refinement, remains reliable when the initial population contains few correct candidates, and often lies on the compute-accuracy Pareto frontier.

PRISM: Expandindo as Fronteiras do Pensamento Profundo por meio de Inferência Guiada por Modelo de Recompensa de Processo

PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

Resumo

Support