PRISM: De Grens Verleggen van Diep Denken via Procesbeloningsmodel-Gestuurde Inferentie
PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference
March 3, 2026
Auteurs: Rituraj Sharma, Weiyuan Chen, Noah Provenzano, Tu Vu
cs.AI
Samenvatting
DEEPTHINK-methoden verbeteren het redeneervermogen door populaties van kandidaatoplossingen te genereren, te verfijnen en samen te voegen, wat een sterke prestatie op complexe wiskundige en wetenschappelijke taken mogelijk maakt. Bestaande frameworks beschikken tijdens inferentie echter vaak niet over betrouwbare correctheidssignalen, wat een populatieverbeteringsknelpunt creëert waarbij diepere deliberatie fouten versterkt, correcte minderheidsoplossingen onderdrukt en zwakke rendementen op extra rekenkracht oplevert. In dit artikel introduceren we een functionele decompositie van DEEPTHINK-systemen en presenteren we PRISM, een inference-algoritme geleid door een Process Reward Model (PRM) dat stapsgewijze verificatie gebruikt om zowel populatieverfijning als oplossingsaggregatie te sturen. Tijdens de verfijning behandelt PRISM kandidaatoplossingen als deeltjes in een door het PRM gedefinieerd energielandschap en hervormt het de populatie via score-gestuurde hermonstering en stochastische verfijning, waardoor de kansmassa wordt geconcentreerd op redeneringen van hogere kwaliteit terwijl diversiteit behouden blijft. Op wiskundige en wetenschappelijke benchmarks is PRISM concurrerend met of overtreft het bestaande DEEPTHINK-methoden, met prestaties van 90,0%, 75,4% en 71,4% op respectievelijk AIME25, HMMT25 en GPQA Diamond met gpt-oss-20b, terwijl het gelijkwaardig of beter presteert dan gpt-oss-120b. Daarnaast toont onze analyse aan dat PRISM consistente netto-directionele correctie produceert tijdens verfijning, betrouwbaar blijft wanneer de initiële populatie weinig correcte kandidaten bevat, en vaak op de compute-nauwkeurigheid Pareto-grens ligt.
English
DEEPTHINK methods improve reasoning by generating, refining, and aggregating populations of candidate solutions, which enables strong performance on complex mathematical and scientific tasks. However, existing frameworks often lack reliable correctness signals during inference, which creates a population-enhancement bottleneck where deeper deliberation amplifies errors, suppresses correct minority solutions, and yields weak returns to additional compute. In this paper, we introduce a functional decomposition of DEEPTHINK systems and propose PRISM, a Process Reward Model (PRM)-guided inference algorithm that uses step-level verification to guide both population refinement and solution aggregation. During refinement, PRISM treats candidate solutions as particles in a PRM-defined energy landscape and reshapes the population through score-guided resampling and stochastic refinement, which concentrates probability mass on higher-quality reasoning while preserving diversity. Across mathematics and science benchmarks, PRISM is competitive with or outperforms existing DEEPTHINK methods, reaching 90.0%, 75.4%, and 71.4% with gpt-oss-20b on AIME25, HMMT25, and GPQA Diamond, respectively, while matching or exceeding gpt-oss-120b. Additionally, our analysis shows that PRISM produces consistent net-directional correction during refinement, remains reliable when the initial population contains few correct candidates, and often lies on the compute-accuracy Pareto frontier.