Prism: Efficiënte Schaalvergroting tijdens Testtijd via Hiërarchisch Zoeken en Zelfverificatie voor Discrete Diffusie Taalmodellen

Samenvatting

Inferentietijd-berekening is opnieuw naar voren gekomen als een praktische manier om de redeneercapaciteit van grote taalmodellen (LLM's) te verbeteren. De meeste test-time scaling (TTS) algoritmen zijn gebaseerd op autoregressieve decodering, wat niet geschikt is voor discrete diffusie-taalmodellen (dLLM's) vanwege hun parallelle decodering over de gehele sequentie. Als gevolg hiervan blijft de ontwikkeling van effectieve en efficiënte TTS-methoden om het volledige generatieve potentieel van dLLM's te ontsluiten een onderbelichte uitdaging. Om dit aan te pakken, stellen we Prism voor (Pruning, Remasking, and Integrated Self-verification Method), een efficiënt TTS-raamwerk voor dLLM's dat (i) Hiërarchische Trajectorie Zoektocht (HTS) uitvoert, waarbij rekenkracht dynamisch wordt gesnoeid en herverdeeld in een vroeg-tot-midden denoiseringsvenster, (ii) Lokale vertakking met gedeeltelijke remasking introduceert om diverse implementaties te verkennen terwijl tokens met een hoge betrouwbaarheid behouden blijven, en (iii) externe verifiers vervangt door Zelf-Geverifieerde Feedback (ZGF) verkregen via zelfevaluatie-prompts op tussentijdse voltooiingen. Over vier wiskundige redeneer- en codegeneratiebenchmarks op drie dLLM's, waaronder LLaDA 8B Instruct, Dream 7B Instruct en LLaDA 2.0-mini, behaalt onze Prism een gunstige prestatie-efficiëntie-verhouding, waarbij het de best-of-N-prestatie evenaart met aanzienlijk minder functie-evaluaties (NFE). De code is vrijgegeven op https://github.com/viiika/Prism.

English

Inference-time compute has re-emerged as a practical way to improve LLM reasoning. Most test-time scaling (TTS) algorithms rely on autoregressive decoding, which is ill-suited to discrete diffusion language models (dLLMs) due to their parallel decoding over the entire sequence. As a result, developing effective and efficient TTS methods to unlock dLLMs' full generative potential remains an underexplored challenge. To address this, we propose Prism (Pruning, Remasking, and Integrated Self-verification Method), an efficient TTS framework for dLLMs that (i) performs Hierarchical Trajectory Search (HTS) which dynamically prunes and reallocates compute in an early-to-mid denoising window, (ii) introduces Local branching with partial remasking to explore diverse implementations while preserving high-confidence tokens, and (iii) replaces external verifiers with Self-Verified Feedback (SVF) obtained via self-evaluation prompts on intermediate completions. Across four mathematical reasoning and code generation benchmarks on three dLLMs, including LLaDA 8B Instruct, Dream 7B Instruct, and LLaDA 2.0-mini, our Prism achieves a favorable performance-efficiency trade-off, matching best-of-N performance with substantially fewer function evaluations (NFE). The code is released at https://github.com/viiika/Prism.

Prism: Efficiënte Schaalvergroting tijdens Testtijd via Hiërarchisch Zoeken en Zelfverificatie voor Discrete Diffusie Taalmodellen

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Samenvatting

Support