Prism: Effiziente Test-Zeit-Skalierung durch hierarchische Suche und Selbstverifikation für diskrete Diffusions-Sprachmodelle

Zusammenfassung

Rechenaufwand zur Inferenzzeit hat sich erneut als praktischer Ansatz zur Verbesserung des logischen Denkvermögens von LLMs erwiesen. Die meisten Test-Time-Scaling (TTS)-Algorithmen basieren auf autoregressiver Decodierung, die für diskrete Diffusions-Sprachmodelle (dLLMs) aufgrund ihrer parallelen Decodierung über die gesamte Sequenz ungeeignet ist. Daher bleibt die Entwicklung effektiver und effizienter TTS-Methoden zur Entfaltung des vollen generativen Potenzials von dLLMs eine kaum erforschte Herausforderung. Um dies zu adressieren, schlagen wir Prism (Pruning, Remasking, and Integrated Self-verification Method) vor, einen effizienten TTS-Rahmen für dLLMs, der (i) eine hierarchische Trajektoriensuche (HTS) durchführt, die Rechenaufwand in einem frühen bis mittleren Entrauschungsfenster dynamisch beschneidet und neu zuweist, (ii) lokale Verzweigung mit teilweiser Neumaskierung einführt, um diverse Implementierungen zu erkunden und gleichzeitig hochkonfidente Tokens zu bewahren, und (iii) externe Verifizierer durch selbstverifiziertes Feedback (SVF) ersetzt, das durch Selbstevaluations-Prompts für Zwischenergebnisse gewonnen wird. In vier Benchmarks für mathematisches Reasoning und Code-Generierung mit drei dLLMs, einschließlich LLaDA 8B Instruct, Dream 7B Instruct und LLaDA 2.0-mini, erzielt unser Prism eine vorteilhafte Leistungs-Effizienz-Abwägung, die Best-of-N-Leistung mit deutlich weniger Funktionsauswertungen (NFE) erreicht. Der Code ist unter https://github.com/viiika/Prism verfügbar.

English

Inference-time compute has re-emerged as a practical way to improve LLM reasoning. Most test-time scaling (TTS) algorithms rely on autoregressive decoding, which is ill-suited to discrete diffusion language models (dLLMs) due to their parallel decoding over the entire sequence. As a result, developing effective and efficient TTS methods to unlock dLLMs' full generative potential remains an underexplored challenge. To address this, we propose Prism (Pruning, Remasking, and Integrated Self-verification Method), an efficient TTS framework for dLLMs that (i) performs Hierarchical Trajectory Search (HTS) which dynamically prunes and reallocates compute in an early-to-mid denoising window, (ii) introduces Local branching with partial remasking to explore diverse implementations while preserving high-confidence tokens, and (iii) replaces external verifiers with Self-Verified Feedback (SVF) obtained via self-evaluation prompts on intermediate completions. Across four mathematical reasoning and code generation benchmarks on three dLLMs, including LLaDA 8B Instruct, Dream 7B Instruct, and LLaDA 2.0-mini, our Prism achieves a favorable performance-efficiency trade-off, matching best-of-N performance with substantially fewer function evaluations (NFE). The code is released at https://github.com/viiika/Prism.

Prism: Effiziente Test-Zeit-Skalierung durch hierarchische Suche und Selbstverifikation für diskrete Diffusions-Sprachmodelle

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Zusammenfassung

Support