Prism : Mise à l'échelle efficace en temps de test par recherche hiérarchique et auto-vérification pour les modèles de langage à diffusion discrète

Résumé

Le calcul au moment de l'inférence a refait surface comme une méthode pratique pour améliorer le raisonnement des grands modèles de langage. La plupart des algorithmes de mise à l'échelle au moment du test reposent sur un décodage autorégressif, qui est mal adapté aux modèles de langage à diffusion discrète en raison de leur décodage parallèle sur l'ensemble de la séquence. Par conséquent, le développement de méthodes de mise à l'échelle au moment du test efficaces et efficientes pour libérer le plein potentiel génératif des modèles de langage à diffusion discrète reste un défi peu exploré. Pour y remédier, nous proposons Prism (Méthode d'élagage, de remasquage et d'auto-vérification intégrée), un cadre efficace de mise à l'échelle au moment du test pour les modèles de langage à diffusion discrète qui (i) effectue une recherche hiérarchique de trajectoire qui élagage dynamiquement et réalloue le calcul dans une fenêtre de débruitage précoce à moyenne, (ii) introduit un branchement local avec remasquage partiel pour explorer des implémentations diverses tout en préservant les jetons à haute confiance, et (iii) remplace les vérificateurs externes par une rétroaction auto-vérifiée obtenue via des invites d'auto-évaluation sur des complétions intermédiaires. Sur quatre benchmarks de raisonnement mathématique et de génération de code avec trois modèles de langage à diffusion discrète, incluant LLaDA 8B Instruct, Dream 7B Instruct et LLaDA 2.0-mini, notre méthode Prism atteint un compromis performance-efficacité favorable, égalant les performances du meilleur-de-N avec un nombre d'évaluations de fonction substantiellement réduit. Le code est disponible à l'adresse https://github.com/viiika/Prism.

English

Inference-time compute has re-emerged as a practical way to improve LLM reasoning. Most test-time scaling (TTS) algorithms rely on autoregressive decoding, which is ill-suited to discrete diffusion language models (dLLMs) due to their parallel decoding over the entire sequence. As a result, developing effective and efficient TTS methods to unlock dLLMs' full generative potential remains an underexplored challenge. To address this, we propose Prism (Pruning, Remasking, and Integrated Self-verification Method), an efficient TTS framework for dLLMs that (i) performs Hierarchical Trajectory Search (HTS) which dynamically prunes and reallocates compute in an early-to-mid denoising window, (ii) introduces Local branching with partial remasking to explore diverse implementations while preserving high-confidence tokens, and (iii) replaces external verifiers with Self-Verified Feedback (SVF) obtained via self-evaluation prompts on intermediate completions. Across four mathematical reasoning and code generation benchmarks on three dLLMs, including LLaDA 8B Instruct, Dream 7B Instruct, and LLaDA 2.0-mini, our Prism achieves a favorable performance-efficiency trade-off, matching best-of-N performance with substantially fewer function evaluations (NFE). The code is released at https://github.com/viiika/Prism.

Prism : Mise à l'échelle efficace en temps de test par recherche hiérarchique et auto-vérification pour les modèles de langage à diffusion discrète

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Résumé

Support