Prisma: Escalado Eficiente en Tiempo de Prueba mediante Búsqueda Jerárquica y Autoverificación para Modelos de Lenguaje de Difusión Discreta

Resumen

El cómputo en tiempo de inferencia ha reaparecido como una forma práctica de mejorar el razonamiento de los LLM. La mayoría de los algoritmos de escalado en tiempo de prueba (TTS) se basan en decodificación autoregresiva, la cual es inadecuada para los modelos de lenguaje de difusión discreta (dLLM) debido a su decodificación paralela sobre toda la secuencia. Como resultado, desarrollar métodos TTS efectivos y eficientes para desbloquear todo el potencial generativo de los dLLM sigue siendo un desafío poco explorado. Para abordar esto, proponemos Prism (Método de Poda, Reenmascaramiento y Autoverificación Integrada), un marco TTS eficiente para dLLM que (i) realiza una Búsqueda Jerárquica de Trayectorias (HTS) que poda y reasigna dinámicamente el cómputo en una ventana de desruido de temprana a media, (ii) introduce Ramificación Local con reenmascaramiento parcial para explorar implementaciones diversas mientras preserva tokens de alta confianza, y (iii) reemplaza verificadores externos con Retroalimentación de Autoverificación (SVF) obtenida mediante prompts de autoevaluación en completamientos intermedios. En cuatro benchmarks de razonamiento matemático y generación de código en tres dLLM, incluyendo LLaDA 8B Instruct, Dream 7B Instruct y LLaDA 2.0-mini, nuestro Prism logra un equilibrio favorable entre rendimiento y eficiencia, igualando el rendimiento del mejor-de-N con sustancialmente menos evaluaciones de función (NFE). El código se ha publicado en https://github.com/viiika/Prism.

English

Inference-time compute has re-emerged as a practical way to improve LLM reasoning. Most test-time scaling (TTS) algorithms rely on autoregressive decoding, which is ill-suited to discrete diffusion language models (dLLMs) due to their parallel decoding over the entire sequence. As a result, developing effective and efficient TTS methods to unlock dLLMs' full generative potential remains an underexplored challenge. To address this, we propose Prism (Pruning, Remasking, and Integrated Self-verification Method), an efficient TTS framework for dLLMs that (i) performs Hierarchical Trajectory Search (HTS) which dynamically prunes and reallocates compute in an early-to-mid denoising window, (ii) introduces Local branching with partial remasking to explore diverse implementations while preserving high-confidence tokens, and (iii) replaces external verifiers with Self-Verified Feedback (SVF) obtained via self-evaluation prompts on intermediate completions. Across four mathematical reasoning and code generation benchmarks on three dLLMs, including LLaDA 8B Instruct, Dream 7B Instruct, and LLaDA 2.0-mini, our Prism achieves a favorable performance-efficiency trade-off, matching best-of-N performance with substantially fewer function evaluations (NFE). The code is released at https://github.com/viiika/Prism.