Prisma: Escalagem Eficiente em Tempo de Teste por meio de Busca Hierárquica e Autoverificação para Modelos de Linguagem de Difusão Discreta

Resumo

O custo computacional durante a inferência ressurgiu como uma forma prática de melhorar o raciocínio de LLMs. A maioria dos algoritmos de escalonamento no momento do teste (TTS) depende de decodificação autoregressiva, que é inadequada para modelos de linguagem de difusão discreta (dLLMs) devido à sua decodificação paralela em toda a sequência. Consequentemente, desenvolver métodos TTS eficazes e eficientes para liberar todo o potencial generativo dos dLLMs continua sendo um desafio pouco explorado. Para resolver isso, propomos o Prism (Método de Poda, Remascaramento e Autoverificação Integrada), uma estrutura TTS eficiente para dLLMs que (i) executa uma Busca Hierárquica de Trajetória (HTS) que poda dinamicamente e realoca computação em uma janela de remoção de ruído inicial a média, (ii) introduz Ramificação Local com remascaramento parcial para explorar implementações diversas enquanto preserva tokens de alta confiança, e (iii) substitui verificadores externos por *Feedback de Autoverificação* (SVF) obtido por meio de *prompts* de autoavaliação em conclusões intermediárias. Em quatro benchmarks de raciocínio matemático e geração de código em três dLLMs, incluindo LLaDA 8B Instruct, Dream 7B Instruct e LLaDA 2.0-mini, nosso Prism alcança uma relação favorável entre desempenho e eficiência, equiparando-se ao desempenho do melhor-de-N com substancialmente menos avaliações de função (NFE). O código foi disponibilizado em https://github.com/viiika/Prism.

English

Inference-time compute has re-emerged as a practical way to improve LLM reasoning. Most test-time scaling (TTS) algorithms rely on autoregressive decoding, which is ill-suited to discrete diffusion language models (dLLMs) due to their parallel decoding over the entire sequence. As a result, developing effective and efficient TTS methods to unlock dLLMs' full generative potential remains an underexplored challenge. To address this, we propose Prism (Pruning, Remasking, and Integrated Self-verification Method), an efficient TTS framework for dLLMs that (i) performs Hierarchical Trajectory Search (HTS) which dynamically prunes and reallocates compute in an early-to-mid denoising window, (ii) introduces Local branching with partial remasking to explore diverse implementations while preserving high-confidence tokens, and (iii) replaces external verifiers with Self-Verified Feedback (SVF) obtained via self-evaluation prompts on intermediate completions. Across four mathematical reasoning and code generation benchmarks on three dLLMs, including LLaDA 8B Instruct, Dream 7B Instruct, and LLaDA 2.0-mini, our Prism achieves a favorable performance-efficiency trade-off, matching best-of-N performance with substantially fewer function evaluations (NFE). The code is released at https://github.com/viiika/Prism.

Prisma: Escalagem Eficiente em Tempo de Teste por meio de Busca Hierárquica e Autoverificação para Modelos de Linguagem de Difusão Discreta

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Resumo

Support