Модели языкового распространения с остаточным контекстом

Аннотация

Диффузионные большие языковые модели (dLLM) стали перспективной альтернативой чисто авторегрессионным языковым моделям благодаря возможности параллельного декодирования нескольких токенов. Однако современные блочные dLLM полагаются на механизм «повторного маскирования», который декодирует только наиболее уверенные токены и отбрасывает остальные, фактически растрачивая вычислительные ресурсы. Мы показываем, что повторное использование вычислений от отброшенных токенов полезно, поскольку эти токены сохраняют контекстную информацию, необходимую для последующих итераций декодирования. В свете этого мы предлагаем модуль Residual Context Diffusion (RCD), который преобразует представления отброшенных токенов в контекстные остатки и внедряет их обратно на следующий шаг дениойзинга. RCD использует разделенный двухэтапный конвейер обучения, чтобы обойти проблемы с памятью, связанные с обратным распространением ошибки. Мы проверяем наш метод на моделях как для длинных рассуждений с цепочкой мыслей (CoT) (SDAR), так и для следования коротким CoT-инструкциям (LLaDA). Мы демонстрируем, что стандартную dLLM можно эффективно преобразовать в парадигму RCD всего на ~1 миллиарде токенов. RCD стабильно улучшает передовые dLLM на 5–10 пунктов по точности при минимальных дополнительных вычислительных затратах в широком спектре тестов. Примечательно, что на наиболее сложных задачах AIME RCD почти удваивает точность базового уровня и позволяет достичь эквивалентного уровня точности при в 4–5 раз меньшем количестве шагов дениойзинга.

English

Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.

Модели языкового распространения с остаточным контекстом

Residual Context Diffusion Language Models

Аннотация

Support