ChatPaper.aiChatPaper

DiffusionVL: Преобразование любых авторегрессионных моделей в диффузионные модели «визуальный язык»

DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

December 17, 2025
Авторы: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI

Аннотация

В последних мультимодальных исследованиях диффузионная парадигма стала перспективной альтернативой авторегрессионной парадигме (AR) благодаря своим уникальным преимуществам при декодировании. Однако из-за ограниченных возможностей базовой диффузионной языковой модели производительность диффузионной визуально-языковой модели (dVLM) по-прежнему значительно отстает от основных моделей. Это порождает простой, но фундаментальный вопрос: возможно ли создавать dVLM на основе существующих мощных AR-моделей? В ответ мы предлагаем DiffusionVL — семейство dVLM, которое можно получить из любой мощной AR-модели. С помощью простого тонкого настроя мы успешно адаптируем предварительно обученные AR-модели к диффузионной парадигме. Этот подход позволил сделать два ключевых наблюдения: (1) Переход от мультимодальных моделей на основе AR к диффузии оказывается чрезвычайно эффективным. (2) Прямое преобразование AR-языковой модели в dVLM также осуществимо и демонстрирует производительность, сопоставимую с визуально-инструктивным тонким настроем в стиле LLaVA. Кроме того, мы внедряем в dVLM блочное декодирование, которое поддерживает генерацию произвольной длины и повторное использование KV-кэша, что обеспечивает значительное ускорение вывода. Мы провели многочисленные эксперименты. Несмотря на обучение с использованием менее 5% данных, требуемых предыдущими методами, DiffusionVL демонстрирует всестороннее улучшение производительности — прирост на 34,4% на тесте MMMU-Pro (vision) и на 37,5% на тесте MME (Cog.) — наряду с двукратным ускорением вывода. Модель и код доступны по адресу https://github.com/hustvl/DiffusionVL.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.
PDF132December 19, 2025