LaViDa-R1: Развитие способностей к рассуждению в унифицированных мультимодальных диффузионных языковых моделях
LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models
February 15, 2026
Авторы: Shufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen
cs.AI
Аннотация
Диффузионные языковые модели (dLLM) недавно появились как перспективная альтернатива авторегрессивным LLM. Последние работы дополнительно расширили их применение для задач мультимодального понимания и генерации. В данной работе мы предлагаем LaViDa-R1 — мультимодальную диффузионную модель общего назначения для решения задач с рассуждениями. В отличие от существующих подходов, которые создают reasoning dLLM через обучение с подкреплением для конкретных задач, LaViDa-R1 объединяет разнообразные задачи мультимодального понимания и генерации унифицированным образом. В частности, LaViDa-R1 разработана с использованием новой унифицированной框架 пост-обучения, которая бесшовно интегрирует контролируемую тонкую настройку (SFT) и многозадачное обучение с подкреплением (RL). Модель использует несколько новых методов обучения, включая принудительное формирование ответов, поиск по дереву и комплементарную оценку правдоподобия, для повышения эффективности и масштабируемости. Многочисленные эксперименты демонстрируют высокую производительность LaViDa-R1 на широком спектре мультимодальных задач, включая визуальные математические рассуждения, интенсивные на рассуждения задачи grounding и редактирование изображений.
English
Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.