LaViDa-R1:統合マルチモーダル拡散言語モデルの推論能力の革新
LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models
February 15, 2026
著者: Shufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen
cs.AI
要旨
拡散言語モデル(dLLM)は近年、自己回帰型LLMの有望な代替として登場した。最新の研究ではこれをさらに発展させ、マルチモーダル理解と生成タスクに拡張している。本研究では、マルチモーダルで汎用目的の推論が可能なdLLMであるLaViDa-R1を提案する。既存研究がタスク特化型の強化学習によって推論dLLMを構築するのに対し、LaViDa-R1は多様なマルチモーダル理解・生成タスクを統一的な手法で統合している。特にLaViDa-R1は、教師ありファインチューニング(SFT)とマルチタスク強化学習(RL)をシームレスに統合する新規の統一ポストトレーニングフレームワークを用いて構築されている。有効性と拡張性を高めるため、回答強制、木探索、相補的尤度推定といった新規トレーニング技術を採用している。大規模な実験により、LaViDa-R1が視覚的数学推論、推論集約的グラウンディング、画像編集など、幅広いマルチモーダルタスクにおいて強力な性能を発揮することを実証した。
English
Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.