LaViDa-R1: Vooruitgang in Redeneervermogen voor Verenigde Multimodale Diffusie Taalmodellen
LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models
February 15, 2026
Auteurs: Shufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen
cs.AI
Samenvatting
Diffusie-taalmmodellen (dLLM's) zijn recent naar voren gekomen als een veelbelovend alternatief voor auto-regressieve grote taalmmodellen. Recente onderzoeken hebben deze modellen verder uitgebreid naar multimodale begrips- en generatietaken. In dit werk stellen we LaViDa-R1 voor, een multimodaal, algemeen toepasbaar redeneerdiffusiemodel. In tegenstelling tot bestaande benaderingen die redeneerdiffusiemodellen bouwen via taakspecifieke reinforcement learning, integreert LaViDa-R1 diverse multimodale begrips- en generatietaken op een uniforme manier. LaViDa-R1 is specifiek ontwikkeld met een nieuw uniform na-trainingsraamwerk dat supervised finetuning (SFT) en multi-task reinforcement learning (RL) naadloos integreert. Het maakt gebruik van verschillende nieuwe trainings-technieken, waaronder antwoord-forcering, boomzoekmethoden en complementaire waarschijnlijkheidsschatting, om de effectiviteit en schaalbaarheid te verbeteren. Uitgebreide experimenten tonen de sterke prestaties van LaViDa-R1 aan bij een breed scala aan multimodale taken, waaronder visueel wiskundig redeneren, redenatie-intensieve grounding en beeldbewerking.
English
Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.