ChatPaper.aiChatPaper

LaViDa-R1: Fortschritte im Reasoning für vereinheitlichte multimodale Diffusions-Sprachmodelle

LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

February 15, 2026
papers.authors: Shufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen
cs.AI

papers.abstract

Diffusions-Sprachmodelle (dLLMs) sind kürzlich als vielversprechende Alternative zu autoregressiven LLMs aufgetaucht. Die neuesten Arbeiten haben sie weiter auf multimodale Verstehens- und Generierungsaufgaben ausgeweitet. In dieser Arbeit stellen wir LaViDa-R1 vor, ein multimodales, allgemeines Reasoning-dLLM. Im Gegensatz zu bestehenden Arbeiten, die Reasoning-dLLMs durch aufgabenspezifisches Reinforcement Learning aufbauen, integriert LaViDa-R1 verschiedene multimodale Verstehens- und Generierungsaufgaben auf einheitliche Weise. Insbesondere wird LaViDa-R1 mit einem neuartigen, einheitlichen Post-Training-Framework aufgebaut, das supervised Finetuning (SFT) und Multi-Task-Reinforcement-Learning (RL) nahtlos integriert. Es setzt mehrere neuartige Trainingstechniken ein, darunter Answer-Forcing, Tree-Search und komplementäre Likelihood-Schätzung, um Wirksamkeit und Skalierbarkeit zu verbessern. Umfangreiche Experimente belegen die starke Leistung von LaViDa-R1 bei einer Vielzahl multimodaler Aufgaben, einschließlich visueller mathematischer Reasoningaufgaben, reason-intensivem Grounding und Bildbearbeitung.
English
Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.
PDF32February 18, 2026