LaViDa-R1: Avançando o Raciocínio para Modelos de Linguagem de Difusão Multimodal Unificados

Resumo

Os modelos de linguagem de difusão (dLLMs) surgiram recentemente como uma alternativa promissora aos LLMs autoregressivos. Os trabalhos mais recentes estenderam-nos ainda mais para tarefas multimodais de compreensão e geração. Neste trabalho, propomos o LaViDa-R1, um dLLM multimodal de raciocínio de propósito geral. Diferente de trabalhos existentes que constroem dLLMs de raciocínio através de aprendizagem por reforço específica por tarefa, o LaViDa-R1 incorpora diversas tarefas multimodais de compreensão e geração de forma unificada. Em particular, o LaViDa-R1 é construído com uma nova estrutura unificada de pós-treinamento que integra perfeitamente o ajuste fino supervisionado (SFT) e a aprendizagem por reforço multitarefa (RL). Ele emprega várias técnicas de treinamento inovadoras, incluindo forçamento de resposta, busca em árvore e estimação de verossimilhança complementar, para melhorar a eficácia e a escalabilidade. Experimentos extensivos demonstram o forte desempenho do LaViDa-R1 numa ampla gama de tarefas multimodais, incluindo raciocínio matemático visual, fundamentação intensiva em raciocínio e edição de imagem.

English

Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.