LaViDa-R1: Progressi nel Ragionamento per Modelli Linguistici di Diffusione Multimodale Unificati

Abstract

I modelli linguistici di diffusione (dLLM) sono recentemente emersi come una valida alternativa ai modelli linguistici auto-regressivi (LLM). I lavori più recenti li hanno ulteriormente estesi a compiti di comprensione e generazione multimodale. In questo lavoro, proponiamo LaViDa-R1, un dLLM multimodale e general-purpose per il ragionamento. A differenza dei lavori esistenti che costruiscono dLLM per il ragionamento tramite apprendimento per rinforzo specifico per task, LaViDa-R1 incorpora in modo unificato compiti diversificati di comprensione e generazione multimodale. In particolare, LaViDa-R1 è costruito con un innovativo framework di post-addestramento unificato che integra in modo fluido la messa a punto supervisionata (SFT) e l'apprendimento per rinforzo multi-task (RL). Impiega diverse tecniche di addestramento innovative, tra cui l'answer-forcing, la tree search e la stima della verosimiglianza complementare, per migliorare l'efficacia e la scalabilità. Esperimenti estensivi dimostrano le solide prestazioni di LaViDa-R1 su un'ampia gamma di task multimodali, inclusi il ragionamento matematico visivo, la localizzazione ad alta intensità di ragionamento e la modifica delle immagini.

English

Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.

LaViDa-R1: Progressi nel Ragionamento per Modelli Linguistici di Diffusione Multimodale Unificati

LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

Abstract

Support