Il meglio di entrambi i mondi: ragionamento e generazione multimodale tramite flusso discreto unificato

Abstract

Proponiamo UniDFlow, un framework unificato di flusso discreto per la comprensione, generazione e modifica multimodale. Esso dissocia comprensione e generazione mediante adattatori a basso rango specifici per compito, evitando interferenze negli obiettivi ed entanglement delle rappresentazioni, mentre un innovativo allineamento delle preferenze multimodali basato su riferimento ottimizza gli esiti relativi sotto condizionamento identico, migliorando fedeltà e controllabilità senza necessità di riaddestramento su larga scala. UniDFlow raggiunge prestazioni all'avanguardia su otto benchmark e dimostra una solida generalizzazione zero-shot a compiti includenti inpaiting, generazione di immagini in contesto, modifica basata su riferimento e generazione composizionale, nonostante l'assenza di addestramento esplicito specifico per tali compiti.

English

We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.

Il meglio di entrambi i mondi: ragionamento e generazione multimodale tramite flusso discreto unificato

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Abstract

Support