DRIFT: Ein Residual-Flow-Adapter zur Dekodierung kontinuierlicher Ausgaben in Bild-Text-Modellen

Zusammenfassung

Viele moderne Vision-Language-Modelle (VLMs) basieren auf autoregressiver Dekodierung diskreter Token. Während textbasierte Ausgabeschnittstellen skalierbares Vortraining und starke Zero-Shot-Generalisierung über verschiedene Aufgaben hinweg ermöglichen, sind sie schlecht für Probleme geeignet, die präzise kontinuierliche Ausgaben erfordern, wie z. B. die Lokalisierung zeitlicher Grenzen von Ereignissen oder die Erzeugung von Robotersteuerungsaktionen. Um dieser Herausforderung zu begegnen, schlagen wir DRIFT vor, ein allgemeines Framework zur Anpassung vortrainierter VLMs an kontinuierliche Dekodierungsaufgaben. DRIFT kombiniert einen Basisprädiktor, der eine grobe Schätzung der Zielausgabe liefert, mit einem generativen Verfeinerungsmodul auf Basis von Flow Matching, das die Vorhersage iterativ verbessert. Diese Residuenformulierung wandelt das generative Modellierungsproblem von der Erlernung einer globalen Ausgabeverteilung hin zur Modellierung einer lokalisierten Residuenverteilung um einen starken Prior um, was die Optimierung erheblich vereinfacht. Wir evaluieren DRIFT sowohl auf Wahrnehmungs- als auch auf Planungsaufgaben, einschließlich visuellem Grounding und Robotersteuerung. Über mehrere Aufgaben und Architekturen hinweg, die MLLMs, VLAs und WAMs umfassen, übertrifft DRIFT durchgängig eine starke Menge von regressions- und generativebasierten Lösungen.

English

Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.