DRIFT: Een Residuele Flow Adapter voor het Decoderen van Continue Outputs in Visie-Taalmodellen

Samenvatting

Veel moderne visie-taalmodelen (VTM's) bouwen voort op autoregressieve decodering van discrete tokens. Hoewel tekstgebaseerde uitvoerinterfaces schaalbare pretraining en sterke zero-shot generalisatie over diverse taken mogelijk maken, zijn ze slecht geschikt voor problemen die precieze continue uitvoer vereisen, zoals het lokaliseren van temporele grenzen van gebeurtenissen of het genereren van robotbesturingsacties. Om deze uitdaging aan te pakken, stellen we DRIFT voor, een algemeen raamwerk voor het aanpassen van voorgetrainde VTM's aan continue decoderingstaken. DRIFT combineert een basisvoorspeller, die een ruwe schatting van de doeluitvoer geeft, met een generatieve verfijningsmodule gebaseerd op flow matching die de voorspelling iteratief verbetert. Deze residuele formulering transformeert het generatieve modelleerprobleem van het leren van een globale uitvoerverdeling naar het modelleren van een gelokaliseerde residuele verdeling rond een sterke prior, wat de optimalisatie aanzienlijk vereenvoudigt. We evalueren DRIFT op zowel perceptie- als planningstaken, waaronder visuele grounding en robotbesturing. Over meerdere taken en architecturen, waaronder MLLM's, VLA's en WAM's, presteert DRIFT consequent beter dan een sterke reeks op regressie en generatieve methoden gebaseerde oplossingen.

English

Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.