ChatPaper.aiChatPaper

DiG-Flow: Discrepancy-Guided Flow Matching voor Robuuste VLA-modellen

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

December 1, 2025
Auteurs: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI

Samenvatting

Vision-Language-Action (VLA)-modellen die zijn getraind met flow matching hebben indrukwekkende prestaties getoond bij robotmanipulatietaken. Hun prestaties verslechteren echter vaak onder distributieverschuiving en bij complexe meerstappentaken, wat suggereert dat de geleerde representaties mogelijk niet robuust taakrelevante semantiek vastleggen. Wij introduceren DiG-Flow, een principieel raamwerk dat de robuustheid van VLA verbetert door geometrische regularisatie. Onze belangrijkste inzicht is dat de distributionele discrepantie tussen observatie- en actie-embeddings een betekenisvol geometrisch signaal levert: een lagere transportkost duidt op compatibele representaties, terwijl een hogere kost potentiële uitlijningfouten suggereert. DiG-Flow berekent een discrepantiemaat tussen de empirische verdelingen van observatie- en actie-embeddings, vertaalt deze via een monotone functie naar een modulatiegewicht, en past residuele updates toe op de observatie-embeddings vóór flow matching. Cruciaal is dat deze interventie opereert op representatieniveau zonder het flow matching-pad of het target-vectorveld aan te passen. Wij bieden theoretische garanties die aantonen dat discrepantie-gestuurd trainen het trainingsobjectief aantoonbaar verlaagt, en dat gestuurde inferentieverfijning convergeert met contractie. Empirisch gezien integreert DiG-Flow in bestaande VLA-architecturen met verwaarloosbare overhead en verbetert het consistent de prestaties, met bijzonder uitgesproken winst op complexe meerstappentaken en onder beperkte trainingsdata.
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.
PDF81December 4, 2025