ChatPaper.aiChatPaper

DiG-Flow: Flow Matching Guidato dalla Discrepanza per Modelli VLA Robusti

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

December 1, 2025
Autori: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI

Abstract

I modelli Vision-Language-Action (VLA) addestrati con il flow matching hanno dimostrato capacità impressionanti nei compiti di manipolazione robotica. Tuttavia, le loro prestazioni spesso si degradano in presenza di uno shift distributivo e in compiti multi-step complessi, suggerendo che le rappresentazioni apprese potrebbero non catturare in modo robusto la semantica rilevante per il compito. Introduciamo DiG-Flow, un framework metodologico che migliora la robustezza dei modelli VLA attraverso una regolarizzazione geometrica. La nostra intuizione chiave è che la discrepanza distributiva tra gli embedding delle osservazioni e delle azioni fornisce un segnale geometrico significativo: un costo di trasporto inferiore indica rappresentazioni compatibili, mentre un costo più elevato suggerisce un potenziale disallineamento. DiG-Flow calcola una misura di discrepanza tra le distribuzioni empiriche degli embedding di osservazione e azione, la mappa su un peso di modulazione tramite una funzione monotona, e applica aggiornamenti residui agli embedding di osservazione prima del flow matching. Fondamentalmente, questo intervento opera a livello di rappresentazione senza modificare il percorso del flow matching o il campo vettoriale target. Forniamo garanzie teoriche che dimostrano come l'addestramento guidato dalla discrepanza riduca in modo dimostrabile la funzione obiettivo, e che il raffinamento inferenziale guidato converga con contrazione. Empiricamente, DiG-Flow si integra nelle architetture VLA esistenti con un overhead trascurabile e migliora costantemente le prestazioni, con guadagni particolarmente pronunciati nei compiti multi-step complessi e in condizioni di dati di addestramento limitati.
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.
PDF81December 4, 2025