DiG-Flow: Diskrepanzgesteuerte Fluss-Anpassung für robuste VLA-Modelle
DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
December 1, 2025
papers.authors: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle, die mit Flow Matching trainiert wurden, haben beeindruckende Fähigkeiten bei robotischen Manipulationsaufgaben gezeigt. Ihre Leistung lässt jedoch häufig unter Distribution Shift und bei komplexen Mehrschrittaufgaben nach, was darauf hindeutet, dass die gelernten Repräsentationen möglicherweise keine robuste Erfassung aufgabenrelevanter Semantik ermöglichen. Wir stellen DiG-Flow vor, einen prinzipienbasierten Rahmen, der die Robustheit von VLA-Modellen durch geometrische Regularisierung verbessert. Unser zentraler Ansatz ist, dass die diskrepanzbasierte Verteilung zwischen Beobachtungs- und Aktions-Embeddings ein aussagekräftiges geometrisches Signal liefert: Niedrige Transportkosten deuten auf kompatible Repräsentationen hin, während höhere Kosten auf eine potenzielle Fehlausrichtung hindeuten. DiG-Flow berechnet ein Diskrepanzmaß zwischen empirischen Verteilungen von Beobachtungs- und Aktions-Embeddings, bildet es über eine monotone Funktion auf ein Modulationsgewicht ab und wendet vor dem Flow Matching residuale Updates auf die Beobachtungs-Embeddings an. Entscheidend ist, dass dieser Eingriff auf Repräsentationsebene erfolgt, ohne den Flow-Matching-Pfad oder das Zielvektorfeld zu modifizieren. Wir liefern theoretische Garantien, die zeigen, dass diskrepanzgeführtes Training den Trainingszielwert nachweislich verringert und dass geführte Inferenzverfeinerung mit Kontraktion konvergiert. Empirisch integriert sich DiG-Flow mit vernachlässigbarem Overhead in bestehende VLA-Architekturen und verbessert die Leistung konsistent, mit besonders deutlichen Gewinnen bei komplexen Mehrschrittaufgaben und unter begrenzten Trainingsdaten.
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.