DiG-Flow: Emparejamiento de Flujo Guiado por Discrepancias para Modelos VLA Robustos
DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
December 1, 2025
Autores: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) entrenados con ajuste de flujo han demostrado capacidades impresionantes en tareas de manipulación robótica. Sin embargo, su rendimiento a menudo se degrada bajo cambios en la distribución y en tareas complejas de múltiples pasos, lo que sugiere que las representaciones aprendidas pueden no capturar de forma robusta la semántica relevante para la tarea. Introducimos DiG-Flow, un marco de trabajo fundamentado que mejora la robustez de los modelos VLA mediante regularización geométrica. Nuestra idea clave es que la discrepancia distribucional entre los *embeddings* de observación y de acción proporciona una señal geométrica significativa: un coste de transporte más bajo indica representaciones compatibles, mientras que un coste más elevado sugiere un posible desalineamiento. DiG-Flow calcula una medida de discrepancia entre las distribuciones empíricas de los *embeddings* de observación y de acción, la asigna a un peso de modulación mediante una función monótona y aplica actualizaciones residuales a los *embeddings* de observación antes del ajuste de flujo. Crucialmente, esta intervención opera a nivel de representación sin modificar la trayectoria de ajuste de flujo ni el campo vectorial objetivo. Proporcionamos garantías teóricas que demuestran que el entrenamiento guiado por discrepancia reduce de forma comprobable el objetivo de entrenamiento, y que el refinamiento de inferencia guiada converge con contracción. Empíricamente, DiG-Flow se integra en arquitecturas VLA existentes con un overhead insignificante y mejora consistentemente el rendimiento, con ganancias particularmente pronunciadas en tareas complejas de múltiples pasos y bajo condiciones de datos de entrenamiento limitados.
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.