DiG-Flow: Дискрепанс-ориентированное согласование потоков для создания устойчивых VLA-моделей
DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
December 1, 2025
Авторы: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI
Аннотация
Модели Vision-Language-Action (VLA), обученные с помощью сопоставления потоков (flow matching), продемонстрировали впечатляющие возможности в задачах роботизированного манипулирования. Однако их производительность часто снижается при сдвиге распределения и на сложных многошаговых задачах, что позволяет предположить, что изученные представления могут недостаточно устойчиво отражать релевантную задаче семантику. Мы представляем DiG-Flow — принципиальную архитектуру, которая повышает устойчивость VLA за счет геометрической регуляризации. Наше ключевое наблюдение заключается в том, что распределительное расхождение между эмбеддингами наблюдений и действий предоставляет содержательный геометрический сигнал: меньшая стоимость транспортировки указывает на совместимые представления, тогда как более высокая стоимость свидетельствует о потенциальном рассогласовании. DiG-Flow вычисляет меру расхождения между эмпирическими распределениями эмбеддингов наблюдений и действий, отображает её в весовой коэффициент модуляции с помощью монотонной функции и применяет остаточные поправки к эмбеддингам наблюдений до этапа сопоставления потоков. Важно, что это вмешательство работает на уровне представлений, не изменяя путь сопоставления потоков или целевое векторное поле. Мы предоставляем теоретические гарантии, показывающие, что обучение с управлением по расхождению гарантированно уменьшает целевую функцию обучения, а управляемое уточнение при выводе сходится со сжатием. Экспериментально DiG-Flow интегрируется в существующие архитектуры VLA с незначительными накладными расходами и последовательно улучшает производительность, с особенно заметным приростом на сложных многошаговых задачах и в условиях ограниченного объема обучающих данных.
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.