ChatPaper.aiChatPaper

DiG-Flow: ロバストなVLAモデルのための不一致誘導フローマッチング

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

December 1, 2025
著者: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI

要旨

フローマッチングで学習されたVision-Language-Action (VLA) モデルは、ロボットマニピュレーションタスクにおいて印象的な能力を示している。しかし、その性能は分布シフト下や複雑な多段階タスクにおいてしばしば低下し、学習された表現がタスク関連のセマンティクスを頑健に捉えられていない可能性が示唆される。本研究では、幾何学的正則化を通じてVLAの頑健性を高める原理的なフレームワーク、DiG-Flowを提案する。我々の重要な洞察は、観測と行動の埋め込み表現間の分布的差異が意味のある幾何学的信号を提供するという点である:すなわち、低い輸送コストは互換性のある表現を示し、高いコストは潜在的な不整合を示唆する。DiG-Flowは、観測と行動の埋め込み表現の経験的分布間の差異尺度を計算し、単調関数を介してそれを変調重みにマッピングした後、フローマッチングの前に観測埋め込み表現へ残差更新を適用する。決定的に重要なのは、この介入が表現レベルで動作し、フローマッチングの経路や目標ベクトル場を変更しない点である。我々は、差異誘導型学習が理論的に学習目的関数を減少させ、誘導型推論改良が収縮性を持って収束することを保証する理論的保証を提供する。実験的には、DiG-Flowは既存のVLAアーキテクチャにわずかなオーバーヘッドで統合され、性能を一貫して向上させ、特に複雑な多段階タスクおよび限られた訓練データ下において顕著な改善をもたらす。
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.
PDF81December 4, 2025