ChatPaper.aiChatPaper

DiG-Flow: 강건한 VLA 모델을 위한 불일치 유도 흐름 정합

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

December 1, 2025
저자: Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu
cs.AI

초록

유동 매칭으로 학습된 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 이들의 성능은 분포 변화가 발생하거나 복잡한 다단계 작업에서 종종 저하되는데, 이는 학습된 표현이 작업 관련 의미를 강건하게 포착하지 못할 수 있음을 시사합니다. 본 논문에서는 기하학적 정규화를 통해 VLA의 강건성을 향상시키는 원리 기반 프레임워크인 DiG-Flow를 소개합니다. 우리의 핵심 통찰은 관측 임베딩과 행동 임베딩 간의 분포적 불일치가 의미 있는 기하학적 신호를 제공한다는 것입니다: 낮은 전송 비용은 호환되는 표현을 나타내는 반면, 높은 비용은 잠재적 불일치를 시사합니다. DiG-Flow는 관측 임베딩과 행동 임베딩의 경험적 분포 간 불일치 측정값을 계산하고, 단조 함수를 통해 이를 변조 가중치로 매핑한 후, 유동 매칭 전에 관측 임베딩에 잔차 업데이트를 적용합니다. 중요한 것은 이러한 개입이 유동 매칭 경로나 목표 벡터 장을 수정하지 않고 표현 수준에서 작동한다는 점입니다. 우리는 불일치 기반 학습이 이론적으로 학습 목적 함수를 감소시킴을 보장하고, 가이드된 추론 정제가 수축을 통해 수렴함을 이론적으로 증명합니다. 경험적으로 DiG-Flow는 기존 VLA 아키텍처에 미미한 오버헤드만으로 통합되며 성능을 지속적으로 향상시키는데, 특히 복잡한 다단계 작업과 제한된 학습 데이터 조건에서 두드러진 성능 향상을 보입니다.
English
Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.
PDF81December 4, 2025