DiG-Flow: Emparelhamento de Fluxo Guiado por Discrepância para Modelos VLA Robustos

Resumo

Os modelos Visão-Linguagem-Ação (VLA) treinados com correspondência de fluxo (flow matching) demonstraram capacidades impressionantes em tarefas de manipulação robótica. No entanto, o seu desempenho degrada-se frequentemente sob mudança de distribuição e em tarefas complexas de múltiplos passos, sugerindo que as representações aprendidas podem não capturar robustamente a semântica relevante para a tarefa. Apresentamos o DiG-Flow, uma estrutura fundamentada que aumenta a robustez dos VLA através de regularização geométrica. A nossa perceção fundamental é que a discrepância distribucional entre os *embeddings* de observação e de ação fornece um sinal geométrico significativo: um custo de transporte mais baixo indica representações compatíveis, enquanto um custo mais elevado sugere um potencial desalinhamento. O DiG-Flow calcula uma medida de discrepância entre as distribuições empíricas dos *embeddings* de observação e de ação, mapeia-a para um peso de modulação através de uma função monótona e aplica atualizações residuais aos *embeddings* de observação antes da correspondência de fluxo. Crucialmente, esta intervenção opera ao nível da representação sem modificar o caminho de correspondência de fluxo ou o campo vetorial alvo. Fornecemos garantias teóricas mostrando que o treino guiado por discrepância diminui comprovadamente o objetivo de treino, e que o refinamento de inferência guiada converge com contração. Empiricamente, o DiG-Flow integra-se nas arquiteturas VLA existentes com sobrecarga negligenciável e melhora consistentemente o desempenho, com ganhos particularmente pronunciados em tarefas complexas de múltiplos passos e sob dados de treino limitados.

English

Vision-Language-Action (VLA) models trained with flow matching have demonstrated impressive capabilities on robotic manipulation tasks. However, their performance often degrades under distribution shift and on complex multi-step tasks, suggesting that the learned representations may not robustly capture task-relevant semantics. We introduce DiG-Flow, a principled framework that enhances VLA robustness through geometric regularization. Our key insight is that the distributional discrepancy between observation and action embeddings provides a meaningful geometric signal: lower transport cost indicates compatible representations, while higher cost suggests potential misalignment. DiG-Flow computes a discrepancy measure between empirical distributions of observation and action embeddings, maps it to a modulation weight via a monotone function, and applies residual updates to the observation embeddings before flow matching. Crucially, this intervention operates at the representation level without modifying the flow matching path or target vector field. We provide theoretical guarantees showing that discrepancy-guided training provably decreases the training objective, and that guided inference refinement converges with contraction. Empirically, DiG-Flow integrates into existing VLA architectures with negligible overhead and consistently improves performance, with particularly pronounced gains on complex multi-step tasks and under limited training data.

DiG-Flow: Emparelhamento de Fluxo Guiado por Discrepância para Modelos VLA Robustos

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

Resumo

Support