EmboAlign : Alignement de la génération vidéo avec des contraintes compositionnelles pour la manipulation sans apprentissage

Résumé

Les modèles génératifs vidéo (VGMs), pré-entraînés sur de vastes données internet, peuvent produire des séquences vidéo cohérentes temporellement qui capturent une dynamique riche des objets, offrant une base prometteuse pour la manipulation robotique zero-shot. Cependant, les VGMs produisent souvent des séquences physiquement improbables, et la conversion de leur mouvement dans l'espace pixel en actions robotiques via un recalage géométrique introduit en outre des erreurs cumulatives provenant de l'estimation de profondeur imparfaite et du suivi de points-clés. Pour relever ces défis, nous présentons , un cadre sans données qui aligne les sorties des VGMs avec des contraintes compositionnelles générées par des modèles vision-langage (VLMs) au moment de l'inférence. L'idée clé est que les VLMs offrent une capacité complémentaire aux VGMs : un raisonnement spatial structuré qui peut identifier les contraintes physiques cruciales pour le succès et la sécurité de l'exécution de la manipulation. Étant donné une instruction en langage naturel, utilise un VLM pour extraire automatiquement un ensemble de contraintes compositionnelles capturant les exigences spécifiques à la tâche, qui sont ensuite appliquées à deux étapes : (1) la sélection de séquences guidée par les contraintes, qui évalue et filtre un lot de séquences VGMs pour conserver le candidat le plus physiquement plausible, et (2) l'optimisation de trajectoire basée sur les contraintes, qui utilise la séquence sélectionnée comme initialisation et affine la trajectoire du robot sous le même ensemble de contraintes pour corriger les erreurs de recalage. Nous évaluons sur six tâches de manipulation en robotique réelle nécessitant une exécution précise et sensible aux contraintes, améliorant le taux de réussite global de 43,3 points de pourcentage par rapport à la baseline la plus forte, et ce sans aucune donnée d'entraînement spécifique à la tâche.

English

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.

EmboAlign : Alignement de la génération vidéo avec des contraintes compositionnelles pour la manipulation sans apprentissage

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Résumé

Support