EmboAlign: Video-generatie afstemmen op compositionele beperkingen voor manipulatie zonder voorafgaande training

Samenvatting

Video-generatieve modellen (VGMs) die zijn voorgetraind op grootschalige internetgegevens kunnen temporeel coherente roll-outvideo's produceren die rijke objectdynamiek vastleggen, wat een overtuigende basis biedt voor zero-shot robotmanipulatie. VGM's produceren echter vaak fysiek onrealistische roll-outs, en het omzetten van hun beweging in de pixelruimte naar robotacties via geometrisch hertargeting introduceert verder cumulatieve fouten door onnauwkeurige diepteschatting en keypoint-tracking. Om deze uitdagingen aan te pakken, presenteren wij , een data-vrij raamwerk dat VGM-uitvoer afstemt op compositionele beperkingen die gegenereerd worden door vision-language modellen (VLMs) tijdens inferentie. Het belangrijkste inzicht is dat VLMs een capaciteit bieden die complementair is aan VGM's: gestructureerd ruimtelijk redeneren dat de fysieke beperkingen kan identificeren die cruciaal zijn voor het succes en de veiligheid van de manipulatie-uitvoering. Gegeven een taalinstructie gebruikt een VLM om automatisch een reeks compositionele beperkingen te extraheren die taakspecifieke vereisten vastleggen. Deze worden vervolgens in twee fasen toegepast: (1) beperking-gestuurde roll-outselectie, die een batch VGM-roll-outs scoort en filtert om de meest fysiek plausibele kandidaat te behouden, en (2) beperking-gebaseerde trajectoptimalisatie, die de geselecteerde roll-out gebruikt als initialisatie en het robottraject onder dezelfde beperkingenset verfijnt om hertargetingfouten te corrigeren. Wij evalueren op zes real-robot manipulatietaken die precieze, beperking-gevoelige uitvoering vereisen, en verbeteren het algemene slagingspercentage met 43,3\%-punten ten opzichte van de sterkste baseline zonder enige taakspecifieke trainingsdata.

English

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.

EmboAlign: Video-generatie afstemmen op compositionele beperkingen voor manipulatie zonder voorafgaande training

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Samenvatting

Support