EmboAlign: Ausrichtung der Videogenerierung an kompositionellen Einschränkungen für Zero-Shot-Manipulation
EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation
March 5, 2026
Autoren: Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu
cs.AI
Zusammenfassung
Video-Generative-Modelle (VGMs), die auf groß angelegten Internetdaten vortrainiert wurden, können zeitlich kohärente Rollout-Videos erzeugen, die reichhaltige Objektdynamiken erfassen und damit eine überzeugende Grundlage für Zero-Shot-Robotermanipulation bieten. Allerdings erzeugen VGMs oft physikalisch unplausible Rollouts, und die Umwandlung ihrer Pixelraum-Bewegungen in Roboteraktionen durch geometrisches Retargeting führt zudem zu kumulativen Fehlern durch ungenaue Tiefenschätzung und Keypoint-Tracking. Um diese Herausforderungen zu bewältigen, stellen wir vor, ein datenfreies Framework, das die Ausgaben von VGMs mit kompositionellen Constraints abgleicht, die zur Inferenzzeit von Vision-Language-Modellen (VLMs) generiert werden. Die zentrale Erkenntnis ist, dass VLMs eine zu VGMs komplementäre Fähigkeit bieten: strukturiertes räumliches Reasoning, das die physikalischen Constraints identifizieren kann, die für den Erfolg und die Sicherheit der Manipulationsausführung entscheidend sind. Gegeben eine Sprachinstruktion nutzt ein VLM, um automatisch einen Satz kompositioneller Constraints zu extrahieren, die aufgabenspezifische Anforderungen erfassen. Diese werden dann in zwei Stufen angewendet: (1) constraint-gesteuerte Rollout-Selektion, die einen Batch von VGM-Rollouts bewertet und filtert, um den physikalisch plausibelsten Kandidaten beizubehalten, und (2) constraint-basierte Trajektorienoptimierung, die den ausgewählten Rollout als Initialisierung nutzt und die Roboter-Trajektorie unter dem gleichen Constraint-Satz verfeinert, um Retargeting-Fehler zu korrigieren. Wir evaluieren an sechs Real-Roboter-Manipulationsaufgaben, die präzise, constraint-sensitive Ausführung erfordern, und steigern die Gesamterfolgsrate um 43,3\%-Punkte gegenüber der stärksten Baseline ohne jegliche aufgabenspezifischen Trainingsdaten.
English
Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.