EmboAlign: Согласование генерации видео с композиционными ограничениями для манипуляции без обучения

Аннотация

Видеогенерирующие модели (VGM), предобученные на крупномасштабных интернет-данных, способны создавать временно согласованные видеоролики, которые отражают богатую динамику объектов, что представляет собой убедительную основу для zero-shot роботизированного манипулирования. Однако VGM часто генерируют физически нереалистичные сценарии, а преобразование их движения в пиксельном пространстве в действия робота посредством геометрического переприцеливания дополнительно вносит кумулятивные ошибки из-за неидеального оценивания глубины и отслеживания ключевых точек. Для решения этих проблем мы представляем — беcданный фреймворк, который на этапе вывода согласовывает выходные данные VGM с композиционными ограничениями, генерируемыми моделями "визуальный язык" (VLM). Ключевая идея заключается в том, что VLM предлагают возможность, дополняющую VGM: структурированное пространственное рассуждение, способное идентифицировать физические ограничения, критически важные для успеха и безопасности выполнения манипуляции. Для заданной языковой инструкции использует VLM для автоматического извлечения набора композиционных ограничений, отражающих специфичные для задачи требования, которые затем применяются на двух этапах: (1) выбор сценария с учетом ограничений, который оценивает и фильтрует пакет сценариев от VGM, чтобы оставить наиболее физически правдоподобного кандидата, и (2) оптимизация траектории на основе ограничений, которая использует выбранный сценарий в качестве инициализации и уточняет траекторию робота под тем же набором ограничений для исправления ошибок переприцеливания. Мы оцениваем на шести задачах манипулирования на реальном роботе, требующих точного, чувствительного к ограничениям выполнения, и демонстрируем улучшение общего показателя успешности на 43,3 процентных пункта по сравнению с сильнейшим базовым методом без использования каких-либо обучающих данных, специфичных для задачи.

English

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.

EmboAlign: Согласование генерации видео с композиционными ограничениями для манипуляции без обучения

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Аннотация

Support