EmboAlign: Alinhando a Geração de Vídeo com Restrições Composicionais para Manipulação Zero-Shot
EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation
March 5, 2026
Autores: Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu
cs.AI
Resumo
Modelos generativos de vídeo (VGMs) pré-treinados em dados massivos da internet podem produzir vídeos sequenciais temporalmente coerentes que capturam dinâmicas ricas de objetos, oferecendo uma base promissora para a manipulação robótica *zero-shot*. No entanto, os VGMs frequentemente produzem sequências fisicamente implausíveis, e a conversão do seu movimento no espaço de pixels em ações robóticas através de redirecionamento geométrico introduz ainda erros cumulativos provenientes de estimativa de profundidade e rastreamento de pontos-chave imperfeitos. Para enfrentar esses desafios, apresentamos o , uma estrutura *data-free* que alinha as saídas dos VGMs com restrições composicionais geradas por modelos de visão e linguagem (VLMs) no momento da inferência. A ideia central é que os VLMs oferecem uma capacidade complementar aos VGMs: o raciocínio espacial estruturado que pode identificar as restrições físicas críticas para o sucesso e a segurança da execução da manipulação. Dada uma instrução em linguagem natural, o utiliza um VLM para extrair automaticamente um conjunto de restrições composicionais que capturam requisitos específicos da tarefa, as quais são então aplicadas em dois estágios: (1) seleção de sequência guiada por restrições, que classifica e filtra um lote de sequências do VGM para reter o candidato mais fisicamente plausível, e (2) otimização de trajetória baseada em restrições, que usa a sequência selecionada como inicialização e refina a trajetória do robô sob o mesmo conjunto de restrições para corrigir erros de redirecionamento. Avaliamos o em seis tarefas de manipulação com robôs reais que exigem execução precisa e sensível a restrições, melhorando a taxa de sucesso geral em 43,3 pontos percentuais em relação à linha de base mais forte, sem qualquer dado de treinamento específico da tarefa.
English
Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.