EmboAlign: Alineación de la Generación de Vídeo con Restricciones Composicionales para la Manipulación de Cero Disparos

Resumen

Los modelos generativos de video (VGMs) preentrenados con datos a gran escala de internet pueden producir videos de desarrollo temporalmente coherentes que capturan dinámicas de objetos ricas, ofreciendo una base convincente para la manipulación robótica de cero disparos. Sin embargo, los VGMs a menudo producen desarrollos físicamente inverosímiles, y la conversión de su movimiento en el espacio de píxeles en acciones robóticas mediante el redireccionamiento geométrico introduce además errores acumulativos provenientes de la estimación imperfecta de profundidad y el seguimiento de puntos clave. Para abordar estos desafíos, presentamos , un marco de trabajo libre de datos que alinea las salidas de los VGM con restricciones composicionales generadas por modelos de visión y lenguaje (VLMs) en tiempo de inferencia. La idea clave es que los VLMs ofrecen una capacidad complementaria a los VGMs: un razonamiento espacial estructurado que puede identificar las restricciones físicas críticas para el éxito y la seguridad de la ejecución de la manipulación. Dada una instrucción en lenguaje natural, utiliza un VLM para extraer automáticamente un conjunto de restricciones composicionales que capturan los requisitos específicos de la tarea, las cuales se aplican luego en dos etapas: (1) selección de desarrollo guiada por restricciones, que puntúa y filtra un lote de desarrollos del VGM para retener al candidato más físicamente plausible, y (2) optimización de trayectoria basada en restricciones, que utiliza el desarrollo seleccionado como inicialización y refina la trayectoria del robot bajo el mismo conjunto de restricciones para corregir errores de redireccionamiento. Evaluamos en seis tareas de manipulación con robots reales que requieren una ejecución precisa y sensible a restricciones, mejorando la tasa de éxito general en 43.3 puntos porcentuales sobre el baseline más fuerte, sin utilizar datos de entrenamiento específicos de la tarea.

English

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.

EmboAlign: Alineación de la Generación de Vídeo con Restricciones Composicionales para la Manipulación de Cero Disparos

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Resumen

Support