EmboAlign: Allineamento della Generazione Video con Vincoli Composizionali per la Manipolazione Zero-Shot

Abstract

I modelli generativi video (VGM) pre-addestrati su vasti dataset internet possono produrre video di rollout temporalmente coerenti che catturano dinamiche oggettuali ricche, offrendo una base promettente per la manipolazione robotica zero-shot. Tuttavia, i VGM spesso producono rollout fisicamente implausibili, e la conversione del loro movimento nello spazio dei pixel in azioni robotiche tramite retargeting geometrico introduce ulteriori errori cumulativi dovuti a stime di profondità imperfette e tracking dei punti chiave. Per affrontare queste sfide, presentiamo , un framework senza dati che allinea gli output dei VGM con vincoli composizionali generati da modelli visione-linguaggio (VLM) al momento dell'inferenza. L'intuizione chiave è che i VLM offrono una capacità complementare ai VGM: un ragionamento spaziale strutturato in grado di identificare i vincoli fisici critici per il successo e la sicurezza dell'esecuzione della manipolazione. Data un'istruzione linguistica, utilizza un VLM per estrarre automaticamente un insieme di vincoli composizionali che catturano i requisiti specifici del compito, che vengono poi applicati in due fasi: (1) selezione guidata dai vincoli del rollout, che valuta e filtra un batch di rollout VGM per trattenere il candidato fisicamente più plausibile, e (2) ottimizzazione della traiettoria basata sui vincoli, che utilizza il rollout selezionato come inizializzazione e affina la traiettoria del robot sotto lo stesso insieme di vincoli per correggere gli errori di retargeting. Valutiamo su sei compiti di manipolazione robotica reale che richiedono un'esecuzione precisa e sensibile ai vincoli, migliorando il tasso di successo complessivo di 43,3 punti percentuali rispetto al baseline più forte, senza alcun dato di addestramento specifico per il compito.

English

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present , a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.

EmboAlign: Allineamento della Generazione Video con Vincoli Composizionali per la Manipolazione Zero-Shot

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Abstract

Support