ChatPaper.aiChatPaper

Planificación del Lenguaje en Video

Video Language Planning

October 16, 2023
Autores: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI

Resumen

Estamos interesados en habilitar la planificación visual para tareas complejas de largo plazo en el espacio de videos y lenguaje generados, aprovechando los avances recientes en modelos generativos de gran escala preentrenados con datos a escala de Internet. Con este fin, presentamos la planificación de video y lenguaje (VLP, por sus siglas en inglés), un algoritmo que consiste en un procedimiento de búsqueda en árbol, donde entrenamos (i) modelos de visión y lenguaje para que sirvan tanto como políticas como funciones de valor, y (ii) modelos de texto a video como modelos de dinámica. VLP toma como entrada una instrucción de tarea de largo plazo y una observación de imagen actual, y genera un plan de video extenso que proporciona especificaciones multimodales detalladas (video y lenguaje) que describen cómo completar la tarea final. VLP escala con un presupuesto de computación creciente, donde un mayor tiempo de computación resulta en planes de video mejorados, y es capaz de sintetizar planes de video de largo plazo en diferentes dominios de robótica: desde la reorganización de múltiples objetos hasta la manipulación diestra con dos brazos y múltiples cámaras. Los planes de video generados pueden traducirse en acciones de robots reales mediante políticas condicionadas a objetivos, basadas en cada fotograma intermedio del video generado. Los experimentos muestran que VLP mejora sustancialmente las tasas de éxito en tareas de largo plazo en comparación con métodos anteriores, tanto en robots simulados como reales (en 3 plataformas de hardware).
English
We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
PDF111December 15, 2024