ChatPaper.aiChatPaper

ViNT: Un Modelo Fundacional para la Navegación Visual

ViNT: A Foundation Model for Visual Navigation

June 26, 2023
Autores: Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine
cs.AI

Resumen

Los modelos preentrenados de propósito general ("modelos base") han permitido a los profesionales desarrollar soluciones generalizables para problemas individuales de aprendizaje automático utilizando conjuntos de datos significativamente más pequeños que los requeridos para aprender desde cero. Dichos modelos suelen entrenarse con grandes y diversos conjuntos de datos bajo supervisión débil, consumiendo mucha más información de entrenamiento de la disponible para cualquier aplicación descendente individual. En este artículo, describimos el Visual Navigation Transformer (ViNT), un modelo base que busca llevar el éxito de los modelos preentrenados de propósito general a la navegación robótica basada en visión. ViNT se entrena con un objetivo general de alcance de metas que puede utilizarse con cualquier conjunto de datos de navegación, y emplea una arquitectura flexible basada en Transformers para aprender affordances de navegación y permitir una adaptación eficiente a una variedad de tareas de navegación descendentes. ViNT se entrena con varios conjuntos de datos de navegación existentes, que comprenden cientos de horas de navegación robótica de diversas plataformas robóticas, y muestra transferencia positiva, superando a modelos especializados entrenados con conjuntos de datos individuales. ViNT puede mejorarse con propuestas de submetas basadas en difusión para explorar entornos novedosos, y puede resolver problemas de navegación a escala de kilómetros cuando se equipa con heurísticas de largo alcance. ViNT también puede adaptarse a nuevas especificaciones de tareas con una técnica inspirada en el ajuste por prompts, donde el codificador de metas se reemplaza por una codificación de otra modalidad de tarea (por ejemplo, waypoints GPS o comandos de ruteo) integrada en el mismo espacio de tokens de metas. Esta flexibilidad y capacidad para adaptarse a una variedad de dominios de problemas descendentes establece a ViNT como un modelo base efectivo para la robótica móvil. Para videos, código y puntos de control del modelo, visite nuestra página del proyecto en https://visualnav-transformer.github.io.
English
General-purpose pre-trained models ("foundation models") have enabled practitioners to produce generalizable solutions for individual machine learning problems with datasets that are significantly smaller than those required for learning from scratch. Such models are typically trained on large and diverse datasets with weak supervision, consuming much more training data than is available for any individual downstream application. In this paper, we describe the Visual Navigation Transformer (ViNT), a foundation model that aims to bring the success of general-purpose pre-trained models to vision-based robotic navigation. ViNT is trained with a general goal-reaching objective that can be used with any navigation dataset, and employs a flexible Transformer-based architecture to learn navigational affordances and enable efficient adaptation to a variety of downstream navigational tasks. ViNT is trained on a number of existing navigation datasets, comprising hundreds of hours of robotic navigation from a variety of different robotic platforms, and exhibits positive transfer, outperforming specialist models trained on singular datasets. ViNT can be augmented with diffusion-based subgoal proposals to explore novel environments, and can solve kilometer-scale navigation problems when equipped with long-range heuristics. ViNT can also be adapted to novel task specifications with a technique inspired by prompt-tuning, where the goal encoder is replaced by an encoding of another task modality (e.g., GPS waypoints or routing commands) embedded into the same space of goal tokens. This flexibility and ability to accommodate a variety of downstream problem domains establishes ViNT as an effective foundation model for mobile robotics. For videos, code, and model checkpoints, see our project page at https://visualnav-transformer.github.io.
PDF70December 15, 2024