ChatPaper.aiChatPaper

LLaRA: Potencializando os Dados de Aprendizado de Robôs para Políticas de Visão e Linguagem

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

June 28, 2024
Autores: Xiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) equipados com amplo conhecimento do mundo e habilidades sólidas de raciocínio podem lidar com diversas tarefas em diferentes domínios, frequentemente ao apresentá-las como pares de instrução-resposta em estilo de conversação. Neste artigo, propomos LLaRA: Assistente de Robótica e Linguagem de Grande Escala, um framework que formula a política de ação do robô como conversas e fornece respostas aprimoradas quando treinado com dados auxiliares que complementam a aprendizagem da política. LLMs com entradas visuais, ou seja, Modelos de Linguagem Visual (VLMs), têm a capacidade de processar informações de estado como estímulos visuais-textuais e gerar decisões de política ótimas em texto. Para treinar tais VLMs de política de ação, introduzimos primeiro um pipeline automatizado para gerar dados de instrução robótica diversos e de alta qualidade a partir de dados existentes de clonagem de comportamento. Um VLM ajustado com a coleção resultante de conjuntos de dados com base em uma formulação em estilo de conversação adaptada para tarefas de robótica, pode gerar decisões significativas de política de ação do robô. Nossos experimentos em múltiplos ambientes simulados e do mundo real demonstram o desempenho de ponta do framework LLaRA proposto. O código, conjuntos de dados e modelos pré-treinados estão disponíveis em https://github.com/LostXine/LLaRA.
English
Large Language Models (LLMs) equipped with extensive world knowledge and strong reasoning skills can tackle diverse tasks across domains, often by posing them as conversation-style instruction-response pairs. In this paper, we propose LLaRA: Large Language and Robotics Assistant, a framework which formulates robot action policy as conversations, and provides improved responses when trained with auxiliary data that complements policy learning. LLMs with visual inputs, i.e., Vision Language Models (VLMs), have the capacity to process state information as visual-textual prompts and generate optimal policy decisions in text. To train such action policy VLMs, we first introduce an automated pipeline to generate diverse high-quality robotics instruction data from existing behavior cloning data. A VLM finetuned with the resulting collection of datasets based on a conversation-style formulation tailored for robotics tasks, can generate meaningful robot action policy decisions. Our experiments across multiple simulated and real-world environments demonstrate the state-of-the-art performance of the proposed LLaRA framework. The code, datasets, and pretrained models are available at https://github.com/LostXine/LLaRA.
PDF181November 29, 2024