LLaRA: Potencializando os Dados de Aprendizado de Robôs para Políticas de Visão e Linguagem
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
June 28, 2024
Autores: Xiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) equipados com amplo conhecimento do mundo e habilidades sólidas de raciocínio podem lidar com diversas tarefas em diferentes domínios, frequentemente ao apresentá-las como pares de instrução-resposta em estilo de conversação. Neste artigo, propomos LLaRA: Assistente de Robótica e Linguagem de Grande Escala, um framework que formula a política de ação do robô como conversas e fornece respostas aprimoradas quando treinado com dados auxiliares que complementam a aprendizagem da política. LLMs com entradas visuais, ou seja, Modelos de Linguagem Visual (VLMs), têm a capacidade de processar informações de estado como estímulos visuais-textuais e gerar decisões de política ótimas em texto. Para treinar tais VLMs de política de ação, introduzimos primeiro um pipeline automatizado para gerar dados de instrução robótica diversos e de alta qualidade a partir de dados existentes de clonagem de comportamento. Um VLM ajustado com a coleção resultante de conjuntos de dados com base em uma formulação em estilo de conversação adaptada para tarefas de robótica, pode gerar decisões significativas de política de ação do robô. Nossos experimentos em múltiplos ambientes simulados e do mundo real demonstram o desempenho de ponta do framework LLaRA proposto. O código, conjuntos de dados e modelos pré-treinados estão disponíveis em https://github.com/LostXine/LLaRA.
English
Large Language Models (LLMs) equipped with extensive world knowledge and
strong reasoning skills can tackle diverse tasks across domains, often by
posing them as conversation-style instruction-response pairs. In this paper, we
propose LLaRA: Large Language and Robotics Assistant, a framework which
formulates robot action policy as conversations, and provides improved
responses when trained with auxiliary data that complements policy learning.
LLMs with visual inputs, i.e., Vision Language Models (VLMs), have the capacity
to process state information as visual-textual prompts and generate optimal
policy decisions in text. To train such action policy VLMs, we first introduce
an automated pipeline to generate diverse high-quality robotics instruction
data from existing behavior cloning data. A VLM finetuned with the resulting
collection of datasets based on a conversation-style formulation tailored for
robotics tasks, can generate meaningful robot action policy decisions. Our
experiments across multiple simulated and real-world environments demonstrate
the state-of-the-art performance of the proposed LLaRA framework. The code,
datasets, and pretrained models are available at
https://github.com/LostXine/LLaRA.