ChatPaper.aiChatPaper

Um Modelo de Fundação para Agentes Interativos

An Interactive Agent Foundation Model

February 8, 2024
Autores: Zane Durante, Bidipta Sarkar, Ran Gong, Rohan Taori, Yusuke Noda, Paul Tang, Ehsan Adeli, Shrinidhi Kowshika Lakshmikanth, Kevin Schulman, Arnold Milstein, Demetri Terzopoulos, Ade Famoti, Noboru Kuno, Ashley Llorens, Hoi Vo, Katsu Ikeuchi, Li Fei-Fei, Jianfeng Gao, Naoki Wake, Qiuyuan Huang
cs.AI

Resumo

O desenvolvimento de sistemas de inteligência artificial está em transição, passando da criação de modelos estáticos e específicos para tarefas para sistemas dinâmicos baseados em agentes, capazes de desempenhar bem em uma ampla gama de aplicações. Propomos um Modelo de Fundação de Agente Interativo que utiliza um novo paradigma de treinamento de agentes multitarefa para treinar agentes de IA em diversos domínios, conjuntos de dados e tarefas. Nosso paradigma de treinamento unifica diversas estratégias de pré-treinamento, incluindo autoencodificadores mascarados visuais, modelagem de linguagem e previsão da próxima ação, permitindo um framework de IA versátil e adaptável. Demonstramos o desempenho do nosso framework em três domínios distintos — Robótica, IA para Jogos e Saúde. Nosso modelo demonstra sua capacidade de gerar saídas significativas e contextualmente relevantes em cada área. A força da nossa abordagem reside em sua generalidade, aproveitando uma variedade de fontes de dados, como sequências robóticas, dados de jogos, grandes conjuntos de dados de vídeo e informações textuais, para um aprendizado multimodal e multitarefa eficaz. Nossa abordagem oferece um caminho promissor para o desenvolvimento de sistemas generalistas, que tomam ações e são multimodais.
English
The development of artificial intelligence systems is transitioning from creating static, task-specific models to dynamic, agent-based systems capable of performing well in a wide range of applications. We propose an Interactive Agent Foundation Model that uses a novel multi-task agent training paradigm for training AI agents across a wide range of domains, datasets, and tasks. Our training paradigm unifies diverse pre-training strategies, including visual masked auto-encoders, language modeling, and next-action prediction, enabling a versatile and adaptable AI framework. We demonstrate the performance of our framework across three separate domains -- Robotics, Gaming AI, and Healthcare. Our model demonstrates its ability to generate meaningful and contextually relevant outputs in each area. The strength of our approach lies in its generality, leveraging a variety of data sources such as robotics sequences, gameplay data, large-scale video datasets, and textual information for effective multimodal and multi-task learning. Our approach provides a promising avenue for developing generalist, action-taking, multimodal systems.
PDF304December 15, 2024