LEO-RobotAgent: Um Agente Robótico de Propósito Geral para Operador Corporificado Orientado por Linguagem

Resumo

Propomos o LEO-RobotAgent, uma estrutura de agente inteligente de propósito geral orientada por linguagem para robôs. Nesta estrutura, os LLMs (Large Language Models) podem operar diferentes tipos de robôs para concluir tarefas complexas e imprevisíveis em vários cenários. Esta estrutura apresenta forte generalização, robustez e eficiência. O sistema de nível aplicativo construído em torno dela pode aprimorar totalmente a compreensão bidirecional da intenção humano-robô e diminuir o limiar para a interação humano-robô. Em relação ao planejamento de tarefas robóticas, a grande maioria dos estudos existentes concentra-se na aplicação de grandes modelos em cenários de tarefa única e para tipos únicos de robôs. Esses algoritmos frequentemente possuem estruturas complexas e carecem de generalização. Assim, a estrutura LEO-RobotAgent proposta foi concebida com uma estrutura simplificada sempre que possível, permitindo que os grandes modelos pensem, planejem e ajam de forma independente dentro desta estrutura clara. Fornecemos um conjunto de ferramentas modular e de fácil registro, permitindo que os grandes modelos chamem flexivelmente várias ferramentas para atender a diferentes requisitos. Paralelamente, a estrutura incorpora um mecanismo de interação humano-robô, permitindo que o algoritmo colabore com os humanos como um parceiro. Os experimentos verificaram que esta estrutura pode ser facilmente adaptada a plataformas robóticas principais, incluindo Veículos Aéreos Não Tripulados (VANTs), braços robóticos e robôs com rodas, e executar com eficiência uma variedade de tarefas cuidadosamente elaboradas com diferentes níveis de complexidade. O nosso código está disponível em https://github.com/LegendLeoChen/LEO-RobotAgent.

English

We propose LEO-RobotAgent, a general-purpose language-driven intelligent agent framework for robots. Under this framework, LLMs can operate different types of robots to complete unpredictable complex tasks across various scenarios. This framework features strong generalization, robustness, and efficiency. The application-level system built around it can fully enhance bidirectional human-robot intent understanding and lower the threshold for human-robot interaction. Regarding robot task planning, the vast majority of existing studies focus on the application of large models in single-task scenarios and for single robot types. These algorithms often have complex structures and lack generalizability. Thus, the proposed LEO-RobotAgent framework is designed with a streamlined structure as much as possible, enabling large models to independently think, plan, and act within this clear framework. We provide a modular and easily registrable toolset, allowing large models to flexibly call various tools to meet different requirements. Meanwhile, the framework incorporates a human-robot interaction mechanism, enabling the algorithm to collaborate with humans like a partner. Experiments have verified that this framework can be easily adapted to mainstream robot platforms including unmanned aerial vehicles (UAVs), robotic arms, and wheeled robot, and efficiently execute a variety of carefully designed tasks with different complexity levels. Our code is available at https://github.com/LegendLeoChen/LEO-RobotAgent.