Uno para gobernarlos a todos: lenguaje natural para unir comunicación, percepción y acción.

Resumen

En los últimos años, la investigación en el área de la interacción humano-robot se ha centrado en desarrollar robots capaces de comprender instrucciones humanas complejas y llevar a cabo tareas en entornos dinámicos y diversos. Estos sistemas tienen una amplia gama de aplicaciones, desde asistencia personal hasta robótica industrial, destacando la importancia de que los robots interactúen de manera flexible, natural y segura con los humanos. Este artículo presenta una arquitectura avanzada para la planificación de acciones robóticas que integra la comunicación, percepción y planificación con Modelos de Lenguaje Amplio (LLMs). Nuestro sistema está diseñado para traducir comandos expresados en lenguaje natural en acciones ejecutables por el robot, incorporando información ambiental y actualizando planes dinámicamente en función de la retroalimentación en tiempo real. El Módulo de Planificación es el núcleo del sistema donde los LLMs integrados en un marco ReAct modificado se utilizan para interpretar y llevar a cabo los comandos del usuario. Al aprovechar su extenso conocimiento pre-entrenado, los LLMs pueden procesar eficazmente las solicitudes de los usuarios sin necesidad de introducir nuevos conocimientos sobre el entorno cambiante. El marco ReAct modificado mejora aún más el espacio de ejecución al proporcionar percepción ambiental en tiempo real y los resultados de las acciones físicas. Al combinar representaciones de mapas semánticos robustos y dinámicos como grafos con componentes de control y explicaciones de fallos, esta arquitectura mejora la adaptabilidad del robot, la ejecución de tareas y la colaboración fluida con los usuarios humanos en entornos compartidos y dinámicos. A través de la integración de bucles de retroalimentación continua con el entorno, el sistema puede ajustar dinámicamente el plan para adaptarse a cambios inesperados, optimizando la capacidad del robot para llevar a cabo tareas. Utilizando un conjunto de datos de experiencias anteriores, es posible proporcionar una retroalimentación detallada sobre el fallo. Actualizando el contexto de los LLMs en la próxima iteración con sugerencias sobre cómo superar el problema.

English

In recent years, research in the area of human-robot interaction has focused on developing robots capable of understanding complex human instructions and performing tasks in dynamic and diverse environments. These systems have a wide range of applications, from personal assistance to industrial robotics, emphasizing the importance of robots interacting flexibly, naturally and safely with humans. This paper presents an advanced architecture for robotic action planning that integrates communication, perception, and planning with Large Language Models (LLMs). Our system is designed to translate commands expressed in natural language into executable robot actions, incorporating environmental information and dynamically updating plans based on real-time feedback. The Planner Module is the core of the system where LLMs embedded in a modified ReAct framework are employed to interpret and carry out user commands. By leveraging their extensive pre-trained knowledge, LLMs can effectively process user requests without the need to introduce new knowledge on the changing environment. The modified ReAct framework further enhances the execution space by providing real-time environmental perception and the outcomes of physical actions. By combining robust and dynamic semantic map representations as graphs with control components and failure explanations, this architecture enhances a robot adaptability, task execution, and seamless collaboration with human users in shared and dynamic environments. Through the integration of continuous feedback loops with the environment the system can dynamically adjusts the plan to accommodate unexpected changes, optimizing the robot ability to perform tasks. Using a dataset of previous experience is possible to provide detailed feedback about the failure. Updating the LLMs context of the next iteration with suggestion on how to overcame the issue.

Uno para gobernarlos a todos: lenguaje natural para unir comunicación, percepción y acción.

One to rule them all: natural language to bind communication, perception and action

Resumen

Support