Uno para gobernarlos a todos: lenguaje natural para unir comunicación, percepción y acción.
One to rule them all: natural language to bind communication, perception and action
November 22, 2024
Autores: Simone Colombani, Dimitri Ognibene, Giuseppe Boccignone
cs.AI
Resumen
En los últimos años, la investigación en el área de la interacción humano-robot se ha centrado en desarrollar robots capaces de comprender instrucciones humanas complejas y llevar a cabo tareas en entornos dinámicos y diversos. Estos sistemas tienen una amplia gama de aplicaciones, desde asistencia personal hasta robótica industrial, destacando la importancia de que los robots interactúen de manera flexible, natural y segura con los humanos. Este artículo presenta una arquitectura avanzada para la planificación de acciones robóticas que integra la comunicación, percepción y planificación con Modelos de Lenguaje Amplio (LLMs). Nuestro sistema está diseñado para traducir comandos expresados en lenguaje natural en acciones ejecutables por el robot, incorporando información ambiental y actualizando planes dinámicamente en función de la retroalimentación en tiempo real. El Módulo de Planificación es el núcleo del sistema donde los LLMs integrados en un marco ReAct modificado se utilizan para interpretar y llevar a cabo los comandos del usuario. Al aprovechar su extenso conocimiento pre-entrenado, los LLMs pueden procesar eficazmente las solicitudes de los usuarios sin necesidad de introducir nuevos conocimientos sobre el entorno cambiante. El marco ReAct modificado mejora aún más el espacio de ejecución al proporcionar percepción ambiental en tiempo real y los resultados de las acciones físicas. Al combinar representaciones de mapas semánticos robustos y dinámicos como grafos con componentes de control y explicaciones de fallos, esta arquitectura mejora la adaptabilidad del robot, la ejecución de tareas y la colaboración fluida con los usuarios humanos en entornos compartidos y dinámicos. A través de la integración de bucles de retroalimentación continua con el entorno, el sistema puede ajustar dinámicamente el plan para adaptarse a cambios inesperados, optimizando la capacidad del robot para llevar a cabo tareas. Utilizando un conjunto de datos de experiencias anteriores, es posible proporcionar una retroalimentación detallada sobre el fallo. Actualizando el contexto de los LLMs en la próxima iteración con sugerencias sobre cómo superar el problema.
English
In recent years, research in the area of human-robot interaction has focused
on developing robots capable of understanding complex human instructions and
performing tasks in dynamic and diverse environments. These systems have a wide
range of applications, from personal assistance to industrial robotics,
emphasizing the importance of robots interacting flexibly, naturally and safely
with humans. This paper presents an advanced architecture for robotic action
planning that integrates communication, perception, and planning with Large
Language Models (LLMs). Our system is designed to translate commands expressed
in natural language into executable robot actions, incorporating environmental
information and dynamically updating plans based on real-time feedback. The
Planner Module is the core of the system where LLMs embedded in a modified
ReAct framework are employed to interpret and carry out user commands. By
leveraging their extensive pre-trained knowledge, LLMs can effectively process
user requests without the need to introduce new knowledge on the changing
environment. The modified ReAct framework further enhances the execution space
by providing real-time environmental perception and the outcomes of physical
actions. By combining robust and dynamic semantic map representations as graphs
with control components and failure explanations, this architecture enhances a
robot adaptability, task execution, and seamless collaboration with human users
in shared and dynamic environments. Through the integration of continuous
feedback loops with the environment the system can dynamically adjusts the plan
to accommodate unexpected changes, optimizing the robot ability to perform
tasks. Using a dataset of previous experience is possible to provide detailed
feedback about the failure. Updating the LLMs context of the next iteration
with suggestion on how to overcame the issue.