MA-EgoQA: Respuesta a Preguntas sobre Videos Egocéntricos de Múltiples Agentes Corporizados

Resumen

A medida que los modelos corporizados adquieren mayor capacidad, los humanos colaborarán con múltiples agentes de IA corporizados en sus entornos laborales o domésticos en el futuro. Para garantizar una mejor comunicación entre los usuarios humanos y el sistema multiagente, es crucial interpretar la información entrante de los agentes en paralelo y referirse al contexto adecuado para cada consulta. Los desafíos existentes incluyen comprimir y comunicar eficazmente grandes volúmenes de entradas sensoriales individuales en formato de video, y agregar correctamente múltiples videos egocéntricos para construir una memoria a nivel del sistema. En este trabajo, primero definimos formalmente un problema novedoso: la comprensión de múltiples videos egocéntricos de largo horizonte recopilados simultáneamente de agentes corporizados. Para facilitar la investigación en esta dirección, presentamos MultiAgent-EgoQA (MA-EgoQA), un benchmark diseñado para evaluar sistémicamente los modelos existentes en nuestro escenario. MA-EgoQA proporciona 1.700 preguntas exclusivas de flujos egocéntricos múltiples, que abarcan cinco categorías: interacción social, coordinación de tareas, teoría de la mente, razonamiento temporal e interacción ambiental. Además, proponemos un modelo baseline simple para MA-EgoQA denominado EgoMAS, que aprovecha la memoria compartida entre agentes corporizados y la recuperación dinámica por agente. Mediante una evaluación exhaustiva de diversas líneas base y de EgoMAS en MA-EgoQA, encontramos que los enfoques actuales no pueden manejar eficazmente múltiples flujos egocéntricos, lo que subraya la necesidad de avances futuros en la comprensión a nivel del sistema entre los agentes. El código y el benchmark están disponibles en https://ma-egoqa.github.io.

English

As embodied models become powerful, humans will collaborate with multiple embodied AI agents at their workplace or home in the future. To ensure better communication between human users and the multi-agent system, it is crucial to interpret incoming information from agents in parallel and refer to the appropriate context for each query. Existing challenges include effectively compressing and communicating high volumes of individual sensory inputs in the form of video and correctly aggregating multiple egocentric videos to construct system-level memory. In this work, we first formally define a novel problem of understanding multiple long-horizon egocentric videos simultaneously collected from embodied agents. To facilitate research in this direction, we introduce MultiAgent-EgoQA (MA-EgoQA), a benchmark designed to systemically evaluate existing models in our scenario. MA-EgoQA provides 1.7k questions unique to multiple egocentric streams, spanning five categories: social interaction, task coordination, theory-of-mind, temporal reasoning, and environmental interaction. We further propose a simple baseline model for MA-EgoQA named EgoMAS, which leverages shared memory across embodied agents and agent-wise dynamic retrieval. Through comprehensive evaluation across diverse baselines and EgoMAS on MA-EgoQA, we find that current approaches are unable to effectively handle multiple egocentric streams, highlighting the need for future advances in system-level understanding across the agents. The code and benchmark are available at https://ma-egoqa.github.io.

MA-EgoQA: Respuesta a Preguntas sobre Videos Egocéntricos de Múltiples Agentes Corporizados

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Resumen

Support