MA-EgoQA: Вопросно-ответная система для эгоцентрических видео от множественных воплощенных агентов

Аннотация

По мере роста возможностей воплощенных моделей, в будущем люди будут взаимодействовать с несколькими воплощенными ИИ-агентами на рабочем месте или дома. Для обеспечения эффективной коммуникации между пользователями и мульти-агентной системой крайне важно интерпретировать поступающую от агентов информацию параллельно и обращаться к соответствующему контексту для каждого запроса. Существующие проблемы включают эффективное сжатие и передачу больших объемов индивидуальных сенсорных данных в виде видео, а также корректную агрегацию множества эгоцентричных видео для построения системной памяти. В данной работе мы сначала формально определяем новую задачу понимания множества долговременных эгоцентричных видео, одновременно записанных воплощенными агентами. Для стимулирования исследований в этом направлении мы представляем MultiAgent-EgoQA (MA-EgoQA) — эталонный набор данных, предназначенный для системной оценки существующих моделей в нашем сценарии. MA-EgoQA содержит 1,7 тыс. вопросов, уникальных для множества эгоцентричных потоков, охватывающих пять категорий: социальное взаимодействие, координация задач, теория сознания, временные рассуждения и взаимодействие с окружающей средой. Мы также предлагаем простую базовую модель EgoMAS для MA-EgoQA, которая использует общую память между воплощенными агентами и динамическое поисковое взаимодействие между агентами. В результате всесторонней оценки различных базовых методов и EgoMAS на MA-EgoQA мы обнаружили, что современные подходы не способны эффективно обрабатывать множественные эгоцентричные потоки, что указывает на необходимость будущих достижений в области системного понимания across агентов. Код и эталонный набор данных доступны по адресу https://ma-egoqa.github.io.

English

As embodied models become powerful, humans will collaborate with multiple embodied AI agents at their workplace or home in the future. To ensure better communication between human users and the multi-agent system, it is crucial to interpret incoming information from agents in parallel and refer to the appropriate context for each query. Existing challenges include effectively compressing and communicating high volumes of individual sensory inputs in the form of video and correctly aggregating multiple egocentric videos to construct system-level memory. In this work, we first formally define a novel problem of understanding multiple long-horizon egocentric videos simultaneously collected from embodied agents. To facilitate research in this direction, we introduce MultiAgent-EgoQA (MA-EgoQA), a benchmark designed to systemically evaluate existing models in our scenario. MA-EgoQA provides 1.7k questions unique to multiple egocentric streams, spanning five categories: social interaction, task coordination, theory-of-mind, temporal reasoning, and environmental interaction. We further propose a simple baseline model for MA-EgoQA named EgoMAS, which leverages shared memory across embodied agents and agent-wise dynamic retrieval. Through comprehensive evaluation across diverse baselines and EgoMAS on MA-EgoQA, we find that current approaches are unable to effectively handle multiple egocentric streams, highlighting the need for future advances in system-level understanding across the agents. The code and benchmark are available at https://ma-egoqa.github.io.

MA-EgoQA: Вопросно-ответная система для эгоцентрических видео от множественных воплощенных агентов

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Аннотация

Support