MA-EgoQA: Frage-Antwort-System für egocentrische Videos mehrerer verkörperter Agenten

Zusammenfassung

Mit der zunehmenden Leistungsfähigkeit verkörperter Modelle werden Menschen in Zukunft an ihrem Arbeitsplatz oder zu Hause mit mehreren verkörperten KI-Agenten zusammenarbeiten. Um eine bessere Kommunikation zwischen menschlichen Nutzern und dem Multi-Agenten-System zu gewährleisten, ist es entscheidend, eingehende Informationen von Agenten parallel zu interpretieren und für jede Anfrage den entsprechenden Kontext heranzuziehen. Zu den bestehenden Herausforderungen gehören die effektive Komprimierung und Übermittlung großer Mengen individueller sensorischer Eingaben in Form von Video sowie die korrekte Aggregation mehrerer egozentrischer Videos zum Aufbau eines systemweiten Gedächtnisses. In dieser Arbeit definieren wir zunächst formal ein neuartiges Problem: das Verständnis mehrerer langfristiger egozentrischer Videos, die gleichzeitig von verkörperten Agenten aufgezeichnet wurden. Um die Forschung in diese Richtung zu fördern, stellen wir MultiAgent-EgoQA (MA-EgoQA) vor, einen Benchmark, der entwickelt wurde, um bestehende Modelle in unserem Szenario systematisch zu evaluieren. MA-EgoQA bietet 1.700 Fragen, die spezifisch für mehrere egozentrische Datenströme sind und fünf Kategorien abdecken: soziale Interaktion, Aufgabenkoordination, Theory-of-Mind, zeitliches Schlussfolgern und Umweltinteraktion. Wir schlagen weiterhin ein einfaches Baseline-Modell für MA-EgoQA namens EgoMAS vor, das gemeinsamen Speicher über verkörperte Agenten hinweg und agentenbasierte dynamische Abfrage nutzt. Durch umfassende Evaluation verschiedener Baseline-Modelle und von EgoMAS auf MA-EgoQA stellen wir fest, dass aktuelle Ansätze nicht in der Lage sind, mehrere egozentrische Ströme effektiv zu verarbeiten, was die Notwendigkeit zukünftiger Fortschritte im systemweiten Verständnis über die Agenten hinweg unterstreicht. Der Code und der Benchmark sind unter https://ma-egoqa.github.io verfügbar.

English

As embodied models become powerful, humans will collaborate with multiple embodied AI agents at their workplace or home in the future. To ensure better communication between human users and the multi-agent system, it is crucial to interpret incoming information from agents in parallel and refer to the appropriate context for each query. Existing challenges include effectively compressing and communicating high volumes of individual sensory inputs in the form of video and correctly aggregating multiple egocentric videos to construct system-level memory. In this work, we first formally define a novel problem of understanding multiple long-horizon egocentric videos simultaneously collected from embodied agents. To facilitate research in this direction, we introduce MultiAgent-EgoQA (MA-EgoQA), a benchmark designed to systemically evaluate existing models in our scenario. MA-EgoQA provides 1.7k questions unique to multiple egocentric streams, spanning five categories: social interaction, task coordination, theory-of-mind, temporal reasoning, and environmental interaction. We further propose a simple baseline model for MA-EgoQA named EgoMAS, which leverages shared memory across embodied agents and agent-wise dynamic retrieval. Through comprehensive evaluation across diverse baselines and EgoMAS on MA-EgoQA, we find that current approaches are unable to effectively handle multiple egocentric streams, highlighting the need for future advances in system-level understanding across the agents. The code and benchmark are available at https://ma-egoqa.github.io.

MA-EgoQA: Frage-Antwort-System für egocentrische Videos mehrerer verkörperter Agenten

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Zusammenfassung

Support