EgoLife: Auf dem Weg zum egozentrischen Lebensassistenten
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
Autoren: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
Zusammenfassung
Wir stellen EgoLife vor, ein Projekt zur Entwicklung eines egocentrischen Lebensassistenten, der durch KI-gestützte Wearable-Brillen die persönliche Effizienz begleitet und verbessert. Um die Grundlage für diesen Assistenten zu schaffen, führten wir eine umfassende Datenerhebungsstudie durch, bei der sechs Teilnehmer eine Woche lang zusammenlebten und ihre täglichen Aktivitäten – einschließlich Diskussionen, Einkaufen, Kochen, Sozialisieren und Unterhaltung – kontinuierlich mit KI-Brillen zur multimodalen egocentrischen Videoaufzeichnung sowie synchronisierten Third-Person-View-Videoreferenzen aufzeichneten. Diese Bemühungen resultierten im EgoLife-Datensatz, einem umfassenden 300-stündigen egocentrischen, interpersonellen, multiview und multimodalen Alltagsdatensatz mit intensiver Annotation. Basierend auf diesem Datensatz führen wir EgoLifeQA ein, eine Suite von langkontextbezogenen, lebensorientierten Frage-Antwort-Aufgaben, die darauf abzielen, durch die Beantwortung praktischer Fragen wie das Erinnern vergangener relevanter Ereignisse, die Überwachung von Gesundheitsgewohnheiten und das Anbieten personalisierter Empfehlungen eine sinnvolle Unterstützung im Alltag zu bieten. Um die zentralen technischen Herausforderungen (1) der Entwicklung robuster visuell-auditiver Modelle für egocentrische Daten, (2) der Ermöglichung von Identitätserkennung und (3) der Erleichterung langkontextbezogener Frage-Antworten über umfangreiche zeitliche Informationen zu bewältigen, stellen wir EgoButler vor, ein integriertes System bestehend aus EgoGPT und EgoRAG. EgoGPT ist ein omni-modales Modell, das auf egocentrischen Datensätzen trainiert wurde und Spitzenleistungen im Verständnis egocentrischer Videos erzielt. EgoRAG ist eine retrieverbasierte Komponente, die die Beantwortung ultra-langkontextbezogener Fragen unterstützt. Unsere experimentellen Studien bestätigen deren Funktionsmechanismen und decken kritische Faktoren und Engpässe auf, die zukünftige Verbesserungen leiten. Durch die Veröffentlichung unserer Datensätze, Modelle und Benchmarks möchten wir weitere Forschungen im Bereich egocentrischer KI-Assistenten anregen.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary