EgoLife: Op Weg naar een Egocentrische Levensassistent
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
Auteurs: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
Samenvatting
We introduceren EgoLife, een project om een egocentrische levensassistent te ontwikkelen die persoonlijke efficiëntie begeleidt en verbetert door middel van AI-aangedreven draagbare brillen. Om de basis voor deze assistent te leggen, hebben we een uitgebreide gegevensverzamelingsstudie uitgevoerd waarin zes deelnemers een week samenleefden en continu hun dagelijkse activiteiten vastlegden - waaronder discussies, winkelen, koken, socializen en entertainment - met behulp van AI-brillen voor multimodale egocentrische videocaptie, samen met gesynchroniseerde derdepersoons-videoreferenties. Deze inspanning resulteerde in de EgoLife Dataset, een uitgebreide 300-uur durende egocentrische, interpersoonlijke, multiview en multimodale dataset van het dagelijks leven met intensieve annotatie. Gebruikmakend van deze dataset introduceren we EgoLifeQA, een reeks lang-context, leven-gerichte vraag-antwoordtaken die ontworpen zijn om zinvolle ondersteuning in het dagelijks leven te bieden door praktische vragen aan te pakken, zoals het herinneren van relevante gebeurtenissen uit het verleden, het monitoren van gezondheidsgewoonten en het aanbieden van gepersonaliseerde aanbevelingen. Om de belangrijkste technische uitdagingen aan te pakken van (1) het ontwikkelen van robuuste visueel-audiomodellen voor egocentrische gegevens, (2) het mogelijk maken van identiteitsherkenning en (3) het faciliteren van lang-context vraag-antwoord over uitgebreide temporele informatie, introduceren we EgoButler, een geïntegreerd systeem bestaande uit EgoGPT en EgoRAG. EgoGPT is een omnimodaal model getraind op egocentrische datasets, dat state-of-the-art prestaties behaalt op het gebied van egocentrische videobegrip. EgoRAG is een op retrieval gebaseerde component die het beantwoorden van ultra-lang-context vragen ondersteunt. Onze experimentele studies verifiëren hun werkingsmechanismen en onthullen kritieke factoren en knelpunten, die toekomstige verbeteringen begeleiden. Door onze datasets, modellen en benchmarks vrij te geven, streven we ernaar om verder onderzoek naar egocentrische AI-assistenten te stimuleren.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary