EgoLife : Vers un assistant de vie égocentrique
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
Auteurs: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
Résumé
Nous présentons EgoLife, un projet visant à développer un assistant de vie égocentrique qui accompagne et améliore l'efficacité personnelle grâce à des lunettes connectées alimentées par l'IA. Pour jeter les bases de cet assistant, nous avons mené une étude approfondie de collecte de données dans laquelle six participants ont vécu ensemble pendant une semaine, en enregistrant en continu leurs activités quotidiennes - discussions, courses, cuisine, socialisation et divertissement - à l'aide de lunettes IA pour la capture vidéo égocentrique multimodale, ainsi que des références vidéo synchronisées en vue à la troisième personne. Cet effort a abouti à la création du jeu de données EgoLife, un ensemble de données complet de 300 heures sur la vie quotidienne, égocentrique, interpersonnel, multivue et multimodal, avec une annotation intensive. En exploitant ce jeu de données, nous introduisons EgoLifeQA, une suite de tâches de question-réponse à contexte long et orientées vers la vie quotidienne, conçues pour fournir une assistance significative en répondant à des questions pratiques telles que le rappel d'événements passés pertinents, le suivi des habitudes de santé et l'offre de recommandations personnalisées. Pour relever les principaux défis techniques que sont (1) le développement de modèles visuels-audio robustes pour les données égocentriques, (2) la reconnaissance d'identité, et (3) la facilitation de la réponse à des questions à contexte long sur des informations temporelles étendues, nous introduisons EgoButler, un système intégré comprenant EgoGPT et EgoRAG. EgoGPT est un modèle omni-modal entraîné sur des jeux de données égocentriques, atteignant des performances de pointe en compréhension de vidéo égocentrique. EgoRAG est un composant basé sur la récupération qui permet de répondre à des questions à contexte ultra-long. Nos études expérimentales vérifient leurs mécanismes de fonctionnement et révèlent des facteurs critiques et des goulots d'étranglement, guidant les améliorations futures. En publiant nos jeux de données, modèles et benchmarks, nous visons à stimuler davantage de recherches sur les assistants IA égocentriques.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary