EgoLife: Hacia un Asistente de Vida Egocéntrico
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
Autores: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
Resumen
Presentamos EgoLife, un proyecto para desarrollar un asistente vital egocéntrico que acompaña y mejora la eficiencia personal a través de gafas inteligentes potenciadas por IA. Para sentar las bases de este asistente, realizamos un estudio exhaustivo de recopilación de datos en el que seis participantes convivieron durante una semana, registrando continuamente sus actividades diarias —incluyendo discusiones, compras, cocina, socialización y entretenimiento— utilizando gafas IA para la captura multimodal de video egocéntrico, junto con referencias de video sincronizadas en tercera persona. Este esfuerzo resultó en el Conjunto de Datos EgoLife, un extenso conjunto de datos de 300 horas de vida diaria egocéntrica, interpersonal, multivista y multimodal con anotaciones intensivas. Aprovechando este conjunto de datos, presentamos EgoLifeQA, una serie de tareas de respuesta a preguntas de largo contexto orientadas a la vida, diseñadas para brindar asistencia significativa en la vida cotidiana al abordar preguntas prácticas como recordar eventos relevantes pasados, monitorear hábitos de salud y ofrecer recomendaciones personalizadas. Para abordar los desafíos técnicos clave de (1) desarrollar modelos visual-auditivos robustos para datos egocéntricos, (2) habilitar el reconocimiento de identidad y (3) facilitar la respuesta a preguntas de largo contexto sobre información temporal extensa, introducimos EgoButler, un sistema integrado que comprende EgoGPT y EgoRAG. EgoGPT es un modelo omni-modal entrenado en conjuntos de datos egocéntricos, logrando un rendimiento de vanguardia en la comprensión de video egocéntrico. EgoRAG es un componente basado en recuperación que respalda la respuesta a preguntas de contexto ultra largo. Nuestros estudios experimentales verifican sus mecanismos de funcionamiento y revelan factores críticos y cuellos de botella, guiando futuras mejoras. Al liberar nuestros conjuntos de datos, modelos y puntos de referencia, buscamos estimular más investigaciones en asistentes IA egocéntricos.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary