EgoLife: Rumo ao Assistente de Vida Egocêntrico
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
Autores: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
Resumo
Apresentamos o EgoLife, um projeto para desenvolver um assistente pessoal egocêntrico que acompanha e aprimora a eficiência pessoal por meio de óculos vestíveis alimentados por IA. Para estabelecer as bases desse assistente, realizamos um estudo abrangente de coleta de dados, no qual seis participantes viveram juntos por uma semana, registrando continuamente suas atividades diárias — incluindo discussões, compras, culinária, socialização e entretenimento — usando óculos de IA para captura multimodal de vídeo egocêntrico, juntamente com referências de vídeo sincronizadas em terceira pessoa. Esse esforço resultou no EgoLife Dataset, um conjunto de dados abrangente de 300 horas de vida diária egocêntrica, interpessoal, multiview e multimodal, com anotações intensivas. Aproveitando esse conjunto de dados, introduzimos o EgoLifeQA, uma suíte de tarefas de resposta a perguntas de longo contexto e orientadas para a vida, projetada para fornecer assistência significativa no dia a dia, abordando questões práticas, como relembrar eventos relevantes do passado, monitorar hábitos de saúde e oferecer recomendações personalizadas. Para enfrentar os principais desafios técnicos de (1) desenvolver modelos visuais-auditivos robustos para dados egocêntricos, (2) permitir o reconhecimento de identidade e (3) facilitar a resposta a perguntas de longo contexto sobre informações temporais extensas, introduzimos o EgoButler, um sistema integrado composto por EgoGPT e EgoRAG. O EgoGPT é um modelo omni-modal treinado em conjuntos de dados egocêntricos, alcançando desempenho de ponta na compreensão de vídeo egocêntrico. O EgoRAG é um componente baseado em recuperação que suporta a resposta a perguntas de contexto ultra longo. Nossos estudos experimentais verificam seus mecanismos de funcionamento e revelam fatores críticos e gargalos, orientando melhorias futuras. Ao disponibilizar nossos conjuntos de dados, modelos e benchmarks, visamos estimular pesquisas adicionais em assistentes de IA egocêntricos.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary