EgoLife: 자기 중심적 생활 보조를 향하여
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
저자: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
초록
우리는 EgoLife 프로젝트를 소개합니다. 이 프로젝트는 AI 기반 웨어러블 안경을 통해 개인의 효율성을 동반하고 향상시키는 에고센트릭(egocentric) 생활 어시스턴트를 개발하는 것을 목표로 합니다. 이 어시스턴트의 기반을 마련하기 위해, 우리는 6명의 참가자가 1주일 동안 함께 생활하며 일상 활동(토론, 쇼핑, 요리, 사교, 엔터테인먼트 등)을 AI 안경을 사용해 지속적으로 기록하는 포괄적인 데이터 수집 연구를 수행했습니다. 이때 다중 모달 에고센트릭 비디오 캡처와 동기화된 제3자 시점 비디오 참조 자료도 함께 수집했습니다. 이를 통해 300시간 분량의 포괄적인 에고센트릭, 대인관계, 다중 시점, 다중 모달 일상 생활 데이터셋인 EgoLife 데이터셋이 구축되었으며, 이 데이터셋은 집중적인 주석 작업이 이루어졌습니다. 이 데이터셋을 활용하여, 우리는 EgoLifeQA를 소개합니다. 이는 과거 관련 이벤트 회상, 건강 습관 모니터링, 개인화된 추천 제공 등 실질적인 질문에 답변함으로써 일상 생활에서 의미 있는 지원을 제공하도록 설계된 장문 컨텍스트, 생활 지향형 질의응답 작업 모음입니다. (1) 에고센트릭 데이터를 위한 강력한 시각-오디오 모델 개발, (2) 신원 인식 가능, (3) 광범위한 시간 정보에 걸친 장문 컨텍스트 질의응답 지원이라는 주요 기술적 과제를 해결하기 위해, 우리는 EgoGPT와 EgoRAG로 구성된 통합 시스템인 EgoButler를 도입했습니다. EgoGPT는 에고센트릭 데이터셋으로 훈련된 올모달(omni-modal) 모델로, 에고센트릭 비디오 이해 분야에서 최첨단 성능을 달성했습니다. EgoRAG는 초장문 컨텍스트 질문에 답변을 지원하는 검색 기반 컴포넌트입니다. 우리의 실험 연구는 이들의 작동 메커니즘을 검증하고, 향후 개선을 위한 중요한 요소와 병목 현상을 밝혀냈습니다. 데이터셋, 모델, 벤치마크를 공개함으로써, 우리는 에고센트릭 AI 어시스턴트 분야의 추가 연구를 촉진하고자 합니다.
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary