EgoLife:エゴセントリック・ライフアシスタントに向けて
EgoLife: Towards Egocentric Life Assistant
March 5, 2025
著者: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI
要旨
私たちはEgoLifeプロジェクトを紹介します。これは、AI搭載のウェアラブルグラスを通じて個人の効率を向上させるエゴセントリックな生活アシスタントを開発するプロジェクトです。このアシスタントの基盤を築くため、6人の参加者が1週間共同生活を行い、AIグラスを使用して日常活動(ディスカッション、買い物、料理、社交、娯楽など)を継続的に記録する包括的なデータ収集研究を実施しました。これには、マルチモーダルなエゴセントリックビデオキャプチャと同期された第三者視点のビデオ参照も含まれます。この取り組みにより、EgoLifeデータセットが作成されました。これは、300時間に及ぶエゴセントリック、対人関係、マルチビュー、マルチモーダルの日常生活データセットで、詳細なアノテーションが施されています。このデータセットを活用して、EgoLifeQAを導入しました。これは、過去の関連イベントを思い出したり、健康習慣を監視したり、パーソナライズされた推奨事項を提供したりするなど、日常生活で実用的な質問に対応するための長文脈の生活指向型質問応答タスクのスイートです。主要な技術的課題である(1)エゴセントリックデータのための堅牢な視覚-音声モデルの開発、(2)アイデンティティ認識の実現、(3)広範な時間情報にわたる長文脈質問応答の促進に対処するため、EgoButlerを導入しました。これは、EgoGPTとEgoRAGからなる統合システムです。EgoGPTはエゴセントリックデータセットでトレーニングされたオムニモーダルモデルで、エゴセントリックビデオ理解において最先端の性能を達成しています。EgoRAGは、超長文脈の質問に答えるための検索ベースのコンポーネントです。私たちの実験研究は、それらの動作メカニズムを検証し、重要な要因とボトルネックを明らかにし、将来の改善を導きます。データセット、モデル、ベンチマークを公開することで、エゴセントリックAIアシスタントのさらなる研究を促進することを目指しています。
English
We introduce EgoLife, a project to develop an egocentric life assistant that
accompanies and enhances personal efficiency through AI-powered wearable
glasses. To lay the foundation for this assistant, we conducted a comprehensive
data collection study where six participants lived together for one week,
continuously recording their daily activities - including discussions,
shopping, cooking, socializing, and entertainment - using AI glasses for
multimodal egocentric video capture, along with synchronized third-person-view
video references. This effort resulted in the EgoLife Dataset, a comprehensive
300-hour egocentric, interpersonal, multiview, and multimodal daily life
dataset with intensive annotation. Leveraging this dataset, we introduce
EgoLifeQA, a suite of long-context, life-oriented question-answering tasks
designed to provide meaningful assistance in daily life by addressing practical
questions such as recalling past relevant events, monitoring health habits, and
offering personalized recommendations. To address the key technical challenges
of (1) developing robust visual-audio models for egocentric data, (2) enabling
identity recognition, and (3) facilitating long-context question answering over
extensive temporal information, we introduce EgoButler, an integrated system
comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on
egocentric datasets, achieving state-of-the-art performance on egocentric video
understanding. EgoRAG is a retrieval-based component that supports answering
ultra-long-context questions. Our experimental studies verify their working
mechanisms and reveal critical factors and bottlenecks, guiding future
improvements. By releasing our datasets, models, and benchmarks, we aim to
stimulate further research in egocentric AI assistants.Summary
AI-Generated Summary