ChatPaper.aiChatPaper

EgoLife: Verso un Assistente Personale Egocentrico

EgoLife: Towards Egocentric Life Assistant

March 5, 2025
Autori: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu
cs.AI

Abstract

Presentiamo EgoLife, un progetto per sviluppare un assistente personale egocentrico che accompagna e migliora l'efficienza personale attraverso occhiali indossabili alimentati da intelligenza artificiale. Per gettare le basi di questo assistente, abbiamo condotto uno studio completo di raccolta dati in cui sei partecipanti hanno vissuto insieme per una settimana, registrando continuamente le loro attività quotidiane - tra cui discussioni, acquisti, cucina, socializzazione e intrattenimento - utilizzando occhiali AI per la cattura video egocentrica multimodale, insieme a riferimenti video sincronizzati in terza persona. Questo sforzo ha portato alla creazione dell'EgoLife Dataset, un dataset completo di 300 ore di vita quotidiana egocentrica, interpersonale, multiview e multimodale con annotazioni intensive. Sfruttando questo dataset, introduciamo EgoLifeQA, una suite di task di question-answering a lungo contesto orientati alla vita quotidiana, progettati per fornire un'assistenza significativa nella vita di tutti i giorni affrontando domande pratiche come il richiamo di eventi passati rilevanti, il monitoraggio delle abitudini di salute e l'offerta di raccomandazioni personalizzate. Per affrontare le principali sfide tecniche di (1) sviluppare modelli audio-visivi robusti per dati egocentrici, (2) abilitare il riconoscimento dell'identità e (3) facilitare il question-answering a lungo contesto su informazioni temporali estese, introduciamo EgoButler, un sistema integrato che comprende EgoGPT e EgoRAG. EgoGPT è un modello omni-modale addestrato su dataset egocentrici, che raggiunge prestazioni all'avanguardia nella comprensione video egocentrica. EgoRAG è un componente basato su retrieval che supporta la risposta a domande a contesto ultra-lungo. I nostri studi sperimentali verificano i loro meccanismi di funzionamento e rivelano fattori critici e colli di bottiglia, guidando i miglioramenti futuri. Rilasciando i nostri dataset, modelli e benchmark, miriamo a stimolare ulteriori ricerche sugli assistenti AI egocentrici.
English
We introduce EgoLife, a project to develop an egocentric life assistant that accompanies and enhances personal efficiency through AI-powered wearable glasses. To lay the foundation for this assistant, we conducted a comprehensive data collection study where six participants lived together for one week, continuously recording their daily activities - including discussions, shopping, cooking, socializing, and entertainment - using AI glasses for multimodal egocentric video capture, along with synchronized third-person-view video references. This effort resulted in the EgoLife Dataset, a comprehensive 300-hour egocentric, interpersonal, multiview, and multimodal daily life dataset with intensive annotation. Leveraging this dataset, we introduce EgoLifeQA, a suite of long-context, life-oriented question-answering tasks designed to provide meaningful assistance in daily life by addressing practical questions such as recalling past relevant events, monitoring health habits, and offering personalized recommendations. To address the key technical challenges of (1) developing robust visual-audio models for egocentric data, (2) enabling identity recognition, and (3) facilitating long-context question answering over extensive temporal information, we introduce EgoButler, an integrated system comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on egocentric datasets, achieving state-of-the-art performance on egocentric video understanding. EgoRAG is a retrieval-based component that supports answering ultra-long-context questions. Our experimental studies verify their working mechanisms and reveal critical factors and bottlenecks, guiding future improvements. By releasing our datasets, models, and benchmarks, we aim to stimulate further research in egocentric AI assistants.

Summary

AI-Generated Summary

PDF422March 7, 2025