Generazione Proattiva di Dialoghi Assistenziali da Video Egocentrici in Streaming
Proactive Assistant Dialogue Generation from Streaming Egocentric Videos
June 6, 2025
Autori: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI
Abstract
I recenti progressi nell'IA conversazionale sono stati significativi, ma lo sviluppo di sistemi in tempo reale per la guida di compiti percettivi rimane una sfida. Questi sistemi devono fornire assistenza interattiva e proattiva basata su input visivi in streaming, ma il loro sviluppo è limitato dal processo costoso e laborioso di raccolta dati e valutazione del sistema. Per affrontare queste limitazioni, presentiamo un framework completo con tre contributi chiave. In primo luogo, introduciamo una nuova pipeline di curatela dei dati che sintetizza dialoghi da video egocentrici annotati, risultando in \dataset, un ampio dataset sintetico di dialoghi che copre più domini. In secondo luogo, sviluppiamo una suite di metriche di valutazione automatica, validate attraverso ampi studi umani. In terzo luogo, proponiamo un modello end-to-end che elabora input video in streaming per generare risposte contestualmente appropriate, incorporando nuove tecniche per gestire lo squilibrio dei dati e i video di lunga durata. Questo lavoro getta le basi per lo sviluppo di assistenti AI proattivi in tempo reale, in grado di guidare gli utenti attraverso compiti diversi. Pagina del progetto: https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing
real-time systems for perceptual task guidance remains challenging. These
systems must provide interactive, proactive assistance based on streaming
visual inputs, yet their development is constrained by the costly and
labor-intensive process of data collection and system evaluation. To address
these limitations, we present a comprehensive framework with three key
contributions. First, we introduce a novel data curation pipeline that
synthesizes dialogues from annotated egocentric videos, resulting in \dataset,
a large-scale synthetic dialogue dataset spanning multiple domains. Second, we
develop a suite of automatic evaluation metrics, validated through extensive
human studies. Third, we propose an end-to-end model that processes streaming
video inputs to generate contextually appropriate responses, incorporating
novel techniques for handling data imbalance and long-duration videos. This
work lays the foundation for developing real-time, proactive AI assistants
capable of guiding users through diverse tasks. Project page:
https://pro-assist.github.io/