Génération proactive de dialogues d'assistance à partir de vidéos égocentriques en flux continu
Proactive Assistant Dialogue Generation from Streaming Egocentric Videos
June 6, 2025
Auteurs: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI
Résumé
Les avancées récentes dans le domaine de l'IA conversationnelle ont été significatives, mais le développement de systèmes en temps réel pour le guidage de tâches perceptuelles reste un défi. Ces systèmes doivent fournir une assistance interactive et proactive basée sur des flux d'entrées visuelles, mais leur développement est limité par le processus coûteux et laborieux de collecte de données et d'évaluation du système. Pour surmonter ces limitations, nous présentons un cadre complet avec trois contributions clés. Premièrement, nous introduisons un pipeline novateur de curation de données qui synthétise des dialogues à partir de vidéos égocentriques annotées, aboutissant à \dataset, un ensemble de données de dialogues synthétiques à grande échelle couvrant plusieurs domaines. Deuxièmement, nous développons une série de métriques d'évaluation automatiques, validées par des études humaines approfondies. Troisièmement, nous proposons un modèle de bout en bout qui traite les flux vidéo en temps réel pour générer des réponses contextuellement appropriées, intégrant des techniques innovantes pour gérer les déséquilibres de données et les vidéos de longue durée. Ce travail pose les bases pour le développement d'assistants IA en temps réel et proactifs, capables de guider les utilisateurs à travers diverses tâches. Page du projet : https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing
real-time systems for perceptual task guidance remains challenging. These
systems must provide interactive, proactive assistance based on streaming
visual inputs, yet their development is constrained by the costly and
labor-intensive process of data collection and system evaluation. To address
these limitations, we present a comprehensive framework with three key
contributions. First, we introduce a novel data curation pipeline that
synthesizes dialogues from annotated egocentric videos, resulting in \dataset,
a large-scale synthetic dialogue dataset spanning multiple domains. Second, we
develop a suite of automatic evaluation metrics, validated through extensive
human studies. Third, we propose an end-to-end model that processes streaming
video inputs to generate contextually appropriate responses, incorporating
novel techniques for handling data imbalance and long-duration videos. This
work lays the foundation for developing real-time, proactive AI assistants
capable of guiding users through diverse tasks. Project page:
https://pro-assist.github.io/