ChatPaper.aiChatPaper

Proaktive Dialoggenerierung für Assistenten aus Streaming-Egocentric-Videos

Proactive Assistant Dialogue Generation from Streaming Egocentric Videos

June 6, 2025
Autoren: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Konversations-KI sind beträchtlich, doch die Entwicklung von Echtzeitsystemen zur Wahrnehmungsaufgabenführung bleibt eine Herausforderung. Diese Systeme müssen interaktive, proaktive Unterstützung auf der Grundlage von Streaming-Visualinputs bieten, doch ihre Entwicklung wird durch den kostspieligen und arbeitsintensiven Prozess der Datensammlung und Systembewertung eingeschränkt. Um diese Einschränkungen zu überwinden, präsentieren wir ein umfassendes Framework mit drei wesentlichen Beiträgen. Erstens führen wir eine neuartige Datenkuratierungspipeline ein, die Dialoge aus annotierten egozentrischen Videos synthetisiert, was zu \dataset führt, einem groß angelegten synthetischen Dialogdatensatz, der mehrere Domänen umfasst. Zweitens entwickeln wir eine Reihe automatischer Bewertungsmetriken, die durch umfangreiche Humanstudien validiert wurden. Drittens schlagen wir ein End-to-End-Modell vor, das Streaming-Videoinputs verarbeitet, um kontextuell angemessene Antworten zu generieren, und dabei neuartige Techniken zur Handhabung von Datenungleichgewichten und langen Videos integriert. Diese Arbeit legt den Grundstein für die Entwicklung von Echtzeit-, proaktiven KI-Assistenten, die Benutzer durch verschiedene Aufgaben führen können. Projektseite: https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing real-time systems for perceptual task guidance remains challenging. These systems must provide interactive, proactive assistance based on streaming visual inputs, yet their development is constrained by the costly and labor-intensive process of data collection and system evaluation. To address these limitations, we present a comprehensive framework with three key contributions. First, we introduce a novel data curation pipeline that synthesizes dialogues from annotated egocentric videos, resulting in \dataset, a large-scale synthetic dialogue dataset spanning multiple domains. Second, we develop a suite of automatic evaluation metrics, validated through extensive human studies. Third, we propose an end-to-end model that processes streaming video inputs to generate contextually appropriate responses, incorporating novel techniques for handling data imbalance and long-duration videos. This work lays the foundation for developing real-time, proactive AI assistants capable of guiding users through diverse tasks. Project page: https://pro-assist.github.io/
PDF22June 10, 2025