Proactieve Assistent Dialooggeneratie op Basis van Streaming Egocentrische Video's
Proactive Assistant Dialogue Generation from Streaming Egocentric Videos
June 6, 2025
Auteurs: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI
Samenvatting
Recente vooruitgang in conversatie-AI is aanzienlijk, maar het ontwikkelen van realtime systemen voor perceptuele taakbegeleiding blijft uitdagend. Deze systemen moeten interactieve, proactieve ondersteuning bieden op basis van streaming visuele inputs, maar hun ontwikkeling wordt beperkt door het kostbare en arbeidsintensieve proces van dataverzameling en systeemevaluatie. Om deze beperkingen aan te pakken, presenteren we een uitgebreid raamwerk met drie belangrijke bijdragen. Ten eerste introduceren we een innovatieve datacuratiepijplijn die dialogen synthetiseert uit geannoteerde egocentrische video's, wat resulteert in \dataset, een grootschalige synthetische dialoogdataset die meerdere domeinen omvat. Ten tweede ontwikkelen we een reeks automatische evaluatiemetrics, gevalideerd door uitgebreide menselijke studies. Ten derde stellen we een end-to-end model voor dat streaming video-inputs verwerkt om contextueel passende reacties te genereren, waarbij nieuwe technieken worden geïntegreerd voor het omgaan met dataonbalans en langdurige video's. Dit werk legt de basis voor het ontwikkelen van realtime, proactieve AI-assistenten die gebruikers kunnen begeleiden bij diverse taken. Projectpagina: https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing
real-time systems for perceptual task guidance remains challenging. These
systems must provide interactive, proactive assistance based on streaming
visual inputs, yet their development is constrained by the costly and
labor-intensive process of data collection and system evaluation. To address
these limitations, we present a comprehensive framework with three key
contributions. First, we introduce a novel data curation pipeline that
synthesizes dialogues from annotated egocentric videos, resulting in \dataset,
a large-scale synthetic dialogue dataset spanning multiple domains. Second, we
develop a suite of automatic evaluation metrics, validated through extensive
human studies. Third, we propose an end-to-end model that processes streaming
video inputs to generate contextually appropriate responses, incorporating
novel techniques for handling data imbalance and long-duration videos. This
work lays the foundation for developing real-time, proactive AI assistants
capable of guiding users through diverse tasks. Project page:
https://pro-assist.github.io/