EgoSpeak: Leren wanneer te spreken voor egocentrische conversatieagenten in natuurlijke omgevingen
EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild
February 17, 2025
Auteurs: Junhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu
cs.AI
Samenvatting
Het voorspellen van het juiste moment om te beginnen met spreken in realistische omgevingen blijft een fundamentele uitdaging voor conversatie-agents. Wij introduceren EgoSpeak, een nieuw framework voor realtime voorspelling van spraakinitiatie in egocentrische streamingvideo. Door het gesprek te modelleren vanuit het eerste-persoonsperspectief van de spreker, is EgoSpeak afgestemd op mensachtige interacties waarbij een conversatie-agent continu zijn omgeving moet observeren en dynamisch moet beslissen wanneer hij moet spreken. Onze aanpak overbrugt de kloof tussen vereenvoudigde experimentele opstellingen en complexe natuurlijke gesprekken door vier belangrijke capaciteiten te integreren: (1) eerste-persoonsperspectief, (2) RGB-verwerking, (3) online verwerking en (4) onbewerkte videoverwerking. We presenteren ook YT-Conversation, een diverse verzameling van natuurlijke gespreksvideo's van YouTube, als bron voor grootschalige voorafgaande training. Experimenten op EasyCom en Ego4D tonen aan dat EgoSpeak in realtime beter presteert dan willekeurige en op stilte gebaseerde basislijnen. Onze resultaten benadrukken ook het belang van multimodale input en contextlengte bij het effectief beslissen wanneer te spreken.
English
Predicting when to initiate speech in real-world environments remains a
fundamental challenge for conversational agents. We introduce EgoSpeak, a novel
framework for real-time speech initiation prediction in egocentric streaming
video. By modeling the conversation from the speaker's first-person viewpoint,
EgoSpeak is tailored for human-like interactions in which a conversational
agent must continuously observe its environment and dynamically decide when to
talk. Our approach bridges the gap between simplified experimental setups and
complex natural conversations by integrating four key capabilities: (1)
first-person perspective, (2) RGB processing, (3) online processing, and (4)
untrimmed video processing. We also present YT-Conversation, a diverse
collection of in-the-wild conversational videos from YouTube, as a resource for
large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that
EgoSpeak outperforms random and silence-based baselines in real time. Our
results also highlight the importance of multimodal input and context length in
effectively deciding when to speak.Summary
AI-Generated Summary