EgoSpeak: Lernen, wann man für egozentrische Konversationsagenten in realen Umgebungen sprechen sollte
EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild
February 17, 2025
Autoren: Junhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu
cs.AI
Zusammenfassung
Die Vorhersage, wann in realen Umgebungen mit dem Sprechen begonnen werden soll, bleibt eine grundlegende Herausforderung für Konversationsagenten. Wir stellen EgoSpeak vor, ein neuartiges Framework zur Echtzeit-Vorhersage der Sprechinitiierung in egozentrischen Streaming-Videos. Indem es die Konversation aus der Ich-Perspektive des Sprechers modelliert, ist EgoSpeak auf menschenähnliche Interaktionen zugeschnitten, bei denen ein Konversationsagent kontinuierlich seine Umgebung beobachten und dynamisch entscheiden muss, wann er sprechen soll. Unser Ansatz überbrückt die Lücke zwischen vereinfachten experimentellen Aufbauten und komplexen natürlichen Gesprächen, indem er vier Schlüsselfähigkeiten integriert: (1) Ich-Perspektive, (2) RGB-Verarbeitung, (3) Online-Verarbeitung und (4) Verarbeitung ungeschnittener Videos. Wir präsentieren außerdem YT-Conversation, eine vielfältige Sammlung von Konversationsvideos aus der realen Welt von YouTube, als Ressource für das groß angelegte Pre-Training. Experimente mit EasyCom und Ego4D zeigen, dass EgoSpeak in Echtzeit zufällige und schweigebasierte Baselines übertrifft. Unsere Ergebnisse unterstreichen auch die Bedeutung von multimodalem Input und Kontextlänge für die effektive Entscheidung, wann gesprochen werden soll.
English
Predicting when to initiate speech in real-world environments remains a
fundamental challenge for conversational agents. We introduce EgoSpeak, a novel
framework for real-time speech initiation prediction in egocentric streaming
video. By modeling the conversation from the speaker's first-person viewpoint,
EgoSpeak is tailored for human-like interactions in which a conversational
agent must continuously observe its environment and dynamically decide when to
talk. Our approach bridges the gap between simplified experimental setups and
complex natural conversations by integrating four key capabilities: (1)
first-person perspective, (2) RGB processing, (3) online processing, and (4)
untrimmed video processing. We also present YT-Conversation, a diverse
collection of in-the-wild conversational videos from YouTube, as a resource for
large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that
EgoSpeak outperforms random and silence-based baselines in real time. Our
results also highlight the importance of multimodal input and context length in
effectively deciding when to speak.Summary
AI-Generated Summary