EgoSpeak: Lernen, wann man für egozentrische Konversationsagenten in realen Umgebungen sprechen sollte

papers.abstract

Die Vorhersage, wann in realen Umgebungen mit dem Sprechen begonnen werden soll, bleibt eine grundlegende Herausforderung für Konversationsagenten. Wir stellen EgoSpeak vor, ein neuartiges Framework zur Echtzeit-Vorhersage der Sprechinitiierung in egozentrischen Streaming-Videos. Indem es die Konversation aus der Ich-Perspektive des Sprechers modelliert, ist EgoSpeak auf menschenähnliche Interaktionen zugeschnitten, bei denen ein Konversationsagent kontinuierlich seine Umgebung beobachten und dynamisch entscheiden muss, wann er sprechen soll. Unser Ansatz überbrückt die Lücke zwischen vereinfachten experimentellen Aufbauten und komplexen natürlichen Gesprächen, indem er vier Schlüsselfähigkeiten integriert: (1) Ich-Perspektive, (2) RGB-Verarbeitung, (3) Online-Verarbeitung und (4) Verarbeitung ungeschnittener Videos. Wir präsentieren außerdem YT-Conversation, eine vielfältige Sammlung von Konversationsvideos aus der realen Welt von YouTube, als Ressource für das groß angelegte Pre-Training. Experimente mit EasyCom und Ego4D zeigen, dass EgoSpeak in Echtzeit zufällige und schweigebasierte Baselines übertrifft. Unsere Ergebnisse unterstreichen auch die Bedeutung von multimodalem Input und Kontextlänge für die effektive Entscheidung, wann gesprochen werden soll.

English

Predicting when to initiate speech in real-world environments remains a fundamental challenge for conversational agents. We introduce EgoSpeak, a novel framework for real-time speech initiation prediction in egocentric streaming video. By modeling the conversation from the speaker's first-person viewpoint, EgoSpeak is tailored for human-like interactions in which a conversational agent must continuously observe its environment and dynamically decide when to talk. Our approach bridges the gap between simplified experimental setups and complex natural conversations by integrating four key capabilities: (1) first-person perspective, (2) RGB processing, (3) online processing, and (4) untrimmed video processing. We also present YT-Conversation, a diverse collection of in-the-wild conversational videos from YouTube, as a resource for large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that EgoSpeak outperforms random and silence-based baselines in real time. Our results also highlight the importance of multimodal input and context length in effectively deciding when to speak.

EgoSpeak: Lernen, wann man für egozentrische Konversationsagenten in realen Umgebungen sprechen sollte

EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild

papers.abstract

Support