ChatPaper.aiChatPaper

EgoSpeak: Aprendizado de Quando Falar para Agentes Conversacionais Egocêntricos em Ambientes Não Controlados

EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild

February 17, 2025
Autores: Junhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu
cs.AI

Resumo

Prever quando iniciar a fala em ambientes do mundo real continua sendo um desafio fundamental para agentes conversacionais. Apresentamos o EgoSpeak, um novo framework para previsão em tempo real da iniciação da fala em vídeos de streaming egocêntricos. Ao modelar a conversa a partir do ponto de vista em primeira pessoa do falante, o EgoSpeak é adaptado para interações humanas em que um agente conversacional deve observar continuamente seu ambiente e decidir dinamicamente quando falar. Nossa abordagem preenche a lacuna entre configurações experimentais simplificadas e conversas naturais complexas, integrando quatro capacidades-chave: (1) perspectiva em primeira pessoa, (2) processamento RGB, (3) processamento online e (4) processamento de vídeo não editado. Também apresentamos o YT-Conversation, uma coleção diversificada de vídeos de conversas do mundo real do YouTube, como um recurso para pré-treinamento em larga escala. Experimentos em EasyCom e Ego4D demonstram que o EgoSpeak supera baselines aleatórios e baseados em silêncio em tempo real. Nossos resultados também destacam a importância de entrada multimodal e comprimento de contexto na decisão eficaz de quando falar.
English
Predicting when to initiate speech in real-world environments remains a fundamental challenge for conversational agents. We introduce EgoSpeak, a novel framework for real-time speech initiation prediction in egocentric streaming video. By modeling the conversation from the speaker's first-person viewpoint, EgoSpeak is tailored for human-like interactions in which a conversational agent must continuously observe its environment and dynamically decide when to talk. Our approach bridges the gap between simplified experimental setups and complex natural conversations by integrating four key capabilities: (1) first-person perspective, (2) RGB processing, (3) online processing, and (4) untrimmed video processing. We also present YT-Conversation, a diverse collection of in-the-wild conversational videos from YouTube, as a resource for large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that EgoSpeak outperforms random and silence-based baselines in real time. Our results also highlight the importance of multimodal input and context length in effectively deciding when to speak.

Summary

AI-Generated Summary

PDF62February 24, 2025