EgoSpeak: Обучение моменту речи для эгоцентрических диалоговых агентов в реальных условиях
EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild
February 17, 2025
Авторы: Junhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu
cs.AI
Аннотация
Прогнозирование момента начала речи в реальных условиях остается фундаментальной задачей для диалоговых агентов. Мы представляем EgoSpeak — новый фреймворк для прогнозирования инициации речи в режиме реального времени на основе эгоцентрического потокового видео. Моделируя разговор с точки зрения первого лица, EgoSpeak адаптирован для человекообразных взаимодействий, в которых диалоговый агент должен непрерывно наблюдать за окружающей средой и динамически решать, когда говорить. Наш подход устраняет разрыв между упрощенными экспериментальными установками и сложными естественными разговорами, интегрируя четыре ключевые возможности: (1) перспектива первого лица, (2) обработка RGB, (3) онлайн-обработка и (4) обработка необрезанного видео. Мы также представляем YT-Conversation — разнообразную коллекцию разговорных видео из YouTube, собранных в естественных условиях, как ресурс для крупномасштабного предварительного обучения. Эксперименты на наборах данных EasyCom и Ego4D показывают, что EgoSpeak превосходит базовые подходы, основанные на случайности и молчании, в режиме реального времени. Наши результаты также подчеркивают важность мультимодального ввода и длины контекста для эффективного принятия решений о начале речи.
English
Predicting when to initiate speech in real-world environments remains a
fundamental challenge for conversational agents. We introduce EgoSpeak, a novel
framework for real-time speech initiation prediction in egocentric streaming
video. By modeling the conversation from the speaker's first-person viewpoint,
EgoSpeak is tailored for human-like interactions in which a conversational
agent must continuously observe its environment and dynamically decide when to
talk. Our approach bridges the gap between simplified experimental setups and
complex natural conversations by integrating four key capabilities: (1)
first-person perspective, (2) RGB processing, (3) online processing, and (4)
untrimmed video processing. We also present YT-Conversation, a diverse
collection of in-the-wild conversational videos from YouTube, as a resource for
large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that
EgoSpeak outperforms random and silence-based baselines in real time. Our
results also highlight the importance of multimodal input and context length in
effectively deciding when to speak.Summary
AI-Generated Summary