Генерация проактивного диалога помощника на основе потоковых эгоцентричных видео
Proactive Assistant Dialogue Generation from Streaming Egocentric Videos
June 6, 2025
Авторы: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI
Аннотация
Последние достижения в области диалогового ИИ значительны, однако разработка систем для оперативного руководства в перцептивных задачах остается сложной задачей. Такие системы должны предоставлять интерактивную и проактивную помощь на основе потоковых визуальных данных, но их разработка ограничена дорогостоящим и трудоемким процессом сбора данных и оценки системы. Для преодоления этих ограничений мы представляем комплексную структуру с тремя ключевыми вкладами. Во-первых, мы вводим новый конвейер обработки данных, который синтезирует диалоги из аннотированных эгоцентричных видео, создавая \dataset — крупномасштабный синтетический набор диалогов, охватывающий множество областей. Во-вторых, мы разрабатываем набор автоматических метрик оценки, проверенных в ходе масштабных исследований с участием людей. В-третьих, мы предлагаем сквозную модель, которая обрабатывает потоковые видео для генерации контекстуально уместных ответов, включая новые методы для работы с дисбалансом данных и длительными видео. Эта работа закладывает основу для создания оперативных и проактивных ИИ-ассистентов, способных направлять пользователей в выполнении разнообразных задач. Страница проекта: https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing
real-time systems for perceptual task guidance remains challenging. These
systems must provide interactive, proactive assistance based on streaming
visual inputs, yet their development is constrained by the costly and
labor-intensive process of data collection and system evaluation. To address
these limitations, we present a comprehensive framework with three key
contributions. First, we introduce a novel data curation pipeline that
synthesizes dialogues from annotated egocentric videos, resulting in \dataset,
a large-scale synthetic dialogue dataset spanning multiple domains. Second, we
develop a suite of automatic evaluation metrics, validated through extensive
human studies. Third, we propose an end-to-end model that processes streaming
video inputs to generate contextually appropriate responses, incorporating
novel techniques for handling data imbalance and long-duration videos. This
work lays the foundation for developing real-time, proactive AI assistants
capable of guiding users through diverse tasks. Project page:
https://pro-assist.github.io/