ChatPaper.aiChatPaper

Geração Proativa de Diálogos de Assistente a partir de Vídeos Egocêntricos em Tempo Real

Proactive Assistant Dialogue Generation from Streaming Egocentric Videos

June 6, 2025
Autores: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI

Resumo

Os avanços recentes em IA conversacional têm sido significativos, mas o desenvolvimento de sistemas em tempo real para orientação de tarefas perceptuais continua desafiador. Esses sistemas devem fornecer assistência interativa e proativa com base em entradas visuais em fluxo contínuo, mas seu desenvolvimento é limitado pelo processo custoso e trabalhoso de coleta de dados e avaliação do sistema. Para abordar essas limitações, apresentamos um framework abrangente com três contribuições principais. Primeiro, introduzimos um pipeline inovador de curadoria de dados que sintetiza diálogos a partir de vídeos egocêntricos anotados, resultando no \dataset, um conjunto de dados de diálogos sintéticos em larga escala que abrange múltiplos domínios. Segundo, desenvolvemos um conjunto de métricas de avaliação automática, validadas por meio de extensos estudos com humanos. Terceiro, propomos um modelo end-to-end que processa entradas de vídeo em fluxo para gerar respostas contextualmente apropriadas, incorporando técnicas inovadoras para lidar com desequilíbrios de dados e vídeos de longa duração. Este trabalho estabelece as bases para o desenvolvimento de assistentes de IA proativos e em tempo real, capazes de guiar os usuários em diversas tarefas. Página do projeto: https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing real-time systems for perceptual task guidance remains challenging. These systems must provide interactive, proactive assistance based on streaming visual inputs, yet their development is constrained by the costly and labor-intensive process of data collection and system evaluation. To address these limitations, we present a comprehensive framework with three key contributions. First, we introduce a novel data curation pipeline that synthesizes dialogues from annotated egocentric videos, resulting in \dataset, a large-scale synthetic dialogue dataset spanning multiple domains. Second, we develop a suite of automatic evaluation metrics, validated through extensive human studies. Third, we propose an end-to-end model that processes streaming video inputs to generate contextually appropriate responses, incorporating novel techniques for handling data imbalance and long-duration videos. This work lays the foundation for developing real-time, proactive AI assistants capable of guiding users through diverse tasks. Project page: https://pro-assist.github.io/
PDF22June 10, 2025