ChatPaper.aiChatPaper

Generación Proactiva de Diálogos de Asistencia a partir de Vídeos Egocéntricos en Tiempo Real

Proactive Assistant Dialogue Generation from Streaming Egocentric Videos

June 6, 2025
Autores: Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
cs.AI

Resumen

Los avances recientes en la inteligencia artificial conversacional han sido significativos, pero el desarrollo de sistemas en tiempo real para la guía de tareas perceptivas sigue siendo un desafío. Estos sistemas deben proporcionar asistencia interactiva y proactiva basada en entradas visuales en tiempo real, aunque su desarrollo está limitado por el proceso costoso y laborioso de recopilación de datos y evaluación del sistema. Para abordar estas limitaciones, presentamos un marco integral con tres contribuciones clave. En primer lugar, introducimos una novedosa canalización de curación de datos que sintetiza diálogos a partir de videos egocéntricos anotados, resultando en \dataset, un conjunto de datos de diálogos sintéticos a gran escala que abarca múltiples dominios. En segundo lugar, desarrollamos un conjunto de métricas de evaluación automática, validadas mediante estudios exhaustivos con humanos. En tercer lugar, proponemos un modelo de extremo a extremo que procesa entradas de video en tiempo real para generar respuestas contextualmente apropiadas, incorporando técnicas novedosas para manejar el desequilibrio de datos y videos de larga duración. Este trabajo sienta las bases para el desarrollo de asistentes de IA proactivos y en tiempo real, capaces de guiar a los usuarios en diversas tareas. Página del proyecto: https://pro-assist.github.io/
English
Recent advances in conversational AI have been substantial, but developing real-time systems for perceptual task guidance remains challenging. These systems must provide interactive, proactive assistance based on streaming visual inputs, yet their development is constrained by the costly and labor-intensive process of data collection and system evaluation. To address these limitations, we present a comprehensive framework with three key contributions. First, we introduce a novel data curation pipeline that synthesizes dialogues from annotated egocentric videos, resulting in \dataset, a large-scale synthetic dialogue dataset spanning multiple domains. Second, we develop a suite of automatic evaluation metrics, validated through extensive human studies. Third, we propose an end-to-end model that processes streaming video inputs to generate contextually appropriate responses, incorporating novel techniques for handling data imbalance and long-duration videos. This work lays the foundation for developing real-time, proactive AI assistants capable of guiding users through diverse tasks. Project page: https://pro-assist.github.io/
PDF22June 10, 2025