Agente personal de IA para VQA del carrete de la cámara

Resumen

Estudiamos el escenario de respuesta a preguntas visuales sobre el rollo de cámara personal. En este escenario, un asistente de IA conversacional puede acceder al rollo de cámara personal de un usuario y recuperar fotos relevantes para responder consultas, que van desde preguntas factuales simples (por ejemplo, "¿Nombre de la comida que probé ayer?") hasta otras más abiertas (por ejemplo, "Recomiéndame algunos platos que nunca haya comido antes"). Dada la naturaleza extensa del rollo de cámara personal (es decir, varios años, cientos a miles de fotos), un asistente de IA exitoso necesita comprender un flujo de contenido visual altamente personalizado y de largo plazo para navegar y localizar la información correcta y/o relevante. Para respaldar esto, recopilamos y anotamos manualmente preguntas que imitan el uso en el mundo real. El conjunto de datos final, camroll, contiene 50 usuarios, 31,476 imágenes y 2,500 pares de preguntas y respuestas. Además, diseñamos camroll-agent, un agente de IA conversacional equipado con memoria jerárquica y un conjunto mínimo de herramientas para una navegación eficiente sobre una memoria visual personalizada y extensa. Los resultados experimentales muestran que camroll-agent supera a numerosos modelos de referencia y métodos para sistemas de agentes de IA con comprensión de contexto largo. En conjunto, el conjunto de datos camroll y camroll-agent resaltan la brecha en el razonamiento de contexto largo de los agentes de IA: la memoria visual personalizada requiere enfoques diferentes de la memoria textual estándar de contexto largo, especialmente cuando están presentes la consistencia, los detalles visuales y el contexto específico del usuario.

English

We study the personal camera roll visual question answering setting. In this setting, a conversational AI assistant can access a user's personal camera roll and retrieve relevant photos to answer queries, ranging from simple factual questions (e.g., ``Name of the food I tried yesterday?'') to more open-ended ones (e.g., ``Recommend some dishes I have never eaten before''). Given the vast nature of the personal camera roll (i.e., multiple years, hundreds to thousands of photos), a successful AI assistant needs to understand a long-horizon, highly personalized visual content stream in order to navigate and locate the correct and/or relevant information. To support this, we collect and manually annotate questions that mimic real-world usage. The final dataset, camroll, contains 50 users, 31,476 images, and 2,500 QA pairs. We further design camroll-agent, a conversational AI agent equipped with hierarchical memory and a minimal set of tools for efficient navigation over large, personalized visual memory. Experimental results show that camroll-agent outperforms numerous baselines and methods for long-context understanding AI agents system. Together, the camroll dataset and camroll-agent highlight the gap in AI agents' long-context reasoning: personalized visual memory requires different approaches from standard long-context textual memory, especially when consistency, visual details, and user-specific context are present.