Agent IA personnel pour le VQA sur la pellicule

Résumé

Nous étudions le cadre de réponse à des questions visuelles à partir de la pellicule personnelle. Dans ce cadre, un assistant IA conversationnel peut accéder à la pellicule personnelle d'un utilisateur et récupérer les photos pertinentes pour répondre à des requêtes, allant de simples questions factuelles (par exemple, « Nom de l'aliment que j'ai goûté hier ? ») à des questions plus ouvertes (par exemple, « Recommande des plats que je n'ai jamais mangés auparavant »). Compte tenu de l'ampleur de la pellicule personnelle (plusieurs années, des centaines à des milliers de photos), un assistant IA performant doit comprendre un flux de contenu visuel hautement personnalisé et à long terme afin de naviguer et de localiser les informations correctes et/ou pertinentes. Pour cela, nous collectons et annotons manuellement des questions imitant une utilisation réelle. L'ensemble de données final, camroll, contient 50 utilisateurs, 31 476 images et 2 500 paires question-réponse. Nous concevons en outre camroll-agent, un agent IA conversationnel doté d'une mémoire hiérarchique et d'un ensemble minimal d'outils pour une navigation efficace dans une mémoire visuelle personnalisée de grande taille. Les résultats expérimentaux montrent que camroll-agent surpasse de nombreuses références et méthodes pour les systèmes d'agents IA de compréhension de contexte long. Ensemble, l'ensemble de données camroll et camroll-agent mettent en évidence le fossé dans le raisonnement à long contexte des agents IA : la mémoire visuelle personnalisée nécessite des approches différentes de la mémoire textuelle standard à long contexte, en particulier lorsque la cohérence, les détails visuels et le contexte propre à l'utilisateur sont présents.

English

We study the personal camera roll visual question answering setting. In this setting, a conversational AI assistant can access a user's personal camera roll and retrieve relevant photos to answer queries, ranging from simple factual questions (e.g., ``Name of the food I tried yesterday?'') to more open-ended ones (e.g., ``Recommend some dishes I have never eaten before''). Given the vast nature of the personal camera roll (i.e., multiple years, hundreds to thousands of photos), a successful AI assistant needs to understand a long-horizon, highly personalized visual content stream in order to navigate and locate the correct and/or relevant information. To support this, we collect and manually annotate questions that mimic real-world usage. The final dataset, camroll, contains 50 users, 31,476 images, and 2,500 QA pairs. We further design camroll-agent, a conversational AI agent equipped with hierarchical memory and a minimal set of tools for efficient navigation over large, personalized visual memory. Experimental results show that camroll-agent outperforms numerous baselines and methods for long-context understanding AI agents system. Together, the camroll dataset and camroll-agent highlight the gap in AI agents' long-context reasoning: personalized visual memory requires different approaches from standard long-context textual memory, especially when consistency, visual details, and user-specific context are present.