Persoonlijke AI-agent voor camerarol VQA

Samenvatting

We bestuderen de setting van visuele vraagbeantwoording voor de persoonlijke camerarol. In deze setting heeft een conversationele AI-assistent toegang tot de persoonlijke camerarol van een gebruiker en kan relevante foto's ophalen om vragen te beantwoorden, variërend van eenvoudige feitelijke vragen (bijv. "Hoe heette het eten dat ik gisteren heb geprobeerd?") tot meer open vragen (bijv. "Beveel enkele gerechten aan die ik nog nooit heb gegeten"). Gezien de omvangrijke aard van de persoonlijke camerarol (meerdere jaren, honderden tot duizenden foto's) moet een succesvolle AI-assistent een langdurige, sterk gepersonaliseerde stroom van visuele inhoud begrijpen om door de juiste en/of relevante informatie te navigeren en deze te lokaliseren. Ter ondersteuning hiervan verzamelen en annoteren we handmatig vragen die het echte gebruik nabootsen. De uiteindelijke dataset, camroll, bevat 50 gebruikers, 31.476 afbeeldingen en 2.500 QA-paren. Verder ontwerpen we camroll-agent, een conversationele AI-agent uitgerust met hiërarchisch geheugen en een minimale set hulpmiddelen voor efficiënte navigatie over een grote, gepersonaliseerde visuele herinnering. Experimentele resultaten tonen aan dat camroll-agent beter presteert dan talrijke basislijnen en methoden voor AI-agentsystemen voor begrip van lange context. Samen benadrukken de camroll-dataset en camroll-agent de kloof in het redeneren over lange context door AI-agenten: gepersonaliseerd visueel geheugen vereist andere benaderingen dan standaard tekstueel geheugen voor lange context, vooral wanneer consistentie, visuele details en gebruikersspecifieke context aanwezig zijn.

English

We study the personal camera roll visual question answering setting. In this setting, a conversational AI assistant can access a user's personal camera roll and retrieve relevant photos to answer queries, ranging from simple factual questions (e.g., ``Name of the food I tried yesterday?'') to more open-ended ones (e.g., ``Recommend some dishes I have never eaten before''). Given the vast nature of the personal camera roll (i.e., multiple years, hundreds to thousands of photos), a successful AI assistant needs to understand a long-horizon, highly personalized visual content stream in order to navigate and locate the correct and/or relevant information. To support this, we collect and manually annotate questions that mimic real-world usage. The final dataset, camroll, contains 50 users, 31,476 images, and 2,500 QA pairs. We further design camroll-agent, a conversational AI agent equipped with hierarchical memory and a minimal set of tools for efficient navigation over large, personalized visual memory. Experimental results show that camroll-agent outperforms numerous baselines and methods for long-context understanding AI agents system. Together, the camroll dataset and camroll-agent highlight the gap in AI agents' long-context reasoning: personalized visual memory requires different approaches from standard long-context textual memory, especially when consistency, visual details, and user-specific context are present.