Agente de IA pessoal para VQA do Rolo da Câmera

Resumo

Estudamos o cenário de responder a perguntas visuais a partir do rolo da câmera pessoal. Nesse cenário, um assistente de IA conversacional pode acessar o rolo da câmera pessoal de um usuário e recuperar fotos relevantes para responder perguntas, que variam desde questões factuais simples (por exemplo, "Nome da comida que experimentei ontem?") até questões mais abertas (por exemplo, "Recomende alguns pratos que nunca comi antes"). Dada a natureza vasta do rolo da câmera pessoal (ou seja, vários anos, centenas a milhares de fotos), um assistente de IA bem-sucedido precisa compreender um fluxo de conteúdo visual de longo horizonte e altamente personalizado para navegar e localizar a informação correta e/ou relevante. Para apoiar isso, coletamos e anotamos manualmente perguntas que imitam o uso real. O conjunto de dados final, camroll, contém 50 usuários, 31.476 imagens e 2.500 pares de perguntas e respostas. Além disso, projetamos o camroll-agent, um agente de IA conversacional equipado com memória hierárquica e um conjunto mínimo de ferramentas para navegação eficiente sobre grandes memórias visuais personalizadas. Os resultados experimentais mostram que o camroll-agent supera inúmeras linhas de base e métodos para sistemas de agentes de IA de compreensão de contexto longo. Em conjunto, o conjunto de dados camroll e o camroll-agent destacam a lacuna no raciocínio de contexto longo dos agentes de IA: a memória visual personalizada requer abordagens diferentes da memória textual de contexto longo padrão, especialmente quando há consistência, detalhes visuais e contexto específico do usuário.

English

We study the personal camera roll visual question answering setting. In this setting, a conversational AI assistant can access a user's personal camera roll and retrieve relevant photos to answer queries, ranging from simple factual questions (e.g., ``Name of the food I tried yesterday?'') to more open-ended ones (e.g., ``Recommend some dishes I have never eaten before''). Given the vast nature of the personal camera roll (i.e., multiple years, hundreds to thousands of photos), a successful AI assistant needs to understand a long-horizon, highly personalized visual content stream in order to navigate and locate the correct and/or relevant information. To support this, we collect and manually annotate questions that mimic real-world usage. The final dataset, camroll, contains 50 users, 31,476 images, and 2,500 QA pairs. We further design camroll-agent, a conversational AI agent equipped with hierarchical memory and a minimal set of tools for efficient navigation over large, personalized visual memory. Experimental results show that camroll-agent outperforms numerous baselines and methods for long-context understanding AI agents system. Together, the camroll dataset and camroll-agent highlight the gap in AI agents' long-context reasoning: personalized visual memory requires different approaches from standard long-context textual memory, especially when consistency, visual details, and user-specific context are present.