Персональный ИИ-агент для VQA по фотогалерее

Аннотация

Мы исследуем настройку ответов на визуальные вопросы на основе личного фотоархива. В этой настройке диалоговый ИИ-ассистент может получить доступ к личному фотоархиву пользователя и извлекать соответствующие фотографии для ответа на запросы, начиная от простых фактических вопросов (например, «Название блюда, которое я пробовал вчера?») до более открытых (например, «Порекомендуйте блюда, которые я никогда не пробовал»). Учитывая обширный характер личного фотоархива (т.е. множество лет, сотни или тысячи фотографий), успешный ИИ-ассистент должен понимать долгосрочный, высоко персонализированный поток визуального контента, чтобы ориентироваться и находить корректную и/или релевантную информацию. Для поддержки этого мы собираем и вручную размечаем вопросы, имитирующие реальное использование. Итоговый набор данных, camroll, содержит 50 пользователей, 31 476 изображений и 2 500 пар вопрос-ответ. Кроме того, мы разрабатываем camroll-agent — диалогового ИИ-агента, оснащенного иерархической памятью и минимальным набором инструментов для эффективной навигации по большой персонализированной визуальной памяти. Экспериментальные результаты показывают, что camroll-agent превосходит многочисленные базовые модели и методы систем ИИ-агентов для понимания длинного контекста. Вместе набор данных camroll и camroll-agent подчеркивают разрыв в долгоконтекстных рассуждениях ИИ-агентов: персонализированная визуальная память требует иных подходов по сравнению со стандартной долгоконтекстной текстовой памятью, особенно когда присутствуют согласованность, визуальные детали и специфический для пользователя контекст.

English

We study the personal camera roll visual question answering setting. In this setting, a conversational AI assistant can access a user's personal camera roll and retrieve relevant photos to answer queries, ranging from simple factual questions (e.g., ``Name of the food I tried yesterday?'') to more open-ended ones (e.g., ``Recommend some dishes I have never eaten before''). Given the vast nature of the personal camera roll (i.e., multiple years, hundreds to thousands of photos), a successful AI assistant needs to understand a long-horizon, highly personalized visual content stream in order to navigate and locate the correct and/or relevant information. To support this, we collect and manually annotate questions that mimic real-world usage. The final dataset, camroll, contains 50 users, 31,476 images, and 2,500 QA pairs. We further design camroll-agent, a conversational AI agent equipped with hierarchical memory and a minimal set of tools for efficient navigation over large, personalized visual memory. Experimental results show that camroll-agent outperforms numerous baselines and methods for long-context understanding AI agents system. Together, the camroll dataset and camroll-agent highlight the gap in AI agents' long-context reasoning: personalized visual memory requires different approaches from standard long-context textual memory, especially when consistency, visual details, and user-specific context are present.