VidEgoThink: Оценка возможностей понимания эгоцентрического видео для воплощенного искусственного интеллектаVidEgoThink: Assessing Egocentric Video Understanding Capabilities for
Embodied AI
Недавние достижения в области многомодальных крупных языковых моделей (MLLMs) открыли новые перспективы для применения во воплощенном искусственном интеллекте. На основе предыдущих работ, таких как EgoThink, мы представляем VidEgoThink - комплексный бенчмарк для оценки возможностей понимания эгоцентрического видео. Для сокращения разрыва между MLLMs и управлением на низком уровне во воплощенном искусственном интеллекте, мы разрабатываем четыре ключевых взаимосвязанных задачи: ответы на вопросы по видео, планирование иерархии, визуальное опорное планирование и моделирование вознаграждения. Для минимизации затрат на ручную аннотацию мы разрабатываем автоматизированный конвейер генерации данных на основе набора данных Ego4D, используя предварительные знания и многомодальные возможности GPT-4o. Затем три человеческих аннотатора фильтруют сгенерированные данные для обеспечения разнообразия и качества, что приводит к созданию бенчмарка VidEgoThink. Мы проводим обширные эксперименты с тремя типами моделей: MLLMs на основе API, MLLMs на основе изображений с открытым исходным кодом и MLLMs на основе видео с открытым исходным кодом. Экспериментальные результаты показывают, что все MLLMs, включая GPT-4o, плохо справляются со всеми задачами, связанными с пониманием эгоцентрического видео. Эти результаты указывают на то, что базовым моделям все еще требуются значительные улучшения для эффективного применения в сценариях от первого лица во воплощенном искусственном интеллекте. В заключение, VidEgoThink отражает тенденцию в исследованиях к использованию MLLMs для эгоцентрического зрения, подобно человеческим способностям, обеспечивая активное наблюдение и взаимодействие в сложных реальных средах.