ChatPaper.aiChatPaper

Соединяя перспективы: обзор кросс-взглядного совместного интеллекта с использованием эгоцентрического и эксцентрического зрения

Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

June 6, 2025
Авторы: Yuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato
cs.AI

Аннотация

Восприятие мира как с эгоцентрической (персонифицированной), так и с экзоцентрической (сторонней) точек зрения является фундаментальным аспектом человеческого познания, обеспечивая богатое и взаимодополняющее понимание динамических сред. В последние годы возможность использования машин для реализации синергетического потенциала этих двойных перспектив стала перспективным направлением исследований в области анализа видео. В данном обзоре мы представляем всесторонний анализ понимания видео как с экзоцентрической, так и с эгоцентрической точек зрения. Мы начинаем с выделения практических приложений интеграции эгоцентрических и экзоцентрических методов, рассматривая их потенциальное взаимодействие в различных областях. Затем мы определяем ключевые исследовательские задачи, необходимые для реализации этих приложений. Далее мы систематически организуем и анализируем последние достижения в трех основных направлениях исследований: (1) использование эгоцентрических данных для улучшения экзоцентрического понимания, (2) применение экзоцентрических данных для повышения качества эгоцентрического анализа и (3) совместные обучающие подходы, объединяющие обе перспективы. Для каждого направления мы рассматриваем разнообразные задачи и соответствующие работы. Кроме того, мы обсуждаем эталонные наборы данных, поддерживающие исследования в обеих перспективах, оценивая их масштаб, разнообразие и применимость. В заключение мы рассматриваем ограничения текущих исследований и предлагаем перспективные направления для будущих изысканий. Синтезируя идеи из обеих точек зрения, наша цель — вдохновить прогресс в области анализа видео и искусственного интеллекта, приближая машины к восприятию мира по-человечески. Репозиторий GitHub с соответствующими работами доступен по ссылке: https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
English
Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
PDF72June 9, 2025