Соединяя перспективы: обзор кросс-взглядного совместного интеллекта с использованием эгоцентрического и эксцентрического зрения
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision
June 6, 2025
Авторы: Yuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato
cs.AI
Аннотация
Восприятие мира как с эгоцентрической (персонифицированной), так и с экзоцентрической (сторонней) точек зрения является фундаментальным аспектом человеческого познания, обеспечивая богатое и взаимодополняющее понимание динамических сред. В последние годы возможность использования машин для реализации синергетического потенциала этих двойных перспектив стала перспективным направлением исследований в области анализа видео. В данном обзоре мы представляем всесторонний анализ понимания видео как с экзоцентрической, так и с эгоцентрической точек зрения. Мы начинаем с выделения практических приложений интеграции эгоцентрических и экзоцентрических методов, рассматривая их потенциальное взаимодействие в различных областях. Затем мы определяем ключевые исследовательские задачи, необходимые для реализации этих приложений. Далее мы систематически организуем и анализируем последние достижения в трех основных направлениях исследований: (1) использование эгоцентрических данных для улучшения экзоцентрического понимания, (2) применение экзоцентрических данных для повышения качества эгоцентрического анализа и (3) совместные обучающие подходы, объединяющие обе перспективы. Для каждого направления мы рассматриваем разнообразные задачи и соответствующие работы. Кроме того, мы обсуждаем эталонные наборы данных, поддерживающие исследования в обеих перспективах, оценивая их масштаб, разнообразие и применимость. В заключение мы рассматриваем ограничения текущих исследований и предлагаем перспективные направления для будущих изысканий. Синтезируя идеи из обеих точек зрения, наша цель — вдохновить прогресс в области анализа видео и искусственного интеллекта, приближая машины к восприятию мира по-человечески. Репозиторий GitHub с соответствующими работами доступен по ссылке: https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
English
Perceiving the world from both egocentric (first-person) and exocentric
(third-person) perspectives is fundamental to human cognition, enabling rich
and complementary understanding of dynamic environments. In recent years,
allowing the machines to leverage the synergistic potential of these dual
perspectives has emerged as a compelling research direction in video
understanding. In this survey, we provide a comprehensive review of video
understanding from both exocentric and egocentric viewpoints. We begin by
highlighting the practical applications of integrating egocentric and
exocentric techniques, envisioning their potential collaboration across
domains. We then identify key research tasks to realize these applications.
Next, we systematically organize and review recent advancements into three main
research directions: (1) leveraging egocentric data to enhance exocentric
understanding, (2) utilizing exocentric data to improve egocentric analysis,
and (3) joint learning frameworks that unify both perspectives. For each
direction, we analyze a diverse set of tasks and relevant works. Additionally,
we discuss benchmark datasets that support research in both perspectives,
evaluating their scope, diversity, and applicability. Finally, we discuss
limitations in current works and propose promising future research directions.
By synthesizing insights from both perspectives, our goal is to inspire
advancements in video understanding and artificial intelligence, bringing
machines closer to perceiving the world in a human-like manner. A GitHub repo
of related works can be found at
https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.