ChatPaper.aiChatPaper

視点を超えた協調:エゴセントリック・エクソセントリック視点を用いたクロスビュー協調知能のサーベイ

Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

June 6, 2025
著者: Yuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato
cs.AI

要旨

世界をエゴセントリック(一人称)とエクソセントリック(三人称)の両方の視点から知覚することは、人間の認知において基本的な要素であり、動的な環境に対する豊かで補完的な理解を可能にします。近年、機械がこれらの二重の視点の相乗効果を活用することが、ビデオ理解における魅力的な研究分野として浮上しています。本調査では、エクソセントリックとエゴセントリックの両方の視点からビデオ理解を包括的にレビューします。まず、エゴセントリックとエクソセントリックの技術を統合する実用的な応用に焦点を当て、それらの潜在的な協力をさまざまな領域で展望します。次に、これらの応用を実現するための主要な研究タスクを特定します。その後、最近の進展を三つの主要な研究方向に体系的に整理し、レビューします:(1) エゴセントリックデータを活用してエクソセントリック理解を強化する、(2) エクソセントリックデータを活用してエゴセントリック分析を改善する、(3) 両方の視点を統合する共同学習フレームワーク。各方向について、多様なタスクと関連する研究を分析します。さらに、両方の視点での研究をサポートするベンチマークデータセットについて、その範囲、多様性、適用性を評価します。最後に、現在の研究の限界を議論し、将来の有望な研究方向を提案します。両方の視点からの洞察を統合することで、ビデオ理解と人工知能の進展を促し、機械が人間のように世界を知覚することを目指します。関連研究のGitHubリポジトリはhttps://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Visionで見つけることができます。
English
Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
PDF72June 9, 2025