Uniendo perspectivas: Una revisión sobre la inteligencia colaborativa entre vistas con visión egocéntrica y exocéntrica
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision
June 6, 2025
Autores: Yuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato
cs.AI
Resumen
Percebir el mundo desde perspectivas tanto egocéntricas (en primera persona) como exocéntricas (en tercera persona) es fundamental para la cognición humana, permitiendo una comprensión rica y complementaria de entornos dinámicos. En los últimos años, permitir que las máquinas aprovechen el potencial sinérgico de estas perspectivas duales ha surgido como una dirección de investigación convincente en la comprensión de videos. En este estudio, proporcionamos una revisión exhaustiva de la comprensión de videos desde los puntos de vista exocéntrico y egocéntrico. Comenzamos destacando las aplicaciones prácticas de integrar técnicas egocéntricas y exocéntricas, visualizando su potencial colaboración en diversos dominios. Luego, identificamos tareas clave de investigación para materializar estas aplicaciones. A continuación, organizamos y revisamos sistemáticamente los avances recientes en tres direcciones principales de investigación: (1) aprovechar datos egocéntricos para mejorar la comprensión exocéntrica, (2) utilizar datos exocéntricos para mejorar el análisis egocéntrico, y (3) marcos de aprendizaje conjunto que unifican ambas perspectivas. Para cada dirección, analizamos un conjunto diverso de tareas y trabajos relevantes. Además, discutimos conjuntos de datos de referencia que respaldan la investigación en ambas perspectivas, evaluando su alcance, diversidad y aplicabilidad. Finalmente, discutimos las limitaciones en los trabajos actuales y proponemos direcciones futuras prometedoras de investigación. Al sintetizar ideas de ambas perspectivas, nuestro objetivo es inspirar avances en la comprensión de videos y la inteligencia artificial, acercando a las máquinas a percibir el mundo de manera similar a los humanos. Un repositorio de GitHub con trabajos relacionados se puede encontrar en https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
English
Perceiving the world from both egocentric (first-person) and exocentric
(third-person) perspectives is fundamental to human cognition, enabling rich
and complementary understanding of dynamic environments. In recent years,
allowing the machines to leverage the synergistic potential of these dual
perspectives has emerged as a compelling research direction in video
understanding. In this survey, we provide a comprehensive review of video
understanding from both exocentric and egocentric viewpoints. We begin by
highlighting the practical applications of integrating egocentric and
exocentric techniques, envisioning their potential collaboration across
domains. We then identify key research tasks to realize these applications.
Next, we systematically organize and review recent advancements into three main
research directions: (1) leveraging egocentric data to enhance exocentric
understanding, (2) utilizing exocentric data to improve egocentric analysis,
and (3) joint learning frameworks that unify both perspectives. For each
direction, we analyze a diverse set of tasks and relevant works. Additionally,
we discuss benchmark datasets that support research in both perspectives,
evaluating their scope, diversity, and applicability. Finally, we discuss
limitations in current works and propose promising future research directions.
By synthesizing insights from both perspectives, our goal is to inspire
advancements in video understanding and artificial intelligence, bringing
machines closer to perceiving the world in a human-like manner. A GitHub repo
of related works can be found at
https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.