Uniendo perspectivas: Una revisión sobre la inteligencia colaborativa entre vistas con visión egocéntrica y exocéntrica

Resumen

Percebir el mundo desde perspectivas tanto egocéntricas (en primera persona) como exocéntricas (en tercera persona) es fundamental para la cognición humana, permitiendo una comprensión rica y complementaria de entornos dinámicos. En los últimos años, permitir que las máquinas aprovechen el potencial sinérgico de estas perspectivas duales ha surgido como una dirección de investigación convincente en la comprensión de videos. En este estudio, proporcionamos una revisión exhaustiva de la comprensión de videos desde los puntos de vista exocéntrico y egocéntrico. Comenzamos destacando las aplicaciones prácticas de integrar técnicas egocéntricas y exocéntricas, visualizando su potencial colaboración en diversos dominios. Luego, identificamos tareas clave de investigación para materializar estas aplicaciones. A continuación, organizamos y revisamos sistemáticamente los avances recientes en tres direcciones principales de investigación: (1) aprovechar datos egocéntricos para mejorar la comprensión exocéntrica, (2) utilizar datos exocéntricos para mejorar el análisis egocéntrico, y (3) marcos de aprendizaje conjunto que unifican ambas perspectivas. Para cada dirección, analizamos un conjunto diverso de tareas y trabajos relevantes. Además, discutimos conjuntos de datos de referencia que respaldan la investigación en ambas perspectivas, evaluando su alcance, diversidad y aplicabilidad. Finalmente, discutimos las limitaciones en los trabajos actuales y proponemos direcciones futuras prometedoras de investigación. Al sintetizar ideas de ambas perspectivas, nuestro objetivo es inspirar avances en la comprensión de videos y la inteligencia artificial, acercando a las máquinas a percibir el mundo de manera similar a los humanos. Un repositorio de GitHub con trabajos relacionados se puede encontrar en https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.

English

Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.