Reconstrucción 3D temporalmente consistente de aves
Temporally-consistent 3D Reconstruction of Birds
August 24, 2024
Autores: Johannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt
cs.AI
Resumen
Este documento aborda la reconstrucción en 3D de aves marinas, que recientemente ha cobrado importancia entre los científicos ambientales como valiosos bioindicadores de cambio ambiental. Tal información en 3D es beneficiosa para analizar el comportamiento y la forma fisiológica de las aves, por ejemplo, mediante el seguimiento de cambios en el movimiento, la forma y la apariencia. Desde una perspectiva de visión por computadora, las aves son especialmente desafiantes debido a sus movimientos rápidos y a menudo no rígidos. Proponemos un enfoque para reconstruir la pose y forma en 3D a partir de videos monoculares de una especie específica de ave marina, el arao común. Nuestro enfoque comprende un proceso completo de detección, seguimiento, segmentación y reconstrucción en 3D temporalmente consistente. Además, proponemos una pérdida temporal que extiende los estimadores de pose en 3D de aves de imagen única actuales al dominio temporal. Además, proporcionamos un conjunto de datos del mundo real de 10000 fotogramas de observaciones en video que en promedio capturan nueve aves simultáneamente, que incluyen una amplia variedad de movimientos e interacciones, e incluyen un conjunto de prueba más pequeño con etiquetas de puntos clave específicas de las aves. Utilizando nuestra optimización temporal, logramos un rendimiento de vanguardia para las secuencias desafiantes en nuestro conjunto de datos.
English
This paper deals with 3D reconstruction of seabirds which recently came into
focus of environmental scientists as valuable bio-indicators for environmental
change. Such 3D information is beneficial for analyzing the bird's behavior and
physiological shape, for example by tracking motion, shape, and appearance
changes. From a computer vision perspective birds are especially challenging
due to their rapid and oftentimes non-rigid motions. We propose an approach to
reconstruct the 3D pose and shape from monocular videos of a specific breed of
seabird - the common murre. Our approach comprises a full pipeline of
detection, tracking, segmentation, and temporally consistent 3D reconstruction.
Additionally, we propose a temporal loss that extends current single-image 3D
bird pose estimators to the temporal domain. Moreover, we provide a real-world
dataset of 10000 frames of video observations on average capture nine birds
simultaneously, comprising a large variety of motions and interactions,
including a smaller test set with bird-specific keypoint labels. Using our
temporal optimization, we achieve state-of-the-art performance for the
challenging sequences in our dataset.Summary
AI-Generated Summary