ChatPaper.aiChatPaper

Reconstrucción 3D temporalmente consistente de aves

Temporally-consistent 3D Reconstruction of Birds

August 24, 2024
Autores: Johannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt
cs.AI

Resumen

Este documento aborda la reconstrucción en 3D de aves marinas, que recientemente ha cobrado importancia entre los científicos ambientales como valiosos bioindicadores de cambio ambiental. Tal información en 3D es beneficiosa para analizar el comportamiento y la forma fisiológica de las aves, por ejemplo, mediante el seguimiento de cambios en el movimiento, la forma y la apariencia. Desde una perspectiva de visión por computadora, las aves son especialmente desafiantes debido a sus movimientos rápidos y a menudo no rígidos. Proponemos un enfoque para reconstruir la pose y forma en 3D a partir de videos monoculares de una especie específica de ave marina, el arao común. Nuestro enfoque comprende un proceso completo de detección, seguimiento, segmentación y reconstrucción en 3D temporalmente consistente. Además, proponemos una pérdida temporal que extiende los estimadores de pose en 3D de aves de imagen única actuales al dominio temporal. Además, proporcionamos un conjunto de datos del mundo real de 10000 fotogramas de observaciones en video que en promedio capturan nueve aves simultáneamente, que incluyen una amplia variedad de movimientos e interacciones, e incluyen un conjunto de prueba más pequeño con etiquetas de puntos clave específicas de las aves. Utilizando nuestra optimización temporal, logramos un rendimiento de vanguardia para las secuencias desafiantes en nuestro conjunto de datos.
English
This paper deals with 3D reconstruction of seabirds which recently came into focus of environmental scientists as valuable bio-indicators for environmental change. Such 3D information is beneficial for analyzing the bird's behavior and physiological shape, for example by tracking motion, shape, and appearance changes. From a computer vision perspective birds are especially challenging due to their rapid and oftentimes non-rigid motions. We propose an approach to reconstruct the 3D pose and shape from monocular videos of a specific breed of seabird - the common murre. Our approach comprises a full pipeline of detection, tracking, segmentation, and temporally consistent 3D reconstruction. Additionally, we propose a temporal loss that extends current single-image 3D bird pose estimators to the temporal domain. Moreover, we provide a real-world dataset of 10000 frames of video observations on average capture nine birds simultaneously, comprising a large variety of motions and interactions, including a smaller test set with bird-specific keypoint labels. Using our temporal optimization, we achieve state-of-the-art performance for the challenging sequences in our dataset.

Summary

AI-Generated Summary

PDF51November 16, 2024