ChatPaper.aiChatPaper

Zeitlich konsistente 3D-Rekonstruktion von Vögeln

Temporally-consistent 3D Reconstruction of Birds

August 24, 2024
Autoren: Johannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt
cs.AI

Zusammenfassung

Dieses Papier befasst sich mit der 3D-Rekonstruktion von Seevögeln, die in letzter Zeit in den Fokus von Umweltwissenschaftlern gerückt sind, da sie wertvolle Bioindikatoren für Umweltveränderungen darstellen. Solche 3D-Informationen sind vorteilhaft für die Analyse des Verhaltens und der physiologischen Form der Vögel, beispielsweise durch die Verfolgung von Bewegungen, Formen und Erscheinungsänderungen. Aus der Perspektive der Computer Vision sind Vögel aufgrund ihrer schnellen und oft nicht starren Bewegungen besonders anspruchsvoll. Wir schlagen einen Ansatz zur Rekonstruktion der 3D-Haltung und Form aus monokularen Videos einer spezifischen Art von Seevögeln - dem Tordalk - vor. Unser Ansatz umfasst eine vollständige Pipeline zur Detektion, Verfolgung, Segmentierung und zeitlich konsistenten 3D-Rekonstruktion. Darüber hinaus schlagen wir einen zeitlichen Verlust vor, der die aktuellen 3D-Vogelhaltungsschätzer für Einzelbilder in den zeitlichen Bereich erweitert. Darüber hinaus stellen wir einen realen Datensatz von durchschnittlich 10000 Videoframes zur Verfügung, die neun Vögel gleichzeitig erfassen, darunter eine große Vielfalt an Bewegungen und Interaktionen, einschließlich eines kleineren Testsets mit vogelspezifischen Schlüsselpunktetiketten. Durch unsere zeitliche Optimierung erzielen wir eine Spitzenleistung für die anspruchsvollen Sequenzen in unserem Datensatz.
English
This paper deals with 3D reconstruction of seabirds which recently came into focus of environmental scientists as valuable bio-indicators for environmental change. Such 3D information is beneficial for analyzing the bird's behavior and physiological shape, for example by tracking motion, shape, and appearance changes. From a computer vision perspective birds are especially challenging due to their rapid and oftentimes non-rigid motions. We propose an approach to reconstruct the 3D pose and shape from monocular videos of a specific breed of seabird - the common murre. Our approach comprises a full pipeline of detection, tracking, segmentation, and temporally consistent 3D reconstruction. Additionally, we propose a temporal loss that extends current single-image 3D bird pose estimators to the temporal domain. Moreover, we provide a real-world dataset of 10000 frames of video observations on average capture nine birds simultaneously, comprising a large variety of motions and interactions, including a smaller test set with bird-specific keypoint labels. Using our temporal optimization, we achieve state-of-the-art performance for the challenging sequences in our dataset.

Summary

AI-Generated Summary

PDF51November 16, 2024