Zeitlich konsistente 3D-Rekonstruktion von Vögeln
Temporally-consistent 3D Reconstruction of Birds
August 24, 2024
Autoren: Johannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt
cs.AI
Zusammenfassung
Dieses Papier befasst sich mit der 3D-Rekonstruktion von Seevögeln, die in letzter Zeit in den Fokus von Umweltwissenschaftlern gerückt sind, da sie wertvolle Bioindikatoren für Umweltveränderungen darstellen. Solche 3D-Informationen sind vorteilhaft für die Analyse des Verhaltens und der physiologischen Form der Vögel, beispielsweise durch die Verfolgung von Bewegungen, Formen und Erscheinungsänderungen. Aus der Perspektive der Computer Vision sind Vögel aufgrund ihrer schnellen und oft nicht starren Bewegungen besonders anspruchsvoll. Wir schlagen einen Ansatz zur Rekonstruktion der 3D-Haltung und Form aus monokularen Videos einer spezifischen Art von Seevögeln - dem Tordalk - vor. Unser Ansatz umfasst eine vollständige Pipeline zur Detektion, Verfolgung, Segmentierung und zeitlich konsistenten 3D-Rekonstruktion. Darüber hinaus schlagen wir einen zeitlichen Verlust vor, der die aktuellen 3D-Vogelhaltungsschätzer für Einzelbilder in den zeitlichen Bereich erweitert. Darüber hinaus stellen wir einen realen Datensatz von durchschnittlich 10000 Videoframes zur Verfügung, die neun Vögel gleichzeitig erfassen, darunter eine große Vielfalt an Bewegungen und Interaktionen, einschließlich eines kleineren Testsets mit vogelspezifischen Schlüsselpunktetiketten. Durch unsere zeitliche Optimierung erzielen wir eine Spitzenleistung für die anspruchsvollen Sequenzen in unserem Datensatz.
English
This paper deals with 3D reconstruction of seabirds which recently came into
focus of environmental scientists as valuable bio-indicators for environmental
change. Such 3D information is beneficial for analyzing the bird's behavior and
physiological shape, for example by tracking motion, shape, and appearance
changes. From a computer vision perspective birds are especially challenging
due to their rapid and oftentimes non-rigid motions. We propose an approach to
reconstruct the 3D pose and shape from monocular videos of a specific breed of
seabird - the common murre. Our approach comprises a full pipeline of
detection, tracking, segmentation, and temporally consistent 3D reconstruction.
Additionally, we propose a temporal loss that extends current single-image 3D
bird pose estimators to the temporal domain. Moreover, we provide a real-world
dataset of 10000 frames of video observations on average capture nine birds
simultaneously, comprising a large variety of motions and interactions,
including a smaller test set with bird-specific keypoint labels. Using our
temporal optimization, we achieve state-of-the-art performance for the
challenging sequences in our dataset.Summary
AI-Generated Summary