HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

5 papers found

Aanpassen of niet aanpassen? Real-time aanpassing voor semantische segmentatie
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

Jul 27

ByMarc Botet Colomer, Pier Luigi Dovesi, Theodoros Panagiotakopoulos, Joao Frederico Carvalho, Linus Härenstam-Nielsen, Hossein Azizpour, Hedvig Kjellström, Daniel Cremers, Matteo Poggi

Het doel van Online Domeinadaptatie voor semantische segmentatie is het omgaan met onvoorziene domeinveranderingen die optreden tijdens de implementatie, zoals plotselinge weersomstandigheden. De hoge rekenkosten die gepaard gaan met brute-force-adaptatie maken dit paradigma echter onhaalbaar voor real-world toepassingen. In dit artikel stellen we HAMLET voor, een Hardware-Aware Modular Least Expensive Training-framework voor real-time domeinadaptatie. Onze aanpak omvat een hardware-aware backpropagation orchestration agent (HAMT) en een toegewijde domeinverschuivingsdetector die actieve controle mogelijk maakt over wanneer en hoe het model wordt aangepast (LT). Dankzij deze vooruitgang is onze aanpak in staat om semantische segmentatie uit te voeren terwijl deze tegelijkertijd adapteert met meer dan 29 FPS op een enkele consumenten-GPU. De veelbelovende balans tussen nauwkeurigheid en snelheid van ons framework wordt aangetoond op de OnDA- en SHIFT-benchmarks door middel van experimentele resultaten.

NeRF-Det: Het leren van geometrie-bewuste volumetrische representaties voor multi-view 3D-objectdetectie
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

Jul 27

ByChenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka

We presenteren NeRF-Det, een nieuwe methode voor 3D-detectie binnenshuis met gepositioneerde RGB-beelden als invoer. In tegenstelling tot bestaande methoden voor 3D-detectie binnenshuis die moeite hebben met het modelleren van scènegeometrie, maakt onze methode op een nieuwe manier gebruik van NeRF in een end-to-end benadering om expliciet 3D-geometrie te schatten, waardoor de prestaties van 3D-detectie worden verbeterd. Specifiek introduceren we voldoende geometrische prior kennis om de generaliseerbaarheid van NeRF-MLP te verbeteren, om zo de aanzienlijke extra latentie die gepaard gaat met per-scène optimalisatie van NeRF te vermijden. Bovendien verbinden we op een subtiele manier de detectie- en NeRF-takken via een gedeelde MLP, wat een efficiënte aanpassing van NeRF aan detectie mogelijk maakt en resulteert in geometrie-bewuste volumetrische representaties voor 3D-detectie. Onze methode overtreft de state-of-the-art met 3,9 mAP en 3,1 mAP op respectievelijk de ScanNet- en ARKITScenes-benchmarks. We bieden uitgebreide analyses om inzicht te geven in hoe NeRF-Det werkt. Dankzij ons gezamenlijke trainingsontwerp kan NeRF-Det goed generaliseren naar onbekende scènes voor taken zoals objectdetectie, viewsynthese en diepteschatting, zonder per-scène optimalisatie te vereisen. Code is beschikbaar op https://github.com/facebookresearch/NeRF-Det.

MiDaS v3.1 -- Een Modelcollectie voor Robuuste Monoculaire Relatieve Diepteschatting
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Jul 26

ByReiner Birkl, Diana Wofk, Matthias Müller

We brengen MiDaS v3.1 uit voor monokulaire diepteschatting, met een verscheidenheid aan nieuwe modellen gebaseerd op verschillende encoder-backbones. Deze release is gemotiveerd door het succes van transformers in computervisie, waarbij nu een grote verscheidenheid aan vooraf getrainde vision transformers beschikbaar is. We onderzoeken hoe het gebruik van de meest veelbelovende vision transformers als beeldencoders de kwaliteit van diepteschatting en de uitvoeringstijd van de MiDaS-architectuur beïnvloedt. Ons onderzoek omvat ook recente convolutionele benaderingen die een vergelijkbare kwaliteit bereiken als vision transformers in beeldclassificatietaken. Terwijl de vorige release MiDaS v3.0 uitsluitend gebruikmaakte van de standaard vision transformer ViT, biedt MiDaS v3.1 aanvullende modellen gebaseerd op BEiT, Swin, SwinV2, Next-ViT en LeViT. Deze modellen bieden verschillende afwegingen tussen prestaties en uitvoeringstijd. Het beste model verbetert de kwaliteit van diepteschatting met 28%, terwijl efficiënte modellen downstreamtaken mogelijk maken die een hoog frame rate vereisen. We beschrijven ook het algemene proces voor het integreren van nieuwe backbones. Een video die het werk samenvat, is te vinden op https://youtu.be/UjaeNNFf9sE en de code is beschikbaar op https://github.com/isl-org/MiDaS.

Hoe Schaal Je Je EMA Op
How to Scale Your EMA

Jul 25

ByDan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb

Het behouden van trainingsdynamiek over verschillende batchgroottes is een belangrijk hulpmiddel voor praktisch machine learning, omdat het de afweging tussen batchgrootte en werkelijke rekentijd mogelijk maakt. Deze afweging wordt doorgaans mogelijk gemaakt door een schaalregel; bijvoorbeeld, bij stochastische gradiëntdaling zou de leerrate lineair geschaald moeten worden met de batchgrootte. Een ander belangrijk hulpmiddel voor praktisch machine learning is het Exponentieel Voortschrijdend Gemiddelde (EMA) van het model, wat een modelkopie is die geen gradiëntinformatie ontvangt, maar in plaats daarvan zijn doelmodel volgt met enige momentum. Dit model EMA kan de robuustheid en generalisatie-eigenschappen van supervised learning verbeteren, pseudo-labeling stabiliseren, en een leersignaal bieden voor Self-Supervised Learning (SSL). Eerdere werken hebben het model EMA apart behandeld van optimalisatie, wat leidde tot verschillende trainingsdynamieken over batchgroottes en lagere modelprestaties. In dit werk bieden we een schaalregel voor optimalisatie in aanwezigheid van model EMA's en demonstreren we de geldigheid ervan over een reeks architecturen, optimalisatoren en datamodaliteiten. We tonen ook de geldigheid van de regel aan waar het model EMA bijdraagt aan de optimalisatie van het doelmodel, waardoor we EMA-gebaseerde pseudo-labeling en SSL-methoden kunnen trainen bij zowel kleine als grote batchgroottes. Voor SSL maken we het mogelijk om BYOL te trainen tot een batchgrootte van 24.576 zonder prestatieverlies, wat optimaal een 6-voudige reductie in werkelijke rekentijd oplevert.

TEDi: Tijdelijk Verstrengelde Diffusie voor Langetermijnbewegingssynthese
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

Jul 27

ByZihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka

Het geleidelijke karakter van een diffusieproces dat samples in kleine stappen synthetiseert, vormt een belangrijk ingrediënt van Denoising Diffusion Probabilistic Models (DDPM), die een ongekende kwaliteit hebben getoond in beeld-synthese en recentelijk zijn verkend in het domein van beweging. In dit werk stellen we voor om het concept van geleidelijke diffusie (dat werkt langs een diffusie-tijdsas) aan te passen naar de temporele as van de bewegingssequentie. Onze kernidee is om het DDPM-raamwerk uit te breiden om temporeel variërende denoising te ondersteunen, waardoor de twee assen met elkaar verweven raken. Met onze speciale formulering denoizen we iteratief een bewegingsbuffer die een reeks steeds meer verstoorde poses bevat, wat op autoregressieve wijze een willekeurig lange stroom van frames produceert. Met een stationaire diffusie-tijdsas verhogen we in elke diffusiestap alleen de temporele as van de beweging, zodat het raamwerk een nieuw, schoon frame produceert dat aan het begin van de buffer wordt verwijderd, gevolgd door een nieuw getrokken ruisvector die eraan wordt toegevoegd. Dit nieuwe mechanisme opent de weg naar een nieuw raamwerk voor langetermijnbewegingssynthese met toepassingen in karakteranimatie en andere domeinen.