Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het doel van Online Domeinadaptatie voor semantische segmentatie is het omgaan met onvoorziene domeinveranderingen die optreden tijdens de implementatie, zoals plotselinge weersomstandigheden. De hoge rekenkosten die gepaard gaan met brute-force-adaptatie maken dit paradigma echter onhaalbaar voor real-world toepassingen. In dit artikel stellen we HAMLET voor, een Hardware-Aware Modular Least Expensive Training-framework voor real-time domeinadaptatie. Onze aanpak omvat een hardware-aware backpropagation orchestration agent (HAMT) en een toegewijde domeinverschuivingsdetector die actieve controle mogelijk maakt over wanneer en hoe het model wordt aangepast (LT). Dankzij deze vooruitgang is onze aanpak in staat om semantische segmentatie uit te voeren terwijl deze tegelijkertijd adapteert met meer dan 29 FPS op een enkele consumenten-GPU. De veelbelovende balans tussen nauwkeurigheid en snelheid van ons framework wordt aangetoond op de OnDA- en SHIFT-benchmarks door middel van experimentele resultaten.
We presenteren NeRF-Det, een nieuwe methode voor 3D-detectie binnenshuis met gepositioneerde RGB-beelden als invoer. In tegenstelling tot bestaande methoden voor 3D-detectie binnenshuis die moeite hebben met het modelleren van scènegeometrie, maakt onze methode op een nieuwe manier gebruik van NeRF in een end-to-end benadering om expliciet 3D-geometrie te schatten, waardoor de prestaties van 3D-detectie worden verbeterd. Specifiek introduceren we voldoende geometrische prior kennis om de generaliseerbaarheid van NeRF-MLP te verbeteren, om zo de aanzienlijke extra latentie die gepaard gaat met per-scène optimalisatie van NeRF te vermijden. Bovendien verbinden we op een subtiele manier de detectie- en NeRF-takken via een gedeelde MLP, wat een efficiënte aanpassing van NeRF aan detectie mogelijk maakt en resulteert in geometrie-bewuste volumetrische representaties voor 3D-detectie. Onze methode overtreft de state-of-the-art met 3,9 mAP en 3,1 mAP op respectievelijk de ScanNet- en ARKITScenes-benchmarks. We bieden uitgebreide analyses om inzicht te geven in hoe NeRF-Det werkt. Dankzij ons gezamenlijke trainingsontwerp kan NeRF-Det goed generaliseren naar onbekende scènes voor taken zoals objectdetectie, viewsynthese en diepteschatting, zonder per-scène optimalisatie te vereisen. Code is beschikbaar op https://github.com/facebookresearch/NeRF-Det.
We brengen MiDaS v3.1 uit voor monokulaire diepteschatting, met een verscheidenheid aan nieuwe modellen gebaseerd op verschillende encoder-backbones. Deze release is gemotiveerd door het succes van transformers in computervisie, waarbij nu een grote verscheidenheid aan vooraf getrainde vision transformers beschikbaar is. We onderzoeken hoe het gebruik van de meest veelbelovende vision transformers als beeldencoders de kwaliteit van diepteschatting en de uitvoeringstijd van de MiDaS-architectuur beïnvloedt. Ons onderzoek omvat ook recente convolutionele benaderingen die een vergelijkbare kwaliteit bereiken als vision transformers in beeldclassificatietaken. Terwijl de vorige release MiDaS v3.0 uitsluitend gebruikmaakte van de standaard vision transformer ViT, biedt MiDaS v3.1 aanvullende modellen gebaseerd op BEiT, Swin, SwinV2, Next-ViT en LeViT. Deze modellen bieden verschillende afwegingen tussen prestaties en uitvoeringstijd. Het beste model verbetert de kwaliteit van diepteschatting met 28%, terwijl efficiënte modellen downstreamtaken mogelijk maken die een hoog frame rate vereisen. We beschrijven ook het algemene proces voor het integreren van nieuwe backbones. Een video die het werk samenvat, is te vinden op https://youtu.be/UjaeNNFf9sE en de code is beschikbaar op https://github.com/isl-org/MiDaS.
Het behouden van trainingsdynamiek over verschillende batchgroottes is een belangrijk hulpmiddel voor praktisch machine learning, omdat het de afweging tussen batchgrootte en werkelijke rekentijd mogelijk maakt. Deze afweging wordt doorgaans mogelijk gemaakt door een schaalregel; bijvoorbeeld, bij stochastische gradiëntdaling zou de leerrate lineair geschaald moeten worden met de batchgrootte. Een ander belangrijk hulpmiddel voor praktisch machine learning is het Exponentieel Voortschrijdend Gemiddelde (EMA) van het model, wat een modelkopie is die geen gradiëntinformatie ontvangt, maar in plaats daarvan zijn doelmodel volgt met enige momentum. Dit model EMA kan de robuustheid en generalisatie-eigenschappen van supervised learning verbeteren, pseudo-labeling stabiliseren, en een leersignaal bieden voor Self-Supervised Learning (SSL). Eerdere werken hebben het model EMA apart behandeld van optimalisatie, wat leidde tot verschillende trainingsdynamieken over batchgroottes en lagere modelprestaties. In dit werk bieden we een schaalregel voor optimalisatie in aanwezigheid van model EMA's en demonstreren we de geldigheid ervan over een reeks architecturen, optimalisatoren en datamodaliteiten. We tonen ook de geldigheid van de regel aan waar het model EMA bijdraagt aan de optimalisatie van het doelmodel, waardoor we EMA-gebaseerde pseudo-labeling en SSL-methoden kunnen trainen bij zowel kleine als grote batchgroottes. Voor SSL maken we het mogelijk om BYOL te trainen tot een batchgrootte van 24.576 zonder prestatieverlies, wat optimaal een 6-voudige reductie in werkelijke rekentijd oplevert.
Het geleidelijke karakter van een diffusieproces dat samples in kleine stappen synthetiseert, vormt een belangrijk ingrediënt van Denoising Diffusion Probabilistic Models (DDPM), die een ongekende kwaliteit hebben getoond in beeld-synthese en recentelijk zijn verkend in het domein van beweging. In dit werk stellen we voor om het concept van geleidelijke diffusie (dat werkt langs een diffusie-tijdsas) aan te passen naar de temporele as van de bewegingssequentie. Onze kernidee is om het DDPM-raamwerk uit te breiden om temporeel variërende denoising te ondersteunen, waardoor de twee assen met elkaar verweven raken. Met onze speciale formulering denoizen we iteratief een bewegingsbuffer die een reeks steeds meer verstoorde poses bevat, wat op autoregressieve wijze een willekeurig lange stroom van frames produceert. Met een stationaire diffusie-tijdsas verhogen we in elke diffusiestap alleen de temporele as van de beweging, zodat het raamwerk een nieuw, schoon frame produceert dat aan het begin van de buffer wordt verwijderd, gevolgd door een nieuw getrokken ruisvector die eraan wordt toegevoegd. Dit nieuwe mechanisme opent de weg naar een nieuw raamwerk voor langetermijnbewegingssynthese met toepassingen in karakteranimatie en andere domeinen.