Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Ziel von Online-Domain-Adaptation für semantische Segmentierung besteht darin, unvorhersehbare Domänenänderungen zu bewältigen, die während des Einsatzes auftreten, wie plötzliche Wetterereignisse. Die hohen Rechenkosten, die mit einer Brute-Force-Adaptation verbunden sind, machen dieses Paradigma jedoch für reale Anwendungen unpraktikabel. In diesem Artikel schlagen wir HAMLET vor, ein Hardware-Aware Modular Least Expensive Training-Framework für Echtzeit-Domain-Adaptation. Unser Ansatz umfasst einen hardwarebewussten Backpropagation-Orchestrierungsagenten (HAMT) und einen dedizierten Domänenverschiebungsdetektor, der eine aktive Kontrolle darüber ermöglicht, wann und wie das Modell angepasst wird (LT). Dank dieser Fortschritte ist unser Ansatz in der Lage, semantische Segmentierung durchzuführen und gleichzeitig mit mehr als 29 FPS auf einer einzigen Consumer-GPU zu adaptieren. Das vielversprechende Verhältnis zwischen Genauigkeit und Geschwindigkeit unseres Frameworks wird anhand von experimentellen Ergebnissen auf den OnDA- und SHIFT-Benchmarks demonstriert.
Wir präsentieren NeRF-Det, eine neuartige Methode für die 3D-Erkennung in Innenräumen mit positionierten RGB-Bildern als Eingabe. Im Gegensatz zu bestehenden Methoden zur 3D-Erkennung in Innenräumen, die Schwierigkeiten haben, die Szenengeometrie zu modellieren, nutzt unsere Methode NeRF auf neuartige Weise in einem End-to-End-Verfahren, um die 3D-Geometrie explizit zu schätzen und dadurch die 3D-Erkennungsleistung zu verbessern. Um die erhebliche zusätzliche Latenz zu vermeiden, die mit der pro-Szene-Optimierung von NeRF verbunden ist, führen wir ausreichende Geometrie-Priors ein, um die Generalisierbarkeit von NeRF-MLP zu verbessern. Darüber hinaus verbinden wir die Erkennungs- und NeRF-Zweige subtil durch ein gemeinsames MLP, was eine effiziente Anpassung von NeRF an die Erkennung ermöglicht und geometrie-bewusste volumetrische Darstellungen für die 3D-Erkennung liefert. Unsere Methode übertrifft den Stand der Technik um 3,9 mAP und 3,1 mAP auf den Benchmarks ScanNet und ARKITScenes. Wir bieten eine umfangreiche Analyse, um Einblicke in die Funktionsweise von NeRF-Det zu geben. Dank unseres Joint-Training-Designs kann NeRF-Det gut auf unbekannte Szenen für Objekterkennung, Viewsynthese und Tiefenschätzung generalisieren, ohne eine pro-Szene-Optimierung zu erfordern. Der Code ist verfügbar unter https://github.com/facebookresearch/NeRF-Det.
Wir veröffentlichen MiDaS v3.1 für monokulare Tiefenschätzung, das eine Vielzahl neuer Modelle basierend auf verschiedenen Encoder-Backbones bietet. Diese Veröffentlichung wurde durch den Erfolg von Transformern in der Computer Vision motiviert, wobei mittlerweile eine große Auswahl an vortrainierten Vision Transformern verfügbar ist. Wir untersuchen, wie die Verwendung der vielversprechendsten Vision Transformer als Bild-Encoder die Qualität der Tiefenschätzung und die Laufzeit der MiDaS-Architektur beeinflusst. Unsere Untersuchung umfasst auch neuere konvolutionelle Ansätze, die in Bildklassifizierungsaufgaben eine vergleichbare Qualität wie Vision Transformer erreichen. Während die vorherige Version MiDaS v3.0 ausschließlich den klassischen Vision Transformer ViT nutzt, bietet MiDaS v3.1 zusätzliche Modelle basierend auf BEiT, Swin, SwinV2, Next-ViT und LeViT. Diese Modelle bieten unterschiedliche Kompromisse zwischen Leistung und Laufzeit. Das beste Modell verbessert die Qualität der Tiefenschätzung um 28 %, während effiziente Modelle Downstream-Aufgaben ermöglichen, die hohe Bildraten erfordern. Wir beschreiben auch den allgemeinen Prozess zur Integration neuer Backbones. Ein Video, das die Arbeit zusammenfasst, ist unter https://youtu.be/UjaeNNFf9sE zu finden, und der Code ist unter https://github.com/isl-org/MiDaS verfügbar.
Die Beibehaltung der Trainingsdynamik über verschiedene Batch-Größen hinweg ist ein wichtiges Werkzeug für praktisches maschinelles Lernen, da es den Kompromiss zwischen Batch-Größe und Echtzeit ermöglicht. Dieser Kompromiss wird typischerweise durch eine Skalierungsregel ermöglicht, zum Beispiel sollte bei stochastischem Gradientenabstieg die Lernrate linear mit der Batch-Größe skaliert werden. Ein weiteres wichtiges Werkzeug für praktisches maschinelles Lernen ist das exponentielle gleitende Durchschnittsmodell (EMA), das eine Modellkopie darstellt, die keine Gradienteninformationen erhält, sondern stattdessen mit einem gewissen Momentum dem Zielmodell folgt. Dieses EMA-Modell kann die Robustheit und Generalisierungseigenschaften des überwachten Lernens verbessern, Pseudo-Labeling stabilisieren und ein Lernsignal für selbstüberwachtes Lernen (SSL) bereitstellen. Frühere Arbeiten haben das EMA-Modell getrennt von der Optimierung behandelt, was zu unterschiedlichen Trainingsdynamiken über verschiedene Batch-Größen hinweg und zu einer geringeren Modellleistung führte. In dieser Arbeit stellen wir eine Skalierungsregel für die Optimierung in Anwesenheit von EMA-Modellen bereit und demonstrieren deren Gültigkeit über eine Reihe von Architekturen, Optimierern und Datenmodalitäten hinweg. Wir zeigen auch die Gültigkeit der Regel, wenn das EMA-Modell zur Optimierung des Zielmodells beiträgt, was es uns ermöglicht, EMA-basierte Pseudo-Labeling- und SSL-Methoden sowohl bei kleinen als auch bei großen Batch-Größen zu trainieren. Für SSL ermöglichen wir das Training von BYOL bis zu einer Batch-Größe von 24.576 ohne Leistungseinbußen, was optimalerweise eine 6-fache Reduzierung der Echtzeit bedeutet.
Die schrittweise Natur eines Diffusionsprozesses, der Proben in kleinen Inkrementen synthetisiert, stellt ein Schlüsselelement von Denoising Diffusion Probabilistic Models (DDPM) dar, die eine beispiellose Qualität in der Bildsynthese erreicht haben und kürzlich im Bereich der Bewegung untersucht wurden. In dieser Arbeit schlagen wir vor, das Konzept der graduellen Diffusion (die entlang einer Diffusionszeitachse operiert) auf die Zeitachse der Bewegungssequenz zu übertragen. Unsere zentrale Idee besteht darin, das DDPM-Framework zu erweitern, um eine zeitlich variierende Rauschunterdrückung zu unterstützen und dadurch die beiden Achsen zu verknüpfen. Mit unserer speziellen Formulierung entrauschen wir iterativ einen Bewegungspuffer, der eine Reihe von zunehmend verrauschten Posen enthält, wodurch automatisch ein beliebig langer Strom von Frames erzeugt wird. Bei einer stationären Diffusionszeitachse inkrementieren wir in jedem Diffusionsschritt nur die Zeitachse der Bewegung, sodass das Framework einen neuen, sauberen Frame erzeugt, der vom Anfang des Puffers entfernt wird, gefolgt von einem neu gezogenen Rauschvektor, der an ihn angehängt wird. Dieser neue Mechanismus ebnet den Weg für ein neues Framework zur Langzeit-Bewegungssynthese mit Anwendungen in der Charakteranimation und anderen Bereichen.