Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'obiettivo dell'Adattamento di Dominio Online per la segmentazione semantica è gestire cambiamenti di dominio imprevedibili che si verificano durante il dispiegamento, come eventi meteorologici improvvisi. Tuttavia, gli elevati costi computazionali associati all'adattamento a forza bruta rendono questo paradigma impraticabile per applicazioni nel mondo reale. In questo articolo proponiamo HAMLET, un framework Hardware-Aware Modular Least Expensive Training per l'adattamento di dominio in tempo reale. Il nostro approccio include un agente di orchestrazione della retropropagazione consapevole dell'hardware (HAMT) e un rilevatore dedicato di cambiamenti di dominio che consente un controllo attivo su quando e come il modello viene adattato (LT). Grazie a questi progressi, il nostro approccio è in grado di eseguire la segmentazione semantica mentre si adatta simultaneamente a più di 29FPS su una singola GPU di livello consumer. Il promettente compromesso tra accuratezza e velocità del nostro framework è dimostrato sui benchmark OnDA e SHIFT attraverso risultati sperimentali.
Presentiamo NeRF-Det, un metodo innovativo per la rilevazione 3D in ambienti interni che utilizza immagini RGB con pose come input. A differenza dei metodi esistenti per la rilevazione 3D in interni che faticano a modellare la geometria della scena, il nostro metodo sfrutta in modo nuovo NeRF in modo end-to-end per stimare esplicitamente la geometria 3D, migliorando così le prestazioni di rilevazione 3D. Nello specifico, per evitare il significativo ritardo aggiuntivo associato all'ottimizzazione per scena di NeRF, introduciamo sufficienti prior geometriche per migliorare la generalizzabilità di NeRF-MLP. Inoltre, colleghiamo in modo sottile i rami di rilevazione e NeRF attraverso un MLP condiviso, consentendo un adattamento efficiente di NeRF alla rilevazione e producendo rappresentazioni volumetriche consapevoli della geometria per la rilevazione 3D. Il nostro metodo supera lo stato dell'arte di 3,9 mAP e 3,1 mAP rispettivamente sui benchmark ScanNet e ARKITScenes. Forniamo un'analisi approfondita per chiarire il funzionamento di NeRF-Det. Grazie al nostro design di addestramento congiunto, NeRF-Det è in grado di generalizzare bene a scene non viste per compiti di rilevazione di oggetti, sintesi di viste e stima della profondità senza richiedere ottimizzazione per scena. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/NeRF-Det.
Rilasciamo MiDaS v3.1 per la stima della profondità monoculare, offrendo una varietà di nuovi modelli basati su diversi backbone di encoder. Questo rilascio è motivato dal successo dei transformer nella visione artificiale, con una vasta gamma di vision transformer pre-addestrati ora disponibili. Esploriamo come l'utilizzo dei vision transformer più promettenti come encoder di immagini influisca sulla qualità della stima della profondità e sul tempo di esecuzione dell'architettura MiDaS. La nostra indagine include anche recenti approcci convoluzionali che raggiungono una qualità comparabile ai vision transformer nei compiti di classificazione delle immagini. Mentre la precedente versione MiDaS v3.0 sfrutta esclusivamente il vision transformer standard ViT, MiDaS v3.1 offre modelli aggiuntivi basati su BEiT, Swin, SwinV2, Next-ViT e LeViT. Questi modelli offrono diversi compromessi tra prestazioni e tempo di esecuzione. Il modello migliore migliora la qualità della stima della profondità del 28%, mentre i modelli efficienti abilitano compiti downstream che richiedono alte frequenze di frame. Descriviamo inoltre il processo generale per integrare nuovi backbone. Un video che riassume il lavoro è disponibile all'indirizzo https://youtu.be/UjaeNNFf9sE e il codice è disponibile su https://github.com/isl-org/MiDaS.
Preservare le dinamiche di addestramento attraverso diverse dimensioni del batch è uno strumento importante per il machine learning pratico, poiché consente di bilanciare la dimensione del batch e il tempo di esecuzione. Questo bilanciamento è tipicamente abilitato da una regola di scalatura; ad esempio, nella discesa del gradiente stocastica, si dovrebbe scalare il tasso di apprendimento linearmente con la dimensione del batch. Un altro strumento cruciale per il machine learning pratico è la Media Mobile Esponenziale (EMA) del modello, che è una copia del modello che non riceve informazioni sul gradiente, ma segue invece il modello target con un certo momento. Questa EMA del modello può migliorare la robustezza e le proprietà di generalizzazione dell'apprendimento supervisionato, stabilizzare il pseudo-labeling e fornire un segnale di apprendimento per l'Apprendimento Auto-Supervisionato (SSL). I lavori precedenti hanno trattato la EMA del modello separatamente dall'ottimizzazione, portando a dinamiche di addestramento diverse tra le dimensioni del batch e a prestazioni del modello inferiori. In questo lavoro, forniamo una regola di scalatura per l'ottimizzazione in presenza di EMA del modello e ne dimostriamo la validità attraverso una gamma di architetture, ottimizzatori e modalità di dati. Mostriamo inoltre la validità della regola nei casi in cui la EMA del modello contribuisce all'ottimizzazione del modello target, permettendoci di addestrare metodi di pseudo-labeling e SSL basati su EMA sia con batch piccoli che grandi. Per SSL, abilitiamo l'addestramento di BYOL fino a una dimensione del batch di 24.576 senza sacrificare le prestazioni, ottenendo una riduzione ottimale del tempo di esecuzione di 6 volte.
La natura graduale di un processo di diffusione che sintetizza campioni in piccoli incrementi costituisce un ingrediente chiave dei Modelli Probabilistici di Diffusione Denoising (DDPM), che hanno dimostrato una qualità senza precedenti nella sintesi di immagini e sono stati recentemente esplorati nel dominio del movimento. In questo lavoro, proponiamo di adattare il concetto di diffusione graduale (che opera lungo un asse temporale di diffusione) all'asse temporale della sequenza di movimento. La nostra idea chiave è estendere il framework DDPM per supportare il denoising temporalmente variabile, intrecciando così i due assi. Utilizzando la nostra formulazione speciale, denoisiamo iterativamente un buffer di movimento che contiene un insieme di pose con rumore crescente, producendo in modo auto-regressivo un flusso arbitrariamente lungo di frame. Con un asse temporale di diffusione stazionario, in ogni passo di diffusione incrementiamo solo l'asse temporale del movimento, in modo che il framework produca un nuovo frame pulito che viene rimosso dall'inizio del buffer, seguito da un nuovo vettore di rumore che viene aggiunto alla fine. Questo nuovo meccanismo apre la strada verso un nuovo framework per la sintesi di movimento a lungo termine, con applicazioni nell'animazione di personaggi e in altri domini.