Articoli di ricerca IA selezionati quotidianamente con traduzioni
I prior generativi dei modelli di diffusione testo-immagine su larga scala abilitano una vasta gamma di nuove applicazioni di generazione e modifica su diverse modalità visive. Tuttavia, quando si adattano questi prior a modalità visive complesse, spesso rappresentate come immagini multiple (ad esempio, video), ottenere coerenza tra un insieme di immagini risulta impegnativo. In questo articolo, affrontiamo questa sfida con un metodo innovativo, il Collaborative Score Distillation (CSD). CSD si basa sullo Stein Variational Gradient Descent (SVGD). Nello specifico, proponiamo di considerare più campioni come "particelle" nell'aggiornamento SVGD e di combinare le loro funzioni di punteggio per distillare i prior generativi su un insieme di immagini in modo sincrono. Pertanto, CSD facilita l'integrazione senza soluzione di continuità delle informazioni tra immagini 2D, portando a una sintesi visiva coerente tra più campioni. Dimostriamo l'efficacia di CSD in una varietà di compiti, che includono la modifica visiva di immagini panoramiche, video e scene 3D. I nostri risultati sottolineano la competenza di CSD come metodo versatile per migliorare la coerenza inter-campione, ampliando così l'applicabilità dei modelli di diffusione testo-immagine.
L'apprendimento automatico per le equazioni differenziali apre la strada a alternative computazionalmente efficienti ai risolutori numerici, con potenziali impatti significativi in ambito scientifico e ingegneristico. Sebbene gli algoritmi attuali richiedano tipicamente dati di addestramento simulati specifici per un determinato contesto, si potrebbe invece desiderare di apprendere informazioni utili da fonti eterogenee o da osservazioni di sistemi dinamici reali che sono disordinate o incomplete. In questo lavoro, apprendiamo rappresentazioni generiche di PDE da dati eterogenei implementando metodi di embedding congiunto per l'apprendimento auto-supervisionato (SSL), un framework per l'apprendimento di rappresentazioni non supervisionato che ha ottenuto notevoli successi nel campo della visione artificiale. La nostra rappresentazione supera approcci di base per compiti invarianti, come la regressione dei coefficienti di una PDE, migliorando anche le prestazioni di time-stepping dei risolutori neurali. Speriamo che la metodologia proposta si riveli utile nello sviluppo futuro di modelli di fondazione generici per le PDE.
Presentiamo un approccio innovativo alla generazione di asset 3D statici e articolati, che ha al suo centro un autodecodificatore 3D. Il framework dell'autodecodificatore 3D incorpora le proprietà apprese dal dataset di riferimento nello spazio latente, che può poi essere decodificato in una rappresentazione volumetrica per il rendering di aspetto e geometria coerenti con la vista. Identifichiamo quindi lo spazio latente volumetrico intermedio appropriato e introduciamo operazioni robuste di normalizzazione e denormalizzazione per apprendere una diffusione 3D a partire da immagini 2D o video monoculari di oggetti rigidi o articolati. Il nostro approccio è abbastanza flessibile da poter utilizzare sia la supervisione della camera esistente che nessuna informazione sulla camera, apprendendola invece in modo efficiente durante l'addestramento. Le nostre valutazioni dimostrano che i risultati della nostra generazione superano le alternative più avanzate su vari dataset di benchmark e metriche, inclusi dataset di immagini multi-vista di oggetti sintetici, video reali in ambienti naturali di persone in movimento e un ampio dataset di video reali di oggetti statici.
Dato un insieme di immagini calibrate di una scena, presentiamo un approccio che produce una rappresentazione 3D del mondo semplice, compatta e azionabile mediante l'uso di primitive 3D. Mentre molti approcci si concentrano sul recupero di scene 3D ad alta fedeltà, noi ci focalizziamo sull'analisi di una scena in rappresentazioni 3D di medio livello composte da un piccolo insieme di primitive testurate. Tali rappresentazioni sono interpretabili, facili da manipolare e adatte per simulazioni basate sulla fisica. Inoltre, a differenza dei metodi esistenti di decomposizione in primitive che si basano su dati di input 3D, il nostro approccio opera direttamente sulle immagini attraverso il rendering differenziabile. Nello specifico, modelliamo le primitive come mesh superquadriche testurate e ottimizziamo i loro parametri da zero con una funzione di perdita basata sul rendering delle immagini. Sottolineiamo l'importanza di modellare la trasparenza per ogni primitiva, che è cruciale per l'ottimizzazione e consente anche di gestire un numero variabile di primitive. Dimostriamo che le primitive testurate risultanti ricostruiscono fedelmente le immagini di input e modellano accuratamente i punti 3D visibili, fornendo al contempo completamenti di forma amodale per le regioni degli oggetti non visibili. Confrontiamo il nostro approccio con lo stato dell'arte su diverse scene del dataset DTU e ne dimostriamo la robustezza su acquisizioni reali da BlendedMVS e Nerfstudio. Mostriamo inoltre come i nostri risultati possano essere utilizzati per modificare una scena con facilità o eseguire simulazioni fisiche. Codice e risultati video sono disponibili al seguente link: https://www.tmonnier.com/DBW.
Il pre-training video-linguaggio (VLP) è diventato sempre più importante grazie alla sua capacità di generalizzare su vari compiti di visione e linguaggio. Tuttavia, i framework esistenti di VLP egocentrico utilizzano encoder separati per video e linguaggio e apprendono informazioni cross-modali specifiche per il compito solo durante il fine-tuning, limitando lo sviluppo di un sistema unificato. In questo lavoro, introduciamo la seconda generazione di pre-training video-linguaggio egocentrico (EgoVLPv2), un significativo miglioramento rispetto alla generazione precedente, incorporando la fusione cross-modale direttamente nei backbone di video e linguaggio. EgoVLPv2 apprende rappresentazioni video-testo robuste durante il pre-training e riutilizza i moduli di attenzione cross-modale per supportare diversi compiti downstream in modo flessibile ed efficiente, riducendo i costi di fine-tuning. Inoltre, la nostra strategia di fusione nel backbone è più leggera e computazionalmente efficiente rispetto all'aggiunta di ulteriori livelli specifici per la fusione. Esperimenti estesi su un'ampia gamma di compiti VL dimostrano l'efficacia di EgoVLPv2, raggiungendo prestazioni all'avanguardia coerenti rispetto a baseline solide in tutti i compiti downstream. La pagina del nostro progetto è disponibile all'indirizzo https://shramanpramanick.github.io/EgoVLPv2/.
L'accesso a risorse digitali di alta qualità e diversificate per umani articolati in 3D è fondamentale in varie applicazioni, che spaziano dalla realtà virtuale alle piattaforme social. Gli approcci generativi, come le reti generative avversarie (GAN) 3D, stanno rapidamente sostituendo gli strumenti di creazione manuale di contenuti, spesso laboriosi. Tuttavia, i framework esistenti di GAN 3D si basano tipicamente su rappresentazioni di scene che utilizzano mesh template, che sono veloci ma offrono una qualità limitata, o volumi, che offrono un'elevata capacità ma sono lenti da renderizzare, limitando così la fedeltà 3D nelle impostazioni GAN. In questo lavoro, introduciamo i volumi di superficie stratificati (LSV) come nuova rappresentazione di oggetti 3D per umani digitali articolati. Gli LSV rappresentano un corpo umano utilizzando più strati di mesh texturizzati attorno a un template convenzionale. Questi strati vengono renderizzati utilizzando la composizione alfa con rasterizzazione differenziabile veloce e possono essere interpretati come una rappresentazione volumetrica che assegna la propria capacità a una varietà di spessore finito attorno al template. A differenza dei template a singolo strato convenzionali, che faticano a rappresentare dettagli fini fuori dalla superficie come capelli o accessori, i nostri volumi di superficie catturano naturalmente tali dettagli. Gli LSV possono essere articolati e mostrano un'efficienza eccezionale nelle impostazioni GAN, dove un generatore 2D impara a sintetizzare le texture RGBA per i singoli strati. Addestrato su dataset di immagini 2D non strutturate e a singola vista, il nostro LSV-GAN genera umani digitali articolati in 3D di alta qualità e coerenti nella visualizzazione, senza la necessità di reti di upsampling 2D incoerenti nella vista.
Il lavoro precedente ha stabilito il test-time training (TTT) come un framework generale per migliorare ulteriormente un modello addestrato durante il test. Prima di effettuare una previsione su ciascuna istanza di test, il modello viene addestrato sulla stessa istanza utilizzando un task auto-supervisionato, come la ricostruzione di immagini con autoencoder mascherati. Estendiamo il TTT al contesto di streaming, in cui più istanze di test - nel nostro caso fotogrammi video - arrivano in ordine temporale. La nostra estensione è il TTT online: il modello corrente viene inizializzato dal modello precedente, quindi addestrato sul fotogramma corrente e su una piccola finestra di fotogrammi immediatamente precedenti. Il TTT online supera significativamente il baseline a modello fisso per quattro task, su tre dataset del mondo reale. Il miglioramento relativo è del 45% e del 66% rispettivamente per la segmentazione di istanza e panottica. Sorprendentemente, il TTT online supera anche la sua variante offline che accede a più informazioni, addestrandosi su tutti i fotogrammi dell'intero video di test indipendentemente dall'ordine temporale. Questo differisce dai risultati precedenti ottenuti utilizzando video sintetici. Concettualizziamo la località come il vantaggio del TTT online rispetto a quello offline. Analizziamo il ruolo della località con ablazioni e una teoria basata sul trade-off bias-varianza.