Articoli di ricerca IA selezionati quotidianamente con traduzioni
Affrontiamo il compito della generazione musicale condizionata. Introduciamo MusicGen, un singolo Language Model (LM) che opera su più flussi di rappresentazione musicale discreta compressa, ovvero token. A differenza dei lavori precedenti, MusicGen è composto da un transformer LM a singolo stadio insieme a schemi efficienti di intercalazione dei token, eliminando la necessità di concatenare più modelli, ad esempio in modo gerarchico o con upsampling. Seguendo questo approccio, dimostriamo come MusicGen possa generare campioni di alta qualità, essendo condizionato da descrizioni testuali o caratteristiche melodiche, consentendo un migliore controllo sull'output generato. Conduciamo una valutazione empirica approfondita, considerando sia studi automatici che umani, dimostrando che l'approccio proposto è superiore alle baseline valutate su un benchmark standard di testo-musica. Attraverso studi di ablazione, evidenziamo l'importanza di ciascuno dei componenti che costituiscono MusicGen. Campioni musicali, codice e modelli sono disponibili all'indirizzo https://github.com/facebookresearch/audiocraft.
Istruzioni e risposte di alta qualità sono essenziali per le prestazioni zero-shot dei grandi modelli linguistici su compiti interattivi di elaborazione del linguaggio naturale. Per compiti interattivi che coinvolgono linguaggio e visione in scenari visivi complessi, è imperativo disporre di una grande quantità di coppie istruzione-risposta diverse e creative per ottimizzare i modelli visione-linguaggio (VLM). Tuttavia, l'attuale disponibilità di coppie istruzione-risposta nel dominio visione-linguaggio, in termini di quantità, diversità e creatività, rimane limitata, rappresentando una sfida per la generalizzazione dei VLM interattivi. Presentiamo qui MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un dataset che comprende 2,8 milioni di coppie istruzione-risposta multimodali, con 2,2 milioni di istruzioni uniche derivate da immagini e video. Ogni coppia è accompagnata da informazioni contestuali multimodali, formando contesti conversazionali mirati a potenziare i VLM nella percezione, ragionamento e pianificazione. Il processo di raccolta delle istruzioni-risposte, denominato Syphus, è scalato utilizzando una pipeline di annotazione automatica che combina l'esperienza umana con le capacità di GPT. Utilizzando il dataset MIMIC-IT, abbiamo addestrato un grande VLM chiamato Otter. Sulla base di valutazioni estensive condotte su benchmark visione-linguaggio, è stato osservato che Otter dimostra una notevole competenza nella percezione multimodale, nel ragionamento e nell'apprendimento contestuale. La valutazione umana rivela che si allinea efficacemente alle intenzioni dell'utente. Rilasciamo il dataset MIMIC-IT, la pipeline di raccolta istruzioni-risposte, i benchmark e il modello Otter.
Presentiamo un nuovo metodo di ottimizzazione al momento del test per stimare il movimento denso e a lungo raggio da una sequenza video. Gli algoritmi precedenti di flusso ottico o di tracciamento video delle particelle operano tipicamente all'interno di finestre temporali limitate, trovando difficoltà nel tracciare attraverso le occlusioni e nel mantenere la coerenza globale delle traiettorie di movimento stimate. Proponiamo una rappresentazione del movimento completa e globalmente coerente, denominata OmniMotion, che consente una stima accurata e completa del movimento di ogni pixel in un video. OmniMotion rappresenta un video utilizzando un volume canonico quasi-3D ed esegue il tracciamento pixel per pixel tramite biiezioni tra lo spazio locale e quello canonico. Questa rappresentazione ci permette di garantire la coerenza globale, tracciare attraverso le occlusioni e modellare qualsiasi combinazione di movimento della telecamera e degli oggetti. Valutazioni estensive sul benchmark TAP-Vid e su riprese del mondo reale dimostrano che il nostro approccio supera di gran lunga i metodi precedenti all'avanguardia, sia quantitativamente che qualitativamente. Visita la nostra pagina del progetto per ulteriori risultati: http://omnimotion.github.io/
Gli agenti conversazionali alimentati da Large Language Models (LLM) stanno offrendo un nuovo modo di interagire con i dati visivi. Sebbene ci siano stati tentativi iniziali di sviluppare modelli conversazionali basati su immagini, questo lavoro affronta il campo ancora poco esplorato delle conversazioni basate su video introducendo Video-ChatGPT. Si tratta di un modello multimodale che combina un encoder visivo adattato per i video con un LLM. Il modello è in grado di comprendere e generare conversazioni simili a quelle umane riguardanti i video. Introduciamo un nuovo dataset di 100.000 coppie video-istruzione utilizzato per addestrare Video-ChatGPT, acquisito tramite una pipeline manuale e semi-automatizzata che è facilmente scalabile e robusta al rumore nelle etichette. Sviluppiamo inoltre un framework di valutazione quantitativa per i modelli di dialogo basati su video, al fine di analizzare oggettivamente i punti di forza e le debolezze dei modelli proposti. Il nostro codice, i modelli, gli insiemi di istruzioni e la demo sono disponibili all'indirizzo https://github.com/mbzuai-oryx/Video-ChatGPT.
Le straordinarie capacità dei modelli di diffusione di immagini pre-addestrati sono state utilizzate non solo per generare immagini di dimensioni fisse, ma anche per creare panorami. Tuttavia, la semplice unione di più immagini spesso risulta in cuciture visibili. Tecniche recenti hanno cercato di affrontare questo problema eseguendo diffusioni congiunte in più finestre e mediando le caratteristiche latenti nelle regioni sovrapposte. Tuttavia, questi approcci, che si concentrano sulla generazione di montaggi senza soluzione di continuità, spesso producono output incoerenti mescolando scene diverse all'interno di una singola immagine. Per superare questa limitazione, proponiamo SyncDiffusion, un modulo plug-and-play che sincronizza più diffusioni attraverso la discesa del gradiente da una perdita di similarità percettiva. Nello specifico, calcoliamo il gradiente della perdita percettiva utilizzando le immagini denoisate previste ad ogni passo di denoising, fornendo una guida significativa per ottenere montaggi coerenti. I nostri risultati sperimentali dimostrano che il nostro metodo produce output significativamente più coerenti rispetto ai metodi precedenti (66,35% vs. 33,65% nel nostro studio utente) mantenendo comunque la fedeltà (valutata da GIQA) e la compatibilità con il prompt di input (misurata dal punteggio CLIP).
In questo articolo, proponiamo il Matting Anything Model (MAM), un framework efficiente e versatile per stimare l'alpha matte di qualsiasi istanza in un'immagine con una guida flessibile e interattiva basata su prompt visivi o linguistici. MAM offre diversi vantaggi significativi rispetto alle precedenti reti specializzate per il matting delle immagini: (i) MAM è in grado di gestire vari tipi di matting, tra cui matting semantico, matting per istanza e matting referenziale, utilizzando un unico modello; (ii) MAM sfrutta le mappe di feature del Segment Anything Model (SAM) e adotta un modulo leggero Mask-to-Matte (M2M) per prevedere l'alpha matte attraverso un raffinamento iterativo, con soli 2,7 milioni di parametri addestrabili. (iii) Incorporando SAM, MAM semplifica l'intervento dell'utente richiesto per l'uso interattivo del matting, passando dalla trimap a prompt basati su box, punti o testo. Valutiamo le prestazioni di MAM su vari benchmark di matting delle immagini, e i risultati sperimentali dimostrano che MAM raggiunge prestazioni comparabili ai modelli specializzati all'avanguardia in diverse metriche su ciascun benchmark. Nel complesso, MAM mostra una superiore capacità di generalizzazione e può gestire efficacemente vari compiti di matting con un numero ridotto di parametri, rendendolo una soluzione pratica per il matting unificato delle immagini. Il nostro codice e i modelli sono open-source all'indirizzo https://github.com/SHI-Labs/Matting-Anything.
Il supernet con condivisione dei pesi è diventato un componente fondamentale per la stima delle prestazioni nei framework più avanzati (SOTA) di ricerca di architetture neurali (NAS). Sebbene il supernet possa generare direttamente diverse sottoreti senza bisogno di riaddestramento, non vi è alcuna garanzia sulla qualità di queste sottoreti a causa della condivisione dei pesi. Nei task di NLP come la traduzione automatica e la modellazione del linguaggio pre-addestrato, osserviamo che, data la stessa architettura del modello, esiste un ampio divario prestazionale tra il supernet e l'addestramento da zero. Pertanto, il supernet non può essere utilizzato direttamente ed è necessario un riaddestramento dopo aver individuato le architetture ottimali. In questo lavoro, proponiamo il mixture-of-supernets, una formulazione generalizzata del supernet in cui viene adottato il mixture-of-experts (MoE) per potenziare la capacità espressiva del modello supernet, con un sovraccarico di addestramento trascurabile. In questo modo, le diverse sottoreti non condividono direttamente i pesi del modello, ma attraverso un meccanismo di routing basato sull'architettura. Di conseguenza, i pesi del modello delle diverse sottoreti sono personalizzati in base alle loro specifiche architetture e la generazione dei pesi viene appresa tramite discesa del gradiente. Rispetto ai supernet con condivisione dei pesi esistenti per il NLP, il nostro metodo può minimizzare il tempo di riaddestramento, migliorando notevolmente l'efficienza dell'addestramento. Inoltre, il metodo proposto raggiunge le prestazioni SOTA nel NAS per la costruzione di modelli di traduzione automatica veloci, ottenendo un migliore compromesso tra latenza e BLEU rispetto a HAT, lo stato dell'arte del NAS per la MT. Raggiungiamo anche le prestazioni SOTA nel NAS per la costruzione di modelli BERT efficienti in termini di memoria e agnostici rispetto al task, superando NAS-BERT e AutoDistil in varie dimensioni del modello.
Un ostacolo critico che impedisce una diffusione su vasta scala dei modelli NeRF è la loro dipendenza da pose della camera accurate. Di conseguenza, cresce l'interesse nell'estendere i modelli NeRF per ottimizzare congiuntamente le pose della camera e la rappresentazione della scena, offrendo un'alternativa alle pipeline SfM predefinite che presentano modalità di fallimento ben note. Gli approcci esistenti per NeRF senza pose operano con ipotesi limitate, come una distribuzione a priori delle pose o un'inizializzazione approssimativa delle pose, rendendoli meno efficaci in un contesto generale. In questo lavoro, proponiamo un approccio innovativo, LU-NeRF, che stima congiuntamente le pose della camera e i campi di radianza neurali con ipotesi rilassate sulla configurazione delle pose. Il nostro approccio opera in modo locale-globale, dove prima ottimizziamo su sottoinsiemi locali dei dati, denominati mini-scene. LU-NeRF stima la pose locale e la geometria per questo impegnativo compito few-shot. Le pose delle mini-scene vengono portate in un sistema di riferimento globale attraverso un passo di sincronizzazione robusta delle pose, dove è possibile eseguire un'ottimizzazione finale globale della pose e della scena. Dimostriamo che la nostra pipeline LU-NeRF supera i precedenti tentativi di NeRF senza pose senza fare ipotesi restrittive sulla priorità delle pose. Questo ci permette di operare nel contesto generale delle pose SE(3), a differenza delle baseline. I nostri risultati indicano inoltre che il nostro modello può essere complementare alle pipeline SfM basate su feature, poiché si confronta favorevolmente con COLMAP su immagini a bassa texture e bassa risoluzione.
Stimare la profondità degli oggetti da una singola immagine è un compito prezioso per molte applicazioni di visione, robotica e grafica. Tuttavia, i metodi attuali spesso non riescono a produrre una profondità accurata per oggetti in scene diverse. In questo lavoro, proponiamo una strategia semplice ma efficace chiamata Background Prompting, che adatta l'immagine dell'oggetto in input con uno sfondo appreso. Apprendiamo i prompt di sfondo utilizzando solo piccoli dataset sintetici di oggetti. Per inferire la profondità dell'oggetto su un'immagine reale, posizioniamo l'oggetto segmentato nel prompt di sfondo appreso e eseguiamo reti di profondità preesistenti. Il Background Prompting aiuta le reti di profondità a concentrarsi sull'oggetto in primo piano, rendendole invarianti alle variazioni dello sfondo. Inoltre, il Background Prompting riduce il divario di dominio tra immagini sintetiche e reali degli oggetti, portando a una migliore generalizzazione sim2real rispetto a un semplice fine-tuning. I risultati su più dataset sintetici e reali dimostrano miglioramenti consistenti nelle profondità reali degli oggetti per una varietà di reti di profondità esistenti. Il codice e i prompt di sfondo ottimizzati possono essere trovati all'indirizzo: https://mbaradad.github.io/depth_prompt.
Guidati da modelli di diffusione scalabili addestrati su ampi dataset di coppie testo-immagine, i metodi di sintesi da testo a immagine hanno mostrato risultati convincenti. Tuttavia, questi modelli continuano a non seguire con precisione il prompt testuale quando sono coinvolti più oggetti, attributi e composizioni spaziali nel prompt. In questo articolo, identifichiamo le potenziali ragioni sia negli strati di cross-attention che di self-attention del modello di diffusione. Proponiamo due nuove funzioni di perdita per riorientare le mappe di attenzione in base a un layout specifico durante il processo di campionamento. Eseguiamo esperimenti completi sui benchmark DrawBench e HRS utilizzando layout sintetizzati da Modelli Linguistici di Grande Scala, dimostrando che le nostre funzioni di perdita possono essere integrate facilmente ed efficacemente nei metodi esistenti da testo a immagine e migliorano costantemente l'allineamento tra le immagini generate e i prompt testuali.
Presentiamo BlenderBot 3x, un aggiornamento del modello conversazionale BlenderBot 3, ora addestrato utilizzando conversazioni organiche e dati di feedback provenienti dagli utenti che partecipano al sistema, con l'obiettivo di migliorarne sia le capacità che la sicurezza. Rilasciamo pubblicamente i dati di interazione de-identificati dei partecipanti per l'uso da parte della comunità di ricerca, al fine di stimolare ulteriori progressi. Addestrare modelli con dati organici è impegnativo perché le interazioni con le persone "nel mondo reale" includono sia conversazioni e feedback di alta qualità, sia comportamenti avversari e tossici. Studiamo tecniche che consentono di apprendere da insegnanti utili, evitando al contempo di apprendere da persone che cercano di indurre il modello a produrre risposte inutili o tossiche. BlenderBot 3x è sia preferito nelle conversazioni rispetto a BlenderBot 3, sia dimostrato in grado di produrre risposte più sicure in situazioni complesse. Sebbene i nostri modelli attuali siano ancora lontani dalla perfezione, crediamo che ulteriori miglioramenti possano essere raggiunti continuando a utilizzare le tecniche esplorate in questo lavoro.
I modelli generativi text-to-image hanno reso possibile la sintesi di immagini ad alta risoluzione in diversi domini, ma richiedono agli utenti di specificare il contenuto che desiderano generare. In questo articolo, consideriamo il problema inverso: data una raccolta di immagini diverse, possiamo scoprire i concetti generativi che rappresentano ciascuna immagine? Presentiamo un approccio non supervisionato per scoprire concetti generativi da una raccolta di immagini, separando diversi stili artistici nei dipinti, oggetti e illuminazione nelle scene di cucina, e individuando classi di immagini date immagini di ImageNet. Mostriamo come tali concetti generativi possano rappresentare accuratamente il contenuto delle immagini, essere ricombinati e composti per generare nuove immagini artistiche e ibride, e ulteriormente utilizzati come rappresentazione per compiti di classificazione downstream.
Le CNN sferiche generalizzano le CNN a funzioni sulla sfera, utilizzando convoluzioni sferiche come operazione lineare principale. Il modo più preciso ed efficiente per calcolare le convoluzioni sferiche è nel dominio spettrale (tramite il teorema di convoluzione), che rimane comunque più costoso rispetto alle usuali convoluzioni piane. Per questo motivo, le applicazioni delle CNN sferiche sono state finora limitate a problemi di piccola scala che possono essere affrontati con una capacità modellistica ridotta. In questo lavoro, dimostriamo come le CNN sferiche possano essere scalate per problemi molto più grandi. Per raggiungere questo obiettivo, apportiamo miglioramenti critici, tra cui nuove varianti di componenti modellistici comuni, un'implementazione delle operazioni core per sfruttare le caratteristiche degli acceleratori hardware, e rappresentazioni di input specifiche per l'applicazione che sfruttano le proprietà del nostro modello. Gli esperimenti mostrano che le nostre CNN sferiche più grandi raggiungono lo stato dell'arte su diversi target del benchmark molecolare QM9, precedentemente dominato da reti neurali grafiche equivarianti, e ottengono prestazioni competitive su molteplici task di previsione meteorologica. Il nostro codice è disponibile all'indirizzo https://github.com/google-research/spherical-cnn.
Presentiamo un framework che formula il task di risposta a domande visive come generazione modulare di codice. A differenza dei precedenti lavori sugli approcci modulari al VQA, il nostro metodo non richiede ulteriore addestramento e si basa su modelli linguistici pre-addestrati (LM), modelli visivi pre-addestrati su coppie immagine-didascalia e cinquanta esempi di VQA utilizzati per l'apprendimento in-context. I programmi Python generati invocano e compongono gli output dei modelli visivi utilizzando logica aritmetica e condizionale. Il nostro approccio migliora l'accuratezza sul dataset COVR di almeno il 3% e sul dataset GQA di circa il 2% rispetto alla baseline few-shot che non impiega la generazione di codice.
In questo articolo, affrontiamo le sfide poste dal tempo di addestramento sostanziale e dal consumo di memoria associati ai transformer per video, concentrandoci sul modello ViViT (Video Vision Transformer), in particolare sulla versione Factorised Encoder, come nostra baseline per i compiti di riconoscimento delle azioni. La variante del codificatore fattorizzato segue l'approccio di fusione tardiva adottato da molti metodi all'avanguardia. Nonostante si distingua per i suoi favorevoli compromessi velocità/accuratezza tra le diverse varianti di ViViT, il suo considerevole tempo di addestramento e i requisiti di memoria rappresentano ancora un significativo ostacolo all'adozione. Il nostro metodo è progettato per abbassare questa barriera e si basa sull'idea di congelare il transformer spaziale durante l'addestramento. Questo porta a un modello a bassa accuratezza se fatto in modo ingenuo. Ma dimostriamo che (1) inizializzando opportunamente il transformer temporale (un modulo responsabile dell'elaborazione delle informazioni temporali) e (2) introducendo un modello adattatore compatto che collega le rappresentazioni spaziali congelate (un modulo che si concentra selettivamente su regioni dell'immagine di input) al transformer temporale, possiamo godere dei vantaggi del congelamento del transformer spaziale senza sacrificare l'accuratezza. Attraverso un'ampia sperimentazione su 6 benchmark, dimostriamo che la nostra strategia di addestramento proposta riduce significativamente i costi di addestramento (di circa il 50%) e il consumo di memoria, mantenendo o migliorando leggermente le prestazioni fino all'1,79% rispetto al modello di baseline. Il nostro approccio consente inoltre di utilizzare modelli di transformer per immagini più grandi come nostro transformer spaziale e di accedere a più frame con lo stesso consumo di memoria.
Concetti specifici della visione come "regione" hanno svolto un ruolo chiave nell'estensione dei framework generali di machine learning a compiti come il rilevamento di oggetti. Considerando il successo dei rilevatori basati su regioni per l'apprendimento supervisionato e i progressi dei metodi intra-immagine per l'apprendimento contrastivo, esploriamo l'uso delle regioni per il pre-training ricostruttivo. Partendo dal Masked Autoencoding (MAE) sia come baseline che come ispirazione, proponiamo un task pre-testo parallelo progettato per affrontare la mappatura uno-a-molti tra immagini e regioni. Poiché tali regioni possono essere generate in modo non supervisionato, il nostro approccio (R-MAE) eredita l'ampia applicabilità del MAE, pur essendo più "consapevole delle regioni". Durante lo sviluppo di R-MAE, conduciamo analisi approfondite e convergiamo su una variante che è sia efficace che efficiente (1,3% di overhead rispetto al MAE). Inoltre, mostra miglioramenti quantitativi consistenti quando generalizzato a vari dati di pre-training e benchmark di rilevamento e segmentazione downstream. Infine, forniamo ampie visualizzazioni qualitative per migliorare la comprensione del comportamento e del potenziale di R-MAE. Il codice sarà reso disponibile su https://github.com/facebookresearch/r-mae.