Articoli di ricerca IA selezionati quotidianamente con traduzioni
In seguito alla recente popolarità dei Large Language Models (LLM), sono stati fatti diversi tentativi per estenderli al dominio visivo. Da un assistente visivo che potrebbe guidarci in ambienti sconosciuti a modelli generativi che producono immagini utilizzando solo una descrizione testuale di alto livello, le applicazioni dei modelli vision-language (VLM) avranno un impatto significativo sul nostro rapporto con la tecnologia. Tuttavia, ci sono molte sfide che devono essere affrontate per migliorare l'affidabilità di questi modelli. Mentre il linguaggio è discreto, la visione si evolve in uno spazio a dimensioni molto più elevate in cui i concetti non possono sempre essere facilmente discretizzati. Per comprendere meglio i meccanismi alla base del mappaggio della visione al linguaggio, presentiamo questa introduzione ai VLM che speriamo possa aiutare chiunque desideri entrare nel campo. Innanzitutto, introduciamo cosa sono i VLM, come funzionano e come addestrarli. Successivamente, presentiamo e discutiamo approcci per valutare i VLM. Sebbene questo lavoro si concentri principalmente sul mappaggio di immagini al linguaggio, discutiamo anche l'estensione dei VLM ai video.
Le scarse prestazioni dei transformer nei compiti aritmetici sembrano derivare in gran parte dalla loro incapacità di tenere traccia della posizione esatta di ciascuna cifra all'interno di una lunga sequenza di cifre. Risolviamo questo problema aggiungendo un embedding a ciascuna cifra che codifica la sua posizione relativa all'inizio del numero. Oltre al miglioramento che questi embedding forniscono di per sé, dimostriamo che questa correzione consente modifiche architetturali come l'iniezione di input e l'aggiunta di strati ricorrenti per migliorare ulteriormente le prestazioni. Con le posizioni risolte, possiamo studiare la capacità di estrapolazione logica dei transformer. Riescono a risolvere problemi aritmetici più grandi e complessi rispetto a quelli presenti nei loro dati di addestramento? Scopriamo che, addestrando su numeri di sole 20 cifre con una singola GPU per un giorno, possiamo raggiungere prestazioni all'avanguardia, ottenendo fino al 99% di accuratezza su problemi di addizione con 100 cifre. Infine, dimostriamo che questi guadagni nella capacità numerica sbloccano anche miglioramenti in altri compiti di ragionamento multi-step, inclusi l'ordinamento e la moltiplicazione.
I grandi modelli multimodali (Large Multimodal Models, LMMs) come LLaVA hanno dimostrato prestazioni solide nel ragionamento visivo-linguistico. Questi modelli prima incorporano le immagini in un numero fisso e ampio di token visivi, per poi alimentarli in un grande modello linguistico (Large Language Model, LLM). Tuttavia, questo design comporta un numero eccessivo di token per scenari visivi densi come immagini ad alta risoluzione e video, portando a una grande inefficienza. Sebbene esistano metodi di pruning/fusione dei token, questi producono un'output di lunghezza singola per ogni immagine e non offrono flessibilità nel bilanciare densità informativa ed efficienza. Ispirati dal concetto delle Matrioske, proponiamo M3: Matryoshka Multimodal Models, che impara a rappresentare il contenuto visivo come insiemi annidati di token visivi che catturano informazioni attraverso molteplici granularità, dal grossolano al fine. Il nostro approccio offre diversi vantaggi unici per gli LMMs: (1) Si può controllare esplicitamente la granularità visiva per ogni istanza di test durante l'inferenza, ad esempio, regolando il numero di token utilizzati per rappresentare un'immagine in base alla complessità o semplicità prevista del contenuto; (2) M3 fornisce un framework per analizzare la granularità necessaria per i dataset esistenti, dove scopriamo che benchmark di tipo COCO necessitano solo di circa ~9 token visivi per ottenere un'accuratezza simile a quella ottenuta utilizzando tutti i 576 token; (3) Il nostro approccio fornisce una base per esplorare il miglior compromesso tra prestazioni e lunghezza dei token visivi a livello di campione, dove la nostra indagine rivela che esiste un ampio divario tra il limite superiore teorico (oracle upper bound) e le rappresentazioni a scala fissa attuali.
In questo rapporto tecnico, presentiamo Zamba, un nuovo modello ibrido SSM-transformer da 7B che raggiunge prestazioni competitive rispetto ai principali modelli open-weight di scala comparabile. Zamba è addestrato su 1T di token provenienti da dataset disponibili pubblicamente ed è il miglior modello non-transformer a questa scala. Zamba introduce un'architettura unica che combina un backbone Mamba con un singolo modulo di attenzione condiviso, ottenendo così i vantaggi dell'attenzione a un costo minimo di parametri. Grazie alla sua architettura, Zamba è significativamente più veloce nell'inferenza rispetto ai modelli transformer comparabili e richiede sostanzialmente meno memoria per la generazione di sequenze lunghe. Zamba è preaddestrato in due fasi: la prima fase si basa su dataset web esistenti, mentre la seconda consiste nel ricotturare il modello su dataset di alta qualità di istruzioni e sintetici, ed è caratterizzata da un rapido decadimento del tasso di apprendimento. Rendiamo open-source i pesi e tutti i checkpoint di Zamba, sia per la fase 1 che per le fasi di ricottura.
I modelli di embedding basati su grandi modelli linguistici (LLM) di tipo decoder-only stanno iniziando a superare i modelli di embedding basati su BERT o T5 nelle attività generali di embedding del testo, inclusa la ricerca basata su vettori densi. In questo lavoro, introduciamo il modello NV-Embed con una varietà di design architetturali e procedure di addestramento per migliorare significativamente le prestazioni degli LLM come modelli di embedding versatili, mantenendo al contempo la loro semplicità e riproducibilità. Per l'architettura del modello, proponiamo un livello di attenzione latente per ottenere embedding aggregati, che migliora costantemente l'accuratezza nella ricerca e nelle attività downstream rispetto al pooling medio o all'uso dell'embedding del token <EOS> finale degli LLM. Per migliorare l'apprendimento delle rappresentazioni, rimuoviamo la maschera di attenzione causale degli LLM durante l'addestramento contrastivo. Per l'addestramento del modello, introduciamo un metodo di instruction-tuning contrastivo in due fasi. Nella prima fase, si applica l'addestramento contrastivo con istruzioni su dataset di ricerca, utilizzando negativi in-batch ed esempi negativi difficili selezionati. Nella seconda fase, si integrano vari dataset non di ricerca nell'instruction tuning, il che non solo migliora l'accuratezza nelle attività non di ricerca, ma anche le prestazioni nella ricerca. Combinando queste tecniche, il nostro modello NV-Embed, utilizzando solo dati pubblicamente disponibili, ha raggiunto un punteggio record di 69.32, classificandosi al primo posto nel Massive Text Embedding Benchmark (MTEB) (al 24 maggio 2024), con 56 attività che includono ricerca, riordinamento, classificazione, clustering e attività di similarità semantica testuale. In particolare, il nostro modello ottiene anche il punteggio più alto di 59.36 su 15 attività di ricerca nel benchmark MTEB (noto anche come BEIR). Renderemo il modello open-source all'indirizzo: https://huggingface.co/nvidia/NV-Embed-v1.
Le straordinarie capacità generative dei modelli di diffusione hanno stimolato un'ampia ricerca sia nel campo dell'editing di immagini che di video. Rispetto all'editing video, che deve affrontare ulteriori sfide nella dimensione temporale, l'editing di immagini ha visto lo sviluppo di approcci più diversificati e di alta qualità, nonché software più avanzati come Photoshop. Alla luce di questo divario, introduciamo una soluzione innovativa e generica che estende l'applicabilità degli strumenti di editing di immagini ai video, propagando le modifiche da un singolo fotogramma all'intero video utilizzando un modello pre-addestrato da immagine a video. Il nostro metodo, denominato I2VEdit, preserva in modo adattivo l'integrità visiva e del movimento del video sorgente in base all'entità delle modifiche, gestendo efficacemente modifiche globali, locali e moderati cambiamenti di forma, che i metodi esistenti non riescono a ottenere completamente. Al centro del nostro metodo ci sono due processi principali: l'Estrazione del Movimento Approssimativo per allineare i modelli di movimento di base con il video originale, e il Raffinamento dell'Aspetto per aggiustamenti precisi utilizzando il matching dell'attenzione a grana fine. Incorporiamo inoltre una strategia di intervallo saltato per mitigare il degrado della qualità derivante dalla generazione auto-regressiva su più clip video. I risultati sperimentali dimostrano la performance superiore del nostro framework nell'editing video di precisione, provando la sua capacità di produrre output di alta qualità e temporalmente coerenti.
Presentiamo un approccio innovativo per generare video umani di alta qualità, coerenti spazialmente e temporalmente, a partire da una singola immagine e sotto punti di vista arbitrari. Il nostro framework combina i punti di forza delle U-Net per l'iniezione precisa di condizioni e dei transformer diffusivi per catturare correlazioni globali tra punti di vista e tempo. Il cuore del sistema è un'architettura a transformer 4D a cascata che fattorizza l'attenzione tra viste, tempo e dimensioni spaziali, consentendo una modellazione efficiente dello spazio 4D. Il condizionamento preciso è ottenuto iniettando l'identità umana, i parametri della camera e i segnali temporali nei rispettivi transformer. Per addestrare questo modello, abbiamo curato un dataset multidimensionale che comprende immagini, video, dati multi-vista e scansioni 3D/4D, insieme a una strategia di addestramento multidimensionale. Il nostro approccio supera i limiti dei metodi precedenti basati su GAN o modelli diffusivi UNet, che faticano a gestire movimenti complessi e cambiamenti di punto di vista. Attraverso esperimenti estensivi, dimostriamo la capacità del nostro metodo di sintetizzare video umani realistici, coerenti e a vista libera, aprendo la strada a applicazioni multimediali avanzate in aree come la realtà virtuale e l'animazione. Il sito web del nostro progetto è https://human4dit.github.io.
Gli adattatori a basso rango (LoRA) e le loro varianti sono tecniche popolari di fine-tuning efficiente in termini di parametri (PEFT) che si avvicinano alle prestazioni del fine-tuning completo del modello, richiedendo solo un numero ridotto di parametri aggiuntivi. Questi parametri LoRA aggiuntivi sono specifici per il modello di base adattato. Quando il modello di base deve essere deprecato e sostituito con uno nuovo, tutti i moduli LoRA associati devono essere ri-addestrati. Tale ri-addestramento richiede l'accesso ai dati utilizzati per addestrare il LoRA per il modello di base originale. Ciò è particolarmente problematico per le applicazioni cloud commerciali in cui i moduli LoRA e i modelli di base sono ospitati da fornitori di servizi che potrebbero non essere autorizzati a ospitare dati proprietari dei clienti. Per affrontare questa sfida, proponiamo Trans-LoRA — un metodo innovativo per il trasferimento senza perdite e quasi privo di dati dei LoRA tra modelli di base. Il nostro approccio si basa su dati sintetici per trasferire i moduli LoRA. Utilizzando modelli linguistici di grandi dimensioni, progettiamo un generatore di dati sintetici per approssimare il processo di generazione dei dati del sottoinsieme di dati osservati. L'addestramento sul dataset sintetico risultante trasferisce i moduli LoRA a nuovi modelli. Dimostriamo l'efficacia del nostro approccio utilizzando sia le famiglie di modelli LLama che Gemma. Il nostro approccio raggiunge un trasferimento LoRA senza perdite (per lo più migliorato) tra modelli all'interno e tra diverse famiglie di modelli di base, e persino tra diversi metodi PEFT, su una vasta gamma di task.
Questo articolo introduce StreamV2V, un modello di diffusione che realizza la traduzione video-to-video (V2V) in tempo reale con prompt utente. A differenza dei precedenti metodi V2V che utilizzano batch per elaborare un numero limitato di frame, abbiamo scelto di elaborare i frame in modalità streaming, per supportare un numero illimitato di frame. Al centro di StreamV2V risiede un principio retrospettivo che collega il presente al passato. Questo è realizzato mantenendo una banca delle feature, che archivia informazioni dai frame passati. Per i frame in arrivo, StreamV2V estende l'auto-attenzione per includere chiavi e valori archiviati e fonde direttamente feature simili del passato nell'output. La banca delle feature viene continuamente aggiornata unendo feature memorizzate e nuove, rendendola compatta ma informativa. StreamV2V si distingue per la sua adattabilità ed efficienza, integrandosi perfettamente con i modelli di diffusione di immagini senza necessità di fine-tuning. Può eseguire 20 FPS su una GPU A100, essendo rispettivamente 15x, 46x, 108x e 158x più veloce di FlowVid, CoDeF, Rerender e TokenFlow. Metriche quantitative e studi sugli utenti confermano l'eccezionale capacità di StreamV2V nel mantenere la coerenza temporale.
I modelli generativi video stanno ricevendo particolare attenzione grazie alla loro capacità di generare frame realistici e immaginativi. Inoltre, si osserva che questi modelli mostrano una forte coerenza 3D, migliorando significativamente il loro potenziale come simulatori di mondi. In questo lavoro, presentiamo Vidu4D, un innovativo modello di ricostruzione che eccelle nel ricostruire accuratamente rappresentazioni 4D (cioè sequenze 3D) da singoli video generati, affrontando le sfide associate alla non rigidità e alla distorsione dei frame. Questa capacità è fondamentale per creare contenuti virtuali ad alta fedeltà che mantengano coerenza sia spaziale che temporale. Al cuore di Vidu4D si trova la nostra tecnica proposta, i Dynamic Gaussian Surfels (DGS). I DGS ottimizzano funzioni di deformazione variabili nel tempo per trasformare i Gaussian surfels (elementi di superficie) da uno stato statico a uno stato deformato dinamicamente. Questa trasformazione consente una rappresentazione precisa del movimento e della deformazione nel tempo. Per preservare l'integrità strutturale dei Gaussian surfels allineati alla superficie, progettiamo una regolarizzazione geometrica dello stato deformato basata su campi di deformazione continui per stimare le normali. Inoltre, apprendiamo perfezionamenti sui parametri di rotazione e scalatura dei Gaussian surfels, che alleviano notevolmente lo sfarfallio della texture durante il processo di deformazione e migliorano la cattura dei dettagli fini dell'aspetto. Vidu4D include anche uno stato di inizializzazione innovativo che fornisce un punto di partenza adeguato per i campi di deformazione nei DGS. Dotando Vidu4D di un modello generativo video esistente, il framework complessivo dimostra una generazione testo-a-4D ad alta fedeltà sia nell'aspetto che nella geometria.
La ricerca sulla generazione di video ha recentemente compiuto progressi significativi, consentendo la creazione di video di alta qualità a partire da prompt testuali o immagini. Aggiungere controllo al processo di generazione video è un obiettivo importante per il futuro, e recenti approcci che condizionano i modelli di generazione video su traiettorie della fotocamera stanno facendo passi avanti in questa direzione. Tuttavia, rimane una sfida generare un video della stessa scena da diverse traiettorie della fotocamera. Soluzioni a questo problema di generazione multi-video potrebbero abilitare la creazione su larga scala di scene 3D con traiettorie della fotocamera modificabili, tra altre applicazioni. Introduciamo la Collaborative Video Diffusion (CVD) come un passo importante verso questa visione. Il framework CVD include un nuovo modulo di sincronizzazione cross-video che promuove la coerenza tra i frame corrispondenti dello stesso video resi da diverse pose della fotocamera utilizzando un meccanismo di attenzione epipolare. Addestrato su un modulo di controllo della fotocamera all'avanguardia per la generazione video, CVD genera più video resi da diverse traiettorie della fotocamera con una coerenza significativamente migliore rispetto ai baselines, come dimostrato in esperimenti estensivi. Pagina del progetto: https://collaborativevideodiffusion.github.io/.
Recentemente, l'emergere dei modelli di diffusione ha aperto nuove opportunità per la ricostruzione da singola vista. Tuttavia, tutti i metodi esistenti rappresentano l'oggetto target come una mesh chiusa priva di qualsiasi informazione strutturale, trascurando così la struttura basata su parti, che è cruciale per molte applicazioni downstream, della forma ricostruita. Inoltre, le mesh generate soffrono solitamente di rumore elevato, superfici non lisce e texture sfocate, rendendo difficile ottenere segmentazioni delle parti soddisfacenti utilizzando tecniche di segmentazione 3D. In questo articolo, presentiamo Part123, un nuovo framework per la ricostruzione 3D consapevole delle parti da un'immagine a singola vista. Utilizziamo prima i modelli di diffusione per generare immagini multivista coerenti da una data immagine, e poi sfruttiamo il Segment Anything Model (SAM), che dimostra una potente capacità di generalizzazione su oggetti arbitrari, per generare maschere di segmentazione multivista. Per incorporare efficacemente le informazioni basate su parti 2D nella ricostruzione 3D e gestire le incoerenze, introduciamo il contrastive learning in un framework di rendering neurale per apprendere uno spazio di caratteristiche consapevole delle parti basato sulle maschere di segmentazione multivista. È stato anche sviluppato un algoritmo basato sul clustering per derivare automaticamente i risultati della segmentazione 3D delle parti dai modelli ricostruiti. Gli esperimenti dimostrano che il nostro metodo può generare modelli 3D con parti segmentate di alta qualità su vari oggetti. Rispetto ai metodi di ricostruzione non strutturati esistenti, i modelli 3D consapevoli delle parti del nostro metodo beneficiano alcune importanti applicazioni, tra cui la ricostruzione che preserva le caratteristiche, il fitting di primitive e l'editing di forme 3D.
Sebbene i modelli di diffusione possano apprendere distribuzioni complesse, il campionamento richiede un processo iterativo computazionalmente costoso. I metodi di distillazione esistenti consentono un campionamento efficiente, ma presentano limitazioni significative, come il degrado delle prestazioni con un numero molto ridotto di passaggi di campionamento, la dipendenza dall'accesso ai dati di training o l'ottimizzazione orientata alla modalità che potrebbe non catturare l'intera distribuzione. Proponiamo EM Distillation (EMD), un approccio basato sulla massima verosimiglianza che distilla un modello di diffusione in un modello generatore a un solo passaggio con una perdita minima della qualità percettiva. Il nostro approccio è derivato attraverso la lente di Expectation-Maximization (EM), in cui i parametri del generatore vengono aggiornati utilizzando campioni dalla distribuzione congiunta del modello di diffusione insegnante e dei latenti inferiti del generatore. Sviluppiamo uno schema di campionamento riparametrizzato e una tecnica di cancellazione del rumore che insieme stabilizzano il processo di distillazione. Inoltre, riveliamo un'interessante connessione del nostro metodo con i metodi esistenti che minimizzano la KL orientata alla modalità. EMD supera i metodi generativi a un solo passaggio esistenti in termini di punteggi FID su ImageNet-64 e ImageNet-128, e si confronta favorevolmente con il lavoro precedente sulla distillazione di modelli di diffusione testo-immagine.
Un buon inizializzazione dei modelli di deep learning è essenziale poiché può aiutarli a convergere meglio e più velocemente. Tuttavia, il pretraining di modelli di grandi dimensioni è proibitivo per molti ricercatori, rendendo più necessaria al giorno d'oggi una previsione accurata dei parametri iniziali. Le Graph HyperNetworks (GHN), un approccio per la previsione dei parametri dei modelli, hanno recentemente dimostrato prestazioni solide nell'inizializzazione di grandi modelli di visione. Sfortunatamente, la previsione dei parametri di reti molto ampie si basa sulla copia di piccoli blocchi di parametri più volte e richiede un numero estremamente elevato di parametri per supportare una previsione completa, il che ostacola notevolmente la sua adozione nella pratica. Per affrontare questa limitazione, proponiamo LoGAH (Low-rank GrAph Hypernetworks), una GHN con un decoder di parametri a basso rango che si espande a reti significativamente più ampie senza richiedere un aumento eccessivo dei parametri come nei tentativi precedenti. LoGAH ci consente di prevedere i parametri di reti neurali di 774 milioni di parametri in modo efficiente in termini di memoria. Mostriamo che i modelli di visione e linguaggio (ad esempio, ViT e GPT-2) inizializzati con LoGAH raggiungono prestazioni migliori rispetto a quelli inizializzati casualmente o utilizzando hypernetwork esistenti. Inoltre, mostriamo risultati promettenti nel transfer learning riguardo all'addestramento di LoGAH su piccoli dataset e all'uso dei parametri previsti per inizializzare task più grandi. Forniamo i codici su https://github.com/Blackzxy/LoGAH.
Affrontiamo il problema di lunga data di come apprendere modelli di diffusione di immagini basati su pixel su larga scala, introducendo un metodo di crescita avida notevolmente semplice per l'addestramento stabile di modelli su larga scala e ad alta risoluzione, senza la necessità di componenti a cascata per la super-risoluzione. L'intuizione chiave deriva da un'attenta pre-addestramento dei componenti principali, ovvero quelli responsabili dell'allineamento testo-immagine {\it vs.} il rendering ad alta risoluzione. Dimostriamo innanzitutto i vantaggi di scalare una {\it Shallow UNet}, priva di encoder(decoder) di down(up)-sampling. La scalabilità dei suoi strati profondi centrali migliora l'allineamento, la struttura degli oggetti e la composizione. Basandoci su questo modello centrale, proponiamo un algoritmo avido che espande l'architettura in modelli end-to-end ad alta risoluzione, preservando l'integrità della rappresentazione pre-addestrata, stabilizzando l'addestramento e riducendo la necessità di grandi dataset ad alta risoluzione. Ciò consente un modello a singolo stadio in grado di generare immagini ad alta risoluzione senza la necessità di una cascata di super-risoluzione. I nostri risultati chiave si basano su dataset pubblici e dimostrano che siamo in grado di addestrare modelli non a cascata fino a 8 miliardi di parametri senza ulteriori schemi di regolarizzazione. Vermeer, il nostro modello completo addestrato con dataset interni per produrre immagini 1024x1024, senza cascate, è preferito dal 44,0% contro il 21,4% dei valutatori umani rispetto a SDXL.