Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre i Transformer sono stati l'architettura principale dietro il successo del deep learning nel campo della modellazione del linguaggio, i modelli a spazio di stati (SSM) come Mamba hanno recentemente dimostrato di eguagliare o superare i Transformer su scala piccola e media. Mostriamo che queste famiglie di modelli sono in realtà strettamente correlate e sviluppiamo un ricco quadro di connessioni teoriche tra gli SSM e le varianti dell'attenzione, collegate attraverso varie decomposizioni di una classe ben studiata di matrici semiseparabili strutturate. Il nostro framework di dualità dello spazio di stati (SSD) ci permette di progettare una nuova architettura (Mamba-2) il cui strato centrale è un perfezionamento dell'SSM selettivo di Mamba, che risulta da 2 a 8 volte più veloce, continuando a essere competitivo con i Transformer nella modellazione del linguaggio.
Nella ricerca dell'intelligenza artificiale generale, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) sono emersi come un punto focale nei recenti progressi. Tuttavia, l'attenzione predominante rimane sullo sviluppo delle loro capacità nella comprensione di immagini statiche. Il potenziale degli MLLMs nell'elaborazione di dati visivi sequenziali è ancora insufficientemente esplorato, evidenziando l'assenza di una valutazione completa e di alta qualità delle loro prestazioni. In questo articolo, introduciamo Video-MME, il primo benchmark di valutazione multimodale a spettro completo per l'analisi video degli MLLMs. Il nostro lavoro si distingue dai benchmark esistenti attraverso quattro caratteristiche chiave: 1) Diversità nei tipi di video, che coprono 6 domini visivi principali con 30 sottocampi per garantire un'ampia generalizzabilità degli scenari; 2) Durata nella dimensione temporale, che comprende video a breve, medio e lungo termine, da 11 secondi a 1 ora, per una dinamica contestuale robusta; 3) Ampiezza nelle modalità dei dati, integrando input multimodali oltre ai fotogrammi video, inclusi sottotitoli e audio, per rivelare le capacità complete degli MLLMs; 4) Qualità nelle annotazioni, utilizzando un'etichettatura manuale rigorosa da parte di annotatori esperti per facilitare una valutazione precisa e affidabile del modello. 900 video per un totale di 256 ore sono stati selezionati e annotati manualmente visionando ripetutamente tutto il contenuto video, risultando in 2.700 coppie domanda-risposta. Con Video-MME, valutiamo estensivamente vari MLLMs all'avanguardia, inclusi le serie GPT-4 e Gemini 1.5 Pro, nonché modelli open-source per immagini come InternVL-Chat-V1.5 e modelli video come LLaVA-NeXT-Video. I nostri esperimenti rivelano che Gemini 1.5 Pro è il modello commerciale con le migliori prestazioni, superando significativamente i modelli open-source. Il nostro dataset insieme a questi risultati sottolinea la necessità di ulteriori miglioramenti nella gestione di sequenze più lunghe e dati multimodali. Pagina del progetto: https://video-mme.github.io
In questo lavoro, indaghiamo se modelli linguistici di piccole dimensioni possano determinare sottoinsiemi di alta qualità di dataset testuali su larga scala che migliorino le prestazioni di modelli linguistici più grandi. Mentre lavori esistenti hanno dimostrato che la potatura basata sulla perplessità di un modello più grande può produrre dati di alta qualità, noi esploriamo se modelli più piccoli possano essere utilizzati per la potatura basata sulla perplessità e come la potatura sia influenzata dalla composizione del dominio dei dati sottoposti a potatura. Dimostriamo che, per molteplici composizioni di dataset, la potatura basata sulla perplessità dei dati di pre-addestramento può migliorare significativamente le prestazioni su task downstream: la potatura basata sulle perplessità calcolate con un modello da 125 milioni di parametri migliora le prestazioni medie su task downstream di un modello da 3 miliardi di parametri fino a 2,04 e riduce fino a 1,45 volte i passi di pre-addestramento necessari per raggiungere prestazioni baseline equivalenti. Inoltre, dimostriamo che tale potatura dei dati basata sulla perplessità produce anche guadagni di prestazioni downstream nei regimi di sovra-addestramento e di vincolo di dati.
I modelli di diffusione sono emersi come uno strumento potente per generare immagini di alta qualità a partire da descrizioni testuali. Nonostante i loro successi, questi modelli spesso mostrano una diversità limitata nelle immagini campionate, specialmente quando si utilizza un peso elevato nella guida senza classificatore. Per affrontare questo problema, presentiamo Kaleido, un approccio innovativo che migliora la diversità dei campioni incorporando prior latenti autoregressivi. Kaleido integra un modello linguistico autoregressivo che codifica la descrizione originale e genera variabili latenti, servendo come rappresentazioni astratte e intermedie per guidare e facilitare il processo di generazione delle immagini. In questo articolo, esploriamo una varietà di rappresentazioni latenti discrete, tra cui descrizioni testuali, bounding box di rilevamento, blob di oggetti e token visivi. Queste rappresentazioni diversificano e arricchiscono le condizioni di input per i modelli di diffusione, consentendo output più vari. I nostri risultati sperimentali dimostrano che Kaleido amplia efficacemente la diversità dei campioni di immagini generati da una data descrizione testuale, mantenendo al contempo un'elevata qualità dell'immagine. Inoltre, mostriamo che Kaleido aderisce strettamente alla guida fornita dalle variabili latenti generate, dimostrando la sua capacità di controllare e dirigere efficacemente il processo di generazione delle immagini.
I metodi attuali di generazione 4D hanno raggiunto un'efficacia notevole grazie all'ausilio di avanzati modelli generativi basati su diffusione. Tuttavia, questi metodi mancano di una modellizzazione spazio-temporale multi-vista e incontrano difficoltà nell'integrare diverse conoscenze pregresse provenienti da più modelli di diffusione, risultando in un'apparenza temporale incoerente e in sfarfallii. In questo articolo, proponiamo una nuova pipeline di generazione 4D, denominata 4Diffusion, mirata a generare contenuti 4D spazialmente e temporalmente coerenti a partire da un video monoculare. Inizialmente, progettiamo un modello di diffusione unificato adattato per la generazione di video multi-vista, incorporando un modulo di movimento apprendibile in un modello di diffusione 3D-aware congelato, per catturare le correlazioni spazio-temporali multi-vista. Dopo l'addestramento su un dataset curato, il nostro modello di diffusione acquisisce una coerenza temporale ragionevole e preserva intrinsecamente la generalizzabilità e la coerenza spaziale del modello di diffusione 3D-aware. Successivamente, proponiamo una funzione di perdita basata su Score Distillation Sampling 4D-aware, che si basa sul nostro modello di diffusione video multi-vista, per ottimizzare la rappresentazione 4D parametrizzata da un NeRF dinamico. Questo mira a eliminare le discrepanze derivanti da più modelli di diffusione, consentendo la generazione di contenuti 4D spazialmente e temporalmente coerenti. Inoltre, ideiamo una perdita di ancoraggio per migliorare i dettagli dell'aspetto e facilitare l'apprendimento del NeRF dinamico. Estesi esperimenti qualitativi e quantitativi dimostrano che il nostro metodo raggiunge prestazioni superiori rispetto ai metodi precedenti.
Gli ottimizzatori del secondo ordine, che mantengono una matrice denominata precondizionatore, sono superiori agli ottimizzatori del primo ordine sia in teoria che in pratica. Gli stati che formano il precondizionatore e la sua radice inversa limitano la dimensione massima dei modelli addestrati dagli ottimizzatori del secondo ordine. Per affrontare questo problema, la compressione degli stati dell'ottimizzatore da 32 bit a larghezze di bit inferiori ha dimostrato di ridurre l'uso della memoria. Tuttavia, gli approcci attuali riguardano solo gli ottimizzatori del primo ordine. In questo articolo, proponiamo i primi ottimizzatori del secondo ordine a 4 bit, rappresentati da Shampoo a 4 bit, che mantengono prestazioni simili a quelle delle versioni a 32 bit. Dimostriamo che quantizzare la matrice degli autovettori del precondizionatore in Shampoo a 4 bit è notevolmente migliore rispetto a quantizzare il precondizionatore stesso, sia teoricamente che sperimentalmente. Correggendo l'ortogonalità della matrice degli autovettori quantizzata, miglioriamo l'approssimazione della matrice degli autovettori del precondizionatore, il che beneficia anche il calcolo della sua radice inversa alla quarta potenza. Inoltre, scopriamo che la quantizzazione lineare quadrata supera leggermente la quantizzazione dinamica ad albero quando si quantizzano gli stati degli ottimizzatori del secondo ordine. La valutazione su varie reti per la classificazione delle immagini dimostra che il nostro Shampoo a 4 bit raggiunge un'accuratezza di test comparabile alla sua controparte a 32 bit, pur essendo più efficiente in termini di memoria. Il codice sorgente sarà reso disponibile.