Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo il primo attacco di furto di modelli in grado di estrarre informazioni precise e non banali da modelli linguistici black-box di produzione come ChatGPT di OpenAI o PaLM-2 di Google. Nello specifico, il nostro attacco recupera lo strato di proiezione degli embedding (fino alle simmetrie) di un modello transformer, dato un tipico accesso API. Per meno di 20 USD, il nostro attacco estrae l'intera matrice di proiezione dei modelli linguistici Ada e Babbage di OpenAI. In questo modo, confermiamo per la prima volta che questi modelli black-box hanno una dimensione nascosta rispettivamente di 1024 e 2048. Recuperiamo inoltre l'esatta dimensione nascosta del modello gpt-3.5-turbo e stimiamo che costerebbe meno di 2000 USD in query per estrarre l'intera matrice di proiezione. Concludiamo con potenziali difese e mitigazioni e discutiamo le implicazioni di possibili lavori futuri che potrebbero estendere il nostro attacco.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno portato un immenso valore al mondo, con le loro capacità superiori derivanti dall'enorme numero di parametri che utilizzano. Tuttavia, anche le GPU con le maggiori capacità di memoria, attualmente fino a 80GB, sono ben lontane dall'essere sufficienti per ospitare questi vasti parametri e i loro stati associati dell'ottimizzatore durante l'ottimizzazione basata sulla discesa del gradiente stocastica. Un approccio per ospitare modelli così grandi è quello di aggregare la memoria dei dispositivi da molte GPU. Tuttavia, questo approccio introduce costi proibitivi per la maggior parte dei ricercatori accademici, che hanno sempre un budget limitato per molti server GPU di fascia alta. In questo articolo, ci concentriamo sul fine-tuning di modelli enormi su una singola GPU, anche di fascia bassa, in un server di tipo consumer, accessibile alla maggior parte dei ricercatori di IA. In tale scenario, il lavoro all'avanguardia ZeRO-Infinity soffre di due gravi problemi quando eseguito in un server di tipo consumer: 1) bassa utilizzazione della GPU a causa di uno scambio inefficiente, e 2) dimensioni limitate del modello addestrabile a causa della capacità della memoria della CPU. La ragione sottostante è che ZeRO-Infinity è ottimizzato per l'esecuzione su server GPU di fascia alta. A tal fine, presentiamo Fuyou, un framework di addestramento a basso costo che consente un efficiente fine-tuning di modelli enormi da 100B su un server di fascia bassa con una GPU di fascia bassa e una capacità limitata della memoria della CPU. L'idea chiave è quella di aggiungere la comunicazione SSD-CPU come dimensione di ottimizzazione e quindi co-ottimizzare attentamente il calcolo e lo scambio di dati da un approccio sistematico per massimizzare l'utilizzazione della GPU. I risultati sperimentali mostrano che 1) Fuyou è in grado di eseguire il fine-tuning di GPT-3 da 175B su una GPU consumer RTX 4090 con un'elevata utilizzazione della GPU, mentre ZeRO-Infinity non riesce a eseguire il fine-tuning; e 2) durante l'addestramento di un piccolo modello GPT-3 da 13B, Fuyou raggiunge 156 TFLOPS su una GPU RTX 4090, mentre ZeRO-Infinity raggiunge solo 45 TFLOPS.
La generazione automatica 3D ha recentemente attirato un'attenzione diffusa. I metodi più recenti hanno notevolmente accelerato la velocità di generazione, ma solitamente producono oggetti meno dettagliati a causa della capacità limitata del modello o dei dati 3D. Ispirati dai recenti progressi nei modelli di diffusione video, introduciamo V3D, che sfrutta la capacità di simulazione del mondo dei modelli di diffusione video pre-addestrati per facilitare la generazione 3D. Per sfruttare appieno il potenziale della diffusione video nel percepire il mondo 3D, introduciamo ulteriormente un priore di consistenza geometrica ed estendiamo il modello di diffusione video a un generatore 3D multi-vista coerente. Grazie a ciò, il modello di diffusione video all'avanguardia può essere perfezionato per generare fotogrammi orbitanti a 360 gradi attorno a un oggetto partendo da una singola immagine. Con le nostre pipeline di ricostruzione personalizzate, possiamo generare mesh di alta qualità o Gaussiane 3D in meno di 3 minuti. Inoltre, il nostro metodo può essere esteso alla sintesi di nuove viste a livello di scena, ottenendo un controllo preciso sul percorso della fotocamera con viste di input sparse. Esperimenti estensivi dimostrano la performance superiore dell'approccio proposto, specialmente in termini di qualità di generazione e coerenza multi-vista. Il nostro codice è disponibile all'indirizzo https://github.com/heheyas/V3D.
Affrontando le doppie sfide della ridondanza locale e delle dipendenze globali nella comprensione video, questo lavoro adatta in modo innovativo il Mamba al dominio video. Il VideoMamba proposto supera i limiti delle reti neurali convoluzionali 3D e dei trasformatori video esistenti. Il suo operatore a complessità lineare consente una modellazione efficiente a lungo termine, cruciale per la comprensione di video lunghi ad alta risoluzione. Valutazioni estensive rivelano le quattro capacità fondamentali di VideoMamba: (1) Scalabilità nel dominio visivo senza un ampio pre-addestramento su dataset, grazie a una nuova tecnica di auto-distillazione; (2) Sensibilità nel riconoscimento di azioni a breve termine anche con differenze di movimento finemente dettagliate; (3) Superiorità nella comprensione di video a lungo termine, mostrando progressi significativi rispetto ai modelli basati su caratteristiche tradizionali; e (4) Compatibilità con altre modalità, dimostrando robustezza in contesti multi-modali. Attraverso questi distinti vantaggi, VideoMamba stabilisce un nuovo punto di riferimento per la comprensione video, offrendo una soluzione scalabile ed efficiente per una comprensione video completa. Tutti i codici e i modelli sono disponibili su https://github.com/OpenGVLab/VideoMamba.
In questo studio, identifichiamo i fenomeni di attenzione inefficiente nei Modelli Linguistico-Visuali di Grande Scala (LVLM), in particolare all'interno di modelli di rilievo come LLaVA-1.5, QwenVL-Chat e Video-LLaVA. Scopriamo che il calcolo dell'attenzione sui token visivi è estremamente inefficiente negli strati profondi dei LVLM più diffusi, suggerendo la necessità di un approccio più sparso rispetto alla gestione dei dati testuali. A tal fine, introduciamo FastV, un metodo versatile plug-and-play progettato per ottimizzare l'efficienza computazionale apprendendo pattern di attenzione adattivi negli strati iniziali e potando i token visivi in quelli successivi. Le nostre valutazioni dimostrano la capacità di FastV di ridurre drasticamente i costi computazionali (ad esempio, una riduzione del 45% nei FLOP per LLaVA-1.5-13B) senza sacrificare le prestazioni in un'ampia gamma di compiti di comprensione di immagini e video. Il compromesso tra efficienza computazionale e prestazioni di FastV è altamente personalizzabile e pareto-efficiente. Può comprimere i FLOP di un modello con 13 miliardi di parametri per raggiungere un budget inferiore a quello di un modello con 7 miliardi di parametri, mantenendo comunque prestazioni superiori. Crediamo che FastV abbia un valore pratico per il deployment di LVLM su dispositivi edge e modelli commerciali. Il codice è rilasciato all'indirizzo https://github.com/pkunlp-icler/FastV.
Investighiamo il tasso di miglioramento degli algoritmi per il pre-training di modelli linguistici dall'avvento del deep learning. Utilizzando un dataset di oltre 200 valutazioni di modelli linguistici su Wikitext e Penn Treebank dal 2012 al 2023, scopriamo che la quantità di calcolo necessaria per raggiungere una determinata soglia di prestazioni si è dimezzata approssimativamente ogni 8 mesi, con un intervallo di confidenza del 95% compreso tra circa 5 e 14 mesi, un ritmo sostanzialmente più rapido rispetto ai guadagni hardware previsti dalla legge di Moore. Stimiamo leggi di scala aumentate, che ci permettono di quantificare il progresso algoritmico e determinare i contributi relativi del ridimensionamento dei modelli rispetto alle innovazioni negli algoritmi di addestramento. Nonostante il rapido ritmo del progresso algoritmico e lo sviluppo di nuove architetture come il transformer, la nostra analisi rivela che l'aumento della potenza di calcolo ha contribuito in misura ancora maggiore ai miglioramenti complessivi delle prestazioni in questo periodo. Sebbene limitata da dati di benchmark rumorosi, la nostra analisi quantifica il rapido progresso nella modellazione linguistica, gettando luce sui contributi relativi di calcolo e algoritmi.
L'arrivo di Sora segna una nuova era per i modelli di diffusione testo-video, portando significativi progressi nella generazione di video e potenziali applicazioni. Tuttavia, Sora, così come altri modelli di diffusione testo-video, dipende fortemente dai prompt, e non esiste un dataset pubblico che includa uno studio sui prompt testo-video. In questo articolo, introduciamo VidProM, il primo dataset su larga scala composto da 1,67 milioni di prompt testo-video unici provenienti da utenti reali. Inoltre, il dataset include 6,69 milioni di video generati da quattro modelli di diffusione all'avanguardia e alcuni dati correlati. Inizialmente dimostriamo la creazione di questo dataset su larga scala, un processo che richiede tempo e risorse. Successivamente, mostriamo come il dataset proposto VidProM si differenzi da DiffusionDB, un ampio dataset di prompt per la generazione di immagini. Sulla base dell'analisi di questi prompt, identifichiamo la necessità di un nuovo dataset di prompt specificamente progettato per la generazione testo-video e otteniamo approfondimenti sulle preferenze degli utenti reali nella creazione di video. Il nostro dataset ampio e diversificato ispira anche molte nuove aree di ricerca entusiasmanti. Ad esempio, per sviluppare modelli di diffusione testo-video migliori, più efficienti e sicuri, suggeriamo di esplorare l'ingegneria dei prompt testo-video, la generazione efficiente di video e il rilevamento di copie video per i modelli di diffusione. Rendiamo il dataset raccolto VidProM disponibile pubblicamente su GitHub e Hugging Face con licenza CC-BY-NC 4.0.
I modelli di diffusione sono relativamente facili da addestrare, ma richiedono molti passaggi per generare campioni. I modelli di consistenza sono molto più difficili da addestrare, ma generano campioni in un singolo passaggio. In questo articolo proponiamo i Modelli di Consistenza Multistep: un'unione tra i Modelli di Consistenza (Song et al., 2023) e TRACT (Berthelot et al., 2023) che può interpolare tra un modello di consistenza e un modello di diffusione: un compromesso tra velocità di campionamento e qualità dei campioni. Nello specifico, un modello di consistenza a 1 passaggio è un modello di consistenza convenzionale, mentre dimostriamo che un modello di consistenza a infiniti passaggi è un modello di diffusione. I Modelli di Consistenza Multistep funzionano molto bene nella pratica. Aumentando il budget di campionamento da un singolo passaggio a 2-8 passaggi, possiamo addestrare modelli più facilmente che generano campioni di qualità superiore, mantenendo gran parte dei vantaggi in termini di velocità di campionamento. Risultati degni di nota sono 1.4 FID su Imagenet 64 in 8 passaggi e 2.1 FID su Imagenet128 in 8 passaggi con distillazione di consistenza. Mostriamo inoltre che il nostro metodo si adatta a un modello di diffusione text-to-image, generando campioni molto vicini alla qualità del modello originale.
La generazione guidata da soggetti ha recentemente attirato un notevole interesse grazie alla sua capacità di personalizzare la generazione di immagini da testo. I lavori tipici si concentrano sull'apprendimento degli attributi privati del nuovo soggetto. Tuttavia, un fatto importante non è stato preso seriamente in considerazione: un soggetto non è un concetto nuovo isolato, ma dovrebbe essere una specializzazione di una determinata categoria nel modello pre-addestrato. Ciò fa sì che il soggetto non erediti in modo completo gli attributi della sua categoria, causando una scarsa generazione di attributi correlati. In questo articolo, ispirati dalla programmazione orientata agli oggetti, modelliamo il soggetto come una classe derivata la cui classe base è la sua categoria semantica. Questa modellazione consente al soggetto di ereditare attributi pubblici dalla sua categoria mentre apprende i suoi attributi privati dall'esempio fornito dall'utente. Nello specifico, proponiamo un metodo plug-and-play, la regolarizzazione Subject-Derived (SuDe). Essa costruisce la modellazione della classe base-derivata vincolando le immagini generate guidate dal soggetto ad appartenere semanticamente alla categoria del soggetto. Esperimenti estesi su tre baseline e due architetture su vari soggetti dimostrano che il nostro SuDe consente generazioni immaginative di attributi correlati mantenendo la fedeltà al soggetto. I codici saranno presto resi open source su FaceChain (https://github.com/modelscope/facechain).