Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli autoregressivi sono emersi come un approccio potente per la generazione visuale, ma soffrono di una lentezza nell'elaborazione dovuta al loro processo sequenziale di previsione token per token. In questo articolo, proponiamo un approccio semplice ma efficace per la generazione visuale autoregressiva parallelizzata che migliora l'efficienza di generazione pur preservando i vantaggi della modellazione autoregressiva. La nostra intuizione chiave è che la generazione parallela dipende dalle dipendenze tra i token visivi: i token con dipendenze deboli possono essere generati in parallelo, mentre i token adiacenti fortemente dipendenti sono difficili da generare insieme, poiché il loro campionamento indipendente potrebbe portare a incongruenze. Basandoci su questa osservazione, sviluppiamo una strategia di generazione parallela che genera token distanti con dipendenze deboli in parallelo, mantenendo al contempo la generazione sequenziale per i token locali fortemente dipendenti. Il nostro approccio può essere integrato senza soluzione di continuità nei modelli autoregressivi standard senza modificare l'architettura o il tokenizer. Gli esperimenti su ImageNet e UCF-101 dimostrano che il nostro metodo raggiunge un aumento della velocità di 3,6 volte con una qualità comparabile e fino a 9,5 volte con una degradazione minima della qualità in compiti di generazione di immagini e video. Speriamo che questo lavoro possa ispirare futuri studi sulla generazione visuale efficiente e sulla modellazione autoregressiva unificata. Pagina del progetto: https://epiphqny.github.io/PAR-project.
Migliorare la capacità di ragionamento a più passaggi dei grandi modelli linguistici (LLM) con apprendimento per rinforzo (RL) offline è essenziale per adattarli rapidamente a compiti complessi. Mentre l'ottimizzazione diretta delle preferenze (DPO) ha mostrato promesse nell'allineare i LLM con le preferenze umane, è meno adatta per compiti di ragionamento a più passaggi perché (1) DPO si basa su dati di preferenza accoppiati, che non sono facilmente disponibili per compiti di ragionamento a più passaggi, e (2) tratta tutti i token in modo uniforme, rendendolo inefficace per l'assegnazione del credito in compiti di ragionamento a più passaggi, che spesso presentano ricompense sparse. In questo lavoro, proponiamo OREO (Offline Reasoning Optimization), un metodo RL offline per migliorare il ragionamento a più passaggi dei LLM. Basandoci su intuizioni da lavori precedenti di apprendimento per rinforzo con massima entropia, apprende congiuntamente un modello di politica e una funzione di valore ottimizzando l'Equazione di Bellman soft. Mostriamo in linea di principio che riduce la necessità di raccogliere dati a coppie e consente una migliore assegnazione del credito. Empiricamente, OREO supera i metodi di apprendimento offline esistenti su benchmark di ragionamento a più passaggi, inclusi compiti di ragionamento matematico (GSM8K, MATH) e controllo di agenti incorporati (ALFWorld). L'approccio può essere esteso a un framework multi-iterazione quando sono disponibili risorse aggiuntive. Inoltre, la funzione di valore appresa può essere sfruttata per guidare la ricerca nell'albero gratuitamente, il che può ulteriormente migliorare le prestazioni durante il test.
I Transformer di Diffusione (DiT) sono diventati un'architettura di spicco nella generazione di immagini. Tuttavia, la complessità quadratica dei meccanismi di attenzione, responsabili della modellazione delle relazioni tra i token, comporta significative latenze nella generazione di immagini ad alta risoluzione. Per affrontare questo problema, in questo articolo ci proponiamo di implementare un meccanismo di attenzione lineare che riduca la complessità dei DiT pre-addestrati a lineare. Iniziamo la nostra esplorazione con un ampio riassunto dei meccanismi di attenzione efficienti esistenti e identifichiamo quattro fattori chiave cruciali per il successo della linearizzazione dei DiT pre-addestrati: località, coerenza della formulazione, mappe di attenzione ad alto rango e integrità delle caratteristiche. Sulla base di queste intuizioni, introduciamo una strategia di attenzione locale simile a una convoluzione chiamata CLEAR, che limita le interazioni tra le caratteristiche a una finestra locale intorno a ciascun token di query, ottenendo così una complessità lineare. I nostri esperimenti indicano che, mediante il raffinamento del livello di attenzione su soli 10K campioni auto-generati per 10K iterazioni, possiamo trasferire efficacemente le conoscenze da un DiT pre-addestrato a un modello studente con complessità lineare, ottenendo risultati paragonabili al modello docente. Allo stesso tempo, riduce i calcoli di attenzione del 99,5% e accelera la generazione di immagini con risoluzione 8K di 6,3 volte. Inoltre, esaminiamo le proprietà favorevoli nei livelli di attenzione distillati, come la generalizzazione senza addestramento incrociato tra vari modelli e plugin, e un miglior supporto per l'inferenza parallela multi-GPU. Modelli e codici sono disponibili qui: https://github.com/Huage001/CLEAR.
Proponiamo di sintetizzare audio di alta qualità e sincronizzato, dati video e condizioni testuali opzionali, utilizzando un nuovo framework di addestramento congiunto multimodale denominato MMAudio. Rispetto all'addestramento a singola modalità condizionato solo a dati video (limitati), MMAudio viene addestrato congiuntamente con dati testuali-audio su larga scala e facilmente disponibili per imparare a generare campioni audio di alta qualità semanticamente allineati. Inoltre, miglioriamo la sincronia audio-visiva con un modulo di sincronizzazione condizionale che allinea le condizioni video con latenti audio a livello di frame. Addestrato con un obiettivo di corrispondenza di flusso, MMAudio raggiunge un nuovo stato dell'arte da video ad audio tra i modelli pubblici in termini di qualità audio, allineamento semantico e sincronizzazione audio-visiva, pur avendo un tempo di inferenza basso (1,23s per generare un video di 8s) e solo 157M parametri. MMAudio raggiunge anche prestazioni sorprendentemente competitive nella generazione di testo in audio, dimostrando che l'addestramento congiunto non pregiudica le prestazioni a singola modalità. Il codice e la demo sono disponibili su: https://hkchengrex.github.io/MMAudio
La cache chiave-valore (KV) è diventata un collo di bottiglia per le LLMs nella generazione di contesti lunghi. Nonostante i numerosi sforzi in questo settore, l'ottimizzazione della fase di decodifica viene generalmente ignorata. Tuttavia, riteniamo che tale ottimizzazione sia cruciale, specialmente per compiti di generazione di output lunghi basati sulle seguenti due osservazioni: (i) Eccessiva compressione durante la fase di precaricamento, che richiede un contesto completo specifico, compromette la comprensione del compito di ragionamento; (ii) Si verifica una deviazione dei dati più significativi nei compiti di ragionamento con output lunghi. Pertanto, SCOPE, un framework semplice ma efficiente che esegue separatamente l'ottimizzazione della cache KV durante le fasi di precaricamento e decodifica, viene introdotto. In particolare, la cache KV durante la fase di precaricamento viene preservata per mantenere le informazioni essenziali, mentre viene proposta una nuova strategia basata su scorrimento per selezionare i dati più significativi essenziali per la fase di decodifica. L'utilizzo della memoria e il trasferimento della memoria vengono ulteriormente ottimizzati utilizzando strategie adattive e discontinue. Estesi esperimenti su LongGenBench mostrano l'efficacia e la generalizzazione di SCOPE e la sua compatibilità come plug-in per altri metodi di compressione KV solo per il precaricamento.
I modelli di linguaggio multimodali di grandi dimensioni (MLLM) eccellono nella generazione di didascalie altamente dettagliate ma spesso producono allucinazioni. La nostra analisi rivela che i metodi esistenti per rilevare le allucinazioni faticano con didascalie dettagliate. Attribuiamo ciò al crescente affidamento dei MLLM sul testo generato, piuttosto che sull'immagine di input, man mano che la lunghezza della sequenza aumenta. Per affrontare questo problema, proponiamo un approccio multiagente che sfrutta la collaborazione tra LLM e MLLM per correggere le didascalie fornite. Inoltre, introduciamo un quadro di valutazione e un dataset di riferimento per agevolare l'analisi sistematica delle didascalie dettagliate. I nostri esperimenti dimostrano che il nostro metodo di valutazione proposto si allinea meglio con i giudizi umani sulla factualità rispetto alle metriche esistenti e che gli approcci attuali per migliorare la factualità dei MLLM potrebbero non essere sufficienti nei compiti di didascalia di immagini iperdettagliate. Al contrario, il nostro metodo proposto migliora significativamente l'accuratezza fattuale delle didascalie, migliorando persino quelle generate da GPT-4V. Infine, evidenziamo una limitazione del benchmarking incentrato sulla VQA dimostrando che le prestazioni di un MLLM sui benchmark VQA potrebbero non correlare con la sua capacità di generare didascalie dettagliate di immagini.
La quantizzazione è diventata una delle metodologie più efficaci per comprimere i LLM in dimensioni più piccole. Tuttavia, le soluzioni di quantizzazione esistenti mostrano ancora limitazioni, con una caduta di accuratezza non trascurabile o inefficienza di sistema. In questo articolo, effettuiamo un'analisi esaustiva dei principi generali di quantizzazione sul loro effetto sul triangolo di accuratezza, consumo di memoria ed efficienza di sistema. Proponiamo MixLLM che esplora il nuovo spazio di ottimizzazione della quantizzazione a precisione mista tra le caratteristiche di output basandosi sull'idea che diverse caratteristiche di output abbiano importanza diversa nel modello. MixLLM identifica le caratteristiche di output con elevata rilevanza nella visione globale piuttosto che all'interno di ciascun singolo strato, assegnando efficacemente una larghezza di bit maggiore alle caratteristiche di output che ne hanno maggior bisogno per ottenere un'accuratezza elevata con basso consumo di memoria. Presentiamo il punto ottimale di configurazione della quantizzazione dell'algoritmo-sistema che porta a un'accuratezza elevata e a un'efficienza di sistema. Per affrontare la sfida del sistema, progettiamo la dequantizzazione a due fasi per sfruttare facilmente il Tensor Core int8 e la conversione rapida del tipo di dati per ridurre significativamente l'overhead della dequantizzazione, e presentiamo il pipeline software per sovrapporre l'accesso alla memoria, la dequantizzazione e il MatMul nel modo migliore. Estesi esperimenti mostrano che con soli il 10% in più di bit, l'aumento del PPL può essere ridotto da circa 0.5 nel SOTA a entro 0.2 per Llama 3.1 70B, mentre in media MMLU-Pro migliora di 0.93 rispetto al SOTA di tre modelli popolari. Oltre alla sua accuratezza superiore, MixLLM raggiunge anche un'efficienza di sistema all'avanguardia.
Proponiamo un nuovo blocco per la modellazione video. Si basa su una fattorizzazione spazio-tempo-canale con blocchi dedicati per ciascuna dimensione: le unità ricorrenti lineari con gate (LRU) eseguono la miscelazione delle informazioni nel tempo, i livelli di autoattenzione eseguono la miscelazione nello spazio e gli MLP nei canali. L'architettura risultante TRecViT si comporta bene su compiti sparsi e densi, addestrati in regimi supervisionati o auto-supervisionati. In particolare, il nostro modello è causale e supera o è al pari di un modello di sola attenzione ViViT-L su set di dati video su larga scala (SSv2, Kinetics400), pur avendo 3 volte meno parametri, un'occupazione di memoria 12 volte più piccola e un conteggio FLOPs 5 volte inferiore. Il codice e i checkpoint saranno resi disponibili online su https://github.com/google-deepmind/trecvit.
La super-risoluzione 3D mira a ricostruire modelli 3D ad alta fedeltà da immagini multi-visuale a bassa risoluzione (LR). Gli studi iniziali si sono concentrati principalmente sui modelli di super-risoluzione per immagini singole (SISR) per aumentare la risoluzione delle immagini LR in immagini ad alta risoluzione. Tuttavia, questi metodi spesso mancano di coerenza visiva poiché operano indipendentemente su ciascuna immagine. Nonostante siano state esplorate varie tecniche di post-elaborazione per attenuare queste incongruenze, esse non sono ancora riuscite a risolvere completamente i problemi. In questo articolo, conduciamo uno studio esaustivo sulla super-risoluzione 3D sfruttando i modelli di super-risoluzione video (VSR). Utilizzando i modelli VSR, garantiamo un maggiore grado di coerenza spaziale e possiamo fare riferimento alle informazioni spaziali circostanti, portando a ricostruzioni più accurate e dettagliate. I nostri risultati rivelano che i modelli VSR possono ottenere risultati notevolmente positivi anche su sequenze prive di un allineamento spaziale preciso. Considerando questa osservazione, proponiamo un approccio semplice ma pratico per allineare le immagini LR senza coinvolgere il raffinamento o la generazione di una traiettoria 'regolare' dai modelli 3D addestrati sulle immagini LR. I risultati sperimentali mostrano che gli algoritmi sorprendentemente semplici possono raggiungere i risultati all'avanguardia dei compiti di super-risoluzione 3D su set di dati di benchmark standard, come i dataset NeRF-sintetico e MipNeRF-360. Pagina del progetto: https://ko-lani.github.io/Sequence-Matters
In questo lavoro, proponiamo un framework di riassunto Multi-LLM e indaghiamo due diverse strategie multi-LLM, tra cui centralizzata e decentralizzata. Il nostro framework di riassunto multi-LLM prevede due passaggi fondamentali in ciascun round di conversazione: generazione ed valutazione. Questi passaggi sono differenti a seconda che venga utilizzata la nostra strategia di riassunto multi-LLM decentralizzata o centralizzata. In entrambe le nostre strategie multi-LLM decentralizzata e centralizzata, abbiamo k diversi LLM che generano riassunti diversificati del testo. Tuttavia, durante la valutazione, il nostro approccio di riassunto multi-LLM centralizzato sfrutta un singolo LLM per valutare i riassunti e selezionare il migliore, mentre k LLM sono utilizzati per il riassunto multi-LLM decentralizzato. Complessivamente, scopriamo che i nostri approcci di riassunto multi-LLM superano significativamente i baselines che sfruttano solo un singolo LLM fino a 3 volte. Questi risultati indicano l'efficacia degli approcci multi-LLM per il riassunto.
Creare un avatar 3D a figura intera ad alta fedeltà e animabile da un'unica immagine è un compito impegnativo a causa della variegata apparenza e delle pose umane e della limitata disponibilità di dati di addestramento di alta qualità. Per raggiungere una rapida e di alta qualità ricostruzione umana, questo lavoro riconsidera il compito dalle prospettive del dataset, del modello e della rappresentazione. Innanzitutto, introduciamo un dataset generato umano-centrico su larga scala, HuGe100K, composto da 100.000 insiemi diversi e fotorealistici di immagini umane. Ogni insieme contiene frame a 24 viste in pose umane specifiche, generate utilizzando un modello immagine-a-multi-vista controllabile dalla posa. Successivamente, sfruttando la diversità nelle viste, pose e apparenze all'interno di HuGe100K, sviluppiamo un modello trasformatore feed-forward scalabile per prevedere una rappresentazione gaussiana umana 3D in uno spazio uniforme da un'immagine umana data. Questo modello è addestrato a disaccoppiare la posa umana, la forma del corpo, la geometria dell'abbigliamento e la texture. Le gaussiane stimate possono essere animate senza post-elaborazione. Conduciamo esperimenti esaustivi per convalidare l'efficacia del dataset e del metodo proposti. Il nostro modello dimostra la capacità di ricostruire efficientemente esseri umani fotorealistici a risoluzione 1K da un'unica immagine di input utilizzando una singola GPU istantaneamente. Inoltre, supporta senza soluzione di continuità varie applicazioni, nonché compiti di modifica di forma e texture.
Questo articolo introduce Fietje, una famiglia di modelli linguistici di piccole dimensioni (SLM) progettati specificamente per la lingua olandese. Il modello si basa su Phi 2, un modello centrato sull'inglese con 2,7 miliardi di parametri. Fietje ha dimostrato risultati competitivi con modelli linguistici più grandi al momento del suo rilascio. Un punto centrale di questo lavoro è la trasparenza e la riproducibilità: Fietje è completamente open-source, con pesi del modello, set di dati, codice di addestramento e valutazione tutti accessibili pubblicamente. L'articolo discute le prestazioni di Fietje e di molti altri modelli su un ampio insieme di valutazioni su benchmark riguardanti ragionamento, analisi del sentiment, conoscenza del mondo, accettabilità linguistica e disambiguazione del senso delle parole. I risultati della valutazione illustrano il rapido progresso nel campo dei LLM, dove i recenti modelli di piccole dimensioni superano i modelli più vecchi e più grandi che erano stati ottimizzati per l'olandese. Questo trend segnala un futuro entusiasmante per l'elaborazione del linguaggio olandese, suggerendo che anche i LLM compatti stiano diventando sempre più capaci. Inoltre, gli sforzi in corso e futuri per adattare i LLM all'olandese sono pronti a migliorare ulteriormente questi modelli, ampliandone l'applicabilità e l'accessibilità. Fietje è solo un passo intermedio nel migliorare l'accessibilità alla tecnologia linguistica per gli utenti della lingua olandese.
Costruire Large Language Models (LLM) sicuri in diverse lingue è essenziale per garantire un accesso sicuro e una diversità linguistica. A questo scopo, presentiamo M-ALERT, un benchmark multilingue che valuta la sicurezza dei LLM in cinque lingue: inglese, francese, tedesco, italiano e spagnolo. M-ALERT include 15k prompt di alta qualità per lingua, per un totale di 75k, seguendo la dettagliata tassonomia ALERT. I nostri ampi esperimenti su 10 LLM all'avanguardia evidenziano l'importanza dell'analisi della sicurezza specifica per lingua, rivelando che i modelli spesso mostrano significative incongruenze nella sicurezza tra lingue e categorie. Ad esempio, Llama3.2 mostra un'elevata insicurezza nella categoria crime_tax per l'italiano ma rimane sicuro in altre lingue. Simili differenze possono essere osservate in tutti i modelli. Al contrario, alcune categorie, come substance_cannabis e crime_propaganda, attivano in modo coerente risposte non sicure tra i modelli e le lingue. Queste scoperte sottolineano la necessità di pratiche robuste di sicurezza multilingue nei LLM per garantire un utilizzo sicuro e responsabile tra diverse comunità utenti.