Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LlamaGen, una nuova famiglia di modelli di generazione di immagini che applica il paradigma originale della "predizione del token successivo" dei grandi modelli linguistici al dominio della generazione visiva. Questa rappresenta una risposta affermativa alla domanda se i modelli autoregressivi standard, come Llama, senza bias induttivi sui segnali visivi, possano raggiungere prestazioni all'avanguardia nella generazione di immagini se scalati correttamente. Rivalutiamo gli spazi di progettazione dei tokenizer di immagini, le proprietà di scalabilità dei modelli di generazione di immagini e la qualità dei loro dati di addestramento. Il risultato di questa esplorazione comprende: (1) Un tokenizer di immagini con un rapporto di downsampling di 16, una qualità di ricostruzione di 0.94 rFID e un utilizzo del codebook del 97% sul benchmark ImageNet. (2) Una serie di modelli di generazione di immagini condizionati alla classe, che vanno da 111M a 3.1B di parametri, raggiungendo un FID di 2.18 sui benchmark ImageNet 256x256, superando i popolari modelli di diffusione come LDM e DiT. (3) Un modello di generazione di immagini condizionato al testo con 775M di parametri, addestrato in due fasi su LAION-COCO e immagini di alta qualità estetica, dimostrando prestazioni competitive in termini di qualità visiva e allineamento al testo. (4) Verifichiamo l'efficacia dei framework di servizio LLM nell'ottimizzare la velocità di inferenza dei modelli di generazione di immagini, ottenendo un aumento di velocità del 326% - 414%. Rilasciamo tutti i modelli e i codici per facilitare la comunità open-source della generazione visiva e dei modelli fondazionali multimodali.
I progressi nell'apprendimento multimodale, in particolare nella comprensione e generazione di video, richiedono dataset video-testo di alta qualità per migliorare le prestazioni dei modelli. Vript affronta questa problematica con un corpus meticolosamente annotato di 12.000 video ad alta risoluzione, offrendo didascalie dettagliate, dense e simili a sceneggiature per oltre 420.000 clip. Ogni clip è accompagnata da una didascalia di circa 145 parole, oltre 10 volte più lunga rispetto alla maggior parte dei dataset video-testo. A differenza delle didascalie che documentano solo contenuti statici nei dataset precedenti, abbiamo migliorato la descrizione video trasformandola in una vera e propria sceneggiatura, documentando non solo il contenuto, ma anche le operazioni della telecamera, che includono i tipi di inquadratura (mezzo primo piano, primo piano, ecc.) e i movimenti della telecamera (panoramica, inclinazione, ecc.). Utilizzando Vript, esploriamo tre paradigmi di addestramento che allineano più testo alla modalità video piuttosto che a coppie clip-didascalia. Ciò ha portato a Vriptor, un modello di descrizione video dalle prestazioni eccellenti tra i modelli open-source, paragonabile a GPT-4V in termini di prestazioni. Vriptor è anche un modello potente in grado di generare didascalie dense e dettagliate per video lunghi in modo end-to-end. Inoltre, introduciamo Vript-Hard, un benchmark composto da tre compiti di comprensione video più impegnativi rispetto ai benchmark esistenti: Vript-HAL è il primo benchmark che valuta le allucinazioni di azioni e oggetti nei modelli linguistici video, Vript-RR combina il ragionamento con il recupero per risolvere l'ambiguità delle domande nei Q&A su video lunghi, e Vript-ERO è un nuovo compito per valutare la comprensione temporale degli eventi in video lunghi piuttosto che delle azioni in video brevi come nei lavori precedenti. Tutti i codici, i modelli e i dataset sono disponibili su https://github.com/mutonix/Vript.
Gli agenti linguistici eseguono compiti complessi utilizzando strumenti per portare a termine ogni passaggio con precisione. Tuttavia, la maggior parte degli agenti esistenti si basa su modelli proprietari o è progettata per affrontare compiti specifici, come la matematica o il question answering multi-hop. Presentiamo Husky, un agente linguistico olistico e open-source che impara a ragionare su uno spazio d'azione unificato per affrontare un insieme diversificato di compiti complessi che coinvolgono ragionamenti numerici, tabellari e basati sulla conoscenza. Husky itera tra due fasi: 1) generare la prossima azione da intraprendere per risolvere un determinato compito e 2) eseguire l'azione utilizzando modelli esperti e aggiornare lo stato corrente della soluzione. Identifichiamo un'ontologia completa delle azioni per affrontare compiti complessi e curiamo dati di alta qualità per addestrare modelli esperti nell'esecuzione di queste azioni. I nostri esperimenti dimostrano che Husky supera i precedenti agenti linguistici su 14 dataset di valutazione. Inoltre, introduciamo HuskyQA, un nuovo set di valutazione che mette alla prova gli agenti linguistici per il ragionamento con strumenti misti, con un focus sul recupero di conoscenze mancanti e sull'esecuzione di ragionamenti numerici. Nonostante utilizzi modelli da 7B, Husky eguaglia o addirittura supera modelli all'avanguardia come GPT-4 in questi compiti, dimostrando l'efficacia del nostro approccio olistico nell'affrontare problemi di ragionamento complessi. Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://github.com/agent-husky/Husky-v1.
Nel campo della salute, la maggior parte della ricerca sui grandi modelli linguistici (LLM) si è concentrata su compiti clinici. Tuttavia, i dispositivi mobili e indossabili, raramente integrati in tali attività, forniscono dati ricchi e longitudinali per il monitoraggio della salute personale. Qui presentiamo il Personal Health Large Language Model (PH-LLM), ottimizzato a partire da Gemini per comprendere e ragionare su dati numerici di serie temporali relativi alla salute personale. Abbiamo creato e curato tre dataset che testano 1) la produzione di approfondimenti e raccomandazioni personalizzati basati su modelli di sonno, attività fisica e risposte fisiologiche, 2) la conoscenza del dominio esperto e 3) la previsione di esiti auto-riferiti relativi al sonno. Per il primo compito, abbiamo progettato 857 casi di studio in collaborazione con esperti del settore per valutare scenari reali nel sonno e nel fitness. Attraverso una valutazione completa di rubriche specifiche del dominio, abbiamo osservato che Gemini Ultra 1.0 e PH-LLM non sono statisticamente diversi dalle prestazioni degli esperti nel fitness e, sebbene gli esperti rimangano superiori nel sonno, l'ottimizzazione di PH-LLM ha fornito miglioramenti significativi nell'uso della conoscenza del dominio rilevante e nella personalizzazione delle informazioni per gli approfondimenti sul sonno. Abbiamo valutato la conoscenza del dominio di PH-LLM utilizzando esami a scelta multipla di medicina del sonno e fitness. PH-LLM ha ottenuto il 79% nel sonno e l'88% nel fitness, superando i punteggi medi di un campione di esperti umani. Infine, abbiamo addestrato PH-LLM a prevedere gli esiti auto-riferiti della qualità del sonno da rappresentazioni testuali e multimodali dei dati indossabili, dimostrando che è necessaria una codifica multimodale per eguagliare le prestazioni di modelli discriminativi specializzati. Sebbene siano necessari ulteriori sviluppi e valutazioni nel dominio critico per la sicurezza della salute personale, questi risultati dimostrano sia l'ampia conoscenza e le capacità dei modelli Gemini, sia il vantaggio di contestualizzare i dati fisiologici per applicazioni di salute personale, come fatto con PH-LLM.
I metodi basati sul rendering volumetrico, come NeRF, eccellono nella sintesi di viste HDR a partire da immagini RAW, specialmente per scene notturne. Tuttavia, soffrono di tempi di addestramento prolungati e non sono in grado di eseguire il rendering in tempo reale a causa dei requisiti di campionamento denso. L'avvento del 3D Gaussian Splatting (3DGS) consente il rendering in tempo reale e un addestramento più veloce. Tuttavia, implementare direttamente la sintesi di viste basata su immagini RAW utilizzando 3DGS è impegnativo a causa dei suoi limiti intrinseci: 1) nelle scene notturne, un rapporto segnale-rumore (SNR) estremamente basso porta a una scarsa stima della struttura dal movimento (SfM) nelle viste distanti; 2) la capacità di rappresentazione limitata delle funzioni armoniche sferiche (SH) non è adatta per lo spazio colore lineare RAW; e 3) una struttura della scena imprecisa ostacola le attività successive, come la rifocalizzazione. Per affrontare questi problemi, proponiamo LE3D (Lighting Every darkness with 3DGS). Il nostro metodo propone l'inizializzazione Cone Scatter per arricchire la stima della SfM e sostituisce le SH con una rete MLP per il colore per rappresentare lo spazio colore lineare RAW. Inoltre, introduciamo regolarizzazioni della distorsione della profondità e del vicino-lontano per migliorare l'accuratezza della struttura della scena per le attività successive. Questi design consentono a LE3D di eseguire la sintesi di nuove viste in tempo reale, il rendering HDR, la rifocalizzazione e le modifiche del tone-mapping. Rispetto ai precedenti metodi basati sul rendering volumetrico, LE3D riduce il tempo di addestramento all'1% e migliora la velocità di rendering fino a 4.000 volte per immagini a risoluzione 2K in termini di FPS. Il codice e il visualizzatore sono disponibili su https://github.com/Srameo/LE3D.
Lo sviluppo di terapie è un processo lungo e costoso che richiede il soddisfacimento di molti criteri diversi, e i modelli di IA in grado di accelerare il processo sarebbero di inestimabile valore. Tuttavia, la maggior parte degli approcci attuali di IA affronta solo un insieme ristretto di compiti, spesso circoscritti a un dominio specifico. Per colmare questa lacuna, presentiamo Tx-LLM, un modello linguistico di grandi dimensioni (LLM) generalista messo a punto a partire da PaLM-2, che codifica conoscenze su diverse modalità terapeutiche. Tx-LLM è addestrato utilizzando una raccolta di 709 dataset che mirano a 66 compiti che coprono varie fasi della pipeline di scoperta di farmaci. Utilizzando un unico set di pesi, Tx-LLM elabora simultaneamente una vasta gamma di entità chimiche o biologiche (piccole molecole, proteine, acidi nucleici, linee cellulari, malattie) intervallate da testo libero, consentendogli di prevedere un'ampia gamma di proprietà associate, raggiungendo prestazioni competitive con lo stato dell'arte (SOTA) in 43 su 66 compiti e superando SOTA in 22. Tra questi, Tx-LLM è particolarmente potente e supera in media le prestazioni migliori per compiti che combinano rappresentazioni molecolari SMILES con testo come nomi di linee cellulari o nomi di malattie, probabilmente grazie al contesto appreso durante il pre-addestramento. Osserviamo prove di trasferimento positivo tra compiti con diversi tipi di farmaci (ad esempio, compiti che coinvolgono piccole molecole e compiti che coinvolgono proteine), e studiamo l'impatto delle dimensioni del modello, dell'ottimizzazione del dominio e delle strategie di prompting sulle prestazioni. Crediamo che Tx-LLM rappresenti un passo importante verso LLM che codificano conoscenze biochimiche e potrebbe avere un ruolo futuro come strumento end-to-end lungo la pipeline di sviluppo della scoperta di farmaci.
Questo articolo presenta VALL-E 2, il più recente progresso nei modelli linguistici neurali codec che segna una pietra miliare nella sintesi vocale da testo in modalità zero-shot (TTS), raggiungendo per la prima volta la parità con le prestazioni umane. Basandosi sul suo predecessore, VALL-E, la nuova iterazione introduce due significativi miglioramenti: il Repetition Aware Sampling perfeziona il processo originale di campionamento nucleo tenendo conto della ripetizione dei token nella storia di decodifica. Non solo stabilizza la decodifica, ma evita anche il problema del ciclo infinito. Il Grouped Code Modeling organizza i codici codec in gruppi per ridurre efficacemente la lunghezza della sequenza, il che non solo aumenta la velocità di inferenza ma affronta anche le sfide della modellazione di sequenze lunghe. I nostri esperimenti sui dataset LibriSpeech e VCTK dimostrano che VALL-E 2 supera i sistemi precedenti in termini di robustezza del parlato, naturalezza e somiglianza con il parlante. È il primo del suo genere a raggiungere la parità umana su questi benchmark. Inoltre, VALL-E 2 sintetizza costantemente un parlato di alta qualità, anche per frasi tradizionalmente complesse a causa della loro struttura o di frasi ripetitive. I vantaggi di questo lavoro potrebbero contribuire a iniziative preziose, come la generazione di parlato per individui con afasia o persone affette da sclerosi laterale amiotrofica. Le demo di VALL-E 2 saranno pubblicate su https://aka.ms/valle2.
Come gli esseri umani possano acquisire immagini in modo efficiente ed efficace è sempre stata una questione perenne. Una soluzione tipica è il recupero di immagini da un database esistente dato un testo di query; tuttavia, il database limitato tipicamente manca di creatività. Al contrario, le recenti innovazioni nella generazione di immagini da testo hanno reso possibile produrre contenuti visivi fantasiosi e diversificati, ma si scontrano con sfide nella sintesi di immagini ad alta intensità di conoscenza. In questo lavoro, ripensiamo alla relazione tra generazione e recupero di immagini da testo e proponiamo un framework unificato nel contesto dei Modelli Linguistici Multimodali di Grande Scala (MLLMs). Nello specifico, esploriamo prima le capacità discriminative intrinseche degli MLLMs e introduciamo un metodo di recupero generativo per eseguire il recupero in modo senza addestramento. Successivamente, unifichiamo generazione e recupero in un modo generativo autoregressivo e proponiamo un modulo decisionale autonomo per scegliere la migliore corrispondenza tra immagini generate e recuperate come risposta alla query testuale. Inoltre, costruiamo un benchmark chiamato TIGeR-Bench, che include domini creativi e ad alta intensità di conoscenza, per standardizzare la valutazione della generazione e del recupero unificati di immagini da testo. I risultati sperimentali estensivi su TIGeR-Bench e due benchmark di recupero, ovvero Flickr30K e MS-COCO, dimostrano la superiorità e l'efficacia del nostro metodo proposto.
Le moderne tecniche di allineamento basate sulle preferenze umane, come RLHF e DPO, tipicamente impiegano una regolarizzazione della divergenza rispetto al modello di riferimento per garantire la stabilità dell'addestramento. Tuttavia, questo spesso limita la flessibilità dei modelli durante l'allineamento, specialmente quando esiste una chiara discrepanza distributiva tra i dati delle preferenze e il modello di riferimento. In questo articolo, ci concentriamo sull'allineamento dei recenti modelli di diffusione testo-immagine, come Stable Diffusion XL (SDXL), e scopriamo che questo "disallineamento del riferimento" è effettivamente un problema significativo nell'allineamento di questi modelli a causa della natura non strutturata delle modalità visive: ad esempio, una preferenza per un particolare aspetto stilistico può facilmente indurre tale discrepanza. Motivati da questa osservazione, proponiamo un nuovo metodo di allineamento delle preferenze per i modelli di diffusione che non dipende da alcun modello di riferimento, denominato ottimizzazione delle preferenze con consapevolezza del margine (MaPO). MaPO massimizza congiuntamente il margine di verosimiglianza tra gli insiemi di immagini preferite e non preferite e la verosimiglianza degli insiemi preferiti, apprendendo simultaneamente caratteristiche stilistiche generali e preferenze. Per la valutazione, introduciamo due nuovi dataset di preferenze a coppie, che comprendono coppie di immagini auto-generate da SDXL, Pick-Style e Pick-Safety, simulando scenari diversi di disallineamento del riferimento. I nostri esperimenti confermano che MaPO può migliorare significativamente l'allineamento su Pick-Style e Pick-Safety e l'allineamento generale delle preferenze quando utilizzato con Pick-a-Pic v2, superando il modello base SDXL e altri metodi esistenti. Il nostro codice, modelli e dataset sono pubblicamente disponibili su https://mapo-t2i.github.io.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni impressionanti nei compiti linguistici, ma affrontano sfide quando vengono implementati su dispositivi con risorse limitate a causa del loro elevato numero di parametri e della dipendenza da moltiplicazioni dense, che comportano elevate richieste di memoria e colli di bottiglia nella latenza. La riformulazione shift-and-add offre una soluzione promettente sostituendo le costose moltiplicazioni con primitive hardware-friendly sia nei livelli di attenzione che nei livelli di perceptron multistrato (MLP) di un LLM. Tuttavia, le attuali tecniche di riformulazione richiedono un addestramento da zero o una messa a punto completa dei parametri per ripristinare l'accuratezza, il che è dispendioso in termini di risorse per gli LLM. Per affrontare questo problema, proponiamo di accelerare gli LLM pre-addestrati attraverso una riformulazione shift-and-add post-addestramento, creando modelli efficienti privi di moltiplicazioni, denominati ShiftAddLLM. Nello specifico, quantizziamo ogni matrice dei pesi in matrici binarie accoppiate a fattori di scala per gruppo. Le moltiplicazioni associate vengono riformulate in (1) spostamenti tra attivazioni e fattori di scala e (2) query e addizioni in base alle matrici binarie. Per ridurre la perdita di accuratezza, presentiamo un metodo di ottimizzazione multi-obiettivo per minimizzare sia gli errori di riformulazione dei pesi che quelli delle attivazioni in uscita. Inoltre, basandoci sulla sensibilità variabile tra i livelli alla riformulazione, sviluppiamo una strategia automatizzata di allocazione dei bit per ridurre ulteriormente l'uso della memoria e la latenza. Esperimenti su cinque famiglie di LLM e otto compiti convalidano costantemente l'efficacia di ShiftAddLLM, ottenendo miglioramenti medi nella perplessità di 5,6 e 22,7 punti a una latenza comparabile o inferiore rispetto agli LLM quantizzati più competitivi a 3 e 2 bit, rispettivamente, e riduzioni di oltre l'80% della memoria e dell'energia rispetto agli LLM originali. Codici e modelli sono disponibili su https://github.com/GATECH-EIC/ShiftAddLLM.
I metodi esistenti per la sintesi di viste riluminabili -- che utilizzano un insieme di immagini di un oggetto sotto illuminazione sconosciuta per ricostruire una rappresentazione 3D che può essere renderizzata da nuove prospettive sotto un'illuminazione target -- si basano sul rendering inverso e tentano di separare la geometria dell'oggetto, i materiali e l'illuminazione che spiegano le immagini di input. Inoltre, ciò comporta tipicamente un'ottimizzazione attraverso il rendering Monte Carlo differenziabile, che è fragile e computazionalmente costoso. In questo lavoro, proponiamo un approccio più semplice: prima riluminiamo ciascuna immagine di input utilizzando un modello di diffusione di immagini condizionato sull'illuminazione e poi ricostruiamo un Neural Radiance Field (NeRF) con queste immagini riluminate, da cui renderizziamo nuove viste sotto l'illuminazione target. Dimostriamo che questa strategia è sorprendentemente competitiva e raggiunge risultati all'avanguardia su molteplici benchmark di riluminazione. Si prega di visitare la nostra pagina del progetto all'indirizzo https://illuminerf.github.io/.
La distillazione di grandi modelli di diffusione latente (LDMs) in modelli veloci da campionare sta attirando un crescente interesse di ricerca. Tuttavia, la maggior parte dei metodi esistenti si trova di fronte a un dilemma: o (i) dipendono da molteplici modelli distillati individuali per diversi budget di campionamento, o (ii) sacrificano la qualità della generazione con un numero limitato (ad esempio, 2-4) e/o moderato (ad esempio, 5-8) di passaggi di campionamento. Per affrontare questi problemi, estendiamo la recente strategia di distillazione multistep di consistenza (MCD) ai LDMs rappresentativi, stabilendo l'approccio dei Modelli di Consistenza Latente Multistep (MLCMs) per la sintesi di immagini di alta qualità a basso costo. MLCM funge da modello unificato per vari passaggi di campionamento grazie alla promessa della MCD. Inoltre, potenziamo la MCD con una strategia di addestramento progressivo per rafforzare la consistenza inter-segmento e migliorare la qualità delle generazioni con pochi passaggi. Utilizziamo gli stati provenienti dalle traiettorie di campionamento del modello insegnante come dati di addestramento per gli MLCMs, riducendo i requisiti per dataset di addestramento di alta qualità e colmando il divario tra l'addestramento e l'inferenza del modello distillato. MLCM è compatibile con strategie di apprendimento delle preferenze per un ulteriore miglioramento della qualità visiva e dell'appeal estetico. Empiricamente, MLCM è in grado di generare immagini di alta qualità e piacevoli con soli 2-8 passaggi di campionamento. Sul benchmark MSCOCO-2017 5K, MLCM distillato da SDXL ottiene un CLIP Score di 33.30, un Aesthetic Score di 6.19 e un Image Reward di 1.20 con soli 4 passaggi, superando sostanzialmente il 4-step LCM [23], l'8-step SDXL-Lightning [17] e l'8-step HyperSD [33]. Dimostriamo inoltre la versatilità degli MLCMs in applicazioni come la generazione controllata, il trasferimento di stile di immagini e la generazione di immagini da testo cinese.
Proponiamo un nuovo approccio per la ricostruzione di mesh 3D a partire da immagini multi-vista. Il nostro metodo trae ispirazione da modelli di ricostruzione su larga scala come LRM, che utilizzano un generatore di triplane basato su transformer e un modello Neural Radiance Field (NeRF) addestrato su immagini multi-vista. Tuttavia, nel nostro metodo introduciamo diverse modifiche significative che ci permettono di migliorare notevolmente la qualità della ricostruzione 3D. Innanzitutto, esaminiamo l'architettura originale di LRM e identifichiamo alcune carenze. Successivamente, introduciamo modifiche corrispondenti all'architettura LRM, che portano a una migliore rappresentazione delle immagini multi-vista e a un addestramento più efficiente dal punto di vista computazionale. In secondo luogo, per migliorare la ricostruzione della geometria e abilitare la supervisione a piena risoluzione dell'immagine, estraiamo le mesh dal campo NeRF in modo differenziabile e ottimizziamo il modello NeRF attraverso il rendering della mesh. Queste modifiche ci permettono di raggiungere prestazioni all'avanguardia sia nelle metriche di valutazione 2D che 3D, come un PSNR di 28.67 sul dataset Google Scanned Objects (GSO). Nonostante questi risultati superiori, il nostro modello feed-forward incontra ancora difficoltà nella ricostruzione di texture complesse, come testi e ritratti sugli asset. Per affrontare questo problema, introduciamo una procedura leggera di perfezionamento della texture per istanza. Questa procedura ottimizza la rappresentazione del triplane e il modello di stima del colore NeRF sulla superficie della mesh utilizzando le immagini multi-vista di input in soli 4 secondi. Questo perfezionamento migliora il PSNR a 29.79 e consente una ricostruzione fedele di texture complesse, come i testi. Inoltre, il nostro approccio abilita varie applicazioni downstream, tra cui la generazione da testo o immagine a 3D.
Proponiamo ExtraNeRF, un metodo innovativo per estrapolare l'intervallo di visualizzazioni gestite da un Neural Radiance Field (NeRF). La nostra idea principale è sfruttare i NeRF per modellare dettagli specifici della scena a livello fine, mentre ci affidiamo ai modelli di diffusione per estrapolare oltre i dati osservati. Un elemento chiave è il tracciamento della visibilità per determinare quali porzioni della scena non sono state osservate, concentrandosi sulla ricostruzione coerente di tali regioni con i modelli di diffusione. I nostri contributi principali includono un modulo di inpainting basato su diffusione e consapevole della visibilità, ottimizzato sulle immagini di input, che produce un NeRF iniziale con regioni inpaintate di qualità moderata (spesso sfocate), seguito da un secondo modello di diffusione addestrato sulle immagini di input per migliorare in modo coerente, in particolare affinando, le immagini inpaintate della prima passata. Dimostriamo risultati di alta qualità, estrapolando oltre un numero ridotto di visualizzazioni di input (tipicamente sei o meno), effettuando efficacemente outpaint del NeRF così come inpaint delle regioni appena disoccluse all'interno del volume di visualizzazione originale. Confrontiamo il nostro lavoro con approcci correlati sia quantitativamente che qualitativamente, mostrando miglioramenti significativi rispetto allo stato dell'arte precedente.