Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione testo-immagine hanno compiuto un salto significativo nelle capacità negli ultimi anni, consentendo la sintesi di immagini di alta qualità e diversificate a partire da un prompt testuale. Tuttavia, anche i modelli più avanzati spesso faticano a seguire con precisione tutte le indicazioni presenti nei loro prompt. La stragrande maggioranza di questi modelli è addestrata su dataset composti da coppie (immagine, didascalia), dove le immagini provengono spesso dal web e le didascalie corrispondono al testo alternativo HTML. Un esempio notevole è il dataset LAION, utilizzato da Stable Diffusion e altri modelli. In questo lavoro osserviamo che queste didascalie sono spesso di bassa qualità e sosteniamo che ciò influisca significativamente sulla capacità del modello di comprendere la semantica sfumata nei prompt testuali. Dimostriamo che, rietichettando il corpus con un modello automatico di didascalia specializzato e addestrando un modello testo-immagine sul dataset rietichettato, il modello ne trae vantaggio in modo sostanziale su tutti i fronti. Innanzitutto, nella qualità complessiva delle immagini: ad esempio, FID 14,84 rispetto al valore di riferimento di 17,87, e un miglioramento del 64,3% nella generazione fedele di immagini secondo la valutazione umana. In secondo luogo, nell'allineamento semantico, ad esempio, accuratezza semantica degli oggetti 84,34 rispetto a 78,90, errori di allineamento nel conteggio 1,32 rispetto a 1,44 e allineamento posizionale 62,42 rispetto a 57,60. Analizziamo vari modi per rietichettare il corpus e forniamo prove che questa tecnica, che chiamiamo RECAP, riduce sia la discrepanza tra addestramento e inferenza sia fornisce al modello più informazioni per esempio, aumentando l'efficienza del campionamento e consentendo al modello di comprendere meglio le relazioni tra didascalie e immagini.
Assembliamo un dataset di immagini con licenza Creative Commons (CC), che utilizziamo per addestrare una serie di modelli di diffusione open source qualitativamente competitivi con Stable Diffusion 2 (SD2). Questo compito presenta due sfide principali: (1) le immagini CC ad alta risoluzione non dispongono delle didascalie necessarie per addestrare modelli generativi testo-immagine; (2) le immagini CC sono relativamente scarse. Per affrontare queste sfide, utilizziamo una tecnica intuitiva di transfer learning per produrre un insieme di didascalie sintetiche di alta qualità abbinate a immagini CC selezionate. Successivamente, sviluppiamo una procedura di addestramento efficiente in termini di dati e risorse computazionali, che richiede solo il 3% dei dati LAION-2B necessari per addestrare i modelli SD2 esistenti, ma ottiene una qualità comparabile. Questi risultati indicano che disponiamo di un numero sufficiente di immagini CC (~70 milioni) per addestrare modelli di alta qualità. La nostra procedura di addestramento implementa inoltre una serie di ottimizzazioni che consentono un'accelerazione dell'addestramento di circa 3 volte, permettendo un'iterazione rapida dei modelli. Sfruttiamo questa procedura per addestrare diversi modelli testo-immagine di alta qualità, che chiamiamo famiglia CommonCanvas. Il nostro modello più grande raggiunge prestazioni comparabili a SD2 in una valutazione umana, nonostante sia stato addestrato sul nostro dataset CC, significativamente più piccolo di LAION, e utilizzando didascalie sintetiche per l'addestramento. Rilasciamo i nostri modelli, dati e codice all'indirizzo https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
Presentiamo DreamCraft3D, un metodo gerarchico per la generazione di contenuti 3D che produce oggetti 3D ad alta fedeltà e coerenti. Affrontiamo il problema sfruttando un'immagine di riferimento 2D per guidare le fasi di modellazione della geometria e miglioramento della texture. Un focus centrale di questo lavoro è risolvere il problema di coerenza che incontrano i lavori esistenti. Per modellare geometrie che si rendano in modo coerente, eseguiamo il campionamento per distillazione del punteggio tramite un modello di diffusione dipendente dalla vista. Questo prior 3D, insieme a diverse strategie di addestramento, privilegia la coerenza della geometria ma compromette la fedeltà della texture. Proponiamo inoltre la Distillazione del Punteggio Bootstrapped per migliorare specificamente la texture. Addestriamo un modello di diffusione personalizzato, Dreambooth, sulle renderizzazioni aumentate della scena, dotandolo di conoscenza 3D della scena in ottimizzazione. La distillazione del punteggio da questo prior di diffusione consapevole del 3D fornisce una guida coerente con la vista per la scena. In particolare, attraverso un'ottimizzazione alternata del prior di diffusione e della rappresentazione della scena 3D, otteniamo miglioramenti che si rafforzano reciprocamente: la scena 3D ottimizzata aiuta ad addestrare il modello di diffusione specifico per la scena, che offre una guida sempre più coerente con la vista per l'ottimizzazione 3D. L'ottimizzazione è quindi bootstrappata e porta a un sostanziale miglioramento della texture. Con prior 3D personalizzati lungo tutta la generazione gerarchica, DreamCraft3D genera oggetti 3D coerenti con renderizzazioni fotorealistiche, avanzando lo stato dell'arte nella generazione di contenuti 3D. Codice disponibile su https://github.com/deepseek-ai/DreamCraft3D.
Le architetture Mixture-of-Experts (MoE) offrono una soluzione generale agli elevati costi di inferenza dei grandi modelli linguistici (LLM) attraverso il routing sparso, consentendo modelli più veloci e accurati, sebbene a costo di un numero enorme di parametri. Ad esempio, il modello SwitchTransformer-c2048 ha 1,6 trilioni di parametri, richiedendo 3,2 TB di memoria degli acceleratori per funzionare in modo efficiente, rendendo la distribuzione pratica complessa e costosa. In questo articolo, presentiamo una soluzione a questo problema di memoria, sotto forma di un nuovo framework di compressione ed esecuzione chiamato QMoE. Nello specifico, QMoE consiste in un algoritmo scalabile che comprime accuratamente MoE con trilioni di parametri a meno di 1 bit per parametro, in un formato personalizzato co-progettato con kernel di decodifica GPU su misura per facilitare un'inferenza compressa end-to-end efficiente, con sovraccarichi di runtime minimi rispetto all'esecuzione non compressa. In concreto, QMoE può comprimere il modello SwitchTransformer-c2048 da 1,6 trilioni di parametri a meno di 160 GB (compressione 20x, 0,8 bit per parametro) con una perdita di accuratezza minima, in meno di un giorno su una singola GPU. Ciò consente, per la prima volta, l'esecuzione di un modello con trilioni di parametri su hardware consumer accessibile, come un singolo server con 4x NVIDIA A6000 o 8x NVIDIA 3090 GPU, con un sovraccarico di runtime inferiore al 5% rispetto all'inferenza ideale non compressa. Il codice sorgente e i modelli compressi sono disponibili su github.com/IST-DASLab/qmoe.
In questo lavoro presentiamo Wonder3D, un metodo innovativo per generare in modo efficiente mesh testurizzate ad alta fedeltà a partire da immagini a singola vista. I metodi recenti basati su Score Distillation Sampling (SDS) hanno dimostrato il potenziale di ricostruire geometrie 3D da prior di diffusione 2D, ma tipicamente soffrono di un'ottimizzazione lenta per ogni forma e di geometrie inconsistenti. Al contrario, alcuni approcci producono direttamente informazioni 3D tramite inferenze veloci di rete, ma i loro risultati sono spesso di bassa qualità e privi di dettagli geometrici. Per migliorare in modo olistico la qualità, la coerenza e l'efficienza delle attività di conversione da immagine a 3D, proponiamo un modello di diffusione cross-domain che genera mappe normali multi-vista e le corrispondenti immagini a colori. Per garantire la coerenza, utilizziamo un meccanismo di attenzione cross-domain multi-vista che facilita lo scambio di informazioni tra diverse viste e modalità. Infine, introduciamo un algoritmo di fusione normale consapevole della geometria che estrae superfici di alta qualità dalle rappresentazioni 2D multi-vista. Le nostre valutazioni estensive dimostrano che il nostro metodo raggiunge risultati di ricostruzione di alta qualità, una generalizzazione robusta e un'efficienza ragionevolmente buona rispetto ai lavori precedenti.
In questo articolo, valutiamo diverse capacità di GPT-4V, tra cui la comprensione visiva, la comprensione linguistica, la risoluzione di puzzle visivi e la comprensione di altre modalità come profondità, termica, video e audio. Per stimare le prestazioni di GPT-4V, abbiamo costruito manualmente 656 istanze di test e valutato attentamente i risultati di GPT-4V. I punti salienti delle nostre scoperte sono i seguenti: (1) GPT-4V mostra prestazioni impressionanti su benchmark visivi in inglese, ma non riesce a riconoscere semplici testi cinesi nelle immagini; (2) GPT-4V mostra un comportamento di rifiuto incoerente quando risponde a domande relative a tratti sensibili come genere, razza ed età; (3) GPT-4V ottiene risultati peggiori rispetto a GPT-4 (API) nei compiti di comprensione linguistica, inclusi benchmark generali di comprensione linguistica e benchmark di valutazione della conoscenza comune visiva; (4) Il prompting few-shot può migliorare le prestazioni di GPT-4V sia nella comprensione visiva che in quella linguistica; (5) GPT-4V fatica a trovare le sfumature tra due immagini simili e a risolvere semplici puzzle matematici visivi; (6) GPT-4V mostra prestazioni non banali nei compiti di modalità simili all'immagine, come video e termica. I nostri risultati sperimentali rivelano le capacità e i limiti di GPT-4V e speriamo che il nostro articolo possa fornire alcuni spunti per l'applicazione e la ricerca su GPT-4V.
Molti ricercatori ritengono che le reti convoluzionali (ConvNets) performino bene su dataset di piccole o medie dimensioni, ma non siano competitive rispetto ai Vision Transformer quando hanno accesso a dataset su scala web. Contestiamo questa convinzione valutando un'architettura ConvNet ad alte prestazioni pre-addestrata su JFT-4B, un ampio dataset etichettato di immagini spesso utilizzato per l'addestramento di modelli di base. Consideriamo budget computazionali di pre-addestramento compresi tra 0,4k e 110k ore di calcolo su core TPU-v4 e addestriamo una serie di reti di profondità e larghezza crescenti della famiglia di modelli NFNet. Osserviamo una legge di scala log-log tra la perdita su dati di validazione e il budget computazionale. Dopo il fine-tuning su ImageNet, le NFNet eguagliano le prestazioni riportate dai Vision Transformer con budget computazionali comparabili. Il nostro modello più performante dopo il fine-tuning raggiunge un'accuratezza Top-1 del 90,4%.
Proponiamo LLM-FP4 per quantizzare sia i pesi che le attivazioni nei grandi modelli linguistici (LLM) fino a valori in virgola mobile a 4 bit, in modalità post-addestramento. Le soluzioni esistenti di quantizzazione post-addestramento (PTQ) sono principalmente basate su numeri interi e faticano a gestire larghezze di bit inferiori a 8 bit. Rispetto alla quantizzazione intera, la quantizzazione in virgola mobile (FP) è più flessibile e può gestire meglio distribuzioni a coda lunga o a campana, ed è emersa come scelta predefinita in molte piattaforme hardware. Una caratteristica della quantizzazione FP è che le sue prestazioni dipendono in larga misura dalla scelta dei bit dell'esponente e dall'intervallo di clipping. A tal proposito, costruiamo una solida baseline FP-PTQ cercando i parametri di quantizzazione ottimali. Inoltre, osserviamo un modello di elevata varianza inter-canale e bassa varianza intra-canale nelle distribuzioni delle attivazioni, il quale aumenta la difficoltà della quantizzazione delle attivazioni. Riconosciamo che questo modello è coerente in una gamma di modelli transformer progettati per diverse attività, come LLM, BERT e modelli Vision Transformer. Per affrontare questo problema, proponiamo una quantizzazione delle attivazioni per canale e dimostriamo che questi fattori di scala aggiuntivi possono essere riparametrizzati come bias esponenziali dei pesi, con un costo trascurabile. Il nostro metodo, per la prima volta, può quantizzare sia i pesi che le attivazioni nel LLaMA-13B a soli 4 bit e raggiunge un punteggio medio di 63,1 nei compiti di ragionamento zero-shot di senso comune, che è solo 5,8 inferiore al modello a precisione completa, superando significativamente lo stato dell'arte precedente di 12,7 punti. Il codice è disponibile all'indirizzo: https://github.com/nbasyl/LLM-FP4.
Sebbene i modelli linguistici su larga scala (LLM) siano ampiamente utilizzati, i dati utilizzati per addestrarli raramente vengono divulgati. Considerando l'incredibile scala di questi dati, che possono raggiungere migliaia di miliardi di token, è quasi certo che includano testi potenzialmente problematici come materiali protetti da copyright, informazioni personali identificabili e dati di test per benchmark di riferimento ampiamente riportati. Tuttavia, attualmente non abbiamo modo di sapere quali di questi tipi di dati siano inclusi o in quali proporzioni. In questo articolo, studiamo il problema del rilevamento dei dati di pre-addestramento: dato un frammento di testo e l'accesso in modalità "black-box" a un LLM senza conoscere i dati di pre-addestramento, possiamo determinare se il modello è stato addestrato sul testo fornito? Per facilitare questo studio, introduciamo un benchmark dinamico chiamato WIKIMIA che utilizza dati creati prima e dopo l'addestramento del modello per supportare il rilevamento con verità di riferimento. Introduciamo anche un nuovo metodo di rilevamento, Min-K% Prob, basato su una semplice ipotesi: un esempio non visto probabilmente contiene alcune parole anomale con probabilità basse secondo l'LLM, mentre un esempio visto ha meno probabilità di contenere parole con probabilità così basse. Min-K% Prob può essere applicato senza alcuna conoscenza del corpus di pre-addestramento o di ulteriori addestramenti, differenziandosi dai metodi di rilevamento precedenti che richiedono l'addestramento di un modello di riferimento su dati simili a quelli di pre-addestramento. Inoltre, i nostri esperimenti dimostrano che Min-K% Prob ottiene un miglioramento del 7,4% su WIKIMIA rispetto a questi metodi precedenti. Applichiamo Min-K% Prob a due scenari reali: il rilevamento di libri protetti da copyright e il rilevamento di esempi contaminati nei task downstream, riscontrando che si tratta di una soluzione costantemente efficace.
I modelli linguistici su larga scala basati su Transformer (LLM) stanno aprendo nuove frontiere in molti compiti di elaborazione del linguaggio naturale. Tuttavia, le loro eccezionali capacità sono limitate dalla finestra contestuale predefinita del Transformer. I metodi di ridimensionamento degli embedding posizionali (PE), sebbene efficaci nell'estendere la finestra contestuale a una lunghezza specifica, presentano notevoli limitazioni nelle capacità di estrapolazione o sacrificano parte delle prestazioni all'interno della finestra contestuale. I metodi di estrapolazione della lunghezza, sebbene teoricamente in grado di estendere la finestra contestuale oltre la lunghezza della sequenza di addestramento, spesso ottengono risultati inferiori nelle applicazioni pratiche con contesti lunghi. Per affrontare queste sfide, proponiamo Continuous Length EXtrapolation (CLEX) per i LLM. Generalizziamo gli approcci di ridimensionamento dei PE per modellare la dinamica continua attraverso equazioni differenziali ordinarie rispetto al fattore di ridimensionamento della lunghezza, superando così i limiti dei metodi di ridimensionamento dei PE attuali progettati per lunghezze specifiche. Inoltre, estendendo la dinamica a lunghezze contestuali desiderate oltre la lunghezza della sequenza di addestramento, CLEX facilita l'estrapolazione della lunghezza con prestazioni impressionanti in compiti pratici. Dimostriamo che CLEX può essere integrato senza soluzione di continuità in LLM dotati di Rotary Position Embedding, come LLaMA e GPT-NeoX, con un impatto trascurabile sulla latenza di addestramento e inferenza. I risultati sperimentali rivelano che CLEX può estendere efficacemente la finestra contestuale a oltre 4x o quasi 8x la lunghezza di addestramento, senza deterioramento delle prestazioni. Inoltre, quando valutato sul benchmark pratico LongBench, il nostro modello addestrato su una lunghezza di 4k mostra prestazioni competitive rispetto ai modelli open-source all'avanguardia addestrati su lunghezze contestuali fino a 32k.
Mantenere aggiornati i grandi modelli di base sui dati più recenti è intrinsecamente costoso. Per evitare i costi proibitivi di un continuo riaddestramento, è imperativo addestrare continuamente questi modelli. Questo problema è aggravato dalla mancanza di benchmark o baseline su larga scala per l'apprendimento continuo. Introduciamo il primo set di benchmark Time-Continual (TiC) su scala web per l'addestramento di modelli visione-linguaggio: TiC-DataCompt, TiC-YFCC e TiC-RedCaps, con oltre 12,7 miliardi di coppie immagine-testo con timestamp che coprono 9 anni (2014-2022). Utilizziamo prima i nostri benchmark per curare varie valutazioni dinamiche per misurare la robustezza temporale dei modelli esistenti. Mostriamo che il modello CLIP di OpenAI (addestrato su dati fino al 2020) perde circa l'8% di accuratezza zero-shot nel nostro task di retrieval curato per il periodo 2021-2022 rispetto ai modelli più recenti nel repository OpenCLIP. Studiamo poi come addestrare in modo efficiente i modelli su dati continui nel tempo. Dimostriamo che un semplice approccio basato sul rehearsal, che continua l'addestramento dall'ultimo checkpoint e ripropone i vecchi dati, riduce il calcolo di 2,5 volte rispetto alla pratica standard di riaddestrare da zero.
TD-MPC è un algoritmo di reinforcement learning (RL) basato su modello che esegue un'ottimizzazione locale delle traiettorie nello spazio latente di un modello implicito (senza decoder) del mondo appreso. In questo lavoro, presentiamo TD-MPC2: una serie di miglioramenti rispetto all'algoritmo TD-MPC. Dimostriamo che TD-MPC2 migliora significativamente rispetto ai benchmark su 104 task di RL online che coprono 4 diversi domini di task, ottenendo risultati costantemente solidi con un singolo set di iperparametri. Mostriamo inoltre che le capacità dell'agente aumentano con le dimensioni del modello e dei dati, e addestriamo con successo un singolo agente con 317 milioni di parametri per eseguire 80 task in più domini di task, incarnazioni e spazi d'azione. Concludiamo con una riflessione sulle lezioni apprese, le opportunità e i rischi associati agli agenti TD-MPC2 di grandi dimensioni. Esplora video, modelli, dati, codice e altro su https://nicklashansen.github.io/td-mpc2
La sintesi in tempo reale di immagini da nuove prospettive su dispositivi mobili è proibitiva a causa della limitata potenza computazionale e capacità di archiviazione. L'utilizzo di metodi di rendering volumetrico, come NeRF e i suoi derivati, su dispositivi mobili non è adatto a causa dell'elevato costo computazionale del rendering volumetrico. D'altra parte, i recenti progressi nelle rappresentazioni neurali del campo luminoso hanno mostrato risultati promettenti nella sintesi di viste in tempo reale su dispositivi mobili. I metodi neurali del campo luminoso apprendono una mappatura diretta da una rappresentazione dei raggi al colore del pixel. La scelta attuale della rappresentazione dei raggi è tra il campionamento stratificato dei raggi o le coordinate di Pl\"{u}cker, trascurando la classica rappresentazione del piano luminoso (due piani), la rappresentazione preferita per interpolare tra le viste del campo luminoso. In questo lavoro, scopriamo che l'utilizzo della rappresentazione del piano luminoso è una rappresentazione efficiente per apprendere un campo luminoso neurale. Ancora più importante, è una rappresentazione dei raggi a dimensione inferiore che ci consente di apprendere lo spazio dei raggi 4D utilizzando griglie di caratteristiche che sono significativamente più veloci da addestrare e renderizzare. Sebbene progettata principalmente per viste frontali, dimostriamo che la rappresentazione del piano luminoso può essere ulteriormente estesa a scene non frontali utilizzando una strategia divide et impera. Il nostro metodo offre una qualità di rendering superiore rispetto ai precedenti metodi del campo luminoso e raggiunge un compromesso significativamente migliorato tra qualità di rendering e velocità.