Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione di immagini da testo rappresenta un dominio significativo nella moderna visione artificiale e ha raggiunto miglioramenti sostanziali grazie all'evoluzione delle architetture generative. Tra queste, i modelli basati su diffusione hanno dimostrato miglioramenti essenziali nella qualità. Questi modelli sono generalmente suddivisi in due categorie: approcci a livello di pixel e approcci a livello latente. Presentiamo Kandinsky1, una nuova esplorazione dell'architettura di diffusione latente, che combina i principi dei modelli di priorità dell'immagine con le tecniche di diffusione latente. Il modello di priorità dell'immagine viene addestrato separatamente per mappare gli embedding di testo agli embedding di immagine di CLIP. Un'altra caratteristica distintiva del modello proposto è l'implementazione modificata di MoVQ, che funge da componente autoencoder dell'immagine. Nel complesso, il modello progettato contiene 3,3 miliardi di parametri. Abbiamo anche implementato un sistema demo user-friendly che supporta diverse modalità generative come la generazione di immagini da testo, la fusione di immagini, la fusione di testo e immagini, la generazione di variazioni di immagini e il riempimento/ampliamento guidato da testo. Inoltre, abbiamo rilasciato il codice sorgente e i checkpoint per i modelli Kandinsky. Le valutazioni sperimentali dimostrano un punteggio FID di 8,03 sul dataset COCO-30K, posizionando il nostro modello come il miglior esecutore open-source in termini di qualità misurabile della generazione di immagini.
I grandi modelli multimodali (LMM) hanno recentemente mostrato progressi incoraggianti con il tuning delle istruzioni visive. In questa nota, dimostriamo che il connettore cross-modale visione-linguaggio completamente connesso in LLaVA è sorprendentemente potente ed efficiente in termini di dati. Con semplici modifiche a LLaVA, ovvero utilizzando CLIP-ViT-L-336px con una proiezione MLP e aggiungendo dati VQA orientati a compiti accademici con prompt di formattazione delle risposte semplici, stabiliamo baseline più robuste che raggiungono lo stato dell'arte su 11 benchmark. Il nostro checkpoint finale da 13B utilizza appena 1,2 milioni di dati pubblicamente disponibili e completa l'addestramento completo in circa 1 giorno su un singolo nodo con 8 GPU A100. Speriamo che questo possa rendere la ricerca all'avanguardia sui LMM più accessibile. Codice e modello saranno resi pubblicamente disponibili.
Il recentemente rilasciato GPT-4 Code Interpreter ha dimostrato una notevole proficienza nel risolvere problemi matematici complessi, attribuita principalmente alla sua capacità di ragionare in modo fluido con il linguaggio naturale, generare codice, eseguire codice e continuare a ragionare basandosi sull'output dell'esecuzione. In questo articolo, presentiamo un metodo per ottimizzare modelli linguistici open-source, consentendo loro di utilizzare il codice per modellare e derivare equazioni matematiche e, di conseguenza, migliorare le loro capacità di ragionamento matematico. Proponiamo un metodo per generare dataset nuovi e di alta qualità con problemi matematici e le loro soluzioni basate su codice, denominato MathCodeInstruct. Ogni soluzione alterna linguaggio naturale, codice e risultati di esecuzione. Introduciamo inoltre un approccio personalizzato di ottimizzazione supervisionata e inferenza. Questo approccio produce i modelli MathCoder, una famiglia di modelli in grado di generare soluzioni basate su codice per risolvere problemi matematici complessi. In modo impressionante, i modelli MathCoder raggiungono punteggi all'avanguardia tra i modelli linguistici open-source sui dataset MATH (45,2%) e GSM8K (83,9%), superando significativamente altre alternative open-source. È degno di nota che il modello MathCoder non solo supera ChatGPT-3.5 e PaLM-2 su GSM8K e MATH, ma supera anche GPT-4 sul dataset MATH di livello competitivo. Il dataset e i modelli saranno rilasciati su https://github.com/mathllm/MathCoder.
I modelli di diffusione text-to-image sono recentemente emersi in prima linea nella generazione di immagini, alimentati da dataset di addestramento text-to-image su larga scala, non supervisionati o debolmente supervisionati. A causa del loro addestramento non supervisionato, controllare il loro comportamento in task downstream, come massimizzare la qualità percepita dell'immagine, l'allineamento immagine-testo o la generazione etica di immagini, è difficile. Recenti lavori ottimizzano i modelli di diffusione per funzioni di reward downstream utilizzando il classico reinforcement learning, noto per l'elevata varianza degli stimatori del gradiente. In questo articolo, proponiamo AlignProp, un metodo che allinea i modelli di diffusione alle funzioni di reward downstream utilizzando la backpropagation end-to-end del gradiente del reward attraverso il processo di denoising. Mentre un'implementazione ingenua di tale backpropagation richiederebbe risorse di memoria proibitive per memorizzare le derivate parziali dei moderni modelli text-to-image, AlignProp ottimizza moduli di peso adattatori a basso rango e utilizza il gradient checkpointing, rendendo così fattibile l'uso della memoria. Testiamo AlignProp nell'ottimizzazione di modelli di diffusione per vari obiettivi, come l'allineamento semantico immagine-testo, l'estetica, la comprimibilità e la controllabilità del numero di oggetti presenti, nonché le loro combinazioni. Mostriamo che AlignProp raggiunge reward più elevati in meno passi di addestramento rispetto alle alternative, pur essendo concettualmente più semplice, rendendolo una scelta diretta per ottimizzare i modelli di diffusione per funzioni di reward differenziabili di interesse. Codice e risultati di visualizzazione sono disponibili su https://align-prop.github.io/.
I modelli linguistici (LM) hanno dimostrato la capacità di gestire una varietà di compiti generativi. Questo articolo presenta il sistema UniAudio, che, a differenza degli approcci precedenti specifici per singoli compiti, sfrutta le tecniche dei LM per generare diversi tipi di audio (inclusi discorsi, suoni, musica e canto) con condizioni di input specificate. UniAudio 1) prima tokenizza tutti i tipi di audio target insieme ad altre modalità di condizione, 2) concatena la coppia sorgente-target come una singola sequenza, e 3) esegue la previsione del token successivo utilizzando i LM. Inoltre, viene proposto un modello Transformer multi-scala per gestire le sequenze eccessivamente lunghe causate dal codec neurale basato sulla quantizzazione vettoriale residua nella tokenizzazione. L'addestramento di UniAudio è stato scalato fino a 165K ore di audio e 1 miliardo di parametri, basandosi su tutti i compiti generativi, con l'obiettivo di ottenere una conoscenza preliminare sufficiente non solo nelle proprietà intrinseche dell'audio ma anche nelle interrelazioni tra l'audio e altre modalità. Pertanto, il modello UniAudio addestrato ha il potenziale per diventare un modello di base per la generazione universale di audio: mostra una forte capacità in tutti i compiti addestrati e può supportare senza soluzione di continuità nuovi compiti di generazione audio dopo un semplice fine-tuning. Gli esperimenti dimostrano che UniAudio raggiunge risultati all'avanguardia o almeno competitivi nella maggior parte degli 11 compiti. Demo e codice sono disponibili su https://github.com/yangdongchao/UniAudio.
La maggior parte dei grandi modelli linguistici (LLM) viene addestrata una sola volta e non viene mai aggiornata; pertanto, mancano della capacità di adattarsi dinamicamente al nostro mondo in continua evoluzione. In questo lavoro, conduciamo uno studio dettagliato sulla veridicità del testo generato dagli LLM nel contesto della risposta a domande che testano la conoscenza attuale del mondo. Nello specifico, introduciamo FreshQA, un nuovo benchmark dinamico di domande e risposte che comprende una vasta gamma di tipologie di domande e risposte, incluse domande che richiedono conoscenze in rapida evoluzione e domande con premesse false che devono essere smontate. Valutiamo una serie diversificata di LLM sia proprietari che open-source attraverso una procedura di valutazione a due modalità che ci permette di misurare sia la correttezza che l'allucinazione. Attraverso valutazioni umane che coinvolgono più di 50.000 giudizi, mettiamo in luce i limiti di questi modelli e dimostriamo un significativo margine di miglioramento: ad esempio, tutti i modelli (indipendentemente dalle dimensioni) hanno difficoltà con le domande che coinvolgono conoscenze in rapida evoluzione e premesse false. Motivati da questi risultati, presentiamo FreshPrompt, un semplice metodo di prompting few-shot che migliora sostanzialmente le prestazioni di un LLM su FreshQA incorporando informazioni rilevanti e aggiornate recuperate da un motore di ricerca nel prompt. I nostri esperimenti mostrano che FreshPrompt supera sia i metodi concorrenti di prompting aumentato con motori di ricerca, come Self-Ask (Press et al., 2022), sia i sistemi commerciali come Perplexity.AI. Un'ulteriore analisi di FreshPrompt rivela che sia il numero di prove recuperate che il loro ordine giocano un ruolo chiave nell'influenzare la correttezza delle risposte generate dagli LLM. Inoltre, istruire l'LLM a generare risposte concise e dirette aiuta a ridurre l'allucinazione rispetto all'incoraggiamento di risposte più verbose. Per facilitare il lavoro futuro, rilasciamo FreshQA su github.com/freshllms/freshqa e ci impegniamo ad aggiornarlo a intervalli regolari.
I modelli generativi visione-linguaggio attuali si basano su ampi corpora di dati accoppiati immagine-testo per raggiungere prestazioni ottimali e capacità di generalizzazione. Tuttavia, la raccolta automatica di tali dati (ad esempio tramite scraping su larga scala del web) porta a una bassa qualità e a una scarsa correlazione tra immagini e testo, mentre l'annotazione umana è più accurata ma richiede uno sforzo manuale e un costo significativi. Introduciamo ITIT (InTegrating Image Text): un paradigma di addestramento innovativo basato sul concetto di consistenza ciclica che consente l'addestramento visione-linguaggio su dati immagine e testo non accoppiati. ITIT è composto da un codificatore congiunto immagine-testo con decodificatori separati per immagini e testo che abilitano la generazione bidirezionale da immagine a testo e da testo a immagine in un unico framework. Durante l'addestramento, ITIT sfrutta un piccolo insieme di dati immagine-testo accoppiati per garantire che il suo output corrisponda ragionevolmente bene all'input in entrambe le direzioni. Contemporaneamente, il modello viene addestrato anche su dataset molto più grandi contenenti solo immagini o testi. Questo è ottenuto imponendo la consistenza ciclica tra i campioni non accoppiati originali e le controparti generate ciclicamente. Ad esempio, genera una didascalia per una data immagine di input e poi utilizza la didascalia per creare un'immagine di output, imponendo la somiglianza tra l'immagine di input e quella di output. I nostri esperimenti mostrano che ITIT con dataset non accoppiati presenta un comportamento di scalabilità simile all'uso di dati accoppiati di alta qualità. Dimostriamo prestazioni di generazione di immagini e creazione di didascalie alla pari con i modelli all'avanguardia da testo a immagine e da immagine a testo, utilizzando ordini di grandezza in meno (solo 3M) di dati immagine-testo accoppiati.
Sono stati riportati grandi successi nell'utilizzo del Reinforcement Learning from Human Feedback (RLHF) per allineare i modelli linguistici di grandi dimensioni. I dataset di preferenze open-source e i modelli di ricompensa hanno consentito una sperimentazione più ampia oltre i contesti generici di chat, in particolare per rendere i sistemi più "utili" in compiti come il question answering sul web, la sintesi e i dialoghi multi-turn. Quando si ottimizza per l'utilità, è stato osservato in modo consistente che l'RLHF spinge i modelli a produrre output più lunghi. Questo articolo dimostra che l'ottimizzazione per la lunghezza della risposta è un fattore significativo dietro i miglioramenti riportati dall'RLHF in questi contesti. Innanzitutto, studiamo la relazione tra ricompensa e lunghezza per i modelli di ricompensa addestrati su tre dataset di preferenze open-source per l'utilità. Qui, la lunghezza è fortemente correlata con la ricompensa, e i miglioramenti nel punteggio di ricompensa sono in gran parte guidati da uno spostamento della distribuzione sulle lunghezze degli output. Esploriamo poi interventi durante sia l'apprendimento per rinforzo che l'apprendimento del modello di ricompensa per vedere se possiamo ottenere gli stessi miglioramenti a valle dell'RLHF senza aumentare la lunghezza. Sebbene i nostri interventi mitigano gli aumenti di lunghezza, non sono uniformemente efficaci in tutti i contesti. Inoltre, scopriamo che anche eseguire l'RLHF con una ricompensa basata esclusivamente sulla lunghezza può riprodurre la maggior parte dei miglioramenti a valle rispetto al modello di policy iniziale, dimostrando che i modelli di ricompensa in questi contesti hanno ancora molta strada da fare.
L'esecuzione di attività sul web presenta sfide fondamentali per i modelli linguistici di grandi dimensioni (LLM), tra cui compiti di tipo combinatorio in un mondo aperto e variazioni tra le interfacce web. Specificare un prompt di grandi dimensioni per gestire tutti i comportamenti e gli stati possibili è estremamente complesso e porta a perdite di comportamento tra azioni non correlate. La scomposizione in politiche distinte può affrontare questa sfida, ma richiede un passaggio di controllo accurato tra le politiche. Proponiamo Stacked LLM Policies for Web Actions (SteP), un approccio per comporre dinamicamente politiche per risolvere un insieme diversificato di attività web. SteP definisce un Processo Decisionale di Markov in cui lo stato è una pila di politiche che rappresentano lo stato di controllo, ovvero la catena di chiamate alle politiche. A differenza dei metodi tradizionali limitati a gerarchie statiche, SteP consente un controllo dinamico che si adatta alla complessità del compito. Valutiamo SteP rispetto a diverse baseline e ambienti web, tra cui WebArena, MiniWoB++ e un CRM. Su WebArena, SteP migliora (dal 14,9% al 33,5%) rispetto allo stato dell'arte che utilizza politiche GPT-4, mentre su MiniWoB++ è competitivo con i lavori precedenti pur utilizzando significativamente meno dati. Il nostro codice e i dati sono disponibili all'indirizzo https://asappresearch.github.io/webagents-step.
Introduciamo DragView, un framework innovativo e interattivo per la generazione di nuove visualizzazioni di scene non viste. DragView inizializza la nuova visualizzazione a partire da una singola immagine sorgente, e il rendering è supportato da un insieme sparso di immagini multi-vista non posizionate, tutto eseguito in modo fluido all'interno di un unico passaggio in avanti. Il nostro approccio inizia con l'utente che trascina una vista sorgente attraverso un sistema di coordinate relative locali. Le caratteristiche allineate ai pixel vengono ottenute proiettando i punti 3D campionati lungo il raggio target sulla vista sorgente. Successivamente, incorporiamo uno strato di modulazione dipendente dalla vista per gestire efficacemente le occlusioni durante la proiezione. Inoltre, ampliamo il meccanismo di attenzione epipolare per includere tutti i pixel sorgente, facilitando l'aggregazione delle caratteristiche dei punti allineati alle coordinate inizializzate da altre viste non posizionate. Infine, utilizziamo un altro trasformatore per decodificare le caratteristiche del raggio in intensità di pixel finali. Fondamentalmente, il nostro framework non si basa né su modelli 2D preesistenti né sulla stima esplicita delle pose della telecamera. Durante i test, DragView dimostra la capacità di generalizzare a nuove scene non viste durante l'addestramento, utilizzando anche solo immagini di supporto non posizionate, consentendo la generazione di nuove visualizzazioni foto-realistiche caratterizzate da traiettorie della telecamera flessibili. Nei nostri esperimenti, conduciamo un confronto completo delle prestazioni di DragView con reti di rappresentazione di scene recenti che operano in condizioni senza pose, nonché con NeRF generalizzabili soggetti a pose di telecamera di test rumorose. DragView dimostra costantemente una performance superiore nella qualità della sintesi delle viste, risultando anche più user-friendly. Pagina del progetto: https://zhiwenfan.github.io/DragView/.