Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'addestramento di modelli testo-immagine con coppie immagine-testo su scala web consente la generazione di un'ampia gamma di concetti visivi a partire dal testo. Tuttavia, questi modelli pre-addestrati spesso incontrano difficoltà nella generazione di immagini altamente estetiche. Ciò crea la necessità di un allineamento estetico post pre-addestramento. In questo articolo, proponiamo il quality-tuning per guidare efficacemente un modello pre-addestrato a generare esclusivamente immagini altamente visivamente accattivanti, mantenendo al contempo la generalità attraverso i concetti visivi. La nostra intuizione chiave è che il fine-tuning supervisionato con un insieme sorprendentemente piccolo ma estremamente visivamente accattivante di immagini può migliorare significativamente la qualità della generazione. Pre-addestriamo un modello di diffusione latente su 1,1 miliardi di coppie immagine-testo e lo ottimizziamo con solo poche migliaia di immagini di alta qualità selezionate con cura. Il modello risultante, Emu, raggiunge un tasso di vittoria dell'82,9% rispetto alla sua controparte solo pre-addestrata. Rispetto allo stato dell'arte SDXLv1.0, Emu è preferito il 68,4% e il 71,3% delle volte per l'appeal visivo sui benchmark standard PartiPrompts e sul nostro Open User Input basato sull'uso reale dei modelli testo-immagine. Inoltre, dimostriamo che il quality-tuning è un approccio generico efficace anche per altre architetture, inclusi i modelli di diffusione pixel e i modelli trasformatori generativi mascherati.
Proponiamo di sostituire la quantizzazione vettoriale (VQ) nella rappresentazione latente dei VQ-VAE con uno schema semplice denominato quantizzazione scalare finita (FSQ), in cui proiettiamo la rappresentazione del VAE su poche dimensioni (tipicamente meno di 10). Ogni dimensione viene quantizzata in un piccolo insieme di valori fissi, portando a un codebook (implicito) dato dal prodotto di questi insiemi. Scegliendo opportunamente il numero di dimensioni e i valori che ciascuna dimensione può assumere, otteniamo la stessa dimensione del codebook presente nella VQ. Su tali rappresentazioni discrete, possiamo addestrare gli stessi modelli che sono stati addestrati sulle rappresentazioni dei VQ-VAE. Ad esempio, modelli autoregressivi e transformer mascherati per la generazione di immagini, la generazione multimodale e le attività di visione artificiale per la previsione densa. Nello specifico, utilizziamo FSQ con MaskGIT per la generazione di immagini e con UViM per la stima della profondità, la colorizzazione e la segmentazione panottica. Nonostante il design molto più semplice di FSQ, otteniamo prestazioni competitive in tutte queste attività. Sottolineiamo che FSQ non soffre di collasso del codebook e non richiede la complessa strumentazione impiegata nella VQ (perdite di commitment, re-inizializzazione del codebook, suddivisione del codice, penalità di entropia, ecc.) per apprendere rappresentazioni discrete espressive.
Proponiamo un sistema di modellazione del linguaggio neurale basato sull'adattamento a basso rango (LoRA) per il riordinamento dell'output del riconoscimento vocale. Sebbene i modelli di linguaggio preaddestrati (LM) come BERT abbiano dimostrato prestazioni superiori nel riordinamento di seconda passata, l'elevato costo computazionale per scalare la fase di preaddestramento e adattare i modelli preaddestrati a domini specifici ne limita l'uso pratico nel riordinamento. Qui presentiamo un metodo basato sulla decomposizione a basso rango per addestrare un modello BERT di riordinamento e adattarlo a nuovi domini utilizzando solo una frazione (0,08%) dei parametri preaddestrati. Queste matrici inserite vengono ottimizzate attraverso un obiettivo di addestramento discriminativo insieme a una funzione di perdita di regolarizzazione basata sulla correlazione. L'architettura proposta di Rescore-BERT con adattamento a basso rango (LoRB) viene valutata su dataset LibriSpeech e interni, con tempi di addestramento ridotti di fattori compresi tra 5,4 e 3,6.
Sono stati compiuti significativi progressi nel campo dei modelli di diffusione testo-video pre-addestrati su larga scala (VDM). Tuttavia, i metodi precedenti si basano esclusivamente su VDM basati su pixel, che comportano elevati costi computazionali, o su VDM basati su rappresentazioni latenti, che spesso faticano a garantire un allineamento preciso tra testo e video. In questo articolo, siamo i primi a proporre un modello ibrido, denominato Show-1, che combina VDM basati su pixel e su rappresentazioni latenti per la generazione di video da testo. Il nostro modello utilizza inizialmente VDM basati su pixel per produrre un video a bassa risoluzione con una forte correlazione testo-video. Successivamente, proponiamo un innovativo metodo di traduzione esperta che impiega VDM basati su rappresentazioni latenti per aumentare ulteriormente la risoluzione del video da bassa ad alta. Rispetto ai VDM latenti, Show-1 è in grado di produrre video di alta qualità con un allineamento testo-video preciso; rispetto ai VDM basati su pixel, Show-1 è molto più efficiente (l'utilizzo della memoria GPU durante l'inferenza è di 15G rispetto a 72G). Validiamo inoltre il nostro modello su benchmark standard per la generazione di video. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/showlab/Show-1.
Presentiamo un nuovo tipo di campi neurali che utilizza basi radiali generali per la rappresentazione del segnale. I campi neurali all'avanguardia si basano tipicamente su rappresentazioni a griglia per memorizzare caratteristiche neurali locali e su kernel lineari N-dimensionali per interpolare le caratteristiche in punti di query continui. Le posizioni spaziali delle loro caratteristiche neurali sono fissate sui nodi della griglia e non possono adattarsi bene ai segnali target. Il nostro metodo, invece, si basa su basi radiali generali con posizione e forma flessibili del kernel, che hanno una maggiore adattabilità spaziale e possono adattarsi più strettamente ai segnali target. Per migliorare ulteriormente la capacità canale per canale delle funzioni di base radiale, proponiamo di comporle con funzioni sinusoidali multifrequenza. Questa tecnica estende una base radiale a più basi radiali di Fourier di diverse bande di frequenza senza richiedere parametri aggiuntivi, facilitando la rappresentazione dei dettagli. Inoltre, unendo basi radiali adattative a quelle basate su griglia, la nostra combinazione ibrida eredita sia l'adattabilità che la scorrevolezza dell'interpolazione. Abbiamo progettato con attenzione schemi di ponderazione per consentire alle basi radiali di adattarsi efficacemente a diversi tipi di segnali. I nostri esperimenti sulla rappresentazione di immagini 2D e campi di distanza con segno 3D dimostrano la maggiore accuratezza e compattezza del nostro metodo rispetto alle tecniche precedenti. Quando applicato alla ricostruzione di campi di radianza neurale, il nostro metodo raggiunge una qualità di rendering all'avanguardia, con dimensioni ridotte del modello e velocità di addestramento comparabile.
Negli ultimi anni, i progressi nel pre-addestramento su larga scala di modelli linguistici e di testo-immagine hanno rivoluzionato il campo del machine learning. Tuttavia, integrare queste due modalità in un unico modello robusto in grado di generare output multimodali senza soluzione di continuità rimane una sfida significativa. Per colmare questa lacuna, presentiamo il framework Joint Autoregressive Mixture (JAM), un approccio modulare che fonde sistematicamente i modelli esistenti di generazione di testo e immagini. Introduciamo inoltre una strategia specializzata e efficiente in termini di dati per l'instruction-tuning, progettata specificamente per compiti di generazione multimodale. Il nostro modello finale, ottimizzato tramite instruction-tuning, dimostra prestazioni senza precedenti nella generazione di output multimodali di alta qualità e rappresenta il primo modello esplicitamente progettato per questo scopo.
Comprendere come gli esseri umani utilizzano il contatto fisico per interagire con il mondo è fondamentale per abilitare un'intelligenza artificiale centrata sull'uomo. Sebbene l'inferenza del contatto 3D sia cruciale per modellare interazioni uomo-oggetto realistiche e fisicamente plausibili, i metodi esistenti si concentrano principalmente su rappresentazioni 2D, considerano le articolazioni del corpo anziché la superficie, utilizzano regioni corporee 3D approssimative o non si generalizzano bene a immagini in contesti reali. Al contrario, il nostro lavoro si focalizza sull'inferenza di un contatto 3D denso tra l'intera superficie del corpo e gli oggetti in immagini arbitrarie. Per raggiungere questo obiettivo, abbiamo prima raccolto DAMON, un nuovo dataset contenente annotazioni dense di contatto a livello di vertice, accoppiate a immagini RGB che includono complessi contatti uomo-oggetto e uomo-scena. In secondo luogo, abbiamo addestrato DECO, un innovativo rilevatore di contatto 3D che utilizza un'attenzione guidata sia dalle parti del corpo che dal contesto della scena per stimare il contatto a livello di vertice sul corpo SMPL. DECO si basa sull'intuizione che gli osservatori umani riconoscono il contatto ragionando sulle parti del corpo coinvolte, sulla loro prossimità agli oggetti della scena e sul contesto circostante. Abbiamo condotto valutazioni estensive del nostro rilevatore su DAMON, nonché sui dataset RICH e BEHAVE, superando significativamente i metodi SOTA esistenti su tutti i benchmark. Inoltre, mostriamo qualitativamente che DECO si generalizza bene a interazioni umane reali, diverse e impegnative, in immagini naturali. Il codice, i dati e i modelli sono disponibili all'indirizzo https://deco.is.tue.mpg.de.
Recentemente, un'ondata di studi ha affermato l'emergere di abilità cognitive nei grandi modelli linguistici (LLM). Tuttavia, la maggior parte si basa su aneddoti, trascura la contaminazione dei set di addestramento o manca di una valutazione sistematica che coinvolga più compiti, condizioni di controllo, iterazioni multiple e test di robustezza statistica. In questo lavoro, forniamo due contributi principali. In primo luogo, proponiamo CogEval, un protocollo ispirato alle scienze cognitive per la valutazione sistematica delle capacità cognitive nei grandi modelli linguistici. Il protocollo CogEval può essere seguito per valutare varie abilità. In secondo luogo, qui seguiamo CogEval per valutare sistematicamente le mappe cognitive e l'abilità di pianificazione in otto LLM (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B e Alpaca-7B). Basiamo i nostri prompt di compito su esperimenti umani, che offrono sia una validità di costrutto consolidata per valutare la pianificazione, sia l'assenza dai set di addestramento degli LLM. Scopriamo che, sebbene gli LLM mostrino una competenza apparente in alcuni compiti di pianificazione con strutture più semplici, una valutazione sistematica rivela modalità di fallimento sorprendenti nei compiti di pianificazione, tra cui allucinazioni di traiettorie non valide e il rimanere intrappolati in cicli. Questi risultati non supportano l'idea di un'abilità di pianificazione emergente "pronta all'uso" negli LLM. Ciò potrebbe essere dovuto al fatto che gli LLM non comprendono le strutture relazionali latenti sottostanti ai problemi di pianificazione, note come mappe cognitive, e falliscono nel dispiegare traiettorie orientate agli obiettivi basate sulla struttura sottostante. Vengono discusse le implicazioni per l'applicazione e le direzioni future.
Il tuning dei prompt testuali ha dimostrato significativi miglioramenti delle prestazioni nell'adattamento dei modelli di elaborazione del linguaggio naturale a una varietà di task downstream, trattando i prompt progettati manualmente come parametri addestrabili. Ispirati dal successo dei prompt testuali, diversi studi hanno indagato l'efficacia del tuning dei prompt visivi. In questo lavoro, presentiamo Visual Prompt Adaptation (VPA), il primo framework che generalizza il prompting visivo con l'adattamento in fase di test. VPA introduce un piccolo numero di token apprendibili, consentendo un adattamento completamente in fase di test e efficiente in termini di memorizzazione senza necessitare di informazioni sul dominio di origine. Esaminiamo il nostro design VPA in diversi contesti di adattamento, comprendendo l'adattamento su singola immagine, su batch di immagini e con pseudo-label. Valutiamo VPA su più task, tra cui la generalizzazione out-of-distribution (OOD), la robustezza alla corruzione e l'adattamento di dominio. I risultati sperimentali rivelano che VPA migliora efficacemente la generalizzazione OOD del 3,3% su vari modelli, superando approcci precedenti di test-time. Inoltre, mostriamo che VPA migliora la robustezza alla corruzione del 6,5% rispetto a baseline forti. Infine, dimostriamo che VPA aumenta anche le prestazioni di adattamento di dominio relativamente del 5,2%. Il nostro VPA mostra inoltre una marcata efficacia nel migliorare la robustezza del riconoscimento zero-shot per modelli visione-linguaggio.