Articoli di ricerca IA selezionati quotidianamente con traduzioni
La complessità del problema dell'allineamento deriva dal fatto che i metodi esistenti sono instabili. I ricercatori inventano continuamente vari stratagemmi per affrontare questa carenza. Ad esempio, nella tecnica fondamentale del Reinforcement Learning From Human Feedback (RLHF) per l'allineamento dei modelli linguistici, oltre alla massimizzazione della ricompensa, viene minimizzata la divergenza di Kullback-Leibler tra la politica addestrabile e la politica SFT. Questa aggiunta impedisce al modello di sovraadattarsi al Modello di Ricompensa (RM) e di generare testi che sono fuori dominio per l'RM. Il metodo Direct Preference Optimization (DPO) riformula il compito di ottimizzazione dell'RLHF ed elimina il Modello di Ricompensa, mantenendo implicitamente il requisito che la politica sia vicina alla politica SFT. Nel nostro articolo, sosteniamo che questa limitazione implicita nel metodo DPO porta a risultati subottimali. Proponiamo un nuovo metodo chiamato Trust Region DPO (TR-DPO), che aggiorna la politica di riferimento durante l'addestramento. Con un aggiornamento così diretto, dimostriamo l'efficacia di TR-DPO rispetto a DPO sui dataset Anthropic HH e TLDR. Mostriamo che TR-DPO supera DPO fino al 19%, misurato tramite valutazione automatica con GPT-4. Il nuovo approccio di allineamento che proponiamo ci consente di migliorare la qualità dei modelli su diversi parametri contemporaneamente, come coerenza, correttezza, livello di dettaglio, utilità e innocuità.
La complessità quadratica e la debole estrapolazione di lunghezza dei Transformer limitano la loro capacità di scalare su sequenze lunghe, e sebbene esistano soluzioni sub-quadratiche come l'attenzione lineare e i modelli a spazio di stati, queste empiricamente si dimostrano inferiori ai Transformer in termini di efficienza di pre-addestramento e accuratezza nei task downstream. Introduciamo Megalodon, un'architettura neurale per la modellazione efficiente di sequenze con lunghezza di contesto illimitata. Megalodon eredita l'architettura di Mega (media mobile esponenziale con attenzione gated) e introduce ulteriori componenti tecnici per migliorarne le capacità e la stabilità, tra cui la media mobile esponenziale complessa (CEMA), il livello di normalizzazione temporale, il meccanismo di attenzione normalizzata e la pre-norm con configurazione residua a due hop. In un confronto diretto e controllato con Llama2, Megalodon raggiunge una migliore efficienza rispetto al Transformer nella scala di 7 miliardi di parametri e 2 trilioni di token di addestramento. Megalodon raggiunge una perdita di addestramento di 1.70, posizionandosi a metà strada tra Llama2-7B (1.75) e 13B (1.67). Codice: https://github.com/XuezheMax/megalodon
Sebbene i Transformer abbiano rivoluzionato il deep learning, la loro complessità quadratica dell'attenzione ne limita la capacità di elaborare input di lunghezza infinita. Proponiamo Feedback Attention Memory (FAM), una nuova architettura Transformer che sfrutta un ciclo di feedback per consentire alla rete di prestare attenzione alle proprie rappresentazioni latenti. Questo design favorisce l'emergere di una memoria di lavoro all'interno del Transformer, permettendogli di elaborare sequenze di lunghezza indefinita. TransformerFAM non richiede pesi aggiuntivi, consentendo un'integrazione senza soluzione di continuità con modelli pre-addestrati. I nostri esperimenti dimostrano che TransformerFAM migliora significativamente le prestazioni dei Transformer su compiti a contesto lungo, indipendentemente dalle dimensioni del modello (1B, 8B e 24B). Questi risultati evidenziano il potenziale di potenziare i Large Language Models (LLM) per elaborare sequenze di lunghezza illimitata.
La creazione di ambienti virtuali di alta qualità e interattivi, come giochi e simulatori, spesso comporta processi di modellazione manuale complessi e costosi. In questo articolo, presentiamo Video2Game, un approccio innovativo che converte automaticamente video di scene del mondo reale in ambienti di gioco realistici e interattivi. Al centro del nostro sistema ci sono tre componenti principali: (i) un modulo di campi di radianza neurale (NeRF) che cattura efficacemente la geometria e l'aspetto visivo della scena; (ii) un modulo di mesh che estrae la conoscenza da NeRF per un rendering più veloce; e (iii) un modulo di fisica che modella le interazioni e le dinamiche fisiche tra gli oggetti. Seguendo la pipeline progettata con cura, è possibile costruire una replica digitale interattiva e funzionale del mondo reale. Abbiamo testato il nostro sistema sia su scene indoor che su larga scala outdoor. Dimostriamo che non solo possiamo produrre rendering altamente realistici in tempo reale, ma anche costruire giochi interattivi su di essi.
Esiste la convinzione che imparare a comprimere bene porti all'intelligenza. Recentemente, è stato dimostrato che il modeling linguistico è equivalente alla compressione, il che offre una motivazione convincente per il successo dei grandi modelli linguistici (LLM): lo sviluppo di modelli linguistici più avanzati consiste essenzialmente nel migliorare la compressione, che a sua volta facilita l'intelligenza. Nonostante queste discussioni interessanti, ci sono poche prove empiriche sull'interazione tra compressione e intelligenza. In questo lavoro, esaminiamo la loro relazione nel contesto degli LLM, trattando gli LLM come compressori di dati. Dato il concetto astratto di "intelligenza", adottiamo i punteggi medi dei benchmark downstream come surrogato, concentrandoci specificamente sull'intelligenza legata a conoscenza e senso comune, codifica e ragionamento matematico. Attraverso 12 benchmark, il nostro studio riunisce 30 LLM pubblici che provengono da diverse organizzazioni. In modo notevole, scopriamo che l'intelligenza degli LLM — riflessa dai punteggi medi dei benchmark — è quasi linearmente correlata alla loro capacità di comprimere corpora testuali esterni. Questi risultati forniscono prove concrete a sostegno della convinzione che una compressione superiore indichi una maggiore intelligenza. Inoltre, i nostri risultati suggeriscono che l'efficienza di compressione, come metrica non supervisionata derivata da corpora testuali grezzi, funge da misura di valutazione affidabile che è linearmente associata alle capacità del modello. Rendiamo open-source i nostri dataset di compressione, così come le nostre pipeline di raccolta dati, per facilitare i futuri ricercatori nel valutare correttamente la compressione.
I ControlNet sono ampiamente utilizzati per aggiungere controllo spaziale nella generazione di immagini con diverse condizioni, come mappe di profondità, bordi canny e pose umane. Tuttavia, ci sono diverse sfide quando si sfruttano i ControlNet pre-addestrati per la generazione controllata di video. In primo luogo, i ControlNet pre-addestrati non possono essere direttamente integrati in nuovi modelli backbone a causa della mancata corrispondenza degli spazi delle feature, e il costo di addestramento dei ControlNet per nuovi backbone rappresenta un onere significativo. In secondo luogo, le feature dei ControlNet per frame diversi potrebbero non gestire efficacemente la coerenza temporale. Per affrontare queste sfide, introduciamo Ctrl-Adapter, un framework efficiente e versatile che aggiunge controlli diversificati a qualsiasi modello di diffusione di immagini/video, adattando i ControlNet pre-addestrati (e migliorando l'allineamento temporale per i video). Ctrl-Adapter offre diverse capacità, tra cui controllo delle immagini, controllo dei video, controllo dei video con frame sparsi, controllo multi-condizione, compatibilità con diversi backbone, adattamento a condizioni di controllo non viste e editing video. In Ctrl-Adapter, addestriamo strati di adattamento che fondono le feature dei ControlNet pre-addestrati a diversi modelli di diffusione di immagini/video, mantenendo congelati i parametri dei ControlNet e dei modelli di diffusione. Ctrl-Adapter è composto da moduli temporali e spaziali in modo da gestire efficacemente la coerenza temporale dei video. Proponiamo inoltre il salto latente e il campionamento inverso dei timestep per un adattamento robusto e un controllo sparso. Inoltre, Ctrl-Adapter consente il controllo da più condizioni semplicemente prendendo la media (ponderata) delle uscite dei ControlNet. Con diversi backbone di diffusione di immagini/video (SDXL, Hotshot-XL, I2VGen-XL e SVD), Ctrl-Adapter eguaglia i ControlNet per il controllo delle immagini e supera tutte le baseline per il controllo dei video (raggiungendo l'accuratezza SOTA sul dataset DAVIS 2017) con costi computazionali significativamente inferiori (meno di 10 ore GPU).
Questo studio introduce HQ-Edit, un dataset di editing di immagini basato su istruzioni di alta qualità, contenente circa 200.000 modifiche. A differenza degli approcci precedenti che si basavano su indicazioni di attributi o feedback umani per la costruzione di dataset, abbiamo ideato una pipeline scalabile per la raccolta dei dati, sfruttando modelli di base avanzati, ovvero GPT-4V e DALL-E 3. Per garantire l'alta qualità, esempi diversificati vengono prima raccolti online, ampliati e poi utilizzati per creare dittici di alta qualità che presentano immagini di input e output con prompt testuali dettagliati, seguiti da un allineamento preciso assicurato attraverso post-elaborazione. Inoltre, proponiamo due metriche di valutazione, Allineamento e Coerenza, per valutare quantitativamente la qualità delle coppie di immagini modificate utilizzando GPT-4V. Le immagini ad alta risoluzione di HQ-Edit, ricche di dettagli e accompagnate da prompt di editing completi, migliorano sostanzialmente le capacità dei modelli di editing di immagini esistenti. Ad esempio, un InstructPix2Pix fine-tuned con HQ-Edit può raggiungere prestazioni di editing di immagini all'avanguardia, superando persino quei modelli fine-tuned con dati annotati manualmente. La pagina del progetto è https://thefllood.github.io/HQEdit_web.
L'inferenza con Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) è lenta a causa del loro backbone di modello linguistico di grandi dimensioni, che soffre di un collo di bottiglia nella larghezza di banda della memoria e genera token in modo autoregressivo. In questo articolo, esploriamo l'applicazione del decoding speculativo per migliorare l'efficienza dell'inferenza degli MLLMs, in particolare del modello LLaVA 7B. Dimostriamo che un modello linguistico puro può servire come un buon modello di bozza per il decoding speculativo con LLaVA 7B, aggirando la necessità di token di immagine e dei relativi componenti di elaborazione nel modello di bozza. I nostri esperimenti su tre diversi task mostrano che il decoding speculativo può ottenere un'accelerazione legata alla memoria fino a 2,37 volte utilizzando un modello linguistico da 115M di parametri che abbiamo addestrato da zero. Inoltre, introduciamo un modello di bozza compatto per LLaVA che incorpora un adattatore per le immagini, il quale mostra miglioramenti marginali nelle prestazioni per la descrizione delle immagini mantenendo risultati comparabili negli altri task.
Il contenuto generativo multimodale è sempre più diffuso nell'ambito della creazione di contenuti, poiché ha il potenziale di permettere ad artisti e professionisti dei media di realizzare mockup di pre-produzione, dando rapidamente vita alle loro idee. La generazione di audio a partire da prompt testuali rappresenta un aspetto cruciale di tali processi nell'industria musicale e cinematografica. Molti dei recenti modelli text-to-audio basati su diffusione si concentrano sull'addestramento di modelli di diffusione sempre più sofisticati su ampi set di dati di coppie prompt-audio. Questi modelli non si focalizzano esplicitamente sulla presenza di concetti o eventi e sul loro ordinamento temporale nell'audio generato rispetto al prompt di input. La nostra ipotesi è che concentrarsi su questi aspetti della generazione audio potrebbe migliorare le prestazioni in presenza di dati limitati. Pertanto, in questo lavoro, utilizzando un modello text-to-audio esistente chiamato Tango, creiamo sinteticamente un dataset di preferenze in cui ogni prompt ha un output audio vincente e alcuni output audio perdenti, da cui il modello di diffusione può apprendere. In teoria, gli output perdenti presentano alcuni concetti mancanti o in un ordine errato rispetto al prompt. Ottimizziamo il modello Tango text-to-audio disponibile pubblicamente utilizzando la loss diffusion-DPO (direct preference optimization) sul nostro dataset di preferenze e dimostriamo che ciò porta a un miglioramento dell'output audio rispetto a Tango e AudioLDM2, sia in termini di metriche di valutazione automatiche che manuali.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato risultati impressionanti in vari compiti multimodali. Tuttavia, la maggior parte degli MLLM esistenti non è adatta per compiti orientati ai documenti, che richiedono una percezione fine delle immagini e una compressione delle informazioni. In questo articolo, presentiamo TextHawk, un MLLM progettato specificamente per compiti orientati ai documenti, pur preservando le capacità generali degli MLLM. TextHawk mira a esplorare una percezione fine efficiente attraverso la progettazione di quattro componenti dedicati. In primo luogo, viene proposto un modulo di Ricampionamento e Riarrangiamento (ReSA) per ridurre la ridondanza nei testi dei documenti e abbattere il costo computazionale dell'MLLM. Esploriamo la codifica delle posizioni di ciascuna caratteristica locale presentando gli Embedding Posizionali Scalabili (SPEs), che possono preservare la scalabilità di varie dimensioni delle immagini. Una Query Proposal Network (QPN) viene quindi adottata per inizializzare dinamicamente le query tra diverse sotto-immagini. Per migliorare ulteriormente la capacità percettiva visiva fine dell'MLLM, progettiamo un meccanismo di Cross-Attention Multi-Livello (MLCA) che cattura la struttura gerarchica e le relazioni semantiche delle immagini dei documenti. Inoltre, creiamo un nuovo dataset di istruzione-tuning per compiti orientati ai documenti arricchendo i dati multimodali dei documenti con Gemini Pro. Condividiamo esperimenti estesi su benchmark generali e orientati ai documenti per MLLM, dimostrando che TextHawk supera i metodi all'avanguardia, evidenziando la sua efficacia e superiorità nella percezione fine dei documenti e nelle capacità generali.
Il Neural Radiance Field (NeRF) è una rappresentazione per la ricostruzione 3D a partire da immagini multi-vista. Nonostante alcuni recenti lavori abbiano mostrato un successo preliminare nella modifica di un NeRF ricostruito utilizzando un modello di diffusione, essi continuano a incontrare difficoltà nel sintetizzare una geometria ragionevole nelle regioni completamente scoperte. Una delle principali ragioni è l'elevata diversità dei contenuti sintetici generati dal modello di diffusione, che impedisce al campo di radianza di convergere verso una geometria nitida e deterministica. Inoltre, l'applicazione di modelli di diffusione latente su dati reali spesso produce uno spostamento testurale incoerente rispetto alla condizione dell'immagine, a causa di errori di auto-codifica. Questi due problemi sono ulteriormente accentuati dall'uso di perdite basate sulla distanza dei pixel. Per affrontare queste problematiche, proponiamo di temperare la stocasticità del modello di diffusione con una personalizzazione per scena e di mitigare lo spostamento testurale attraverso un addestramento avversario mascherato. Durante le analisi, abbiamo anche riscontrato che le perdite basate sui pixel e quelle percettive, comunemente utilizzate, sono dannose nel compito di inpainting del NeRF. Attraverso esperimenti rigorosi, il nostro framework produce risultati all'avanguardia nell'inpainting del NeRF su varie scene del mondo reale. Pagina del progetto: https://hubert0527.github.io/MALD-NeRF
Il Gaussian splatting, rinomato per la sua eccezionale qualità di rendering ed efficienza, è emerso come una tecnica di rilievo nella rappresentazione di scene 3D. Tuttavia, il volume sostanziale di dati associato al Gaussian splatting ne ostacola l'utilità pratica nelle applicazioni reali. In questo lavoro, proponiamo una rappresentazione efficiente di scene 3D, denominata Compressed Gaussian Splatting (CompGS), che sfrutta primitive gaussiane compatte per una modellazione fedele delle scene 3D con una dimensione dei dati notevolmente ridotta. Per garantire la compattezza delle primitive gaussiane, abbiamo ideato una struttura ibrida di primitive che cattura le relazioni predittive tra di esse. Successivamente, utilizziamo un piccolo insieme di primitive di ancoraggio per la previsione, consentendo alla maggior parte delle primitive di essere racchiuse in forme residue altamente compatte. Inoltre, sviluppiamo uno schema di ottimizzazione vincolato al bitrate per eliminare le ridondanze all'interno di tali primitive ibride, orientando il nostro CompGS verso un compromesso ottimale tra consumo di bitrate ed efficacia della rappresentazione. I risultati sperimentali dimostrano che il CompGS proposto supera significativamente i metodi esistenti, raggiungendo una compattezza superiore nella rappresentazione di scene 3D senza compromettere l'accuratezza del modello e la qualità del rendering. Il nostro codice sarà rilasciato su GitHub per ulteriori ricerche.