Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di base, che oggi alimentano la maggior parte delle applicazioni più interessanti nel deep learning, sono quasi universalmente basati sull'architettura Transformer e sul suo modulo di attenzione centrale. Sono state sviluppate molte architetture a tempo subquadratico, come l'attenzione lineare, i modelli convoluzionali con gate e ricorrenti, e i modelli strutturati a spazio di stati (SSM), per affrontare l'inefficienza computazionale dei Transformer su sequenze lunghe, ma non hanno performato altrettanto bene quanto l'attenzione su modalità importanti come il linguaggio. Identifichiamo che una debolezza chiave di tali modelli è la loro incapacità di eseguire ragionamenti basati sul contenuto, e apportiamo diversi miglioramenti. Innanzitutto, semplicemente rendendo i parametri dello SSM funzioni dell'input si affronta la loro debolezza con modalità discrete, permettendo al modello di propagare o dimenticare selettivamente informazioni lungo la dimensione della lunghezza della sequenza in base al token corrente. In secondo luogo, anche se questo cambiamento impedisce l'uso di convoluzioni efficienti, progettiamo un algoritmo parallelo consapevole dell'hardware in modalità ricorrente. Integriamo questi SSM selettivi in un'architettura di rete neurale end-to-end semplificata senza attenzione o persino blocchi MLP (Mamba). Mamba gode di un'inferenza veloce (5 volte più veloce dei Transformer) e di una scalabilità lineare nella lunghezza della sequenza, e le sue prestazioni migliorano su dati reali fino a sequenze di lunghezza milioni. Come modello di base per sequenze generali, Mamba raggiunge prestazioni all'avanguardia su diverse modalità come linguaggio, audio e genomica. Nel modeling del linguaggio, il nostro modello Mamba-3B supera i Transformer della stessa dimensione e eguaglia i Transformer di dimensioni doppie, sia nel pre-training che nella valutazione downstream.
Presentiamo MoMask, un innovativo framework di modellazione mascherata per la generazione di movimenti umani 3D guidati da testo. In MoMask, viene impiegato uno schema di quantizzazione gerarchica per rappresentare il movimento umano come token di movimento multistrato con dettagli ad alta fedeltà. Partendo dal livello base, con una sequenza di token di movimento ottenuti mediante quantizzazione vettoriale, i token residui di ordine crescente vengono derivati e memorizzati nei livelli successivi della gerarchia. Questo processo è seguito da due distinti transformer bidirezionali. Per i token di movimento del livello base, un Masked Transformer è designato a prevedere i token di movimento mascherati casualmente condizionati dall'input testuale durante la fase di addestramento. Durante la fase di generazione (cioè inferenza), partendo da una sequenza vuota, il nostro Masked Transformer riempie iterativamente i token mancanti; successivamente, un Residual Transformer impara a prevedere progressivamente i token del livello successivo basandosi sui risultati del livello corrente. Esperimenti estensivi dimostrano che MoMask supera i metodi all'avanguardia nel compito di generazione testo-movimento, con un FID di 0.045 (rispetto a 0.141 di T2M-GPT) sul dataset HumanML3D e 0.228 (rispetto a 0.514) su KIT-ML, rispettivamente. MoMask può anche essere applicato senza soluzione di continuità in compiti correlati senza ulteriore fine-tuning del modello, come l'inpainting temporale guidato da testo.
Presentiamo DREAM, un innovativo framework di addestramento che rappresenta i Modelli di Rettifica e Adattamento alla Stima della Diffusione, richiedendo modifiche minime al codice (solo tre righe) e migliorando significativamente l'allineamento tra addestramento e campionamento nei modelli di diffusione. DREAM comprende due componenti: la rettifica della diffusione, che regola l'addestramento per riflettere il processo di campionamento, e l'adattamento alla stima, che bilancia la percezione rispetto alla distorsione. Quando applicato alla super-risoluzione (SR) delle immagini, DREAM gestisce abilmente il compromesso tra la minimizzazione della distorsione e il mantenimento di un'elevata qualità dell'immagine. Gli esperimenti dimostrano la superiorità di DREAM rispetto ai metodi SR basati sulla diffusione standard, mostrando una convergenza dell'addestramento da 2 a 3 volte più veloce e una riduzione da 10 a 20 volte dei passi di campionamento necessari per ottenere risultati comparabili o superiori. Speriamo che DREAM ispiri una rivisitazione dei paradigmi di addestramento dei modelli di diffusione.
I metodi di rendering neurale hanno fatto significativi progressi nel rendering foto-realistico di scene 3D in varie applicazioni accademiche e industriali. Il recente metodo 3D Gaussian Splatting ha raggiunto la massima qualità e velocità di rendering, combinando i vantaggi delle rappresentazioni basate su primitive e delle rappresentazioni volumetriche. Tuttavia, spesso porta a una ridondanza eccessiva di Gaussiane che cercano di adattarsi a ogni vista di addestramento, trascurando la geometria sottostante della scena. Di conseguenza, il modello risultante diventa meno robusto a cambiamenti significativi della vista, aree prive di texture ed effetti di illuminazione. Introduciamo Scaffold-GS, che utilizza punti di ancoraggio per distribuire Gaussiane 3D locali e prevede i loro attributi in tempo reale in base alla direzione di visualizzazione e alla distanza all'interno del frustum visivo. Sono state sviluppate strategie di crescita e potatura degli ancoraggi basate sull'importanza delle Gaussiane neurali per migliorare in modo affidabile la copertura della scena. Dimostriamo che il nostro metodo riduce efficacemente le Gaussiane ridondanti pur fornendo un rendering di alta qualità. Inoltre, mostra una capacità potenziata di adattarsi a scene con diversi livelli di dettaglio e osservazioni dipendenti dalla vista, senza sacrificare la velocità di rendering.
La sintesi di nuove viste a partire da osservazioni limitate rimane un compito importante e persistente. Tuttavia, l'elevata efficienza nelle attuali tecniche di sintesi di viste con poche immagini basate su NeRF è spesso compromessa per ottenere una rappresentazione 3D accurata. Per affrontare questa sfida, proponiamo un framework di sintesi di viste con poche immagini basato su 3D Gaussian Splatting che consente una sintesi di viste in tempo reale e fotorealistica con un minimo di tre viste di addestramento. Il metodo proposto, denominato FSGS, gestisce i punti SfM inizializzati estremamente sparsi con un processo di Gaussian Unpooling progettato con cura. Il nostro metodo distribuisce iterativamente nuove Gaussiane intorno alle posizioni più rappresentative, riempiendo successivamente i dettagli locali nelle aree vuote. Integriamo inoltre un estimatore di profondità monoculare pre-addestrato su larga scala all'interno del processo di ottimizzazione delle Gaussiane, sfruttando viste aumentate online per guidare l'ottimizzazione geometrica verso una soluzione ottimale. Partendo da punti sparsi osservati da viste di input limitate, il nostro FSGS può crescere accuratamente in regioni non viste, coprendo in modo completo la scena e migliorando la qualità di rendering delle nuove viste. Nel complesso, FSGS raggiunge prestazioni all'avanguardia sia in termini di accuratezza che di efficienza di rendering su diversi dataset, tra cui LLFF, Mip-NeRF360 e Blender. Sito web del progetto: https://zehaozhu.github.io/FSGS/.
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno recentemente dimostrato capacità impressionanti nella comprensione, ragionamento e interazione multimodale. Tuttavia, gli MLLM esistenti soffrono prevalentemente di gravi problemi di allucinazione, generando testi che non sono fondati fattualmente nelle immagini associate. Questo problema rende gli MLLM esistenti inaffidabili e quindi impraticabili in applicazioni del mondo reale (soprattutto ad alto rischio). Per affrontare questa sfida, presentiamo RLHF-V, che migliora l'affidabilità degli MLLM attraverso l'allineamento comportamentale basato su feedback correttivi umani granulari. Nello specifico, RLHF-V raccoglie le preferenze umane sotto forma di correzioni a livello di segmento sulle allucinazioni e esegue un'ottimizzazione diretta e densa delle preferenze sul feedback umano. Esperimenti completi su cinque benchmark sia in valutazione automatica che umana mostrano che RLHF-V può abilitare comportamenti MLLM sostanzialmente più affidabili con una promettente efficienza di dati e calcolo. Notevolmente, utilizzando 1.4k campioni di dati annotati, RLHF-V riduce significativamente il tasso di allucinazione del MLLM base del 34.8%, superando il concorrente LLaVA-RLHF addestrato su 10k dati annotati. Il modello finale raggiunge prestazioni all'avanguardia in termini di affidabilità tra gli MLLM open-source e mostra una migliore robustezza rispetto a GPT-4V nel prevenire allucinazioni causate da sovra-generalizzazione. Rendiamo disponibili il nostro codice, modello e dati all'indirizzo https://github.com/RLHF-V/RLHF-V.
La sintesi di volti 3D guidata da testo ha ottenuto risultati notevoli sfruttando modelli di diffusione testo-immagine (T2I). Tuttavia, la maggior parte dei lavori esistenti si concentra esclusivamente sulla generazione diretta, ignorando l'editing, limitandoli nella sintesi di volti 3D personalizzati attraverso aggiustamenti iterativi. In questo articolo, proponiamo un framework unificato guidato da testo che va dalla generazione all'editing di volti. Nella fase di generazione, proponiamo una generazione decuplicata di geometria e texture per mitigare la perdita di dettagli geometrici causata dall'accoppiamento. Inoltre, la decuplicazione ci consente di utilizzare la geometria generata come condizione per la generazione della texture, ottenendo risultati altamente allineati tra geometria e texture. Utilizziamo inoltre un modello di diffusione della texture fine-tuned per migliorare la qualità della texture sia nello spazio RGB che YUV. Nella fase di editing, impieghiamo prima un modello di diffusione pre-addestrato per aggiornare la geometria o la texture del volto in base ai testi. Per abilitare l'editing sequenziale, introduciamo una regolarizzazione di conservazione della consistenza nel dominio UV, prevenendo cambiamenti involontari agli attributi facciali irrilevanti. Inoltre, proponiamo una strategia di peso di consistenza auto-guidata per migliorare l'efficacia dell'editing preservando la consistenza. Attraverso esperimenti completi, dimostriamo la superiorità del nostro metodo nella sintesi di volti. Pagina del progetto: https://faceg2e.github.io/.
I Neural Radiance Fields (NeRFs) possono essere notevolmente accelerati mediante rappresentazioni a griglia spaziale. Tuttavia, non considerano esplicitamente la scala, introducendo così artefatti di aliasing durante la ricostruzione di scene catturate a diverse distanze dalla telecamera. Mip-NeRF e le sue estensioni propongono renderer consapevoli della scala che proiettano frustum volumetrici anziché campioni puntuali, ma tali approcci si basano su codifiche posizionali non facilmente compatibili con i metodi a griglia. Proponiamo una semplice modifica ai modelli basati su griglia addestrando teste del modello a diverse risoluzioni della griglia spaziale. Al momento del rendering, utilizziamo semplicemente griglie più grossolane per renderizzare campioni che coprono volumi più ampi. Il nostro metodo può essere facilmente applicato ai metodi NeRF accelerati esistenti e migliora significativamente la qualità del rendering (riducendo i tassi di errore del 20-90% su scene sintetiche e reali illimitate) con un sovraccarico di prestazioni minimo (poiché ogni testa del modello è veloce da valutare). Rispetto a Mip-NeRF, riduciamo i tassi di errore del 20% addestrando oltre 60 volte più velocemente.
Negli ultimi tempi, la creazione automatica di contenuti da testo a 3D ha compiuto progressi significativi, grazie allo sviluppo di modelli di diffusione 2D pre-addestrati. I metodi esistenti per la conversione da testo a 3D ottimizzano tipicamente la rappresentazione 3D per garantire che l'immagine renderizzata si allinei bene con il testo fornito, come valutato dal modello di diffusione 2D pre-addestrato. Tuttavia, esiste un divario sostanziale tra le immagini 2D e gli asset 3D, attribuibile principalmente alle variazioni negli attributi legati alla fotocamera e alla presenza esclusiva di oggetti in primo piano. Di conseguenza, l'uso diretto di modelli di diffusione 2D per ottimizzare le rappresentazioni 3D può portare a risultati subottimali. Per affrontare questo problema, presentiamo X-Dreamer, un approccio innovativo per la creazione di contenuti da testo a 3D di alta qualità che colma efficacemente il divario tra la sintesi da testo a 2D e da testo a 3D. I componenti chiave di X-Dreamer sono due design innovativi: l'Adattamento a Basso Rango Guidato dalla Fotocamera (CG-LoRA) e la Perdita di Allineamento della Maschera di Attenzione (AMA Loss). CG-LoRA incorpora dinamicamente le informazioni della fotocamera nei modelli di diffusione pre-addestrati utilizzando una generazione dipendente dalla fotocamera per i parametri addestrabili. Questa integrazione migliora l'allineamento tra gli asset 3D generati e la prospettiva della fotocamera. La perdita AMA guida la mappa di attenzione del modello di diffusione pre-addestrato utilizzando la maschera binaria dell'oggetto 3D, dando priorità alla creazione dell'oggetto in primo piano. Questo modulo garantisce che il modello si concentri sulla generazione di oggetti in primo piano accurati e dettagliati. Valutazioni estensive dimostrano l'efficacia del nostro metodo proposto rispetto agli approcci esistenti da testo a 3D. La pagina web del nostro progetto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.