HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

9 papers found

Mamba: Modellazione di Sequenze in Tempo Lineare con Spazi di Stato Selettivi
Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Dec 1

ByAlbert Gu, Tri Dao

149

I modelli di base, che oggi alimentano la maggior parte delle applicazioni più interessanti nel deep learning, sono quasi universalmente basati sull'architettura Transformer e sul suo modulo di attenzione centrale. Sono state sviluppate molte architetture a tempo subquadratico, come l'attenzione lineare, i modelli convoluzionali con gate e ricorrenti, e i modelli strutturati a spazio di stati (SSM), per affrontare l'inefficienza computazionale dei Transformer su sequenze lunghe, ma non hanno performato altrettanto bene quanto l'attenzione su modalità importanti come il linguaggio. Identifichiamo che una debolezza chiave di tali modelli è la loro incapacità di eseguire ragionamenti basati sul contenuto, e apportiamo diversi miglioramenti. Innanzitutto, semplicemente rendendo i parametri dello SSM funzioni dell'input si affronta la loro debolezza con modalità discrete, permettendo al modello di propagare o dimenticare selettivamente informazioni lungo la dimensione della lunghezza della sequenza in base al token corrente. In secondo luogo, anche se questo cambiamento impedisce l'uso di convoluzioni efficienti, progettiamo un algoritmo parallelo consapevole dell'hardware in modalità ricorrente. Integriamo questi SSM selettivi in un'architettura di rete neurale end-to-end semplificata senza attenzione o persino blocchi MLP (Mamba). Mamba gode di un'inferenza veloce (5 volte più veloce dei Transformer) e di una scalabilità lineare nella lunghezza della sequenza, e le sue prestazioni migliorano su dati reali fino a sequenze di lunghezza milioni. Come modello di base per sequenze generali, Mamba raggiunge prestazioni all'avanguardia su diverse modalità come linguaggio, audio e genomica. Nel modeling del linguaggio, il nostro modello Mamba-3B supera i Transformer della stessa dimensione e eguaglia i Transformer di dimensioni doppie, sia nel pre-training che nella valutazione downstream.

MoMask: Modellazione Generativa con Mascheramento dei Movimenti Umani 3D
MoMask: Generative Masked Modeling of 3D Human Motions

Nov 29

ByChuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng

Presentiamo MoMask, un innovativo framework di modellazione mascherata per la generazione di movimenti umani 3D guidati da testo. In MoMask, viene impiegato uno schema di quantizzazione gerarchica per rappresentare il movimento umano come token di movimento multistrato con dettagli ad alta fedeltà. Partendo dal livello base, con una sequenza di token di movimento ottenuti mediante quantizzazione vettoriale, i token residui di ordine crescente vengono derivati e memorizzati nei livelli successivi della gerarchia. Questo processo è seguito da due distinti transformer bidirezionali. Per i token di movimento del livello base, un Masked Transformer è designato a prevedere i token di movimento mascherati casualmente condizionati dall'input testuale durante la fase di addestramento. Durante la fase di generazione (cioè inferenza), partendo da una sequenza vuota, il nostro Masked Transformer riempie iterativamente i token mancanti; successivamente, un Residual Transformer impara a prevedere progressivamente i token del livello successivo basandosi sui risultati del livello corrente. Esperimenti estensivi dimostrano che MoMask supera i metodi all'avanguardia nel compito di generazione testo-movimento, con un FID di 0.045 (rispetto a 0.141 di T2M-GPT) sul dataset HumanML3D e 0.228 (rispetto a 0.514) su KIT-ML, rispettivamente. MoMask può anche essere applicato senza soluzione di continuità in compiti correlati senza ulteriore fine-tuning del modello, come l'inpainting temporale guidato da testo.

DREAM: Modelli ad Attivazione Diffusa e Adattivi alla Stima
DREAM: Diffusion Rectification and Estimation-Adaptive Models

Nov 30

ByJinxin Zhou, Tianyu Ding, Tianyi Chen, Jiachen Jiang, Ilya Zharkov, Zhihui Zhu, Luming Liang

Presentiamo DREAM, un innovativo framework di addestramento che rappresenta i Modelli di Rettifica e Adattamento alla Stima della Diffusione, richiedendo modifiche minime al codice (solo tre righe) e migliorando significativamente l'allineamento tra addestramento e campionamento nei modelli di diffusione. DREAM comprende due componenti: la rettifica della diffusione, che regola l'addestramento per riflettere il processo di campionamento, e l'adattamento alla stima, che bilancia la percezione rispetto alla distorsione. Quando applicato alla super-risoluzione (SR) delle immagini, DREAM gestisce abilmente il compromesso tra la minimizzazione della distorsione e il mantenimento di un'elevata qualità dell'immagine. Gli esperimenti dimostrano la superiorità di DREAM rispetto ai metodi SR basati sulla diffusione standard, mostrando una convergenza dell'addestramento da 2 a 3 volte più veloce e una riduzione da 10 a 20 volte dei passi di campionamento necessari per ottenere risultati comparabili o superiori. Speriamo che DREAM ispiri una rivisitazione dei paradigmi di addestramento dei modelli di diffusione.

Scaffold-GS: Gaussiane 3D Strutturate per il Rendering Adattivo alla Vista
Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Nov 30

ByTao Lu, Mulin Yu, Linning Xu, Yuanbo Xiangli, Limin Wang, Dahua Lin, Bo Dai

I metodi di rendering neurale hanno fatto significativi progressi nel rendering foto-realistico di scene 3D in varie applicazioni accademiche e industriali. Il recente metodo 3D Gaussian Splatting ha raggiunto la massima qualità e velocità di rendering, combinando i vantaggi delle rappresentazioni basate su primitive e delle rappresentazioni volumetriche. Tuttavia, spesso porta a una ridondanza eccessiva di Gaussiane che cercano di adattarsi a ogni vista di addestramento, trascurando la geometria sottostante della scena. Di conseguenza, il modello risultante diventa meno robusto a cambiamenti significativi della vista, aree prive di texture ed effetti di illuminazione. Introduciamo Scaffold-GS, che utilizza punti di ancoraggio per distribuire Gaussiane 3D locali e prevede i loro attributi in tempo reale in base alla direzione di visualizzazione e alla distanza all'interno del frustum visivo. Sono state sviluppate strategie di crescita e potatura degli ancoraggi basate sull'importanza delle Gaussiane neurali per migliorare in modo affidabile la copertura della scena. Dimostriamo che il nostro metodo riduce efficacemente le Gaussiane ridondanti pur fornendo un rendering di alta qualità. Inoltre, mostra una capacità potenziata di adattarsi a scene con diversi livelli di dettaglio e osservazioni dipendenti dalla vista, senza sacrificare la velocità di rendering.

FSGS: Sintesi in Tempo Reale di Viste con Pochi Esempi Utilizzando lo Splatting Gaussiano
FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting

Dec 1

ByZehao Zhu, Zhiwen Fan, Yifan Jiang, Zhangyang Wang

La sintesi di nuove viste a partire da osservazioni limitate rimane un compito importante e persistente. Tuttavia, l'elevata efficienza nelle attuali tecniche di sintesi di viste con poche immagini basate su NeRF è spesso compromessa per ottenere una rappresentazione 3D accurata. Per affrontare questa sfida, proponiamo un framework di sintesi di viste con poche immagini basato su 3D Gaussian Splatting che consente una sintesi di viste in tempo reale e fotorealistica con un minimo di tre viste di addestramento. Il metodo proposto, denominato FSGS, gestisce i punti SfM inizializzati estremamente sparsi con un processo di Gaussian Unpooling progettato con cura. Il nostro metodo distribuisce iterativamente nuove Gaussiane intorno alle posizioni più rappresentative, riempiendo successivamente i dettagli locali nelle aree vuote. Integriamo inoltre un estimatore di profondità monoculare pre-addestrato su larga scala all'interno del processo di ottimizzazione delle Gaussiane, sfruttando viste aumentate online per guidare l'ottimizzazione geometrica verso una soluzione ottimale. Partendo da punti sparsi osservati da viste di input limitate, il nostro FSGS può crescere accuratamente in regioni non viste, coprendo in modo completo la scena e migliorando la qualità di rendering delle nuove viste. Nel complesso, FSGS raggiunge prestazioni all'avanguardia sia in termini di accuratezza che di efficienza di rendering su diversi dataset, tra cui LLFF, Mip-NeRF360 e Blender. Sito web del progetto: https://zehaozhu.github.io/FSGS/.

RLHF-V: Verso MLLM affidabili attraverso l'allineamento comportamentale da feedback umano correttivo granulare
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

Dec 1

ByTianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua

I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno recentemente dimostrato capacità impressionanti nella comprensione, ragionamento e interazione multimodale. Tuttavia, gli MLLM esistenti soffrono prevalentemente di gravi problemi di allucinazione, generando testi che non sono fondati fattualmente nelle immagini associate. Questo problema rende gli MLLM esistenti inaffidabili e quindi impraticabili in applicazioni del mondo reale (soprattutto ad alto rischio). Per affrontare questa sfida, presentiamo RLHF-V, che migliora l'affidabilità degli MLLM attraverso l'allineamento comportamentale basato su feedback correttivi umani granulari. Nello specifico, RLHF-V raccoglie le preferenze umane sotto forma di correzioni a livello di segmento sulle allucinazioni e esegue un'ottimizzazione diretta e densa delle preferenze sul feedback umano. Esperimenti completi su cinque benchmark sia in valutazione automatica che umana mostrano che RLHF-V può abilitare comportamenti MLLM sostanzialmente più affidabili con una promettente efficienza di dati e calcolo. Notevolmente, utilizzando 1.4k campioni di dati annotati, RLHF-V riduce significativamente il tasso di allucinazione del MLLM base del 34.8%, superando il concorrente LLaVA-RLHF addestrato su 10k dati annotati. Il modello finale raggiunge prestazioni all'avanguardia in termini di affidabilità tra gli MLLM open-source e mostra una migliore robustezza rispetto a GPT-4V nel prevenire allucinazioni causate da sovra-generalizzazione. Rendiamo disponibili il nostro codice, modello e dati all'indirizzo https://github.com/RLHF-V/RLHF-V.

Sintesi e Modifica di Volti 3D Guidata da Testo -- Dalla Generazione alla Modifica
Text-Guided 3D Face Synthesis -- From Generation to Editing

Dec 1

ByYunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu

La sintesi di volti 3D guidata da testo ha ottenuto risultati notevoli sfruttando modelli di diffusione testo-immagine (T2I). Tuttavia, la maggior parte dei lavori esistenti si concentra esclusivamente sulla generazione diretta, ignorando l'editing, limitandoli nella sintesi di volti 3D personalizzati attraverso aggiustamenti iterativi. In questo articolo, proponiamo un framework unificato guidato da testo che va dalla generazione all'editing di volti. Nella fase di generazione, proponiamo una generazione decuplicata di geometria e texture per mitigare la perdita di dettagli geometrici causata dall'accoppiamento. Inoltre, la decuplicazione ci consente di utilizzare la geometria generata come condizione per la generazione della texture, ottenendo risultati altamente allineati tra geometria e texture. Utilizziamo inoltre un modello di diffusione della texture fine-tuned per migliorare la qualità della texture sia nello spazio RGB che YUV. Nella fase di editing, impieghiamo prima un modello di diffusione pre-addestrato per aggiornare la geometria o la texture del volto in base ai testi. Per abilitare l'editing sequenziale, introduciamo una regolarizzazione di conservazione della consistenza nel dominio UV, prevenendo cambiamenti involontari agli attributi facciali irrilevanti. Inoltre, proponiamo una strategia di peso di consistenza auto-guidata per migliorare l'efficacia dell'editing preservando la consistenza. Attraverso esperimenti completi, dimostriamo la superiorità del nostro metodo nella sintesi di volti. Pagina del progetto: https://faceg2e.github.io/.

PyNeRF: Campi Neurali Radiance Piramidali
PyNeRF: Pyramidal Neural Radiance Fields

Nov 30

ByHaithem Turki, Michael Zollhöfer, Christian Richardt, Deva Ramanan

I Neural Radiance Fields (NeRFs) possono essere notevolmente accelerati mediante rappresentazioni a griglia spaziale. Tuttavia, non considerano esplicitamente la scala, introducendo così artefatti di aliasing durante la ricostruzione di scene catturate a diverse distanze dalla telecamera. Mip-NeRF e le sue estensioni propongono renderer consapevoli della scala che proiettano frustum volumetrici anziché campioni puntuali, ma tali approcci si basano su codifiche posizionali non facilmente compatibili con i metodi a griglia. Proponiamo una semplice modifica ai modelli basati su griglia addestrando teste del modello a diverse risoluzioni della griglia spaziale. Al momento del rendering, utilizziamo semplicemente griglie più grossolane per renderizzare campioni che coprono volumi più ampi. Il nostro metodo può essere facilmente applicato ai metodi NeRF accelerati esistenti e migliora significativamente la qualità del rendering (riducendo i tassi di errore del 20-90% su scene sintetiche e reali illimitate) con un sovraccarico di prestazioni minimo (poiché ogni testa del modello è veloce da valutare). Rispetto a Mip-NeRF, riduciamo i tassi di errore del 20% addestrando oltre 60 volte più velocemente.

X-Dreamer: Creazione di Contenuti 3D di Alta Qualità Colmando il Divario di Dominio tra Generazione da Testo a 2D e da Testo a 3D
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

Nov 30

ByYiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji

Negli ultimi tempi, la creazione automatica di contenuti da testo a 3D ha compiuto progressi significativi, grazie allo sviluppo di modelli di diffusione 2D pre-addestrati. I metodi esistenti per la conversione da testo a 3D ottimizzano tipicamente la rappresentazione 3D per garantire che l'immagine renderizzata si allinei bene con il testo fornito, come valutato dal modello di diffusione 2D pre-addestrato. Tuttavia, esiste un divario sostanziale tra le immagini 2D e gli asset 3D, attribuibile principalmente alle variazioni negli attributi legati alla fotocamera e alla presenza esclusiva di oggetti in primo piano. Di conseguenza, l'uso diretto di modelli di diffusione 2D per ottimizzare le rappresentazioni 3D può portare a risultati subottimali. Per affrontare questo problema, presentiamo X-Dreamer, un approccio innovativo per la creazione di contenuti da testo a 3D di alta qualità che colma efficacemente il divario tra la sintesi da testo a 2D e da testo a 3D. I componenti chiave di X-Dreamer sono due design innovativi: l'Adattamento a Basso Rango Guidato dalla Fotocamera (CG-LoRA) e la Perdita di Allineamento della Maschera di Attenzione (AMA Loss). CG-LoRA incorpora dinamicamente le informazioni della fotocamera nei modelli di diffusione pre-addestrati utilizzando una generazione dipendente dalla fotocamera per i parametri addestrabili. Questa integrazione migliora l'allineamento tra gli asset 3D generati e la prospettiva della fotocamera. La perdita AMA guida la mappa di attenzione del modello di diffusione pre-addestrato utilizzando la maschera binaria dell'oggetto 3D, dando priorità alla creazione dell'oggetto in primo piano. Questo modulo garantisce che il modello si concentri sulla generazione di oggetti in primo piano accurati e dettagliati. Valutazioni estensive dimostrano l'efficacia del nostro metodo proposto rispetto agli approcci esistenti da testo a 3D. La pagina web del nostro progetto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.

X-Dreamer: Creazione di Contenuti 3D di Alta Qualità Colmando il Divario di Dominio tra Generazione da Testo a 2D e da Testo a 3D
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

Nov 30

ByYiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji