HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

15 papers found

Un'introduzione alla Modellazione Visione-Linguaggio
An Introduction to Vision-Language Modeling

May 27

ByFlorian Bordes, Richard Yuanzhe Pang, Anurag Ajay, Alexander C. Li, Adrien Bardes, Suzanne Petryk, Oscar Mañas, Zhiqiu Lin, Anas Mahmoud, Bargav Jayaraman, Mark Ibrahim, Melissa Hall, Yunyang Xiong, Jonathan Lebensold, Candace Ross, Srihari Jayakumar, Chuan Guo, Diane Bouchacourt, Haider Al-Tahan, Karthik Padthe, Vasu Sharma, Hu Xu, Xiaoqing Ellen Tan, Megan Richards, Samuel Lavoie, Pietro Astolfi, Reyhane Askari Hemmat, Jun Chen, Kushal Tirumala, Rim Assouel, Mazda Moayeri, Arjang Talattof, Kamalika Chaudhuri, Zechun Liu, Xilun Chen, Quentin Garrido, Karen Ullrich, Aishwarya Agrawal, Kate Saenko, Asli Celikyilmaz, Vikas Chandra

In seguito alla recente popolarità dei Large Language Models (LLM), sono stati fatti diversi tentativi per estenderli al dominio visivo. Da un assistente visivo che potrebbe guidarci in ambienti sconosciuti a modelli generativi che producono immagini utilizzando solo una descrizione testuale di alto livello, le applicazioni dei modelli vision-language (VLM) avranno un impatto significativo sul nostro rapporto con la tecnologia. Tuttavia, ci sono molte sfide che devono essere affrontate per migliorare l'affidabilità di questi modelli. Mentre il linguaggio è discreto, la visione si evolve in uno spazio a dimensioni molto più elevate in cui i concetti non possono sempre essere facilmente discretizzati. Per comprendere meglio i meccanismi alla base del mappaggio della visione al linguaggio, presentiamo questa introduzione ai VLM che speriamo possa aiutare chiunque desideri entrare nel campo. Innanzitutto, introduciamo cosa sono i VLM, come funzionano e come addestrarli. Successivamente, presentiamo e discutiamo approcci per valutare i VLM. Sebbene questo lavoro si concentri principalmente sul mappaggio di immagini al linguaggio, discutiamo anche l'estensione dei VLM ai video.

I Transformer Possono Eseguire Operazioni Aritmetiche con gli Embedding Appropriati
Transformers Can Do Arithmetic with the Right Embeddings

May 27

BySean McLeish, Arpit Bansal, Alex Stein, Neel Jain, John Kirchenbauer, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Jonas Geiping, Avi Schwarzschild, Tom Goldstein

Le scarse prestazioni dei transformer nei compiti aritmetici sembrano derivare in gran parte dalla loro incapacità di tenere traccia della posizione esatta di ciascuna cifra all'interno di una lunga sequenza di cifre. Risolviamo questo problema aggiungendo un embedding a ciascuna cifra che codifica la sua posizione relativa all'inizio del numero. Oltre al miglioramento che questi embedding forniscono di per sé, dimostriamo che questa correzione consente modifiche architetturali come l'iniezione di input e l'aggiunta di strati ricorrenti per migliorare ulteriormente le prestazioni. Con le posizioni risolte, possiamo studiare la capacità di estrapolazione logica dei transformer. Riescono a risolvere problemi aritmetici più grandi e complessi rispetto a quelli presenti nei loro dati di addestramento? Scopriamo che, addestrando su numeri di sole 20 cifre con una singola GPU per un giorno, possiamo raggiungere prestazioni all'avanguardia, ottenendo fino al 99% di accuratezza su problemi di addizione con 100 cifre. Infine, dimostriamo che questi guadagni nella capacità numerica sbloccano anche miglioramenti in altri compiti di ragionamento multi-step, inclusi l'ordinamento e la moltiplicazione.

Modelli Multimodali Matrioska
Matryoshka Multimodal Models

May 27

ByMu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee

I grandi modelli multimodali (Large Multimodal Models, LMMs) come LLaVA hanno dimostrato prestazioni solide nel ragionamento visivo-linguistico. Questi modelli prima incorporano le immagini in un numero fisso e ampio di token visivi, per poi alimentarli in un grande modello linguistico (Large Language Model, LLM). Tuttavia, questo design comporta un numero eccessivo di token per scenari visivi densi come immagini ad alta risoluzione e video, portando a una grande inefficienza. Sebbene esistano metodi di pruning/fusione dei token, questi producono un'output di lunghezza singola per ogni immagine e non offrono flessibilità nel bilanciare densità informativa ed efficienza. Ispirati dal concetto delle Matrioske, proponiamo M3: Matryoshka Multimodal Models, che impara a rappresentare il contenuto visivo come insiemi annidati di token visivi che catturano informazioni attraverso molteplici granularità, dal grossolano al fine. Il nostro approccio offre diversi vantaggi unici per gli LMMs: (1) Si può controllare esplicitamente la granularità visiva per ogni istanza di test durante l'inferenza, ad esempio, regolando il numero di token utilizzati per rappresentare un'immagine in base alla complessità o semplicità prevista del contenuto; (2) M3 fornisce un framework per analizzare la granularità necessaria per i dataset esistenti, dove scopriamo che benchmark di tipo COCO necessitano solo di circa ~9 token visivi per ottenere un'accuratezza simile a quella ottenuta utilizzando tutti i 576 token; (3) Il nostro approccio fornisce una base per esplorare il miglior compromesso tra prestazioni e lunghezza dei token visivi a livello di campione, dove la nostra indagine rivela che esiste un ampio divario tra il limite superiore teorico (oracle upper bound) e le rappresentazioni a scala fissa attuali.

Zamba: Un Modello Ibrido SSM Compatto da 7B
Zamba: A Compact 7B SSM Hybrid Model

May 26

ByPaolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge

In questo rapporto tecnico, presentiamo Zamba, un nuovo modello ibrido SSM-transformer da 7B che raggiunge prestazioni competitive rispetto ai principali modelli open-weight di scala comparabile. Zamba è addestrato su 1T di token provenienti da dataset disponibili pubblicamente ed è il miglior modello non-transformer a questa scala. Zamba introduce un'architettura unica che combina un backbone Mamba con un singolo modulo di attenzione condiviso, ottenendo così i vantaggi dell'attenzione a un costo minimo di parametri. Grazie alla sua architettura, Zamba è significativamente più veloce nell'inferenza rispetto ai modelli transformer comparabili e richiede sostanzialmente meno memoria per la generazione di sequenze lunghe. Zamba è preaddestrato in due fasi: la prima fase si basa su dataset web esistenti, mentre la seconda consiste nel ricotturare il modello su dataset di alta qualità di istruzioni e sintetici, ed è caratterizzata da un rapido decadimento del tasso di apprendimento. Rendiamo open-source i pesi e tutti i checkpoint di Zamba, sia per la fase 1 che per le fasi di ricottura.

NV-Embed: Tecniche Avanzate per l'Addestramento di LLM come Modelli di Embedding Generalisti
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

May 27

ByChankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

I modelli di embedding basati su grandi modelli linguistici (LLM) di tipo decoder-only stanno iniziando a superare i modelli di embedding basati su BERT o T5 nelle attività generali di embedding del testo, inclusa la ricerca basata su vettori densi. In questo lavoro, introduciamo il modello NV-Embed con una varietà di design architetturali e procedure di addestramento per migliorare significativamente le prestazioni degli LLM come modelli di embedding versatili, mantenendo al contempo la loro semplicità e riproducibilità. Per l'architettura del modello, proponiamo un livello di attenzione latente per ottenere embedding aggregati, che migliora costantemente l'accuratezza nella ricerca e nelle attività downstream rispetto al pooling medio o all'uso dell'embedding del token <EOS> finale degli LLM. Per migliorare l'apprendimento delle rappresentazioni, rimuoviamo la maschera di attenzione causale degli LLM durante l'addestramento contrastivo. Per l'addestramento del modello, introduciamo un metodo di instruction-tuning contrastivo in due fasi. Nella prima fase, si applica l'addestramento contrastivo con istruzioni su dataset di ricerca, utilizzando negativi in-batch ed esempi negativi difficili selezionati. Nella seconda fase, si integrano vari dataset non di ricerca nell'instruction tuning, il che non solo migliora l'accuratezza nelle attività non di ricerca, ma anche le prestazioni nella ricerca. Combinando queste tecniche, il nostro modello NV-Embed, utilizzando solo dati pubblicamente disponibili, ha raggiunto un punteggio record di 69.32, classificandosi al primo posto nel Massive Text Embedding Benchmark (MTEB) (al 24 maggio 2024), con 56 attività che includono ricerca, riordinamento, classificazione, clustering e attività di similarità semantica testuale. In particolare, il nostro modello ottiene anche il punteggio più alto di 59.36 su 15 attività di ricerca nel benchmark MTEB (noto anche come BEIR). Renderemo il modello open-source all'indirizzo: https://huggingface.co/nvidia/NV-Embed-v1.

I2VEdit: Modifica Video Guidata dal Primo Fotogramma tramite Modelli di Diffusione da Immagine a Video
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models

May 26

ByWenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan

Le straordinarie capacità generative dei modelli di diffusione hanno stimolato un'ampia ricerca sia nel campo dell'editing di immagini che di video. Rispetto all'editing video, che deve affrontare ulteriori sfide nella dimensione temporale, l'editing di immagini ha visto lo sviluppo di approcci più diversificati e di alta qualità, nonché software più avanzati come Photoshop. Alla luce di questo divario, introduciamo una soluzione innovativa e generica che estende l'applicabilità degli strumenti di editing di immagini ai video, propagando le modifiche da un singolo fotogramma all'intero video utilizzando un modello pre-addestrato da immagine a video. Il nostro metodo, denominato I2VEdit, preserva in modo adattivo l'integrità visiva e del movimento del video sorgente in base all'entità delle modifiche, gestendo efficacemente modifiche globali, locali e moderati cambiamenti di forma, che i metodi esistenti non riescono a ottenere completamente. Al centro del nostro metodo ci sono due processi principali: l'Estrazione del Movimento Approssimativo per allineare i modelli di movimento di base con il video originale, e il Raffinamento dell'Aspetto per aggiustamenti precisi utilizzando il matching dell'attenzione a grana fine. Incorporiamo inoltre una strategia di intervallo saltato per mitigare il degrado della qualità derivante dalla generazione auto-regressiva su più clip video. I risultati sperimentali dimostrano la performance superiore del nostro framework nell'editing video di precisione, provando la sua capacità di produrre output di alta qualità e temporalmente coerenti.

Human4DiT: Generazione di Video Umani in Vista Libera con Trasformatore a Diffusione 4D
Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

May 27

ByRuizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu

Presentiamo un approccio innovativo per generare video umani di alta qualità, coerenti spazialmente e temporalmente, a partire da una singola immagine e sotto punti di vista arbitrari. Il nostro framework combina i punti di forza delle U-Net per l'iniezione precisa di condizioni e dei transformer diffusivi per catturare correlazioni globali tra punti di vista e tempo. Il cuore del sistema è un'architettura a transformer 4D a cascata che fattorizza l'attenzione tra viste, tempo e dimensioni spaziali, consentendo una modellazione efficiente dello spazio 4D. Il condizionamento preciso è ottenuto iniettando l'identità umana, i parametri della camera e i segnali temporali nei rispettivi transformer. Per addestrare questo modello, abbiamo curato un dataset multidimensionale che comprende immagini, video, dati multi-vista e scansioni 3D/4D, insieme a una strategia di addestramento multidimensionale. Il nostro approccio supera i limiti dei metodi precedenti basati su GAN o modelli diffusivi UNet, che faticano a gestire movimenti complessi e cambiamenti di punto di vista. Attraverso esperimenti estensivi, dimostriamo la capacità del nostro metodo di sintetizzare video umani realistici, coerenti e a vista libera, aprendo la strada a applicazioni multimediali avanzate in aree come la realtà virtuale e l'animazione. Il sito web del nostro progetto è https://human4dit.github.io.

Trans-LoRA: verso un fine-tuning efficiente e trasferibile dei parametri senza dati
Trans-LoRA: towards data-free Transferable Parameter Efficient Finetuning

May 27

ByRunqian Wang, Soumya Ghosh, David Cox, Diego Antognini, Aude Oliva, Rogerio Feris, Leonid Karlinsky

Gli adattatori a basso rango (LoRA) e le loro varianti sono tecniche popolari di fine-tuning efficiente in termini di parametri (PEFT) che si avvicinano alle prestazioni del fine-tuning completo del modello, richiedendo solo un numero ridotto di parametri aggiuntivi. Questi parametri LoRA aggiuntivi sono specifici per il modello di base adattato. Quando il modello di base deve essere deprecato e sostituito con uno nuovo, tutti i moduli LoRA associati devono essere ri-addestrati. Tale ri-addestramento richiede l'accesso ai dati utilizzati per addestrare il LoRA per il modello di base originale. Ciò è particolarmente problematico per le applicazioni cloud commerciali in cui i moduli LoRA e i modelli di base sono ospitati da fornitori di servizi che potrebbero non essere autorizzati a ospitare dati proprietari dei clienti. Per affrontare questa sfida, proponiamo Trans-LoRA — un metodo innovativo per il trasferimento senza perdite e quasi privo di dati dei LoRA tra modelli di base. Il nostro approccio si basa su dati sintetici per trasferire i moduli LoRA. Utilizzando modelli linguistici di grandi dimensioni, progettiamo un generatore di dati sintetici per approssimare il processo di generazione dei dati del sottoinsieme di dati osservati. L'addestramento sul dataset sintetico risultante trasferisce i moduli LoRA a nuovi modelli. Dimostriamo l'efficacia del nostro approccio utilizzando sia le famiglie di modelli LLama che Gemma. Il nostro approccio raggiunge un trasferimento LoRA senza perdite (per lo più migliorato) tra modelli all'interno e tra diverse famiglie di modelli di base, e persino tra diversi metodi PEFT, su una vasta gamma di task.

Guardando Indietro: Traduzione Video-to-Video in Streaming con Banche di Funzionalità
Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24

ByFeng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu

Questo articolo introduce StreamV2V, un modello di diffusione che realizza la traduzione video-to-video (V2V) in tempo reale con prompt utente. A differenza dei precedenti metodi V2V che utilizzano batch per elaborare un numero limitato di frame, abbiamo scelto di elaborare i frame in modalità streaming, per supportare un numero illimitato di frame. Al centro di StreamV2V risiede un principio retrospettivo che collega il presente al passato. Questo è realizzato mantenendo una banca delle feature, che archivia informazioni dai frame passati. Per i frame in arrivo, StreamV2V estende l'auto-attenzione per includere chiavi e valori archiviati e fonde direttamente feature simili del passato nell'output. La banca delle feature viene continuamente aggiornata unendo feature memorizzate e nuove, rendendola compatta ma informativa. StreamV2V si distingue per la sua adattabilità ed efficienza, integrandosi perfettamente con i modelli di diffusione di immagini senza necessità di fine-tuning. Può eseguire 20 FPS su una GPU A100, essendo rispettivamente 15x, 46x, 108x e 158x più veloce di FlowVid, CoDeF, Rerender e TokenFlow. Metriche quantitative e studi sugli utenti confermano l'eccezionale capacità di StreamV2V nel mantenere la coerenza temporale.

Vidu4D: Da un singolo video generato alla ricostruzione 4D ad alta fedeltà con Surfels Gaussiani Dinamici
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

May 27

ByYikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu

I modelli generativi video stanno ricevendo particolare attenzione grazie alla loro capacità di generare frame realistici e immaginativi. Inoltre, si osserva che questi modelli mostrano una forte coerenza 3D, migliorando significativamente il loro potenziale come simulatori di mondi. In questo lavoro, presentiamo Vidu4D, un innovativo modello di ricostruzione che eccelle nel ricostruire accuratamente rappresentazioni 4D (cioè sequenze 3D) da singoli video generati, affrontando le sfide associate alla non rigidità e alla distorsione dei frame. Questa capacità è fondamentale per creare contenuti virtuali ad alta fedeltà che mantengano coerenza sia spaziale che temporale. Al cuore di Vidu4D si trova la nostra tecnica proposta, i Dynamic Gaussian Surfels (DGS). I DGS ottimizzano funzioni di deformazione variabili nel tempo per trasformare i Gaussian surfels (elementi di superficie) da uno stato statico a uno stato deformato dinamicamente. Questa trasformazione consente una rappresentazione precisa del movimento e della deformazione nel tempo. Per preservare l'integrità strutturale dei Gaussian surfels allineati alla superficie, progettiamo una regolarizzazione geometrica dello stato deformato basata su campi di deformazione continui per stimare le normali. Inoltre, apprendiamo perfezionamenti sui parametri di rotazione e scalatura dei Gaussian surfels, che alleviano notevolmente lo sfarfallio della texture durante il processo di deformazione e migliorano la cattura dei dettagli fini dell'aspetto. Vidu4D include anche uno stato di inizializzazione innovativo che fornisce un punto di partenza adeguato per i campi di deformazione nei DGS. Dotando Vidu4D di un modello generativo video esistente, il framework complessivo dimostra una generazione testo-a-4D ad alta fedeltà sia nell'aspetto che nella geometria.

Diffusione Video Collaborativa: Generazione Multi-video Coerente con Controllo della Fotocamera
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

May 27

ByZhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein

La ricerca sulla generazione di video ha recentemente compiuto progressi significativi, consentendo la creazione di video di alta qualità a partire da prompt testuali o immagini. Aggiungere controllo al processo di generazione video è un obiettivo importante per il futuro, e recenti approcci che condizionano i modelli di generazione video su traiettorie della fotocamera stanno facendo passi avanti in questa direzione. Tuttavia, rimane una sfida generare un video della stessa scena da diverse traiettorie della fotocamera. Soluzioni a questo problema di generazione multi-video potrebbero abilitare la creazione su larga scala di scene 3D con traiettorie della fotocamera modificabili, tra altre applicazioni. Introduciamo la Collaborative Video Diffusion (CVD) come un passo importante verso questa visione. Il framework CVD include un nuovo modulo di sincronizzazione cross-video che promuove la coerenza tra i frame corrispondenti dello stesso video resi da diverse pose della fotocamera utilizzando un meccanismo di attenzione epipolare. Addestrato su un modulo di controllo della fotocamera all'avanguardia per la generazione video, CVD genera più video resi da diverse traiettorie della fotocamera con una coerenza significativamente migliore rispetto ai baselines, come dimostrato in esperimenti estensivi. Pagina del progetto: https://collaborativevideodiffusion.github.io/.

Part123: Ricostruzione 3D con consapevolezza delle parti da un'immagine a singola vista
Part123: Part-aware 3D Reconstruction from a Single-view Image

May 27

ByAnran Liu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Zhiyang Dou, Hao-Xiang Guo, Ping Luo, Wenping Wang

Recentemente, l'emergere dei modelli di diffusione ha aperto nuove opportunità per la ricostruzione da singola vista. Tuttavia, tutti i metodi esistenti rappresentano l'oggetto target come una mesh chiusa priva di qualsiasi informazione strutturale, trascurando così la struttura basata su parti, che è cruciale per molte applicazioni downstream, della forma ricostruita. Inoltre, le mesh generate soffrono solitamente di rumore elevato, superfici non lisce e texture sfocate, rendendo difficile ottenere segmentazioni delle parti soddisfacenti utilizzando tecniche di segmentazione 3D. In questo articolo, presentiamo Part123, un nuovo framework per la ricostruzione 3D consapevole delle parti da un'immagine a singola vista. Utilizziamo prima i modelli di diffusione per generare immagini multivista coerenti da una data immagine, e poi sfruttiamo il Segment Anything Model (SAM), che dimostra una potente capacità di generalizzazione su oggetti arbitrari, per generare maschere di segmentazione multivista. Per incorporare efficacemente le informazioni basate su parti 2D nella ricostruzione 3D e gestire le incoerenze, introduciamo il contrastive learning in un framework di rendering neurale per apprendere uno spazio di caratteristiche consapevole delle parti basato sulle maschere di segmentazione multivista. È stato anche sviluppato un algoritmo basato sul clustering per derivare automaticamente i risultati della segmentazione 3D delle parti dai modelli ricostruiti. Gli esperimenti dimostrano che il nostro metodo può generare modelli 3D con parti segmentate di alta qualità su vari oggetti. Rispetto ai metodi di ricostruzione non strutturati esistenti, i modelli 3D consapevoli delle parti del nostro metodo beneficiano alcune importanti applicazioni, tra cui la ricostruzione che preserva le caratteristiche, il fitting di primitive e l'editing di forme 3D.

Distillazione EM per Modelli di Diffusione a Singolo Passo
EM Distillation for One-step Diffusion Models

May 27

BySirui Xie, Zhisheng Xiao, Diederik P Kingma, Tingbo Hou, Ying Nian Wu, Kevin Patrick Murphy, Tim Salimans, Ben Poole, Ruiqi Gao

Sebbene i modelli di diffusione possano apprendere distribuzioni complesse, il campionamento richiede un processo iterativo computazionalmente costoso. I metodi di distillazione esistenti consentono un campionamento efficiente, ma presentano limitazioni significative, come il degrado delle prestazioni con un numero molto ridotto di passaggi di campionamento, la dipendenza dall'accesso ai dati di training o l'ottimizzazione orientata alla modalità che potrebbe non catturare l'intera distribuzione. Proponiamo EM Distillation (EMD), un approccio basato sulla massima verosimiglianza che distilla un modello di diffusione in un modello generatore a un solo passaggio con una perdita minima della qualità percettiva. Il nostro approccio è derivato attraverso la lente di Expectation-Maximization (EM), in cui i parametri del generatore vengono aggiornati utilizzando campioni dalla distribuzione congiunta del modello di diffusione insegnante e dei latenti inferiti del generatore. Sviluppiamo uno schema di campionamento riparametrizzato e una tecnica di cancellazione del rumore che insieme stabilizzano il processo di distillazione. Inoltre, riveliamo un'interessante connessione del nostro metodo con i metodi esistenti che minimizzano la KL orientata alla modalità. EMD supera i metodi generativi a un solo passaggio esistenti in termini di punteggi FID su ImageNet-64 e ImageNet-128, e si confronta favorevolmente con il lavoro precedente sulla distillazione di modelli di diffusione testo-immagine.

LoGAH: Previsione di Trasformatori da 774 Milioni di Parametri utilizzando Iperreti Grafiche con 1/100 dei Parametri
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters

May 25

ByXinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu

Un buon inizializzazione dei modelli di deep learning è essenziale poiché può aiutarli a convergere meglio e più velocemente. Tuttavia, il pretraining di modelli di grandi dimensioni è proibitivo per molti ricercatori, rendendo più necessaria al giorno d'oggi una previsione accurata dei parametri iniziali. Le Graph HyperNetworks (GHN), un approccio per la previsione dei parametri dei modelli, hanno recentemente dimostrato prestazioni solide nell'inizializzazione di grandi modelli di visione. Sfortunatamente, la previsione dei parametri di reti molto ampie si basa sulla copia di piccoli blocchi di parametri più volte e richiede un numero estremamente elevato di parametri per supportare una previsione completa, il che ostacola notevolmente la sua adozione nella pratica. Per affrontare questa limitazione, proponiamo LoGAH (Low-rank GrAph Hypernetworks), una GHN con un decoder di parametri a basso rango che si espande a reti significativamente più ampie senza richiedere un aumento eccessivo dei parametri come nei tentativi precedenti. LoGAH ci consente di prevedere i parametri di reti neurali di 774 milioni di parametri in modo efficiente in termini di memoria. Mostriamo che i modelli di visione e linguaggio (ad esempio, ViT e GPT-2) inizializzati con LoGAH raggiungono prestazioni migliori rispetto a quelli inizializzati casualmente o utilizzando hypernetwork esistenti. Inoltre, mostriamo risultati promettenti nel transfer learning riguardo all'addestramento di LoGAH su piccoli dataset e all'uso dei parametri previsti per inizializzare task più grandi. Forniamo i codici su https://github.com/Blackzxy/LoGAH.

La crescita avida abilita modelli di diffusione basati su pixel ad alta risoluzione.
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27

ByCristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang

Affrontiamo il problema di lunga data di come apprendere modelli di diffusione di immagini basati su pixel su larga scala, introducendo un metodo di crescita avida notevolmente semplice per l'addestramento stabile di modelli su larga scala e ad alta risoluzione, senza la necessità di componenti a cascata per la super-risoluzione. L'intuizione chiave deriva da un'attenta pre-addestramento dei componenti principali, ovvero quelli responsabili dell'allineamento testo-immagine {\it vs.} il rendering ad alta risoluzione. Dimostriamo innanzitutto i vantaggi di scalare una {\it Shallow UNet}, priva di encoder(decoder) di down(up)-sampling. La scalabilità dei suoi strati profondi centrali migliora l'allineamento, la struttura degli oggetti e la composizione. Basandoci su questo modello centrale, proponiamo un algoritmo avido che espande l'architettura in modelli end-to-end ad alta risoluzione, preservando l'integrità della rappresentazione pre-addestrata, stabilizzando l'addestramento e riducendo la necessità di grandi dataset ad alta risoluzione. Ciò consente un modello a singolo stadio in grado di generare immagini ad alta risoluzione senza la necessità di una cascata di super-risoluzione. I nostri risultati chiave si basano su dataset pubblici e dimostrano che siamo in grado di addestrare modelli non a cascata fino a 8 miliardi di parametri senza ulteriori schemi di regolarizzazione. Vermeer, il nostro modello completo addestrato con dataset interni per produrre immagini 1024x1024, senza cascate, è preferito dal 44,0% contro il 21,4% dei valutatori umani rispetto a SDXL.

NV-Embed: Tecniche Avanzate per l'Addestramento di LLM come Modelli di Embedding Generalisti
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

May 27

ByChankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping