HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

19 papers found

TinyGPT-V: Modello Linguistico Multimodale di Grandi Dimensioni Efficiente tramite Architetture di Piccole Dimensioni
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Dec 28

ByZhengqing Yuan, Zhaoxu Li, Lichao Sun

Nell'era dell'apprendimento multimodale avanzato, i modelli linguistici multimodali di grandi dimensioni (MLLMs) come GPT-4V hanno compiuto progressi significativi nel collegare elementi linguistici e visivi. Tuttavia, la natura closed-source e la considerevole richiesta computazionale presentano sfide notevoli per un utilizzo e una modifica universali. È qui che entrano in gioco MLLMs open-source come LLaVA e MiniGPT-4, che presentano risultati rivoluzionari in vari compiti. Nonostante questi successi, l'efficienza computazionale rimane un problema irrisolto, poiché questi modelli, come LLaVA-v1.5-13B, richiedono risorse sostanziali. Affrontando queste problematiche, introduciamo TinyGPT-V, un modello di nuova generazione che unisce prestazioni impressionanti a una capacità computazionale comune. Si distingue per richiedere solo una GPU da 24G per l'addestramento e una GPU da 8G o una CPU per l'inferenza. Basato su Phi-2, TinyGPT-V combina un efficace backbone linguistico con moduli visivi pre-addestrati da BLIP-2 o CLIP. I 2,8 miliardi di parametri di TinyGPT-V possono subire un processo di quantizzazione unico, adatto per il deployment locale e compiti di inferenza su vari dispositivi con 8G di memoria. Il nostro lavoro promuove ulteriori sviluppi nella progettazione di MLLMs economici, efficienti e ad alte prestazioni, ampliandone l'applicabilità in un'ampia gamma di scenari reali. Inoltre, questo articolo propone un nuovo paradigma di Modelli Linguistici Multimodali di Grandi Dimensioni attraverso backbone di piccole dimensioni. Il nostro codice e i pesi di addestramento sono disponibili su: https://github.com/DLYuanGod/TinyGPT-V e https://huggingface.co/Tyrannosaurus/TinyGPT-V rispettivamente.

Unified-IO 2: Scalabilità di Modelli Autoregressivi Multimodali con Visione, Linguaggio, Audio e Azione
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

Dec 28

ByJiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi

Presentiamo Unified-IO 2, il primo modello multimodale autoregressivo in grado di comprendere e generare immagini, testo, audio e azioni. Per unificare le diverse modalità, tokenizziamo input e output — immagini, testo, audio, azioni, bounding box, ecc. — in uno spazio semantico condiviso e li elaboriamo con un unico modello trasformatore encoder-decoder. Poiché l'addestramento con modalità così diverse è impegnativo, proponiamo vari miglioramenti architetturali per stabilizzare il training del modello. Addestriamo il nostro modello da zero su un ampio corpus di pre-training multimodale proveniente da fonti diverse, utilizzando un obiettivo multimodale di miscela di denoiser. Per apprendere un vasto insieme di competenze, come seguire istruzioni multimodali, costruiamo e ottimizziamo su un insieme di 120 dataset con prompt e aumentazioni. Con un unico modello unificato, Unified-IO 2 raggiunge prestazioni all'avanguardia nel benchmark GRIT e risultati solidi in oltre 35 benchmark, tra cui generazione e comprensione di immagini, comprensione del linguaggio naturale, comprensione di video e audio, e manipolazione robotica. Rilasciamo tutti i nostri modelli alla comunità di ricerca.

Generative AI per la Matematica: Parte I -- MathPile: Un Corpus di Pretraining su Scala di Miliardi di Token per la Matematica
Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Dec 28

ByZengzhi Wang, Rui Xia, Pengfei Liu

Corpus di alta qualità e su larga scala sono la pietra angolare per la costruzione di modelli di base. In questo lavoro, presentiamo MathPile, un corpus diversificato e di alta qualità incentrato sulla matematica, composto da circa 9,5 miliardi di token. Durante la sua creazione, abbiamo aderito al principio del "meno è più", credendo fermamente nella supremazia della qualità dei dati rispetto alla quantità, anche nella fase di pre-addestramento. I nostri meticolosi sforzi di raccolta e elaborazione dei dati hanno incluso una complessa serie di operazioni di pre-elaborazione, pre-filtraggio, identificazione della lingua, pulizia, filtraggio e deduplicazione, garantendo l'alta qualità del nostro corpus. Inoltre, abbiamo eseguito il rilevamento della contaminazione dei dati sui set di test di benchmark a valle per eliminare i duplicati. Speriamo che il nostro MathPile possa contribuire a migliorare le capacità di ragionamento matematico dei modelli linguistici. Pianifichiamo di rendere open-source diverse versioni di \mathpile insieme agli script utilizzati per l'elaborazione, per facilitare i futuri sviluppi in questo campo.

MobileVLM: Un Assistente Visivo-Linguistico Veloce, Riproducibile e Potente per Dispositivi Mobili
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices

Dec 28

ByXiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen

Presentiamo MobileVLM, un modello multimodale visione-linguaggio (MMVLM) competente progettato per funzionare su dispositivi mobili. Si tratta di un'amalgama di una vasta gamma di design architetturali e tecniche orientate al mobile, che comprende un insieme di modelli linguistici con una scala di 1,4 miliardi e 2,7 miliardi di parametri, addestrati da zero, un modello di visione multimodale pre-addestrato nello stile CLIP, e un'interazione cross-modalità tramite un proiettore efficiente. Valutiamo MobileVLM su diversi benchmark tipici per VLM. I nostri modelli dimostrano prestazioni paragonabili a quelle di alcuni modelli molto più grandi. Ancora più importante, misuriamo la velocità di inferenza sia su una CPU Qualcomm Snapdragon 888 che su una GPU NVIDIA Jetson Orin, ottenendo prestazioni all'avanguardia rispettivamente di 21,5 token e 65,3 token al secondo. Il nostro codice sarà reso disponibile all'indirizzo: https://github.com/Meituan-AutoML/MobileVLM.

Segmentazione Universale delle Immagini Non Supervisionata
Unsupervised Universal Image Segmentation

Dec 28

ByDantong Niu, Xudong Wang, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell

Diversi approcci di segmentazione delle immagini non supervisionata sono stati proposti, eliminando la necessità di maschere di segmentazione annotate manualmente in modo denso; i modelli attuali gestiscono separatamente la segmentazione semantica (ad esempio, STEGO) o la segmentazione di istanze agnostica rispetto alle classi (ad esempio, CutLER), ma non entrambe (cioè, la segmentazione panottica). Proponiamo un modello di Segmentazione Universale Non Supervisionata (U2Seg) in grado di eseguire varie attività di segmentazione delle immagini — istanza, semantica e panottica — utilizzando un nuovo framework unificato. U2Seg genera etichette semantiche pseudo per queste attività di segmentazione sfruttando modelli auto-supervisionati seguiti da clustering; ogni cluster rappresenta diverse appartenenze semantiche e/o di istanza dei pixel. Successivamente, addestriamo il modello su queste etichette semantiche pseudo, ottenendo miglioramenti significativi rispetto a metodi specializzati per ciascun compito: un incremento di +2.6 AP^{box} rispetto a CutLER nella segmentazione di istanze non supervisionata su COCO e un aumento di +7.0 PixelAcc (rispetto a STEGO) nella segmentazione semantica non supervisionata su COCOStuff. Inoltre, il nostro metodo stabilisce un nuovo riferimento per la segmentazione panottica non supervisionata, che non era stata precedentemente esplorata. U2Seg è anche un forte modello preaddestrato per la segmentazione con pochi esempi, superando CutLER di +5.0 AP^{mask} quando addestrato in un regime di dati limitati, ad esempio solo l'1% delle etichette di COCO. Speriamo che il nostro metodo semplice ma efficace possa ispirare ulteriori ricerche sulla segmentazione universale delle immagini non supervisionata.

DreamGaussian4D: Generazione 4D con Splatting Gaussiano
DreamGaussian4D: Generative 4D Gaussian Splatting

Dec 28

ByJiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, Ziwei Liu

Recentemente sono stati compiuti progressi significativi nella generazione di contenuti 4D. Tuttavia, i metodi esistenti presentano tempi di ottimizzazione prolungati, una scarsa controllabilità del movimento e un basso livello di dettaglio. In questo articolo, introduciamo DreamGaussian4D, un framework efficiente per la generazione 4D basato sulla rappresentazione 4D Gaussian Splatting. La nostra intuizione chiave è che la modellazione esplicita delle trasformazioni spaziali nel Gaussian Splatting lo rende più adatto al contesto della generazione 4D rispetto alle rappresentazioni implicite. DreamGaussian4D riduce il tempo di ottimizzazione da diverse ore a pochi minuti, consente un controllo flessibile del movimento 3D generato e produce mesh animate che possono essere renderizzate in modo efficiente nei motori 3D.

DL3DV-10K: Un ampio dataset di scene per la visione 3D basata su deep learning
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Dec 26

ByLu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera

Abbiamo assistito a progressi significativi nella visione 3D basata sul deep learning, che spaziano dall'apprendimento della rappresentazione 3D basata su campi di radianza neurale (NeRF) alle applicazioni nella sintesi di nuove viste (NVS). Tuttavia, i dataset esistenti a livello di scena per la visione 3D basata sul deep learning, limitati a ambienti sintetici o a una ristretta selezione di scene del mondo reale, sono piuttosto insufficienti. Questa insufficienza non solo ostacola una valutazione completa dei metodi esistenti, ma limita anche ciò che potrebbe essere esplorato nell'analisi 3D basata sul deep learning. Per colmare questa lacuna critica, presentiamo DL3DV-10K, un dataset di scene su larga scala, che comprende 51,2 milioni di frame da 10.510 video catturati da 65 tipi di luoghi di interesse (POI), coprendo sia scene delimitate che illimitate, con diversi livelli di riflessione, trasparenza e illuminazione. Abbiamo condotto una valutazione completa dei recenti metodi NVS su DL3DV-10K, che ha rivelato intuizioni preziose per la ricerca futura in NVS. Inoltre, abbiamo ottenuto risultati incoraggianti in uno studio pilota per apprendere NeRF generalizzabile da DL3DV-10K, che dimostra la necessità di un dataset di scene su larga scala per tracciare un percorso verso un modello di base per l'apprendimento della rappresentazione 3D. Il nostro dataset DL3DV-10K, i risultati delle valutazioni e i modelli saranno accessibili pubblicamente all'indirizzo https://dl3dv-10k.github.io/DL3DV-10K/.

City-on-Web: Rendering Neurale in Tempo Reale di Scene su Grande Scala sul Web
City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web

Dec 27

ByKaiwen Song, Juyong Zhang

NeRF ha compiuto progressi significativi nella ricostruzione di scene 3D, catturando dettagli intricati in vari ambienti. I metodi esistenti hanno sfruttato con successo la "radiance field baking" per facilitare il rendering in tempo reale di scene di piccole dimensioni. Tuttavia, quando applicati a scene su larga scala, queste tecniche incontrano sfide significative, lottando per fornire un'esperienza in tempo reale senza interruzioni a causa delle risorse limitate in termini di calcolo, memoria e larghezza di banda. In questo articolo, proponiamo City-on-Web, che rappresenta l'intera scena suddividendola in blocchi gestibili, ciascuno con il proprio livello di dettaglio (Level-of-Detail), garantendo alta fedeltà, gestione efficiente della memoria e rendering veloce. Nel frattempo, progettiamo attentamente il processo di addestramento e inferenza in modo che il risultato finale del rendering sul web sia coerente con l'addestramento. Grazie alla nostra rappresentazione innovativa e al processo di addestramento/inferenza attentamente progettato, siamo i primi a ottenere il rendering in tempo reale di scene su larga scala in ambienti con risorse limitate. I risultati sperimentali estesi dimostrano che il nostro metodo facilita il rendering in tempo reale di scene su larga scala su una piattaforma web, raggiungendo 32 FPS a una risoluzione di 1080P con una GPU RTX 3060, ottenendo contemporaneamente una qualità che rivaleggia da vicino con quella dei metodi all'avanguardia. Pagina del progetto: https://ustc3dv.github.io/City-on-Web/

I2V-Adapter: Un Adattatore Generale da Immagine a Video per Modelli di Diffusione Video
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models

Dec 27

ByXun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang

Nel dominio in rapida evoluzione della generazione di contenuti digitali, l'attenzione si è spostata dai modelli testo-immagine (T2I) verso modelli di diffusione video più avanzati, in particolare testo-video (T2V) e immagine-video (I2V). Questo articolo affronta la complessa sfida posta da I2V: convertire immagini statiche in sequenze video dinamiche e realistiche preservando la fedeltà dell'immagine originale. I metodi tradizionali prevedono tipicamente l'integrazione dell'intera immagine nei processi di diffusione o l'uso di encoder pre-addestrati per l'attenzione incrociata. Tuttavia, questi approcci spesso richiedono di alterare i pesi fondamentali dei modelli T2I, limitandone così la riutilizzabilità. Introduciamo una soluzione innovativa, denominata I2V-Adapter, progettata per superare tali limitazioni. Il nostro approccio preserva l'integrità strutturale dei modelli T2I e i loro moduli di movimento intrinseci. L'I2V-Adapter opera elaborando i frame video rumorosi in parallelo con l'immagine di input, utilizzando un modulo adattatore leggero. Questo modulo funge da ponte, collegando in modo efficiente l'input al meccanismo di auto-attenzione del modello, mantenendo così i dettagli spaziali senza richiedere modifiche strutturali al modello T2I. Inoltre, I2V-Adapter richiede solo una frazione dei parametri dei modelli convenzionali e garantisce la compatibilità con i modelli T2I e gli strumenti di controllo esistenti guidati dalla comunità. I nostri risultati sperimentali dimostrano la capacità di I2V-Adapter di produrre output video di alta qualità. Questa performance, unita alla sua versatilità e al ridotto bisogno di parametri addestrabili, rappresenta un progresso significativo nel campo della generazione video guidata dall'IA, in particolare per applicazioni creative.

Splatting di Caratteristiche Gaussiane nello Spaziotempo per la Sintesi Dinamica di Viste in Tempo Reale
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis

Dec 28

ByZhan Li, Zhang Chen, Zhong Li, Yi Xu

La sintesi di nuove viste di scene dinamiche è un problema affascinante ma impegnativo. Nonostante i recenti progressi, raggiungere simultaneamente risultati fotorealistici ad alta risoluzione, rendering in tempo reale e archiviazione compatta rimane un compito formidabile. Per affrontare queste sfide, proponiamo lo Spacetime Gaussian Feature Splatting come una nuova rappresentazione di scene dinamiche, composta da tre componenti fondamentali. Innanzitutto, formuliamo Spacetime Gaussians espressivi potenziando i Gaussiani 3D con opacità temporale e movimento/rotazione parametrica. Ciò consente agli Spacetime Gaussians di catturare contenuti statici, dinamici e transitori all'interno di una scena. In secondo luogo, introduciamo il rendering di feature splattate, che sostituisce le armoniche sferiche con feature neurali. Queste feature facilitano la modellazione dell'aspetto dipendente dalla vista e dal tempo mantenendo dimensioni ridotte. Terzo, sfruttiamo la guida dell'errore di addestramento e della profondità approssimata per campionare nuovi Gaussiani nelle aree che sono difficili da convergere con le pipeline esistenti. Esperimenti su diversi dataset reali consolidati dimostrano che il nostro metodo raggiunge una qualità e una velocità di rendering all'avanguardia, mantenendo un'archiviazione compatta. A una risoluzione di 8K, la nostra versione leggera del modello può eseguire il rendering a 60 FPS su una GPU Nvidia RTX 4090.

InsActor: Personaggi basati sulla fisica guidati da istruzioni
InsActor: Instruction-driven Physics-based Characters

Dec 28

ByJiawei Ren, Mingyuan Zhang, Cunjun Yu, Xiao Ma, Liang Pan, Ziwei Liu

La generazione di animazioni per personaggi basati sulla fisica con un controllo intuitivo è da tempo un obiettivo desiderabile con numerose applicazioni. Tuttavia, generare animazioni simulate fisicamente che riflettano istruzioni umane di alto livello rimane un problema complesso a causa della complessità degli ambienti fisici e della ricchezza del linguaggio umano. In questo articolo, presentiamo InsActor, un framework generativo basato su principi che sfrutta i recenti progressi nei modelli di movimento umano basati sulla diffusione per produrre animazioni guidate da istruzioni per personaggi basati sulla fisica. Il nostro framework consente a InsActor di catturare relazioni complesse tra istruzioni umane di alto livello e movimenti dei personaggi, impiegando politiche di diffusione per una pianificazione del movimento flessibilmente condizionata. Per superare stati non validi e transizioni di stato non fattibili nei movimenti pianificati, InsActor scopre abilità di basso livello e mappa i piani in sequenze di abilità latenti in uno spazio latente compatto. Esperimenti estesi dimostrano che InsActor raggiunge risultati all'avanguardia in vari compiti, tra cui la generazione di movimenti guidati da istruzioni e il raggiungimento di waypoint guidati da istruzioni. In particolare, la capacità di InsActor di generare animazioni simulate fisicamente utilizzando istruzioni umane di alto livello lo rende uno strumento prezioso, specialmente nell'esecuzione di compiti a lungo termine con un ricco insieme di istruzioni.

Il Chirurgo LLM
The LLM Surgeon

Dec 28

ByTycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort

I modelli linguistici all'avanguardia stanno diventando sempre più grandi nel tentativo di ottenere le massime prestazioni su ampi corpora di dati testuali disponibili. Tuttavia, le dimensioni considerevoli delle architetture Transformer rendono difficile il deployment dei modelli entro vincoli computazionali, ambientali o specifici del dispositivo. Esploriamo la compressione guidata dai dati di modelli pre-addestrati esistenti come alternativa all'addestramento di modelli più piccoli da zero. A tal fine, scaliamo approssimazioni della curvatura fattorizzata di Kronecker del paesaggio della funzione di perdita target per i grandi modelli linguistici. In questo modo, possiamo calcolare sia l'allocazione dinamica delle strutture che possono essere rimosse sia gli aggiornamenti dei pesi rimanenti che tengono conto della rimozione. Forniamo un framework generale per il pruning non strutturato, semi-strutturato e strutturato e miglioriamo gli aggiornamenti dei pesi per catturare più correlazioni tra i pesi, pur rimanendo computazionalmente efficienti. Sperimentalmente, il nostro metodo può potare righe e colonne da una gamma di modelli OPT e Llamav2-7B del 20%-30%, con una perdita trascurabile nelle prestazioni, e ottenere risultati all'avanguardia nel pruning non strutturato e semi-strutturato di grandi modelli linguistici.

Primitive Neurali Compatti per la Grafica con Hashing Appreso
Compact Neural Graphics Primitives with Learned Hash Probing

Dec 28

ByTowaki Takikawa, Thomas Müller, Merlin Nimier-David, Alex Evans, Sanja Fidler, Alec Jacobson, Alexander Keller

I primitivi neurali per la grafica sono più veloci e raggiungono una qualità superiore quando le loro reti neurali sono potenziate da strutture dati spaziali che contengono feature addestrabili disposte in una griglia. Tuttavia, le griglie di feature esistenti comportano o un elevato consumo di memoria (griglie dense o fattorizzate, alberi e tabelle hash) o prestazioni lente (apprendimento degli indici e quantizzazione vettoriale). In questo articolo, dimostriamo che una tabella hash con sonde apprese non presenta nessuno di questi svantaggi, ottenendo una combinazione favorevole di dimensioni e velocità. L'inferenza è più veloce rispetto alle tabelle hash senza sonde a parità di qualità, mentre l'addestramento è solo 1,2-2,6 volte più lento, superando significativamente gli approcci precedenti di apprendimento degli indici. Arriviamo a questa formulazione inquadrando tutte le griglie di feature in un framework comune: ciascuna corrisponde a una funzione di lookup che indicizza una tabella di vettori di feature. In questo framework, le funzioni di lookup delle strutture dati esistenti possono essere combinate attraverso semplici operazioni aritmetiche sui loro indici, ottenendo una compressione e una velocità Pareto-ottimali.

Hyper-VolTran: Generazione Rapida e Generalizzabile di Strutture 3D da Immagini One-Shot tramite HyperNetworks
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks

Dec 24

ByChristian Simon, Sen He, Juan-Manuel Perez-Rua, Frost Xu, Amine Benhalloum, Tao Xiang

Risolvere il problema di generazione 3D da una singola immagine è un compito mal posto, e i metodi attuali di ricostruzione neurale che affrontano questo problema attraverso modelli di diffusione si basano ancora su ottimizzazioni specifiche per la scena, limitando la loro capacità di generalizzazione. Per superare le limitazioni degli approcci esistenti riguardo alla generalizzazione e alla coerenza, introduciamo una nuova tecnica di rendering neurale. Il nostro approccio utilizza la funzione di distanza con segno come rappresentazione della superficie e incorpora prior generalizzabili attraverso volumi di codifica geometrica e HyperNetworks. Nello specifico, il nostro metodo costruisce volumi di codifica neurale a partire da input multi-vista generati. Regoliamo i pesi della rete SDF condizionata da un'immagine di input al momento del test per consentire l'adattamento del modello a nuove scene in modo feed-forward tramite HyperNetworks. Per mitigare gli artefatti derivanti dalle viste sintetizzate, proponiamo l'uso di un modulo volume transformer per migliorare l'aggregazione delle caratteristiche dell'immagine invece di elaborare ogni punto di vista separatamente. Attraverso il nostro metodo proposto, denominato Hyper-VolTran, evitiamo il collo di bottiglia dell'ottimizzazione specifica per la scena e manteniamo la coerenza tra le immagini generate da più punti di vista. I nostri esperimenti dimostrano i vantaggi del nostro approccio proposto, con risultati coerenti e una generazione rapida.

PanGu-Draw: Avanzamenti nella Sintesi Efficiente di Immagini da Testo con Addestramento Sincrono-Decollato e Coop-Diffusione Riusabile
PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

Dec 27

ByGuansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu

Gli attuali modelli di diffusione su larga scala rappresentano un enorme balzo in avanti nella sintesi di immagini condizionate, essendo in grado di interpretare segnali diversificati come testo, pose umane e contorni. Tuttavia, la loro dipendenza da risorse computazionali sostanziali e da un'ampia raccolta di dati rimane un collo di bottiglia. D'altro canto, l'integrazione di modelli di diffusione esistenti, ciascuno specializzato per controlli diversi e operante in spazi latenti unici, rappresenta una sfida a causa di risoluzioni di immagini incompatibili e strutture di incorporamento dello spazio latente, ostacolandone l'uso congiunto. Affrontando questi vincoli, presentiamo "PanGu-Draw", un nuovo modello di diffusione latente progettato per la sintesi efficiente di immagini da testo che si adatta abilmente a segnali di controllo multipli. Proponiamo innanzitutto una Strategia di Addestramento a Decoupling Temporale efficiente in termini di risorse, che divide il modello monolitico di sintesi di immagini da testo in generatori di struttura e texture. Ciascun generatore viene addestrato utilizzando un regime che massimizza l'utilizzo dei dati e l'efficienza computazionale, riducendo la preparazione dei dati del 48% e le risorse di addestramento del 51%. In secondo luogo, introduciamo "Coop-Diffusion", un algoritmo che consente l'uso cooperativo di vari modelli di diffusione pre-addestrati con spazi latenti diversi e risoluzioni predefinite all'interno di un processo di denoising unificato. Ciò permette la sintesi di immagini con controlli multipli a risoluzioni arbitrarie senza la necessità di dati aggiuntivi o riaddestramento. Le validazioni empiriche di PanGu-Draw ne dimostrano l'eccezionale capacità nella generazione di immagini da testo e con controlli multipli, suggerendo una direzione promettente per future efficienze nell'addestramento dei modelli e versatilità nella generazione. Il più grande modello T2I da 5B di PanGu-Draw è stato rilasciato sulla piattaforma Ascend. Pagina del progetto: https://pangu-draw.github.io

SSR-Encoder: Codifica della Rappresentazione Selettiva del Soggetto per la Generazione Guidata dal Soggetto
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

Dec 26

ByYuxuan Zhang, Jiaming Liu, Yiren Song, Rui Wang, Hao Tang, Jinpeng Yu, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing

I recenti progressi nella generazione di immagini guidata da soggetti hanno portato alla generazione zero-shot, tuttavia la selezione precisa e l'attenzione sulle rappresentazioni cruciali del soggetto rimangono sfide significative. Per affrontare questo problema, introduciamo il SSR-Encoder, una nuova architettura progettata per catturare selettivamente qualsiasi soggetto da una o più immagini di riferimento. Risponde a varie modalità di query, inclusi testi e maschere, senza necessitare di fine-tuning al momento del test. Il SSR-Encoder combina un Token-to-Patch Aligner che allinea gli input di query con le patch delle immagini e un Detail-Preserving Subject Encoder per estrarre e preservare le caratteristiche fini dei soggetti, generando così embedding di soggetto. Questi embedding, utilizzati insieme agli embedding di testo originali, condizionano il processo di generazione. Caratterizzato dalla sua generalizzabilità del modello e dall'efficienza, il SSR-Encoder si adatta a una gamma di modelli personalizzati e moduli di controllo. Potenziato dalla Embedding Consistency Regularization Loss per un addestramento migliorato, i nostri esperimenti estesi ne dimostrano l'efficacia nella generazione di immagini versatile e di alta qualità, indicandone la vasta applicabilità. Pagina del progetto: https://ssr-encoder.github.io

DiffusionGAN3D: Potenziamento della generazione 3D guidata da testo e adattamento di dominio attraverso la combinazione di GAN 3D e prior di diffusione
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors

Dec 28

ByBiwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie

L'adattamento e la generazione di ritratti 3D guidati da testo trovano numerose applicazioni in vari campi. Tuttavia, a causa della mancanza di dati di addestramento e delle difficoltà nel gestire l'elevata varietà di geometria e aspetto, i metodi esistenti per queste attività soffrono di problemi come inflessibilità, instabilità e bassa fedeltà. In questo articolo, proponiamo un nuovo framework chiamato DiffusionGAN3D, che potenzia l'adattamento e la generazione di domini 3D guidati da testo combinando GAN 3D e modelli di diffusione. Nello specifico, integriamo modelli generativi 3D pre-addestrati (ad esempio, EG3D) e modelli di diffusione da testo a immagine. Il primo fornisce una solida base per la generazione stabile e di alta qualità di avatar da testo. I modelli di diffusione, a loro volta, offrono potenti prior e guidano la messa a punto del generatore 3D con una direzione informativa per ottenere un adattamento di dominio guidato da testo flessibile ed efficiente. Per migliorare la diversità nell'adattamento di dominio e la capacità di generazione nel passaggio da testo ad avatar, introduciamo rispettivamente la perdita di distanza relativa e un triplano apprendibile specifico per caso. Inoltre, progettiamo un modulo di raffinamento progressivo della texture per migliorare la qualità della texture per entrambe le attività sopra menzionate. Esperimenti estensivi dimostrano che il framework proposto ottiene risultati eccellenti sia nell'adattamento di dominio che nelle attività di generazione da testo ad avatar, superando i metodi esistenti in termini di qualità ed efficienza di generazione. La homepage del progetto è disponibile all'indirizzo https://younglbw.github.io/DiffusionGAN3D-homepage/.

Espansione del Prompt per la Generazione Adattiva di Immagini da Testo
Prompt Expansion for Adaptive Text-to-Image Generation

Dec 27

BySiddhartha Datta, Alexander Ku, Deepak Ramachandran, Peter Anderson

I modelli di generazione da testo a immagine sono potenti ma difficili da utilizzare. Gli utenti elaborano prompt specifici per ottenere immagini migliori, sebbene le immagini possano risultare ripetitive. Questo articolo propone un framework di Prompt Expansion che aiuta gli utenti a generare immagini di alta qualità e diversificate con meno sforzo. Il modello di Prompt Expansion prende in input una query testuale e restituisce un insieme di prompt testuali espansi, ottimizzati in modo tale che, quando passati a un modello di generazione da testo a immagine, producano una maggiore varietà di immagini attraenti. Abbiamo condotto uno studio di valutazione umana che dimostra come le immagini generate tramite Prompt Expansion siano più esteticamente gradevoli e diversificate rispetto a quelle generate con metodi di base. In sintesi, questo articolo presenta un approccio innovativo ed efficace per migliorare l'esperienza di generazione da testo a immagine.

Rigenerazione con Prior Vincolati
Restoration by Generation with Constrained Priors

Dec 28

ByZheng Ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia

La potenza generativa intrinseca dei modelli di diffusione con denoising li rende particolarmente adatti per compiti di restauro delle immagini, dove l'obiettivo è trovare l'immagine di alta qualità ottimale all'interno dello spazio generativo che assomigli strettamente all'immagine di input. Proponiamo un metodo per adattare un modello di diffusione preaddestrato al restauro delle immagini semplicemente aggiungendo rumore all'immagine di input da restaurare e poi applicando il denoising. Il nostro metodo si basa sull'osservazione che lo spazio di un modello generativo deve essere vincolato. Imponiamo questo vincolo ottimizzando il modello generativo con un insieme di immagini di ancoraggio che catturano le caratteristiche dell'immagine di input. Con lo spazio vincolato, possiamo quindi sfruttare la strategia di campionamento utilizzata per la generazione per eseguire il restauro delle immagini. Valutiamo il nostro metodo rispetto a quelli precedenti e dimostriamo prestazioni superiori su più dataset di restauro del mondo reale nel preservare l'identità e la qualità dell'immagine. Dimostriamo anche un'applicazione importante e pratica nel restauro personalizzato, dove utilizziamo un album personale come immagini di ancoraggio per vincolare lo spazio generativo. Questo approccio ci consente di produrre risultati che preservano accuratamente i dettagli ad alta frequenza, cosa che i lavori precedenti non sono in grado di fare. Pagina web del progetto: https://gen2res.github.io.

PanGu-Draw: Avanzamenti nella Sintesi Efficiente di Immagini da Testo con Addestramento Sincrono-Decollato e Coop-Diffusione Riusabile
PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

Dec 27

ByGuansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu