HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

14 papers found

Modello Autoregressivo Supera la Diffusione: Llama per la Generazione Scalabile di Immagini
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Jun 10

ByPeize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan

Presentiamo LlamaGen, una nuova famiglia di modelli di generazione di immagini che applica il paradigma originale della "predizione del token successivo" dei grandi modelli linguistici al dominio della generazione visiva. Questa rappresenta una risposta affermativa alla domanda se i modelli autoregressivi standard, come Llama, senza bias induttivi sui segnali visivi, possano raggiungere prestazioni all'avanguardia nella generazione di immagini se scalati correttamente. Rivalutiamo gli spazi di progettazione dei tokenizer di immagini, le proprietà di scalabilità dei modelli di generazione di immagini e la qualità dei loro dati di addestramento. Il risultato di questa esplorazione comprende: (1) Un tokenizer di immagini con un rapporto di downsampling di 16, una qualità di ricostruzione di 0.94 rFID e un utilizzo del codebook del 97% sul benchmark ImageNet. (2) Una serie di modelli di generazione di immagini condizionati alla classe, che vanno da 111M a 3.1B di parametri, raggiungendo un FID di 2.18 sui benchmark ImageNet 256x256, superando i popolari modelli di diffusione come LDM e DiT. (3) Un modello di generazione di immagini condizionato al testo con 775M di parametri, addestrato in due fasi su LAION-COCO e immagini di alta qualità estetica, dimostrando prestazioni competitive in termini di qualità visiva e allineamento al testo. (4) Verifichiamo l'efficacia dei framework di servizio LLM nell'ottimizzare la velocità di inferenza dei modelli di generazione di immagini, ottenendo un aumento di velocità del 326% - 414%. Rilasciamo tutti i modelli e i codici per facilitare la comunità open-source della generazione visiva e dei modelli fondazionali multimodali.

Vript: Un Video Vale Più di Mille Parole
Vript: A Video Is Worth Thousands of Words

Jun 10

ByDongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao

I progressi nell'apprendimento multimodale, in particolare nella comprensione e generazione di video, richiedono dataset video-testo di alta qualità per migliorare le prestazioni dei modelli. Vript affronta questa problematica con un corpus meticolosamente annotato di 12.000 video ad alta risoluzione, offrendo didascalie dettagliate, dense e simili a sceneggiature per oltre 420.000 clip. Ogni clip è accompagnata da una didascalia di circa 145 parole, oltre 10 volte più lunga rispetto alla maggior parte dei dataset video-testo. A differenza delle didascalie che documentano solo contenuti statici nei dataset precedenti, abbiamo migliorato la descrizione video trasformandola in una vera e propria sceneggiatura, documentando non solo il contenuto, ma anche le operazioni della telecamera, che includono i tipi di inquadratura (mezzo primo piano, primo piano, ecc.) e i movimenti della telecamera (panoramica, inclinazione, ecc.). Utilizzando Vript, esploriamo tre paradigmi di addestramento che allineano più testo alla modalità video piuttosto che a coppie clip-didascalia. Ciò ha portato a Vriptor, un modello di descrizione video dalle prestazioni eccellenti tra i modelli open-source, paragonabile a GPT-4V in termini di prestazioni. Vriptor è anche un modello potente in grado di generare didascalie dense e dettagliate per video lunghi in modo end-to-end. Inoltre, introduciamo Vript-Hard, un benchmark composto da tre compiti di comprensione video più impegnativi rispetto ai benchmark esistenti: Vript-HAL è il primo benchmark che valuta le allucinazioni di azioni e oggetti nei modelli linguistici video, Vript-RR combina il ragionamento con il recupero per risolvere l'ambiguità delle domande nei Q&A su video lunghi, e Vript-ERO è un nuovo compito per valutare la comprensione temporale degli eventi in video lunghi piuttosto che delle azioni in video brevi come nei lavori precedenti. Tutti i codici, i modelli e i dataset sono disponibili su https://github.com/mutonix/Vript.

Husky: Un Agente Linguistico Unificato e Open-Source per il Ragionamento a Più Passi
Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

Jun 10

ByJoongwon Kim, Bhargavi Paranjape, Tushar Khot, Hannaneh Hajishirzi

Gli agenti linguistici eseguono compiti complessi utilizzando strumenti per portare a termine ogni passaggio con precisione. Tuttavia, la maggior parte degli agenti esistenti si basa su modelli proprietari o è progettata per affrontare compiti specifici, come la matematica o il question answering multi-hop. Presentiamo Husky, un agente linguistico olistico e open-source che impara a ragionare su uno spazio d'azione unificato per affrontare un insieme diversificato di compiti complessi che coinvolgono ragionamenti numerici, tabellari e basati sulla conoscenza. Husky itera tra due fasi: 1) generare la prossima azione da intraprendere per risolvere un determinato compito e 2) eseguire l'azione utilizzando modelli esperti e aggiornare lo stato corrente della soluzione. Identifichiamo un'ontologia completa delle azioni per affrontare compiti complessi e curiamo dati di alta qualità per addestrare modelli esperti nell'esecuzione di queste azioni. I nostri esperimenti dimostrano che Husky supera i precedenti agenti linguistici su 14 dataset di valutazione. Inoltre, introduciamo HuskyQA, un nuovo set di valutazione che mette alla prova gli agenti linguistici per il ragionamento con strumenti misti, con un focus sul recupero di conoscenze mancanti e sull'esecuzione di ragionamenti numerici. Nonostante utilizzi modelli da 7B, Husky eguaglia o addirittura supera modelli all'avanguardia come GPT-4 in questi compiti, dimostrando l'efficacia del nostro approccio olistico nell'affrontare problemi di ragionamento complessi. Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://github.com/agent-husky/Husky-v1.

Verso un Modello Linguistico di Grande Scala per la Salute Personale
Towards a Personal Health Large Language Model

Jun 10

ByJustin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean

Nel campo della salute, la maggior parte della ricerca sui grandi modelli linguistici (LLM) si è concentrata su compiti clinici. Tuttavia, i dispositivi mobili e indossabili, raramente integrati in tali attività, forniscono dati ricchi e longitudinali per il monitoraggio della salute personale. Qui presentiamo il Personal Health Large Language Model (PH-LLM), ottimizzato a partire da Gemini per comprendere e ragionare su dati numerici di serie temporali relativi alla salute personale. Abbiamo creato e curato tre dataset che testano 1) la produzione di approfondimenti e raccomandazioni personalizzati basati su modelli di sonno, attività fisica e risposte fisiologiche, 2) la conoscenza del dominio esperto e 3) la previsione di esiti auto-riferiti relativi al sonno. Per il primo compito, abbiamo progettato 857 casi di studio in collaborazione con esperti del settore per valutare scenari reali nel sonno e nel fitness. Attraverso una valutazione completa di rubriche specifiche del dominio, abbiamo osservato che Gemini Ultra 1.0 e PH-LLM non sono statisticamente diversi dalle prestazioni degli esperti nel fitness e, sebbene gli esperti rimangano superiori nel sonno, l'ottimizzazione di PH-LLM ha fornito miglioramenti significativi nell'uso della conoscenza del dominio rilevante e nella personalizzazione delle informazioni per gli approfondimenti sul sonno. Abbiamo valutato la conoscenza del dominio di PH-LLM utilizzando esami a scelta multipla di medicina del sonno e fitness. PH-LLM ha ottenuto il 79% nel sonno e l'88% nel fitness, superando i punteggi medi di un campione di esperti umani. Infine, abbiamo addestrato PH-LLM a prevedere gli esiti auto-riferiti della qualità del sonno da rappresentazioni testuali e multimodali dei dati indossabili, dimostrando che è necessaria una codifica multimodale per eguagliare le prestazioni di modelli discriminativi specializzati. Sebbene siano necessari ulteriori sviluppi e valutazioni nel dominio critico per la sicurezza della salute personale, questi risultati dimostrano sia l'ampia conoscenza e le capacità dei modelli Gemini, sia il vantaggio di contestualizzare i dati fisiologici per applicazioni di salute personale, come fatto con PH-LLM.

Illuminare Ogni Oscurità con 3DGS: Addestramento Rapido e Rendering in Tempo Reale per la Sintesi di Visualizzazioni HDR
Lighting Every Darkness with 3DGS: Fast Training and Real-Time Rendering for HDR View Synthesis

Jun 10

ByXin Jin, Pengyi Jiao, Zheng-Peng Duan, Xingchao Yang, Chun-Le Guo, Bo Ren, Chongyi Li

I metodi basati sul rendering volumetrico, come NeRF, eccellono nella sintesi di viste HDR a partire da immagini RAW, specialmente per scene notturne. Tuttavia, soffrono di tempi di addestramento prolungati e non sono in grado di eseguire il rendering in tempo reale a causa dei requisiti di campionamento denso. L'avvento del 3D Gaussian Splatting (3DGS) consente il rendering in tempo reale e un addestramento più veloce. Tuttavia, implementare direttamente la sintesi di viste basata su immagini RAW utilizzando 3DGS è impegnativo a causa dei suoi limiti intrinseci: 1) nelle scene notturne, un rapporto segnale-rumore (SNR) estremamente basso porta a una scarsa stima della struttura dal movimento (SfM) nelle viste distanti; 2) la capacità di rappresentazione limitata delle funzioni armoniche sferiche (SH) non è adatta per lo spazio colore lineare RAW; e 3) una struttura della scena imprecisa ostacola le attività successive, come la rifocalizzazione. Per affrontare questi problemi, proponiamo LE3D (Lighting Every darkness with 3DGS). Il nostro metodo propone l'inizializzazione Cone Scatter per arricchire la stima della SfM e sostituisce le SH con una rete MLP per il colore per rappresentare lo spazio colore lineare RAW. Inoltre, introduciamo regolarizzazioni della distorsione della profondità e del vicino-lontano per migliorare l'accuratezza della struttura della scena per le attività successive. Questi design consentono a LE3D di eseguire la sintesi di nuove viste in tempo reale, il rendering HDR, la rifocalizzazione e le modifiche del tone-mapping. Rispetto ai precedenti metodi basati sul rendering volumetrico, LE3D riduce il tempo di addestramento all'1% e migliora la velocità di rendering fino a 4.000 volte per immagini a risoluzione 2K in termini di FPS. Il codice e il visualizzatore sono disponibili su https://github.com/Srameo/LE3D.

Tx-LLM: Un Modello Linguistico di Grandi Dimensioni per la Terapeutica
Tx-LLM: A Large Language Model for Therapeutics

Jun 10

ByJuan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi

Lo sviluppo di terapie è un processo lungo e costoso che richiede il soddisfacimento di molti criteri diversi, e i modelli di IA in grado di accelerare il processo sarebbero di inestimabile valore. Tuttavia, la maggior parte degli approcci attuali di IA affronta solo un insieme ristretto di compiti, spesso circoscritti a un dominio specifico. Per colmare questa lacuna, presentiamo Tx-LLM, un modello linguistico di grandi dimensioni (LLM) generalista messo a punto a partire da PaLM-2, che codifica conoscenze su diverse modalità terapeutiche. Tx-LLM è addestrato utilizzando una raccolta di 709 dataset che mirano a 66 compiti che coprono varie fasi della pipeline di scoperta di farmaci. Utilizzando un unico set di pesi, Tx-LLM elabora simultaneamente una vasta gamma di entità chimiche o biologiche (piccole molecole, proteine, acidi nucleici, linee cellulari, malattie) intervallate da testo libero, consentendogli di prevedere un'ampia gamma di proprietà associate, raggiungendo prestazioni competitive con lo stato dell'arte (SOTA) in 43 su 66 compiti e superando SOTA in 22. Tra questi, Tx-LLM è particolarmente potente e supera in media le prestazioni migliori per compiti che combinano rappresentazioni molecolari SMILES con testo come nomi di linee cellulari o nomi di malattie, probabilmente grazie al contesto appreso durante il pre-addestramento. Osserviamo prove di trasferimento positivo tra compiti con diversi tipi di farmaci (ad esempio, compiti che coinvolgono piccole molecole e compiti che coinvolgono proteine), e studiamo l'impatto delle dimensioni del modello, dell'ottimizzazione del dominio e delle strategie di prompting sulle prestazioni. Crediamo che Tx-LLM rappresenti un passo importante verso LLM che codificano conoscenze biochimiche e potrebbe avere un ruolo futuro come strumento end-to-end lungo la pipeline di sviluppo della scoperta di farmaci.

VALL-E 2: Modelli Linguistici Neurali Codec Raggiungono la Parità Umana nella Sintesi Vocale Zero-Shot da Testo
VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

Jun 8

BySanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei

Questo articolo presenta VALL-E 2, il più recente progresso nei modelli linguistici neurali codec che segna una pietra miliare nella sintesi vocale da testo in modalità zero-shot (TTS), raggiungendo per la prima volta la parità con le prestazioni umane. Basandosi sul suo predecessore, VALL-E, la nuova iterazione introduce due significativi miglioramenti: il Repetition Aware Sampling perfeziona il processo originale di campionamento nucleo tenendo conto della ripetizione dei token nella storia di decodifica. Non solo stabilizza la decodifica, ma evita anche il problema del ciclo infinito. Il Grouped Code Modeling organizza i codici codec in gruppi per ridurre efficacemente la lunghezza della sequenza, il che non solo aumenta la velocità di inferenza ma affronta anche le sfide della modellazione di sequenze lunghe. I nostri esperimenti sui dataset LibriSpeech e VCTK dimostrano che VALL-E 2 supera i sistemi precedenti in termini di robustezza del parlato, naturalezza e somiglianza con il parlante. È il primo del suo genere a raggiungere la parità umana su questi benchmark. Inoltre, VALL-E 2 sintetizza costantemente un parlato di alta qualità, anche per frasi tradizionalmente complesse a causa della loro struttura o di frasi ripetitive. I vantaggi di questo lavoro potrebbero contribuire a iniziative preziose, come la generazione di parlato per individui con afasia o persone affette da sclerosi laterale amiotrofica. Le demo di VALL-E 2 saranno pubblicate su https://aka.ms/valle2.

Generazione e Recupero Unificati di Immagini da Testo
Unified Text-to-Image Generation and Retrieval

Jun 9

ByLeigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua

Come gli esseri umani possano acquisire immagini in modo efficiente ed efficace è sempre stata una questione perenne. Una soluzione tipica è il recupero di immagini da un database esistente dato un testo di query; tuttavia, il database limitato tipicamente manca di creatività. Al contrario, le recenti innovazioni nella generazione di immagini da testo hanno reso possibile produrre contenuti visivi fantasiosi e diversificati, ma si scontrano con sfide nella sintesi di immagini ad alta intensità di conoscenza. In questo lavoro, ripensiamo alla relazione tra generazione e recupero di immagini da testo e proponiamo un framework unificato nel contesto dei Modelli Linguistici Multimodali di Grande Scala (MLLMs). Nello specifico, esploriamo prima le capacità discriminative intrinseche degli MLLMs e introduciamo un metodo di recupero generativo per eseguire il recupero in modo senza addestramento. Successivamente, unifichiamo generazione e recupero in un modo generativo autoregressivo e proponiamo un modulo decisionale autonomo per scegliere la migliore corrispondenza tra immagini generate e recuperate come risposta alla query testuale. Inoltre, costruiamo un benchmark chiamato TIGeR-Bench, che include domini creativi e ad alta intensità di conoscenza, per standardizzare la valutazione della generazione e del recupero unificati di immagini da testo. I risultati sperimentali estensivi su TIGeR-Bench e due benchmark di recupero, ovvero Flickr30K e MS-COCO, dimostrano la superiorità e l'efficacia del nostro metodo proposto.

Ottimizzazione delle Preferenze con Consapevolezza del Margine per l'Allineamento dei Modelli di Diffusione senza Riferimento
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

Jun 10

ByJiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong

Le moderne tecniche di allineamento basate sulle preferenze umane, come RLHF e DPO, tipicamente impiegano una regolarizzazione della divergenza rispetto al modello di riferimento per garantire la stabilità dell'addestramento. Tuttavia, questo spesso limita la flessibilità dei modelli durante l'allineamento, specialmente quando esiste una chiara discrepanza distributiva tra i dati delle preferenze e il modello di riferimento. In questo articolo, ci concentriamo sull'allineamento dei recenti modelli di diffusione testo-immagine, come Stable Diffusion XL (SDXL), e scopriamo che questo "disallineamento del riferimento" è effettivamente un problema significativo nell'allineamento di questi modelli a causa della natura non strutturata delle modalità visive: ad esempio, una preferenza per un particolare aspetto stilistico può facilmente indurre tale discrepanza. Motivati da questa osservazione, proponiamo un nuovo metodo di allineamento delle preferenze per i modelli di diffusione che non dipende da alcun modello di riferimento, denominato ottimizzazione delle preferenze con consapevolezza del margine (MaPO). MaPO massimizza congiuntamente il margine di verosimiglianza tra gli insiemi di immagini preferite e non preferite e la verosimiglianza degli insiemi preferiti, apprendendo simultaneamente caratteristiche stilistiche generali e preferenze. Per la valutazione, introduciamo due nuovi dataset di preferenze a coppie, che comprendono coppie di immagini auto-generate da SDXL, Pick-Style e Pick-Safety, simulando scenari diversi di disallineamento del riferimento. I nostri esperimenti confermano che MaPO può migliorare significativamente l'allineamento su Pick-Style e Pick-Safety e l'allineamento generale delle preferenze quando utilizzato con Pick-a-Pic v2, superando il modello base SDXL e altri metodi esistenti. Il nostro codice, modelli e dataset sono pubblicamente disponibili su https://mapo-t2i.github.io.

ShiftAddLLM: Accelerazione di LLM Pre-addestrati tramite Riparametrizzazione Post-addestramento Senza Moltiplicazioni
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

Jun 10

ByHaoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin

I grandi modelli linguistici (LLM) hanno dimostrato prestazioni impressionanti nei compiti linguistici, ma affrontano sfide quando vengono implementati su dispositivi con risorse limitate a causa del loro elevato numero di parametri e della dipendenza da moltiplicazioni dense, che comportano elevate richieste di memoria e colli di bottiglia nella latenza. La riformulazione shift-and-add offre una soluzione promettente sostituendo le costose moltiplicazioni con primitive hardware-friendly sia nei livelli di attenzione che nei livelli di perceptron multistrato (MLP) di un LLM. Tuttavia, le attuali tecniche di riformulazione richiedono un addestramento da zero o una messa a punto completa dei parametri per ripristinare l'accuratezza, il che è dispendioso in termini di risorse per gli LLM. Per affrontare questo problema, proponiamo di accelerare gli LLM pre-addestrati attraverso una riformulazione shift-and-add post-addestramento, creando modelli efficienti privi di moltiplicazioni, denominati ShiftAddLLM. Nello specifico, quantizziamo ogni matrice dei pesi in matrici binarie accoppiate a fattori di scala per gruppo. Le moltiplicazioni associate vengono riformulate in (1) spostamenti tra attivazioni e fattori di scala e (2) query e addizioni in base alle matrici binarie. Per ridurre la perdita di accuratezza, presentiamo un metodo di ottimizzazione multi-obiettivo per minimizzare sia gli errori di riformulazione dei pesi che quelli delle attivazioni in uscita. Inoltre, basandoci sulla sensibilità variabile tra i livelli alla riformulazione, sviluppiamo una strategia automatizzata di allocazione dei bit per ridurre ulteriormente l'uso della memoria e la latenza. Esperimenti su cinque famiglie di LLM e otto compiti convalidano costantemente l'efficacia di ShiftAddLLM, ottenendo miglioramenti medi nella perplessità di 5,6 e 22,7 punti a una latenza comparabile o inferiore rispetto agli LLM quantizzati più competitivi a 3 e 2 bit, rispettivamente, e riduzioni di oltre l'80% della memoria e dell'energia rispetto agli LLM originali. Codici e modelli sono disponibili su https://github.com/GATECH-EIC/ShiftAddLLM.

IllumiNeRF: Illuminazione 3D senza Rendering Inverso
IllumiNeRF: 3D Relighting without Inverse Rendering

Jun 10

ByXiaoming Zhao, Pratul P. Srinivasan, Dor Verbin, Keunhong Park, Ricardo Martin Brualla, Philipp Henzler

I metodi esistenti per la sintesi di viste riluminabili -- che utilizzano un insieme di immagini di un oggetto sotto illuminazione sconosciuta per ricostruire una rappresentazione 3D che può essere renderizzata da nuove prospettive sotto un'illuminazione target -- si basano sul rendering inverso e tentano di separare la geometria dell'oggetto, i materiali e l'illuminazione che spiegano le immagini di input. Inoltre, ciò comporta tipicamente un'ottimizzazione attraverso il rendering Monte Carlo differenziabile, che è fragile e computazionalmente costoso. In questo lavoro, proponiamo un approccio più semplice: prima riluminiamo ciascuna immagine di input utilizzando un modello di diffusione di immagini condizionato sull'illuminazione e poi ricostruiamo un Neural Radiance Field (NeRF) con queste immagini riluminate, da cui renderizziamo nuove viste sotto l'illuminazione target. Dimostriamo che questa strategia è sorprendentemente competitiva e raggiunge risultati all'avanguardia su molteplici benchmark di riluminazione. Si prega di visitare la nostra pagina del progetto all'indirizzo https://illuminerf.github.io/.

MLCM: Distillazione della Consistenza Multistep per Modelli di Diffusione Latente
MLCM: Multistep Consistency Distillation of Latent Diffusion Model

Jun 9

ByQingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu

La distillazione di grandi modelli di diffusione latente (LDMs) in modelli veloci da campionare sta attirando un crescente interesse di ricerca. Tuttavia, la maggior parte dei metodi esistenti si trova di fronte a un dilemma: o (i) dipendono da molteplici modelli distillati individuali per diversi budget di campionamento, o (ii) sacrificano la qualità della generazione con un numero limitato (ad esempio, 2-4) e/o moderato (ad esempio, 5-8) di passaggi di campionamento. Per affrontare questi problemi, estendiamo la recente strategia di distillazione multistep di consistenza (MCD) ai LDMs rappresentativi, stabilendo l'approccio dei Modelli di Consistenza Latente Multistep (MLCMs) per la sintesi di immagini di alta qualità a basso costo. MLCM funge da modello unificato per vari passaggi di campionamento grazie alla promessa della MCD. Inoltre, potenziamo la MCD con una strategia di addestramento progressivo per rafforzare la consistenza inter-segmento e migliorare la qualità delle generazioni con pochi passaggi. Utilizziamo gli stati provenienti dalle traiettorie di campionamento del modello insegnante come dati di addestramento per gli MLCMs, riducendo i requisiti per dataset di addestramento di alta qualità e colmando il divario tra l'addestramento e l'inferenza del modello distillato. MLCM è compatibile con strategie di apprendimento delle preferenze per un ulteriore miglioramento della qualità visiva e dell'appeal estetico. Empiricamente, MLCM è in grado di generare immagini di alta qualità e piacevoli con soli 2-8 passaggi di campionamento. Sul benchmark MSCOCO-2017 5K, MLCM distillato da SDXL ottiene un CLIP Score di 33.30, un Aesthetic Score di 6.19 e un Image Reward di 1.20 con soli 4 passaggi, superando sostanzialmente il 4-step LCM [23], l'8-step SDXL-Lightning [17] e l'8-step HyperSD [33]. Dimostriamo inoltre la versatilità degli MLCMs in applicazioni come la generazione controllata, il trasferimento di stile di immagini e la generazione di immagini da testo cinese.

GTR: Miglioramento dei modelli di ricostruzione 3D su larga scala attraverso il perfezionamento della geometria e della texture
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement

Jun 9

ByPeiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee

Proponiamo un nuovo approccio per la ricostruzione di mesh 3D a partire da immagini multi-vista. Il nostro metodo trae ispirazione da modelli di ricostruzione su larga scala come LRM, che utilizzano un generatore di triplane basato su transformer e un modello Neural Radiance Field (NeRF) addestrato su immagini multi-vista. Tuttavia, nel nostro metodo introduciamo diverse modifiche significative che ci permettono di migliorare notevolmente la qualità della ricostruzione 3D. Innanzitutto, esaminiamo l'architettura originale di LRM e identifichiamo alcune carenze. Successivamente, introduciamo modifiche corrispondenti all'architettura LRM, che portano a una migliore rappresentazione delle immagini multi-vista e a un addestramento più efficiente dal punto di vista computazionale. In secondo luogo, per migliorare la ricostruzione della geometria e abilitare la supervisione a piena risoluzione dell'immagine, estraiamo le mesh dal campo NeRF in modo differenziabile e ottimizziamo il modello NeRF attraverso il rendering della mesh. Queste modifiche ci permettono di raggiungere prestazioni all'avanguardia sia nelle metriche di valutazione 2D che 3D, come un PSNR di 28.67 sul dataset Google Scanned Objects (GSO). Nonostante questi risultati superiori, il nostro modello feed-forward incontra ancora difficoltà nella ricostruzione di texture complesse, come testi e ritratti sugli asset. Per affrontare questo problema, introduciamo una procedura leggera di perfezionamento della texture per istanza. Questa procedura ottimizza la rappresentazione del triplane e il modello di stima del colore NeRF sulla superficie della mesh utilizzando le immagini multi-vista di input in soli 4 secondi. Questo perfezionamento migliora il PSNR a 29.79 e consente una ricostruzione fedele di texture complesse, come i testi. Inoltre, il nostro approccio abilita varie applicazioni downstream, tra cui la generazione da testo o immagine a 3D.

ExtraNeRF: Estrapolazione Visibile di Viste nei Campi di Radianza Neuronali con Modelli di Diffusione
ExtraNeRF: Visibility-Aware View Extrapolation of Neural Radiance Fields with Diffusion Models

Jun 10

ByMeng-Li Shih, Wei-Chiu Ma, Aleksander Holynski, Forrester Cole, Brian L. Curless, Janne Kontkanen

Proponiamo ExtraNeRF, un metodo innovativo per estrapolare l'intervallo di visualizzazioni gestite da un Neural Radiance Field (NeRF). La nostra idea principale è sfruttare i NeRF per modellare dettagli specifici della scena a livello fine, mentre ci affidiamo ai modelli di diffusione per estrapolare oltre i dati osservati. Un elemento chiave è il tracciamento della visibilità per determinare quali porzioni della scena non sono state osservate, concentrandosi sulla ricostruzione coerente di tali regioni con i modelli di diffusione. I nostri contributi principali includono un modulo di inpainting basato su diffusione e consapevole della visibilità, ottimizzato sulle immagini di input, che produce un NeRF iniziale con regioni inpaintate di qualità moderata (spesso sfocate), seguito da un secondo modello di diffusione addestrato sulle immagini di input per migliorare in modo coerente, in particolare affinando, le immagini inpaintate della prima passata. Dimostriamo risultati di alta qualità, estrapolando oltre un numero ridotto di visualizzazioni di input (tipicamente sei o meno), effettuando efficacemente outpaint del NeRF così come inpaint delle regioni appena disoccluse all'interno del volume di visualizzazione originale. Confrontiamo il nostro lavoro con approcci correlati sia quantitativamente che qualitativamente, mostrando miglioramenti significativi rispetto allo stato dell'arte precedente.

Verso un Modello Linguistico di Grande Scala per la Salute Personale
Towards a Personal Health Large Language Model

Jun 10