HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

22 papers found

StreamDiffusion: Una soluzione a livello di pipeline per la generazione interattiva in tempo reale
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

Dec 19

ByAkio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer

Presentiamo StreamDiffusion, una pipeline di diffusione in tempo reale progettata per la generazione interattiva di immagini. I modelli di diffusione esistenti sono abili nel creare immagini a partire da prompt testuali o visivi, ma spesso non riescono a garantire un'interazione in tempo reale. Questa limitazione è particolarmente evidente in scenari che coinvolgono input continui, come il Metaverso, lo streaming video live e le trasmissioni, dove un'elevata produttività è essenziale. Per affrontare questo problema, proponiamo un approccio innovativo che trasforma il processo originale di denoising sequenziale in un processo di denoising a batch. Stream Batch elimina il tradizionale approccio di attesa e interazione, consentendo flussi fluidi e ad alta produttività. Per gestire la disparità di frequenza tra l'input dei dati e la produttività del modello, progettiamo una nuova coda di input-output per parallelizzare il processo di streaming. Inoltre, la pipeline di diffusione esistente utilizza la guida senza classificatore (CFG), che richiede un calcolo aggiuntivo della U-Net. Per mitigare i calcoli ridondanti, proponiamo un nuovo algoritmo di guida senza classificatore residua (RCFG) che riduce il numero di passaggi di denoising condizionale negativi a uno o addirittura zero. Inoltre, introduciamo un filtro di similarità stocastica (SSF) per ottimizzare il consumo energetico. Il nostro Stream Batch raggiunge un'accelerazione di circa 1,5x rispetto al metodo di denoising sequenziale a diversi livelli di denoising. La RCFG proposta porta a velocità fino a 2,05x superiori rispetto alla CFG convenzionale. Combinando le strategie proposte e gli strumenti di accelerazione maturi esistenti, la generazione da immagine a immagine raggiunge fino a 91,07 fps su una RTX4090, migliorando la produttività di AutoPipeline sviluppato da Diffusers di oltre 59,56x. Inoltre, il nostro StreamDiffusion proposto riduce significativamente anche il consumo energetico di 2,39x su una RTX3060 e di 1,99x su una RTX4090, rispettivamente.

VideoPoet: Un Modello Linguistico su Grande Scala per la Generazione Zero-Shot di Video
VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dec 21

ByDan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang

Presentiamo VideoPoet, un modello linguistico in grado di sintetizzare video di alta qualità, con audio corrispondente, a partire da una vasta gamma di segnali di condizionamento. VideoPoet utilizza un'architettura Transformer di tipo decoder-only che elabora input multimodali, inclusi immagini, video, testo e audio. Il protocollo di addestramento segue quello dei Large Language Models (LLM), composto da due fasi: preaddestramento e adattamento specifico per il compito. Durante il preaddestramento, VideoPoet incorpora una miscela di obiettivi generativi multimodali all'interno di un framework Transformer autoregressivo. Il LLM preaddestrato funge da base che può essere adattata per una gamma di task di generazione video. Presentiamo risultati empirici che dimostrano le capacità all'avanguardia del modello nella generazione zero-shot di video, evidenziando in particolare la capacità di VideoPoet di generare movimenti ad alta fedeltà. Pagina del progetto: http://sites.research.google/videopoet/

PowerInfer: Servizio Rapido per Modelli Linguistici di Grandi Dimensioni con una GPU di livello consumer
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Dec 16

ByYixin Song, Zeyu Mi, Haotong Xie, Haibo Chen

Questo articolo introduce PowerInfer, un motore di inferenza ad alta velocità per Large Language Model (LLM) su un personal computer (PC) dotato di una singola GPU di livello consumer. Il principio chiave alla base del design di PowerInfer è lo sfruttamento dell'elevata località intrinseca nell'inferenza di LLM, caratterizzata da una distribuzione a legge di potenza nell'attivazione dei neuroni. Questa distribuzione indica che un piccolo sottoinsieme di neuroni, denominati neuroni caldi, viene attivato in modo consistente su diversi input, mentre la maggior parte, i neuroni freddi, varia in base agli input specifici. PowerInfer sfrutta questa intuizione per progettare un motore di inferenza ibrido GPU-CPU: i neuroni caldi vengono precaricati sulla GPU per un accesso rapido, mentre i neuroni freddi vengono calcolati sulla CPU, riducendo significativamente le richieste di memoria della GPU e i trasferimenti di dati tra CPU e GPU. PowerInfer integra inoltre predittori adattativi e operatori sparsi consapevoli dei neuroni, ottimizzando l'efficienza dell'attivazione dei neuroni e della sparsità computazionale. Le valutazioni mostrano che PowerInfer raggiunge una velocità media di generazione di token di 13,20 token/s, con un picco di 29,08 token/s, su vari LLM (incluso OPT-175B) utilizzando una singola GPU NVIDIA RTX 4090, solo il 18% inferiore rispetto a quella ottenuta con una GPU server di fascia alta A100. Questo risultato supera significativamente llama.cpp fino a 11,69x, mantenendo l'accuratezza del modello.

I Modelli Generativi Multimodali sono Apprendenti in Contesto
Generative Multimodal Models are In-Context Learners

Dec 20

ByQuan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang

La capacità umana di risolvere facilmente compiti multimodali in contesto (cioè con solo poche dimostrazioni o semplici istruzioni) è ciò che i sistemi multimodali attuali hanno ampiamente faticato a imitare. In questo lavoro, dimostriamo che le capacità di apprendimento in contesto, indipendenti dal compito, dei grandi modelli multimodali possono essere significativamente potenziate attraverso un efficace ampliamento di scala. Introduciamo Emu2, un modello generativo multimodale con 37 miliardi di parametri, addestrato su sequenze multimodali su larga scala con un obiettivo autoregressivo unificato. Emu2 mostra forti capacità di apprendimento in contesto multimodale, arrivando persino a risolvere compiti che richiedono ragionamento immediato, come il prompting visivo e la generazione basata su oggetti. Il modello stabilisce un nuovo record in molteplici compiti di comprensione multimodale in contesti few-shot. Quando ottimizzato per seguire istruzioni specifiche, Emu2 raggiunge ulteriormente nuovi stati dell'arte in compiti impegnativi come benchmark di risposta a domande per grandi modelli multimodali e generazione aperta guidata da soggetti. Questi risultati dimostrano che Emu2 può servire come modello di base e interfaccia generica per un'ampia gamma di compiti multimodali. Codice e modelli sono pubblicamente disponibili per facilitare la ricerca futura.

DREAM-Talk: Metodo basato su diffusione per la generazione realistica di volti parlanti da singola immagine guidata da audio emotivo
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Dec 21

ByChenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng

La generazione di volti parlanti emotivi a partire da una singola immagine ritratto rimane una sfida significativa. Il raggiungimento simultaneo di un parlato emotivo espressivo e di una sincronizzazione labiale accurata è particolarmente difficile, poiché l'espressività viene spesso compromessa a favore della precisione della sincronizzazione labiale. Come ampiamente adottato da molti lavori precedenti, la rete LSTM spesso non riesce a catturare le sottigliezze e le variazioni delle espressioni emotive. Per affrontare queste sfide, introduciamo DREAM-Talk, un framework basato su diffusione a due stadi guidato dall'audio, progettato per generare espressioni diverse e una sincronizzazione labiale accurata in modo simultaneo. Nella prima fase, proponiamo EmoDiff, un modulo di diffusione innovativo che genera espressioni emotive altamente dinamiche e pose della testa in base all'audio e allo stile emotivo di riferimento. Data la forte correlazione tra il movimento delle labbra e l'audio, perfezioniamo poi la dinamica con una maggiore precisione della sincronizzazione labiale utilizzando le caratteristiche audio e lo stile emotivo. A tal fine, utilizziamo un modulo di rendering video-to-video per trasferire le espressioni e i movimenti delle labbra dal nostro avatar 3D proxy a un ritratto arbitrario. Sia quantitativamente che qualitativamente, DREAM-Talk supera i metodi all'avanguardia in termini di espressività, precisione della sincronizzazione labiale e qualità percettiva.

DreamTuner: Una singola immagine è sufficiente per la generazione guidata dal soggetto
DreamTuner: Single Image is Enough for Subject-Driven Generation

Dec 21

ByMiao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He

I modelli basati sulla diffusione hanno dimostrato capacità impressionanti nella generazione di immagini da testo e sono promettenti per applicazioni personalizzate di generazione guidata da soggetti, che richiedono la creazione di concetti personalizzati con una o poche immagini di riferimento. Tuttavia, i metodi esistenti basati sul fine-tuning non riescono a bilanciare il compromesso tra l'apprendimento del soggetto e il mantenimento delle capacità di generazione dei modelli pre-addestrati. Inoltre, altri metodi che utilizzano encoder di immagini aggiuntivi tendono a perdere dettagli importanti del soggetto a causa della compressione durante la codifica. Per affrontare queste sfide, proponiamo DreamTurner, un metodo innovativo che inietta le informazioni di riferimento da un livello grossolano a uno fine per ottenere una generazione di immagini guidata dal soggetto in modo più efficace. DreamTurner introduce un subject-encoder per preservare l'identità grossolana del soggetto, dove le caratteristiche generali compresse del soggetto vengono introdotte attraverso uno strato di attenzione prima dell'attenzione incrociata visivo-testuale. Successivamente, modifichiamo gli strati di self-attention all'interno dei modelli pre-addestrati di generazione da testo a immagini in strati di self-subject-attention per affinare i dettagli del soggetto target. L'immagine generata interroga le caratteristiche dettagliate sia dall'immagine di riferimento che da se stessa nella self-subject-attention. Vale la pena sottolineare che la self-subject-attention è un metodo efficace, elegante e privo di addestramento per mantenere le caratteristiche dettagliate dei soggetti personalizzati e può fungere da soluzione plug-and-play durante l'inferenza. Infine, con un ulteriore fine-tuning guidato dal soggetto, DreamTurner raggiunge prestazioni notevoli nella generazione di immagini guidata dal soggetto, che può essere controllata da un testo o da altre condizioni come la posa. Per ulteriori dettagli, visitare la pagina del progetto all'indirizzo https://dreamtuner-diffusion.github.io/.

Metriche di Profondità Zero-Shot con un Modello di Diffusione Condizionato al Campo Visivo
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Dec 20

BySaurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet

Sebbene i metodi per la stima della profondità monoculare abbiano compiuto progressi significativi sui benchmark standard, la stima metrica della profondità zero-shot rimane un problema irrisolto. Le sfide includono la modellazione congiunta di scene indoor e outdoor, che spesso presentano distribuzioni significativamente diverse di RGB e profondità, e l'ambiguità della scala di profondità dovuta alle intrinseche della camera sconosciute. Recenti lavori hanno proposto architetture multi-head specializzate per la modellazione congiunta di scene indoor e outdoor. Al contrario, noi sosteniamo un modello di diffusione generico e agnostico rispetto al compito, con diversi miglioramenti come la parametrizzazione della profondità in scala logaritmica per consentire la modellazione congiunta di scene indoor e outdoor, il condizionamento sul campo visivo (FOV) per gestire l'ambiguità della scala e l'aumento sintetico del FOV durante l'addestramento per generalizzare oltre le limitate intrinseche della camera nei dataset di addestramento. Inoltre, utilizzando una miscela di addestramento più diversificata rispetto a quanto è comune e una parametrizzazione efficiente della diffusione, il nostro metodo, DMD (Diffusion for Metric Depth), ottiene una riduzione del 25% dell'errore relativo (REL) sui dataset zero-shot indoor e del 33% sui dataset zero-shot outdoor rispetto allo stato dell'arte attuale, utilizzando solo un numero ridotto di passi di denoising. Per una panoramica, consultare https://diffusion-vision.github.io/dmd.

Fairy: Sintesi Video-to-Video Guidata da Istruzioni con Parallelizzazione Rapida
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Dec 20

ByBichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda

In questo articolo presentiamo Fairy, un adattamento minimalista ma robusto dei modelli di diffusione per l'editing di immagini, potenziandoli per applicazioni di editing video. Il nostro approccio si concentra sul concetto di attenzione cross-frame basata su ancore, un meccanismo che propaga implicitamente le caratteristiche di diffusione tra i fotogrammi, garantendo una superiore coerenza temporale e una sintesi ad alta fedeltà. Fairy non solo affronta i limiti dei modelli precedenti, inclusi memoria e velocità di elaborazione, ma migliora anche la coerenza temporale attraverso una strategia unica di data augmentation. Questa strategia rende il modello invariante rispetto alle trasformazioni affini sia nelle immagini sorgente che in quelle target. Straordinariamente efficiente, Fairy genera video di 120 fotogrammi a 512x384 (4 secondi di durata a 30 FPS) in soli 14 secondi, superando i lavori precedenti di almeno 44 volte. Uno studio utente completo, che coinvolge 1000 campioni generati, conferma che il nostro approccio offre una qualità superiore, superando decisamente i metodi consolidati.

InstructVideo: Istruire Modelli di Diffusione Video con Feedback Umano
InstructVideo: Instructing Video Diffusion Models with Human Feedback

Dec 19

ByHangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni

I modelli di diffusione sono emersi come il paradigma de facto per la generazione di video. Tuttavia, la loro dipendenza da dati su scala web di qualità variabile spesso produce risultati visivamente poco attraenti e disallineati rispetto ai prompt testuali. Per affrontare questo problema, proponiamo InstructVideo per istruire i modelli di diffusione testo-video con feedback umano attraverso il fine-tuning basato su ricompensa. InstructVideo si basa su due elementi chiave: 1) Per ridurre il costo del fine-tuning indotto dalla generazione attraverso l'intera catena di campionamento DDIM, riformuliamo il fine-tuning come un'operazione di editing. Sfruttando il processo di diffusione per corrompere un video campionato, InstructVideo richiede solo un'inferenza parziale della catena di campionamento DDIM, riducendo il costo del fine-tuning e migliorandone l'efficienza. 2) Per ovviare all'assenza di un modello di ricompensa video dedicato alle preferenze umane, riadattiamo modelli di ricompensa per immagini consolidati, come HPSv2. A tal fine, proponiamo Segmental Video Reward, un meccanismo per fornire segnali di ricompensa basati su campionamento sparso segmentale, e Temporally Attenuated Reward, un metodo che mitiga il degrado della modellazione temporale durante il fine-tuning. Esperimenti estensivi, sia qualitativi che quantitativi, convalidano la praticità e l'efficacia dell'utilizzo di modelli di ricompensa per immagini in InstructVideo, migliorando significativamente la qualità visiva dei video generati senza compromettere le capacità di generalizzazione. Codice e modelli saranno resi pubblicamente disponibili.

Splatter Image: Ricostruzione 3D Ultra-Rapida da Singola Vista
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Dec 20

ByStanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi

Introduciamo Splatter Image, un approccio ultra-veloce per la ricostruzione 3D di oggetti da immagini monoculari che opera a 38 FPS. Splatter Image si basa su Gaussian Splatting, che ha recentemente portato rendering in tempo reale, addestramento rapido e un'eccellente scalabilità alla ricostruzione multi-vista. Per la prima volta, applichiamo Gaussian Splatting in un contesto di ricostruzione monoculare. Il nostro approccio è basato sull'apprendimento e, al momento del test, la ricostruzione richiede solo la valutazione in feed-forward di una rete neurale. L'innovazione principale di Splatter Image è il design sorprendentemente semplice: utilizza una rete immagine-immagine 2D per mappare l'immagine di input a una Gaussiana 3D per pixel. Le Gaussiane risultanti hanno quindi la forma di un'immagine, la Splatter Image. Estendiamo ulteriormente il metodo per incorporare più di un'immagine come input, cosa che facciamo aggiungendo un meccanismo di attenzione cross-view. Grazie alla velocità del renderer (588 FPS), possiamo utilizzare una singola GPU per l'addestramento mentre generiamo intere immagini a ogni iterazione per ottimizzare metriche percettive come LPIPS. Su benchmark standard, dimostriamo non solo una ricostruzione veloce ma anche risultati migliori rispetto a baseline recenti e molto più costose in termini di PSNR, LPIPS e altre metriche.

TinySAM: Spingere i limiti per un modello Efficient Segment Anything
TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Dec 21

ByHan Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen

Recentemente, il modello Segment Anything (SAM) ha dimostrato una potente capacità di segmentazione e ha attirato grande attenzione nel campo della visione artificiale. Numerosi lavori successivi hanno sviluppato varie applicazioni basate sul SAM pre-addestrato, ottenendo prestazioni impressionanti in compiti di visione downstream. Tuttavia, SAM è composto da architetture pesanti e richiede una capacità computazionale massiccia, il che ostacola l'ulteriore applicazione di SAM su dispositivi edge con risorse computazionali limitate. A tal fine, in questo articolo proponiamo un framework per ottenere un modello Tiny Segment Anything (TinySAM) mantenendo una forte performance zero-shot. In primo luogo, proponiamo un metodo di distillazione della conoscenza a pieno stadio con una strategia di campionamento hard prompt online per distillare un modello studente leggero. Adattiamo inoltre la quantizzazione post-addestramento al compito di segmentazione promptable, riducendo ulteriormente il costo computazionale. Inoltre, viene proposta una strategia gerarchica di segmentazione di tutto per accelerare l'inferenza di tutto di 2 volte con quasi nessuna degradazione delle prestazioni. Con tutti questi metodi proposti, il nostro TinySAM porta a una riduzione computazionale di ordini di grandezza e spinge i limiti per il compito efficiente di segmentazione di tutto. Esperimenti estesi su vari compiti di trasferimento zero-shot dimostrano la performance significativamente vantaggiosa del nostro TinySAM rispetto ai metodi concorrenti. Modelli pre-addestrati e codici saranno disponibili su https://github.com/xinghaochen/TinySAM e https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.

Transformatori con Cache: Migliorare i Transformers con Memoria Differenziabile in Cache
Cached Transformers: Improving Transformers with Differentiable Memory Cache

Dec 20

ByZhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo

Questo lavoro introduce un nuovo modello Transformer chiamato Cached Transformer, che utilizza l'attenzione Gated Recurrent Cached (GRC) per estendere il meccanismo di self-attention con una cache di memoria differenziabile di token. L'attenzione GRC consente di prestare attenzione sia ai token passati che a quelli correnti, aumentando il campo ricettivo dell'attenzione e permettendo di esplorare dipendenze a lungo raggio. Utilizzando un'unità di gating ricorrente per aggiornare continuamente la cache, il nostro modello raggiunge progressi significativi in sei task di linguaggio e visione, tra cui modellazione del linguaggio, traduzione automatica, ListOPs, classificazione di immagini, rilevamento di oggetti e segmentazione di istanze. Inoltre, il nostro approccio supera le precedenti tecniche basate sulla memoria in task come la modellazione del linguaggio e dimostra la capacità di essere applicato a una gamma più ampia di situazioni.

Sensazioni neurali con campi neurali: Percezione visuo-tattile per la manipolazione in mano
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Dec 20

BySudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam

Per raggiungere una destrezza di livello umano, i robot devono dedurre la consapevolezza spaziale da sensori multimodali per ragionare sulle interazioni di contatto. Durante la manipolazione in mano di oggetti nuovi, tale consapevolezza spaziale implica la stima della posa e della forma dell'oggetto. Lo stato dell'arte per la percezione in mano si basa principalmente sulla visione e si limita al tracciamento di oggetti noti a priori. Inoltre, l'occlusione visiva degli oggetti in mano è inevitabile durante la manipolazione, impedendo ai sistemi attuali di andare oltre compiti senza occlusione. Combiniamo la visione e il senso del tatto su una mano multifalange per stimare la posa e la forma di un oggetto durante la manipolazione in mano. Il nostro metodo, NeuralFeels, codifica la geometria dell'oggetto apprendendo un campo neurale online e lo traccia congiuntamente ottimizzando un problema di grafo delle pose. Studiamo la percezione multimodale in mano in simulazione e nel mondo reale, interagendo con diversi oggetti tramite una policy guidata dalla propriocezione. I nostri esperimenti mostrano punteggi F finali di ricostruzione dell'81% e derivate medie della posa di 4,7 mm, ulteriormente ridotte a 2,3 mm con modelli CAD noti. Inoltre, osserviamo che sotto forte occlusione visiva possiamo ottenere miglioramenti fino al 94% nel tracciamento rispetto ai metodi basati solo sulla visione. I nostri risultati dimostrano che il tatto, nel migliore dei casi, disambigua e, nel peggiore, affina le stime visive durante la manipolazione in mano. Rilasciamo il nostro dataset di valutazione di 70 esperimenti, FeelSight, come un passo verso il benchmarking in questo dominio. La nostra rappresentazione neurale guidata da sensori multimodali può servire come spina dorsale percettiva per avanzare la destrezza dei robot. I video possono essere trovati sul nostro sito web del progetto https://suddhu.github.io/neural-feels/.

MaskINT: Modifica video tramite Trasformatori Masked Interpolativi Non-autoregressivi
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

Dec 19

ByHaoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie

I recenti progressi nell'IA generativa hanno significativamente migliorato l'editing di immagini e video, in particolare nel contesto del controllo tramite prompt testuali. Gli approcci più avanzati si basano principalmente su modelli di diffusione per realizzare queste attività. Tuttavia, le esigenze computazionali dei metodi basati sulla diffusione sono considerevoli, spesso richiedendo grandi dataset accoppiati per l'addestramento, e quindi rappresentano una sfida per il dispiegamento in applicazioni pratiche. Questo studio affronta tale sfida suddividendo il processo di editing video basato su testo in due fasi separate. Nella prima fase, sfruttiamo un modello di diffusione testo-immagine esistente per modificare simultaneamente alcuni fotogrammi chiave senza ulteriori operazioni di fine-tuning. Nella seconda fase, introduciamo un modello efficiente chiamato MaskINT, basato su trasformatori generativi mascherati non autoregressivi e specializzato nell'interpolazione dei fotogrammi tra i fotogrammi chiave, beneficiando della guida strutturale fornita dai fotogrammi intermedi. Il nostro set completo di esperimenti illustra l'efficacia e l'efficienza di MaskINT rispetto ad altre metodologie basate sulla diffusione. Questa ricerca offre una soluzione pratica per l'editing video basato su testo e dimostra il potenziale dei trasformatori generativi mascherati non autoregressivi in questo dominio.

Allinea i tuoi Gaussiani: Testo-a-4D con Gaussiani 3D Dinamici e Modelli di Diffusione Composti
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Dec 21

ByHuan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis

I modelli di diffusione guidati da testo hanno rivoluzionato la generazione di immagini e video e sono stati utilizzati con successo anche per la sintesi di oggetti 3D basata su ottimizzazione. In questo lavoro, ci concentriamo invece sul contesto poco esplorato del testo-a-4D e sintetizziamo oggetti 3D dinamici e animati utilizzando metodi di distillazione del punteggio con una dimensione temporale aggiuntiva. Rispetto ai lavori precedenti, perseguiamo un approccio innovativo basato sulla generazione composizionale, combinando modelli di diffusione testo-a-immagine, testo-a-video e multivista 3D per fornire feedback durante l'ottimizzazione di oggetti 4D, garantendo così coerenza temporale, aspetto visivo di alta qualità e geometria realistica. Il nostro metodo, chiamato Align Your Gaussians (AYG), sfrutta il Dynamic 3D Gaussian Splatting con campi di deformazione come rappresentazione 4D. Cruciale per AYG è un nuovo metodo per regolarizzare la distribuzione dei Gaussiani 3D in movimento, stabilizzando così l'ottimizzazione e inducendo il movimento. Proponiamo inoltre un meccanismo di amplificazione del movimento e un nuovo schema di sintesi autoregressiva per generare e combinare più sequenze 4D per generazioni più lunghe. Queste tecniche ci consentono di sintetizzare scene dinamiche vivaci, superando qualitativamente e quantitativamente i lavori precedenti e raggiungendo prestazioni all'avanguardia nel testo-a-4D. Grazie alla rappresentazione 4D basata su Gaussiani, diverse animazioni 4D possono essere combinate in modo fluido, come dimostriamo. AYG apre nuove promettenti strade per l'animazione, la simulazione, la creazione di contenuti digitali e la generazione di dati sintetici.

Mini-GPT: Modelli Linguistici di Grande Dimensione Efficienti attraverso il Pruning Contestuale
Mini-GPTs: Efficient Large Language Models through Contextual Pruning

Dec 20

ByTim Valicenti, Justice Vidal, Ritik Patnaik

Nella ricerca sull'IA, l'ottimizzazione dei Large Language Models (LLM) rimane una sfida significativa, cruciale per avanzare nelle applicazioni pratiche e nella sostenibilità del campo. Basandosi sul lavoro fondamentale del laboratorio del Professor Song Han al MIT, questo articolo introduce un approccio innovativo nello sviluppo di Mini-GPT attraverso il pruning contestuale. La nostra metodologia pota strategicamente l'architettura computazionale dei tradizionali LLM, come Phi-1.5, concentrandosi sul mantenimento delle funzionalità principali riducendo drasticamente le dimensioni del modello. Applichiamo la tecnica su dataset diversificati e complessi, tra cui leggi statunitensi, domande e risposte mediche, dialoghi di Skyrim, traduzioni inglese-taiwanese e articoli di economia. I risultati evidenziano l'efficienza e l'efficacia del pruning contestuale, non solo come concetto teorico ma come strumento pratico nello sviluppo di LLM specifici per dominio e efficienti in termini di risorse. Il pruning contestuale è un metodo promettente per costruire LLM specifici per dominio, e questa ricerca rappresenta un mattone fondamentale per futuri sviluppi con maggiore potenza di calcolo hardware, affinamento del fine-tuning e quantizzazione.

Guida Adattiva: Accelerazione Senza Addestramento per Modelli di Diffusione Condizionata
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Dec 19

ByAngela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet

Questo articolo presenta uno studio approfondito sul ruolo della Classifier-Free Guidance (CFG) nei modelli di diffusione condizionati al testo, con particolare attenzione all'efficienza durante l'inferenza. In particolare, rivediamo la scelta predefinita di applicare la CFG in tutti i passi di diffusione e cerchiamo invece politiche di guida più efficienti. Formuliamo la scoperta di tali politiche all'interno del framework differenziabile di Neural Architecture Search. I nostri risultati suggeriscono che i passi di denoising proposti dalla CFG diventano sempre più allineati con semplici passi condizionali, rendendo ridondante la valutazione aggiuntiva della rete neurale della CFG, specialmente nella seconda metà del processo di denoising. Basandoci su questa intuizione, proponiamo "Adaptive Guidance" (AG), una variante efficiente della CFG, che omette adattivamente le valutazioni della rete quando il processo di denoising mostra convergenza. I nostri esperimenti dimostrano che AG preserva la qualità dell'immagine della CFG riducendo il calcolo del 25%. Pertanto, AG costituisce un'alternativa plug-and-play alla Guidance Distillation, raggiungendo il 50% degli acceleramenti di quest'ultima pur essendo priva di addestramento e mantenendo la capacità di gestire prompt negativi. Infine, scopriamo ulteriori ridondanze della CFG nella prima metà del processo di diffusione, mostrando che intere valutazioni di funzioni neurali possono essere sostituite da semplici trasformazioni affini di stime precedenti del punteggio. Questo metodo, denominato LinearAG, offre un'inferenza ancora più economica al costo di deviare dal modello di base. Le nostre scoperte forniscono intuizioni sull'efficienza del processo di denoising condizionale che contribuiscono a un'implementazione più pratica e rapida dei modelli di diffusione condizionati al testo.

Repaint123: Generazione rapida e di alta qualità da un'immagine a 3D con ripittura 2D progressiva e controllabile
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting

Dec 20

ByJunwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan

I recenti metodi di generazione 3D da una singola immagine comunemente adottano il campionamento per distillazione del punteggio (Score Distillation Sampling, SDS). Nonostante i risultati impressionanti, presentano diverse carenze, tra cui l'inconsistenza multi-vista, texture eccessivamente saturate e levigate, nonché una velocità di generazione lenta. Per affrontare queste carenze, presentiamo Repaint123, che mira a ridurre il bias multi-vista e il degrado delle texture, accelerando al contempo il processo di generazione. L'idea centrale è combinare la potente capacità di generazione di immagini del modello di diffusione 2D e l'abilità di allineamento delle texture della strategia di ripittura per generare immagini multi-vista di alta qualità e coerenti. Proponiamo inoltre una forza di ripittura adattiva basata sulla visibilità per le regioni sovrapposte, al fine di migliorare la qualità delle immagini generate durante il processo di ripittura. Le immagini generate, di alta qualità e coerenti multi-vista, consentono l'uso di una semplice perdita di errore quadratico medio (Mean Square Error, MSE) per una rapida generazione di contenuti 3D. Abbiamo condotto ampi esperimenti e dimostrato che il nostro metodo possiede una capacità superiore di generare contenuti 3D di alta qualità con coerenza multi-vista e texture dettagliate in 2 minuti partendo da zero. Il codice è disponibile all'indirizzo https://github.com/junwuzhang19/repaint123.

UniSDF: Unificazione delle Rappresentazioni Neurali per la Ricostruzione 3D ad Alta Fedeltà di Scene Complesse con Riflessi
UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections

Dec 20

ByFangjinhua Wang, Marie-Julie Rakotosaona, Michael Niemeyer, Richard Szeliski, Marc Pollefeys, Federico Tombari

Le rappresentazioni neurali di scene 3D hanno dimostrato un grande potenziale per la ricostruzione 3D a partire da immagini 2D. Tuttavia, ricostruire acquisizioni del mondo reale di scene complesse rimane ancora una sfida. I metodi generici esistenti per la ricostruzione 3D spesso faticano a rappresentare dettagli geometrici fini e non modellano adeguatamente le superfici riflettenti di scene su larga scala. Le tecniche che si concentrano esplicitamente sulle superfici riflettenti possono modellare riflessi complessi e dettagliati sfruttando parametrizzazioni migliori dei riflessi. Tuttavia, osserviamo che questi metodi spesso non sono robusti in scenari reali illimitati dove sono presenti sia componenti non riflettenti che riflettenti. In questo lavoro, proponiamo UniSDF, un metodo di ricostruzione 3D generico in grado di ricostruire scene complesse e di grandi dimensioni con riflessi. Investigiamo sia tecniche di parametrizzazione della previsione del colore basate sulla vista che sui riflessi e scopriamo che la fusione esplicita di queste rappresentazioni nello spazio 3D consente la ricostruzione di superfici più accurate geometricamente, specialmente per le superfici riflettenti. Combiniamo ulteriormente questa rappresentazione con un'architettura a griglia multi-risoluzione addestrata in modo da grossolano a fine, consentendo ricostruzioni più veloci rispetto ai metodi precedenti. Esperimenti estensivi su dataset a livello di oggetto come DTU e Shiny Blender, nonché su dataset illimitati come Mip-NeRF 360 e Ref-NeRF real, dimostrano che il nostro metodo è in grado di ricostruire in modo robusto scene complesse e di grandi dimensioni con dettagli fini e superfici riflettenti. Si prega di visitare la nostra pagina del progetto all'indirizzo https://fangjinhuawang.github.io/UniSDF.

SpecNeRF: Codifica Gaussiana Direzionale per Riflessi Speculari
SpecNeRF: Gaussian Directional Encoding for Specular Reflections

Dec 20

ByLi Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollhöfer, Christian Richardt

I campi di radianza neurale hanno ottenuto prestazioni notevoli nella modellazione dell'aspetto di scene 3D. Tuttavia, gli approcci esistenti continuano a incontrare difficoltà con l'aspetto dipendente dalla vista delle superfici lucide, specialmente in condizioni di illuminazione complessa negli ambienti interni. A differenza dei metodi esistenti, che tipicamente assumono un'illuminazione distante come una mappa ambientale, proponiamo una codifica direzionale gaussiana apprendibile per modellare meglio gli effetti dipendenti dalla vista in condizioni di illuminazione a campo vicino. In particolare, la nostra nuova codifica direzionale cattura la natura spazialmente variabile dell'illuminazione a campo vicino e emula il comportamento delle mappe ambientali prefiltrate. Di conseguenza, consente la valutazione efficiente del colore speculare preconvoluto in qualsiasi posizione 3D con coefficienti di ruvidità variabili. Introduciamo inoltre un priore geometrico basato sui dati che aiuta a mitigare l'ambiguità tra forma e radianza nella modellazione delle riflessioni. Dimostriamo che la nostra codifica direzionale gaussiana e il priore geometrico migliorano significativamente la modellazione delle riflessioni speculari complesse nei campi di radianza neurale, contribuendo a scomporre l'aspetto in componenti fisicamente più significative.

Controllo Basato su Modelli con Dinamiche Neurali Sparse
Model-Based Control with Sparse Neural Dynamics

Dec 20

ByZiang Liu, Genggeng Zhou, Jeff He, Tobia Marcucci, Li Fei-Fei, Jiajun Wu, Yunzhu Li

L'apprendimento di modelli predittivi dalle osservazioni utilizzando reti neurali profonde (DNN) rappresenta un approccio promettente per molti problemi di pianificazione e controllo nel mondo reale. Tuttavia, le DNN comuni sono troppo poco strutturate per una pianificazione efficace, e i metodi di controllo attuali si basano tipicamente su un campionamento estensivo o sulla discesa del gradiente locale. In questo articolo, proponiamo un nuovo framework per l'apprendimento integrato del modello e il controllo predittivo che si presta a algoritmi di ottimizzazione efficienti. Nello specifico, partiamo da un modello neurale ReLU della dinamica del sistema e, con perdite minime in termini di accuratezza predittiva, lo sparsifichiamo gradualmente rimuovendo i neuroni ridondanti. Questo processo di sparsificazione discreta viene approssimato come un problema continuo, consentendo un'ottimizzazione end-to-end sia dell'architettura del modello che dei parametri dei pesi. Il modello sparsificato viene successivamente utilizzato da un controllore predittivo a variabili miste intere, che rappresenta le attivazioni dei neuroni come variabili binarie e impiega efficienti algoritmi branch-and-bound. Il nostro framework è applicabile a una vasta gamma di DNN, dai semplici perceptron multistrato alle complesse dinamiche delle reti neurali su grafi. Può gestire in modo efficiente compiti che coinvolgono dinamiche di contatto complesse, come la spinta di oggetti, l'ordinamento composizionale di oggetti e la manipolazione di oggetti deformabili. Esperimenti numerici e hardware dimostrano che, nonostante l'aggressiva sparsificazione, il nostro framework può fornire prestazioni in ciclo chiuso migliori rispetto ai metodi all'avanguardia esistenti.

RadEdit: stress-testing di modelli di visione biomedica tramite editing di immagini con diffusione
RadEdit: stress-testing biomedical vision models via diffusion image editing

Dec 20

ByFernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse

I dataset di imaging biomedico sono spesso di piccole dimensioni e distorti, il che significa che le prestazioni dei modelli predittivi nel mondo reale possono essere sostanzialmente inferiori rispetto a quanto atteso dai test interni. Questo lavoro propone l'utilizzo dell'editing generativo di immagini per simulare gli spostamenti dei dataset e diagnosticare le modalità di fallimento dei modelli di visione biomedica; ciò può essere utilizzato prima della distribuzione per valutarne l'idoneità, potenzialmente riducendo i costi e i danni ai pazienti. I metodi di editing esistenti possono produrre modifiche indesiderate, con correlazioni spurie apprese a causa della co-occorrenza di malattie e interventi terapeutici, limitando l'applicabilità pratica. Per affrontare questo problema, addestriamo un modello di diffusione da testo a immagine su più dataset di radiografie del torace e introduciamo un nuovo metodo di editing, RadEdit, che utilizza più maschere, se presenti, per vincolare le modifiche e garantire la coerenza nelle immagini modificate. Consideriamo tre tipi di spostamenti dei dataset: spostamento di acquisizione, spostamento di manifestazione e spostamento di popolazione, e dimostriamo che il nostro approccio può diagnosticare i fallimenti e quantificare la robustezza del modello senza ulteriori raccolte di dati, integrando strumenti più qualitativi per l'AI spiegabile.