HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

7 papers found

MagiCapture: Personalizzazione di Ritratti Multi-Concetto ad Alta Risoluzione
MagiCapture: High-Resolution Multi-Concept Portrait Customization

Sep 13

ByJunha Hyung, Jaeyo Shin, Jaegul Choo

I modelli su larga scala di generazione di immagini da testo, come Stable Diffusion, sono in grado di produrre immagini ritratto fotorealistiche ad alta fedeltà. Esiste un'area di ricerca attiva dedicata alla personalizzazione di questi modelli, con l'obiettivo di sintetizzare soggetti o stili specifici utilizzando insiemi di immagini di riferimento forniti. Tuttavia, nonostante i risultati plausibili ottenuti da questi metodi di personalizzazione, tendono a produrre immagini che spesso non raggiungono il realismo e non sono ancora a un livello commercialmente valido. Questo è particolarmente evidente nella generazione di immagini ritratto, dove qualsiasi artefatto innaturale nei volti umani è facilmente riconoscibile a causa del nostro pregiudizio umano intrinseco. Per affrontare questo problema, introduciamo MagiCapture, un metodo di personalizzazione per integrare concetti di soggetto e stile al fine di generare immagini ritratto ad alta risoluzione utilizzando solo pochi riferimenti di soggetto e stile. Ad esempio, data una manciata di selfie casuali, il nostro modello fine-tuned può generare immagini ritratto di alta qualità in stili specifici, come foto per passaporto o profilo. La principale sfida di questo compito è l'assenza di una verità di base per i concetti composti, che porta a una riduzione della qualità dell'output finale e a uno spostamento dell'identità del soggetto sorgente. Per affrontare questi problemi, presentiamo una nuova funzione di perdita di Rifocalizzazione dell'Attenzione abbinata a priori ausiliari, entrambe le quali facilitano un apprendimento robusto in questo contesto di apprendimento debolmente supervisionato. La nostra pipeline include anche ulteriori passaggi di post-elaborazione per garantire la creazione di output altamente realistici. MagiCapture supera altre baseline sia nelle valutazioni quantitative che qualitative e può anche essere generalizzato ad altri oggetti non umani.

Modelli Linguistici di Grandi Dimensioni per l'Ottimizzazione dei Compilatori
Large Language Models for Compiler Optimization

Sep 11

ByChris Cummins, Volker Seeker, Dejan Grubisic, Mostafa Elhoushi, Youwei Liang, Baptiste Roziere, Jonas Gehring, Fabian Gloeckle, Kim Hazelwood, Gabriel Synnaeve, Hugh Leather

Esploriamo la nuova applicazione dei Large Language Models all'ottimizzazione del codice. Presentiamo un modello trasformatore da 7 miliardi di parametri addestrato da zero per ottimizzare l'assembly LLVM in termini di dimensione del codice. Il modello prende come input un assembly non ottimizzato e produce un elenco di opzioni del compilatore per ottimizzare al meglio il programma. In modo cruciale, durante l'addestramento, chiediamo al modello di prevedere il numero di istruzioni prima e dopo l'ottimizzazione, nonché il codice ottimizzato stesso. Questi compiti di apprendimento ausiliari migliorano significativamente le prestazioni di ottimizzazione del modello e approfondiscono la sua comprensione. Valutiamo il modello su un'ampia suite di programmi di test. Il nostro approccio ottiene un miglioramento del 3,0% nella riduzione del numero di istruzioni rispetto al compilatore, superando due baseline all'avanguardia che richiedono migliaia di compilazioni. Inoltre, il modello dimostra sorprendenti capacità di ragionamento sul codice, generando codice compilabile il 91% delle volte e emulando perfettamente l'output del compilatore il 70% delle volte.

NeRF dinamici per scene di calcio
Dynamic NeRFs for Soccer Scenes

Sep 13

BySacha Lewin, Maxime Vandegar, Thomas Hoyoux, Olivier Barnich, Gilles Louppe

Il problema di lunga data della sintesi di nuove viste ha molte applicazioni, in particolare nel campo delle trasmissioni sportive. La sintesi fotorealistica di nuove viste di azioni calcistiche, in particolare, è di enorme interesse per l'industria delle trasmissioni. Tuttavia, sono state proposte solo poche soluzioni industriali, e ancora meno che raggiungano una qualità quasi da trasmissione dei replay sintetici. A parte la loro configurazione di più telecamere statiche intorno al campo di gioco, i migliori sistemi proprietari non rivelano quasi nessuna informazione sul loro funzionamento interno. Sfruttare più telecamere statiche per un tale compito rappresenta infatti una sfida raramente affrontata nella letteratura, a causa della mancanza di dataset pubblici: la ricostruzione di un ambiente su larga scala, prevalentemente statico, con elementi piccoli e in rapido movimento. Recentemente, l'emergere dei campi di radianza neurali ha portato a progressi straordinari in molte applicazioni di sintesi di nuove viste, sfruttando i principi del deep learning per produrre risultati fotorealistici negli scenari più impegnativi. In questo lavoro, indaghiamo la fattibilità di basare una soluzione al compito su NeRF dinamici, ovvero modelli neurali progettati per ricostruire contenuti dinamici generali. Componiamo ambienti calcistici sintetici e conduciamo molteplici esperimenti utilizzandoli, identificando componenti chiave che aiutano a ricostruire scene calcistiche con NeRF dinamici. Dimostriamo che, sebbene questo approccio non possa soddisfare pienamente i requisiti di qualità per l'applicazione target, suggerisce promettenti percorsi verso una soluzione automatica ed economicamente efficiente. Rendiamo inoltre pubblicamente disponibili il nostro dataset e il codice, con l'obiettivo di incoraggiare ulteriori sforzi da parte della comunità di ricerca sul compito della sintesi di nuove viste per scene calcistiche dinamiche. Per il codice, i dati e i risultati video, si prega di visitare https://soccernerfs.isach.be.

Il Campionamento Statistico per Rifiuto Migliora l'Ottimizzazione delle Preferenze
Statistical Rejection Sampling Improves Preference Optimization

Sep 13

ByTianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu

Migliorare l'allineamento dei modelli linguistici con le preferenze umane rimane una sfida di ricerca attiva. Gli approcci precedenti hanno principalmente utilizzato il Reinforcement Learning da Feedback Umano (RLHF) tramite metodi di RL online come l'Optimizzazione Prossimale delle Politiche (PPO). Recentemente, metodi offline come la Calibrazione della Verosimiglianza delle Sequenze (SLiC) e l'Optimizzazione Diretta delle Preferenze (DPO) sono emersi come alternative attraenti, offrendo miglioramenti in termini di stabilità e scalabilità pur mantenendo prestazioni competitive. SLiC affina la sua funzione di perdita utilizzando coppie di sequenze campionate da una politica fine-tuned supervisionata (SFT), mentre DPO ottimizza direttamente i modelli linguistici basandosi sui dati di preferenza, eliminando la necessità di un modello di ricompensa separato. Tuttavia, lo stimatore di massima verosimiglianza (MLE) della politica ottimale target richiede coppie di preferenze etichettate campionate da quella politica. L'assenza di un modello di ricompensa in DPO limita la sua capacità di campionare coppie di preferenze dalla politica ottimale, e SLiC è limitato a campionare coppie di preferenze solo dalla politica SFT. Per affrontare queste limitazioni, introduciamo un nuovo approccio chiamato Optimizzazione del Campionamento per Rifiuto Statistico (RSO) che mira a ottenere dati di preferenza dalla politica ottimale target utilizzando il campionamento per rifiuto, consentendo una stima più accurata della politica ottimale. Proponiamo inoltre un framework unificato che migliora le funzioni di perdita utilizzate sia in SLiC che in DPO dal punto di vista della modellazione delle preferenze. Attraverso esperimenti estesi su tre compiti diversi, dimostriamo che RSO supera costantemente sia SLiC che DPO nelle valutazioni sia da parte di Modelli Linguistici di Grande Dimensione (LLM) che da valutatori umani.

DreamStyler: Dipingere per Inversione di Stile con Modelli di Diffusione da Testo a Immagine
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models

Sep 13

ByNamhyuk Ahn, Junsoo Lee, Chunggi Lee, Kunhee Kim, Daesik Kim, Seung-Hun Nam, Kibeom Hong

I recenti progressi nei modelli su larga scala di generazione di immagini da testo hanno portato a risultati straordinari, trovando varie applicazioni nel campo dell'arte. Tuttavia, esprimere le caratteristiche uniche di un'opera d'arte (ad esempio, la pennellata, la tonalità dei colori o la composizione) utilizzando solo prompt testuali può incontrare limitazioni a causa dei vincoli intrinseci della descrizione verbale. A tal fine, introduciamo DreamStyler, un nuovo framework progettato per la sintesi di immagini artistiche, competente sia nella generazione di immagini da testo che nel trasferimento di stile. DreamStyler ottimizza un'incorporazione testuale multi-stadio con un prompt testuale contestuale, ottenendo una qualità dell'immagine di rilievo. Inoltre, con la guida del contenuto e dello stile, DreamStyler mostra flessibilità nell'adattarsi a una gamma di riferimenti stilistici. I risultati sperimentali dimostrano la sua prestazione superiore in molteplici scenari, suggerendo il suo potenziale promettente nella creazione di prodotti artistici.

Decomposizione Strutturata ad Albero dell'Ombreggiatura
Tree-Structured Shading Decomposition

Sep 13

ByChen Geng, Hong-Xing Yu, Sharon Zhang, Maneesh Agrawala, Jiajun Wu

Studiamo l'inferenza di una rappresentazione ad albero da una singola immagine per l'ombreggiatura degli oggetti. I lavori precedenti utilizzano tipicamente rappresentazioni parametriche o misurate per modellare l'ombreggiatura, che non sono né interpretabili né facilmente modificabili. Proponiamo di utilizzare la rappresentazione ad albero dell'ombreggiatura (shade tree), che combina nodi di ombreggiatura di base e metodi di composizione per fattorizzare l'ombreggiatura della superficie degli oggetti. La rappresentazione ad albero dell'ombreggiatura consente agli utenti principianti, non familiari con il processo fisico di ombreggiatura, di modificare l'ombreggiatura degli oggetti in modo efficiente e intuitivo. Una delle principali sfide nell'inferire l'albero dell'ombreggiatura è che il problema di inferenza coinvolge sia la struttura discreta dell'albero che i parametri continui dei nodi dell'albero. Proponiamo un approccio ibrido per affrontare questo problema. Introduciamo un modello di inferenza auto-regressivo per generare una stima approssimativa della struttura dell'albero e dei parametri dei nodi, e successivamente ottimizziamo l'albero dell'ombreggiatura inferito attraverso un algoritmo di ottimizzazione. Mostriamo esperimenti su immagini sintetiche, riflettanze acquisite, immagini reali e disegni vettoriali non realistici, consentendo applicazioni downstream come la modifica dei materiali, l'ombreggiatura vettoriale e il reilluminamento. Sito web del progetto: https://chen-geng.com/inv-shade-trees

Generazione e Modifica Guidata da Testo di Avatar 3D Composizionali
Text-Guided Generation and Editing of Compositional 3D Avatars

Sep 13

ByHao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black

Il nostro obiettivo è creare un avatar facciale 3D realistico con capelli e accessori utilizzando solo una descrizione testuale. Sebbene questa sfida abbia attirato un notevole interesse recente, i metodi esistenti mancano di realismo, producono forme irrealistiche o non supportano modifiche, come cambiamenti all'acconciatura. Sosteniamo che i metodi attuali siano limitati perché adottano un approccio di modellazione monolitico, utilizzando una singola rappresentazione per la testa, il viso, i capelli e gli accessori. La nostra osservazione è che, ad esempio, i capelli e il viso hanno qualità strutturali molto diverse che beneficiano di rappresentazioni differenti. Basandoci su questa intuizione, generiamo avatar con un modello compositivo, in cui la testa, il viso e la parte superiore del corpo sono rappresentati con mesh 3D tradizionali, mentre i capelli, gli abiti e gli accessori sono rappresentati con campi di radianza neurale (NeRF). La rappresentazione basata su mesh fornisce un forte prior geometrico per la regione del viso, migliorando il realismo e consentendo la modifica dell'aspetto della persona. Utilizzando i NeRF per rappresentare i componenti rimanenti, il nostro metodo è in grado di modellare e sintetizzare parti con geometria e aspetto complessi, come capelli ricci e sciarpe voluminose. Il nostro sistema innovativo sintetizza questi avatar compositivi di alta qualità a partire da descrizioni testuali. I risultati sperimentali dimostrano che il nostro metodo, Generazione e Modifica Guidata da Testo di Avatar Composizionali (TECA), produce avatar più realistici rispetto ai metodi recenti, pur essendo modificabili grazie alla loro natura compositiva. Ad esempio, il nostro TECA consente il trasferimento senza soluzione di continuità di caratteristiche compositive come acconciature, sciarpe e altri accessori tra avatar. Questa capacità supporta applicazioni come il virtual try-on.

NeRF dinamici per scene di calcio
Dynamic NeRFs for Soccer Scenes

Sep 13

BySacha Lewin, Maxime Vandegar, Thomas Hoyoux, Olivier Barnich, Gilles Louppe