Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli su larga scala di generazione di immagini da testo, come Stable Diffusion, sono in grado di produrre immagini ritratto fotorealistiche ad alta fedeltà. Esiste un'area di ricerca attiva dedicata alla personalizzazione di questi modelli, con l'obiettivo di sintetizzare soggetti o stili specifici utilizzando insiemi di immagini di riferimento forniti. Tuttavia, nonostante i risultati plausibili ottenuti da questi metodi di personalizzazione, tendono a produrre immagini che spesso non raggiungono il realismo e non sono ancora a un livello commercialmente valido. Questo è particolarmente evidente nella generazione di immagini ritratto, dove qualsiasi artefatto innaturale nei volti umani è facilmente riconoscibile a causa del nostro pregiudizio umano intrinseco. Per affrontare questo problema, introduciamo MagiCapture, un metodo di personalizzazione per integrare concetti di soggetto e stile al fine di generare immagini ritratto ad alta risoluzione utilizzando solo pochi riferimenti di soggetto e stile. Ad esempio, data una manciata di selfie casuali, il nostro modello fine-tuned può generare immagini ritratto di alta qualità in stili specifici, come foto per passaporto o profilo. La principale sfida di questo compito è l'assenza di una verità di base per i concetti composti, che porta a una riduzione della qualità dell'output finale e a uno spostamento dell'identità del soggetto sorgente. Per affrontare questi problemi, presentiamo una nuova funzione di perdita di Rifocalizzazione dell'Attenzione abbinata a priori ausiliari, entrambe le quali facilitano un apprendimento robusto in questo contesto di apprendimento debolmente supervisionato. La nostra pipeline include anche ulteriori passaggi di post-elaborazione per garantire la creazione di output altamente realistici. MagiCapture supera altre baseline sia nelle valutazioni quantitative che qualitative e può anche essere generalizzato ad altri oggetti non umani.
Esploriamo la nuova applicazione dei Large Language Models all'ottimizzazione del codice. Presentiamo un modello trasformatore da 7 miliardi di parametri addestrato da zero per ottimizzare l'assembly LLVM in termini di dimensione del codice. Il modello prende come input un assembly non ottimizzato e produce un elenco di opzioni del compilatore per ottimizzare al meglio il programma. In modo cruciale, durante l'addestramento, chiediamo al modello di prevedere il numero di istruzioni prima e dopo l'ottimizzazione, nonché il codice ottimizzato stesso. Questi compiti di apprendimento ausiliari migliorano significativamente le prestazioni di ottimizzazione del modello e approfondiscono la sua comprensione. Valutiamo il modello su un'ampia suite di programmi di test. Il nostro approccio ottiene un miglioramento del 3,0% nella riduzione del numero di istruzioni rispetto al compilatore, superando due baseline all'avanguardia che richiedono migliaia di compilazioni. Inoltre, il modello dimostra sorprendenti capacità di ragionamento sul codice, generando codice compilabile il 91% delle volte e emulando perfettamente l'output del compilatore il 70% delle volte.
Il problema di lunga data della sintesi di nuove viste ha molte applicazioni, in particolare nel campo delle trasmissioni sportive. La sintesi fotorealistica di nuove viste di azioni calcistiche, in particolare, è di enorme interesse per l'industria delle trasmissioni. Tuttavia, sono state proposte solo poche soluzioni industriali, e ancora meno che raggiungano una qualità quasi da trasmissione dei replay sintetici. A parte la loro configurazione di più telecamere statiche intorno al campo di gioco, i migliori sistemi proprietari non rivelano quasi nessuna informazione sul loro funzionamento interno. Sfruttare più telecamere statiche per un tale compito rappresenta infatti una sfida raramente affrontata nella letteratura, a causa della mancanza di dataset pubblici: la ricostruzione di un ambiente su larga scala, prevalentemente statico, con elementi piccoli e in rapido movimento. Recentemente, l'emergere dei campi di radianza neurali ha portato a progressi straordinari in molte applicazioni di sintesi di nuove viste, sfruttando i principi del deep learning per produrre risultati fotorealistici negli scenari più impegnativi. In questo lavoro, indaghiamo la fattibilità di basare una soluzione al compito su NeRF dinamici, ovvero modelli neurali progettati per ricostruire contenuti dinamici generali. Componiamo ambienti calcistici sintetici e conduciamo molteplici esperimenti utilizzandoli, identificando componenti chiave che aiutano a ricostruire scene calcistiche con NeRF dinamici. Dimostriamo che, sebbene questo approccio non possa soddisfare pienamente i requisiti di qualità per l'applicazione target, suggerisce promettenti percorsi verso una soluzione automatica ed economicamente efficiente. Rendiamo inoltre pubblicamente disponibili il nostro dataset e il codice, con l'obiettivo di incoraggiare ulteriori sforzi da parte della comunità di ricerca sul compito della sintesi di nuove viste per scene calcistiche dinamiche. Per il codice, i dati e i risultati video, si prega di visitare https://soccernerfs.isach.be.
Migliorare l'allineamento dei modelli linguistici con le preferenze umane rimane una sfida di ricerca attiva. Gli approcci precedenti hanno principalmente utilizzato il Reinforcement Learning da Feedback Umano (RLHF) tramite metodi di RL online come l'Optimizzazione Prossimale delle Politiche (PPO). Recentemente, metodi offline come la Calibrazione della Verosimiglianza delle Sequenze (SLiC) e l'Optimizzazione Diretta delle Preferenze (DPO) sono emersi come alternative attraenti, offrendo miglioramenti in termini di stabilità e scalabilità pur mantenendo prestazioni competitive. SLiC affina la sua funzione di perdita utilizzando coppie di sequenze campionate da una politica fine-tuned supervisionata (SFT), mentre DPO ottimizza direttamente i modelli linguistici basandosi sui dati di preferenza, eliminando la necessità di un modello di ricompensa separato. Tuttavia, lo stimatore di massima verosimiglianza (MLE) della politica ottimale target richiede coppie di preferenze etichettate campionate da quella politica. L'assenza di un modello di ricompensa in DPO limita la sua capacità di campionare coppie di preferenze dalla politica ottimale, e SLiC è limitato a campionare coppie di preferenze solo dalla politica SFT. Per affrontare queste limitazioni, introduciamo un nuovo approccio chiamato Optimizzazione del Campionamento per Rifiuto Statistico (RSO) che mira a ottenere dati di preferenza dalla politica ottimale target utilizzando il campionamento per rifiuto, consentendo una stima più accurata della politica ottimale. Proponiamo inoltre un framework unificato che migliora le funzioni di perdita utilizzate sia in SLiC che in DPO dal punto di vista della modellazione delle preferenze. Attraverso esperimenti estesi su tre compiti diversi, dimostriamo che RSO supera costantemente sia SLiC che DPO nelle valutazioni sia da parte di Modelli Linguistici di Grande Dimensione (LLM) che da valutatori umani.
I recenti progressi nei modelli su larga scala di generazione di immagini da testo hanno portato a risultati straordinari, trovando varie applicazioni nel campo dell'arte. Tuttavia, esprimere le caratteristiche uniche di un'opera d'arte (ad esempio, la pennellata, la tonalità dei colori o la composizione) utilizzando solo prompt testuali può incontrare limitazioni a causa dei vincoli intrinseci della descrizione verbale. A tal fine, introduciamo DreamStyler, un nuovo framework progettato per la sintesi di immagini artistiche, competente sia nella generazione di immagini da testo che nel trasferimento di stile. DreamStyler ottimizza un'incorporazione testuale multi-stadio con un prompt testuale contestuale, ottenendo una qualità dell'immagine di rilievo. Inoltre, con la guida del contenuto e dello stile, DreamStyler mostra flessibilità nell'adattarsi a una gamma di riferimenti stilistici. I risultati sperimentali dimostrano la sua prestazione superiore in molteplici scenari, suggerendo il suo potenziale promettente nella creazione di prodotti artistici.
Studiamo l'inferenza di una rappresentazione ad albero da una singola immagine per l'ombreggiatura degli oggetti. I lavori precedenti utilizzano tipicamente rappresentazioni parametriche o misurate per modellare l'ombreggiatura, che non sono né interpretabili né facilmente modificabili. Proponiamo di utilizzare la rappresentazione ad albero dell'ombreggiatura (shade tree), che combina nodi di ombreggiatura di base e metodi di composizione per fattorizzare l'ombreggiatura della superficie degli oggetti. La rappresentazione ad albero dell'ombreggiatura consente agli utenti principianti, non familiari con il processo fisico di ombreggiatura, di modificare l'ombreggiatura degli oggetti in modo efficiente e intuitivo. Una delle principali sfide nell'inferire l'albero dell'ombreggiatura è che il problema di inferenza coinvolge sia la struttura discreta dell'albero che i parametri continui dei nodi dell'albero. Proponiamo un approccio ibrido per affrontare questo problema. Introduciamo un modello di inferenza auto-regressivo per generare una stima approssimativa della struttura dell'albero e dei parametri dei nodi, e successivamente ottimizziamo l'albero dell'ombreggiatura inferito attraverso un algoritmo di ottimizzazione. Mostriamo esperimenti su immagini sintetiche, riflettanze acquisite, immagini reali e disegni vettoriali non realistici, consentendo applicazioni downstream come la modifica dei materiali, l'ombreggiatura vettoriale e il reilluminamento. Sito web del progetto: https://chen-geng.com/inv-shade-trees
Il nostro obiettivo è creare un avatar facciale 3D realistico con capelli e accessori utilizzando solo una descrizione testuale. Sebbene questa sfida abbia attirato un notevole interesse recente, i metodi esistenti mancano di realismo, producono forme irrealistiche o non supportano modifiche, come cambiamenti all'acconciatura. Sosteniamo che i metodi attuali siano limitati perché adottano un approccio di modellazione monolitico, utilizzando una singola rappresentazione per la testa, il viso, i capelli e gli accessori. La nostra osservazione è che, ad esempio, i capelli e il viso hanno qualità strutturali molto diverse che beneficiano di rappresentazioni differenti. Basandoci su questa intuizione, generiamo avatar con un modello compositivo, in cui la testa, il viso e la parte superiore del corpo sono rappresentati con mesh 3D tradizionali, mentre i capelli, gli abiti e gli accessori sono rappresentati con campi di radianza neurale (NeRF). La rappresentazione basata su mesh fornisce un forte prior geometrico per la regione del viso, migliorando il realismo e consentendo la modifica dell'aspetto della persona. Utilizzando i NeRF per rappresentare i componenti rimanenti, il nostro metodo è in grado di modellare e sintetizzare parti con geometria e aspetto complessi, come capelli ricci e sciarpe voluminose. Il nostro sistema innovativo sintetizza questi avatar compositivi di alta qualità a partire da descrizioni testuali. I risultati sperimentali dimostrano che il nostro metodo, Generazione e Modifica Guidata da Testo di Avatar Composizionali (TECA), produce avatar più realistici rispetto ai metodi recenti, pur essendo modificabili grazie alla loro natura compositiva. Ad esempio, il nostro TECA consente il trasferimento senza soluzione di continuità di caratteristiche compositive come acconciature, sciarpe e altri accessori tra avatar. Questa capacità supporta applicazioni come il virtual try-on.