Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo i vettori temporali, uno strumento semplice per personalizzare i modelli linguistici a nuovi periodi temporali. I vettori temporali vengono creati ottimizzando un modello linguistico su dati provenienti da un singolo periodo (ad esempio, un anno o un mese), per poi sottrarre i pesi del modello pre-addestrato originale. Questo vettore specifica una direzione nello spazio dei pesi che, come dimostrano i nostri esperimenti, migliora le prestazioni su testi provenienti da quel periodo temporale. I vettori temporali specializzati per periodi adiacenti sembrano essere posizionati più vicini tra loro in una varietà. Utilizzando questa struttura, interpoliamo tra i vettori temporali per indurre nuovi modelli che performano meglio su periodi intermedi e futuri, senza alcun addestramento aggiuntivo. Dimostriamo la coerenza dei nostri risultati attraverso diversi compiti, domini, dimensioni dei modelli e scale temporali. I nostri risultati suggeriscono che il tempo è codificato nello spazio dei pesi dei modelli ottimizzati.
I recenti progressi nell'inpainting guidato da testo, basati sul successo senza precedenti dei modelli di diffusione testo-immagine, hanno portato a risultati eccezionalmente realistici e visivamente plausibili. Tuttavia, c'è ancora un significativo margine di miglioramento nei modelli attuali di inpainting testo-immagine, in particolare nel meglio allineare l'area inpainting con i prompt dell'utente e nell'eseguire inpainting ad alta risoluzione. Pertanto, in questo articolo introduciamo HD-Painter, un approccio completamente privo di addestramento che segue accuratamente i prompt e si scala coerentemente all'inpainting di immagini ad alta risoluzione. A tal fine, progettiamo il livello Prompt-Aware Introverted Attention (PAIntA) che migliora i punteggi di self-attention con le informazioni del prompt, ottenendo generazioni con un migliore allineamento al testo. Per ulteriormente migliorare la coerenza del prompt, introduciamo il meccanismo Reweighting Attention Score Guidance (RASG) che integra perfettamente una strategia di campionamento post-hoc nella forma generale di DDIM per prevenire spostamenti latenti fuori distribuzione. Inoltre, HD-Painter consente l'estensione a scale più grandi introducendo una tecnica di super-risoluzione specializzata e personalizzata per l'inpainting, permettendo il completamento di regioni mancanti in immagini fino a risoluzione 2K. I nostri esperimenti dimostrano che HD-Painter supera qualitativamente e quantitativamente gli approcci state-of-the-art esistenti, ottenendo un impressionante miglioramento dell'accuratezza di generazione del 61,4% rispetto al 51,9%. Renderemo i codici pubblicamente disponibili all'indirizzo: https://github.com/Picsart-AI-Research/HD-Painter
I recenti progressi nel compito di generazione di testo-3D sfruttano modelli di diffusione testo-immagine affinati per generare immagini multi-vista, seguite da una ricostruzione NeRF. Tuttavia, i modelli di diffusione affinati in modo supervisionato (SFT) esistenti continuano a soffrire di incoerenza multi-vista e degli artefatti NeRF risultanti. Sebbene un addestramento più lungo con SFT migliori la coerenza, provoca anche uno spostamento della distribuzione, riducendo la diversità e i dettagli realistici. Sosteniamo che l'affinamento SFT dei modelli di diffusione multi-vista assomiglia alla fase di affinamento delle istruzioni della pipeline di allineamento degli LLM e può trarre vantaggio dai metodi di affinamento con rinforzo (RLFT). In sostanza, i metodi RLFT ottimizzano i modelli oltre la loro distribuzione di dati SFT utilizzando i loro stessi output, mitigando efficacemente lo spostamento della distribuzione. A tal fine, introduciamo Carve3D, un metodo RLFT accoppiato con la metrica di Coerenza della Ricostruzione Multi-vista (MRC), per migliorare la coerenza dei modelli di diffusione multi-vista. Per calcolare l'MRC su un insieme di immagini multi-vista, le confrontiamo con i rendering corrispondenti del NeRF ricostruito dalle stesse angolazioni. Validiamo la robustezza dell'MRC con esperimenti estensivi condotti sotto livelli controllati di incoerenza. Miglioriamo l'algoritmo RLFT di base per stabilizzare il processo di addestramento, ridurre lo spostamento della distribuzione e identificare le leggi di scala. Attraverso esperimenti qualitativi e quantitativi, insieme a uno studio utente, dimostriamo la migliore coerenza multi-vista di Carve3D, la qualità superiore della ricostruzione NeRF risultante e uno spostamento minimo della distribuzione rispetto a un SFT più lungo. Pagina del progetto: https://desaixie.github.io/carve-3d.
Presentiamo ShowRoom3D, un approccio in tre fasi per la generazione di scene 3D su scala ambientale di alta qualità a partire da testi. I metodi precedenti che utilizzano prior di diffusione 2D per ottimizzare i campi di radianza neurale nella generazione di scene su scala ambientale hanno mostrato una qualità insoddisfacente. Ciò è principalmente attribuito alle limitazioni dei prior 2D, che mancano di consapevolezza 3D, e ai vincoli nella metodologia di addestramento. In questo articolo, utilizziamo un prior di diffusione 3D, MVDiffusion, per ottimizzare la scena 3D su scala ambientale. I nostri contributi si articolano in due aspetti. In primo luogo, proponiamo un processo di selezione progressiva delle viste per ottimizzare il NeRF. Questo implica la divisione del processo di addestramento in tre fasi, espandendo gradualmente l'ambito di campionamento della telecamera. In secondo luogo, proponiamo il metodo di trasformazione della posa nella seconda fase. Ciò garantirà che MVDiffusion fornisca una guida precisa delle viste. Di conseguenza, ShowRoom3D consente la generazione di ambienti con una migliore integrità strutturale, una maggiore chiarezza da qualsiasi angolazione, una ridotta ripetizione dei contenuti e una maggiore coerenza tra diverse prospettive. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente gli approcci all'avanguardia con un ampio margine in termini di studio utente.
I recenti progressi nella modellazione della testa umana consentono di generare modelli 3D di teste realistici tramite rappresentazioni neurali. Tuttavia, la costruzione di modelli completi di teste ad alta fedeltà con animazione esplicitamente controllata rimane un problema. Inoltre, completare la geometria della testa basandosi su un'osservazione parziale, ad esempio proveniente da un sensore di profondità, preservando i dettagli, è spesso problematico per i metodi esistenti. Introduciamo un modello generativo per mesh 3D dettagliate di teste basato su un 3DMM articolato, che consente sia l'animazione esplicita che la preservazione di dettagli ad alta risoluzione. Il nostro metodo viene addestrato in due fasi. In primo luogo, registriamo un modello parametrico di testa con spostamenti dei vertici su ciascuna mesh del recente dataset NPHM, composto da scansioni 3D accurate di teste. Gli spostamenti stimati vengono mappati su un layout UV creato manualmente. In secondo luogo, addestriamo un modello StyleGAN per generalizzare le mappe UV degli spostamenti. La decomposizione del modello parametrico e gli spostamenti di alta qualità dei vertici ci permettono di animare il modello e modificarlo semanticamente. Dimostriamo i risultati della generazione incondizionata e dell'adattamento a osservazioni complete o parziali. La pagina del progetto è disponibile all'indirizzo https://seva100.github.io/headcraft.