Articoli di ricerca IA selezionati quotidianamente con traduzioni
La filigranatura degli output dei modelli generativi è una tecnica cruciale per tracciare i diritti d'autore e prevenire potenziali danni derivanti da contenuti generati dall'IA. In questo articolo, introduciamo una nuova tecnica chiamata Tree-Ring Watermarking che identifica in modo robusto gli output dei modelli di diffusione. A differenza dei metodi esistenti che apportano modifiche post-hoc alle immagini dopo il campionamento, il Tree-Ring Watermarking influenza sottilmente l'intero processo di campionamento, risultando in un'impronta digitale del modello invisibile all'occhio umano. La filigrana incorpora un pattern nel vettore di rumore iniziale utilizzato per il campionamento. Questi pattern sono strutturati nello spazio di Fourier in modo da essere invarianti a convoluzioni, ritagli, dilatazioni, ribaltamenti e rotazioni. Dopo la generazione dell'immagine, il segnale della filigrana viene rilevato invertendo il processo di diffusione per recuperare il vettore di rumore, che viene poi controllato per la presenza del segnale incorporato. Dimostriamo che questa tecnica può essere facilmente applicata a modelli di diffusione arbitrari, incluso il Stable Diffusion condizionato al testo, come plug-in con una perdita trascurabile in termini di FID. La nostra filigrana è semanticamente nascosta nello spazio dell'immagine ed è molto più robusta rispetto alle alternative di filigranatura attualmente implementate. Il codice è disponibile su github.com/YuxinWenRick/tree-ring-watermark.
I modelli linguistici di grandi dimensioni basati su architetture Transformer (LLMs) hanno suscitato ammirazione per le loro prestazioni eccezionali in compiti che richiedono un ragionamento complesso e multi-step. Tuttavia, questi stessi modelli mostrano fallimenti in problemi sorprendentemente banali. Ciò solleva una domanda: questi errori sono incidentali, o indicano limitazioni più sostanziali? Nel tentativo di demistificare i Transformer, investigiamo i limiti di questi modelli attraverso tre compiti composizionali rappresentativi: la moltiplicazione di numeri a più cifre, puzzle logici a griglia e un classico problema di programmazione dinamica. Questi compiti richiedono di scomporre i problemi in sotto-passi e di sintetizzare questi passaggi in una risposta precisa. Formuliamo i compiti composizionali come grafi computazionali per quantificare sistematicamente il livello di complessità e scomponiamo i passaggi di ragionamento in sotto-procedure intermedie. I nostri risultati empirici suggeriscono che i Transformer risolvono i compiti composizionali riducendo il ragionamento composizionale multi-step in un matching lineare di sottografi, senza necessariamente sviluppare abilità sistematiche di problem-solving. Per concludere il nostro studio empirico, forniamo argomentazioni teoriche su problemi astratti di ragionamento multi-step che evidenziano come le prestazioni dei Transformer decadano rapidamente con l'aumentare della complessità del compito.
La sintesi automatica da testo a 3D ha raggiunto progressi significativi attraverso l'ottimizzazione di modelli 3D. I metodi esistenti si basano comunemente su modelli generativi pre-addestrati da testo a immagine, come i modelli di diffusione, che forniscono punteggi per rendering 2D di Neural Radiance Fields (NeRF) e vengono utilizzati per ottimizzare i NeRF. Tuttavia, questi metodi spesso incontrano artefatti e incoerenze tra più viste a causa della loro comprensione limitata della geometria 3D. Per affrontare queste limitazioni, proponiamo una riformulazione della funzione di perdita di ottimizzazione utilizzando il prior di diffusione. Inoltre, introduciamo un nuovo approccio di addestramento che sblocca il potenziale del prior di diffusione. Per migliorare la rappresentazione della geometria 3D, applichiamo una supervisione ausiliaria sulla profondità per le immagini renderizzate da NeRF e regolarizziamo il campo di densità dei NeRF. Esperimenti estensivi dimostrano la superiorità del nostro metodo rispetto ai lavori precedenti, ottenendo un fotorealismo avanzato e una migliore coerenza multi-vista.
I recenti progressi nei modelli di diffusione hanno reso possibile generare immagini ad alta fedeltà utilizzando prompt testuali. Tuttavia, esiste un divario di dominio tra le immagini generate e quelle del mondo reale, il che rappresenta una sfida nella generazione di variazioni di alta qualità di immagini reali. La nostra indagine rivela che questo divario di dominio origina da una differenza nella distribuzione dei latenti nei diversi processi di diffusione. Per affrontare questo problema, proponiamo una nuova pipeline di inferenza chiamata Real-world Image Variation by ALignment (RIVAL) che utilizza modelli di diffusione per generare variazioni di immagini a partire da un singolo esemplare di immagine. La nostra pipeline migliora la qualità della generazione delle variazioni di immagini allineando il processo di generazione dell'immagine alla catena di inversione dell'immagine sorgente. In particolare, dimostriamo che l'allineamento passo-passo della distribuzione dei latenti è essenziale per generare variazioni di alta qualità. Per raggiungere questo obiettivo, progettiamo un'iniezione di self-attention cross-image per l'interazione delle feature e una normalizzazione passo-passo della distribuzione per allineare le feature latenti. L'incorporazione di questi processi di allineamento in un modello di diffusione consente a RIVAL di generare variazioni di immagini di alta qualità senza ulteriori ottimizzazioni dei parametri. I nostri risultati sperimentali dimostrano che il nostro approccio proposto supera i metodi esistenti in termini di somiglianza semantica-condizionale e qualità percettiva. Inoltre, questa pipeline di inferenza generalizzata può essere facilmente applicata ad altre attività di generazione basate su diffusione, come la generazione di immagini da testo condizionata da immagini e il riempimento di immagini basato su esempi.
I recenti progressi nei modelli di diffusione immagine-testo hanno stimolato l'interesse della ricerca verso modelli generativi 3D su larga scala. Tuttavia, la limitata disponibilità di risorse 3D diversificate presenta sfide significative per l'apprendimento. In questo articolo, presentiamo un metodo innovativo per generare avatar 3D stilizzati di alta qualità, che utilizza modelli di diffusione immagine-testo pre-addestrati per la generazione di dati e una rete generativa avversaria (GAN) per la formazione di modelli 3D. Il nostro metodo sfrutta i precedenti completi di aspetto e geometria offerti dai modelli di diffusione immagine-testo per generare immagini multi-vista di avatar in vari stili. Durante la generazione dei dati, utilizziamo pose estratte da modelli 3D esistenti per guidare la creazione di immagini multi-vista. Per affrontare il disallineamento tra pose e immagini nei dati, esploriamo prompt specifici per la vista e sviluppiamo un discriminatore da grossolano a fine per l'addestramento della GAN. Approfondiamo inoltre prompt legati agli attributi per aumentare la diversità degli avatar generati. Inoltre, sviluppiamo un modello di diffusione latente all'interno dello spazio stilistico di StyleGAN per consentire la generazione di avatar basati su input di immagini. Il nostro approccio dimostra prestazioni superiori rispetto ai metodi attuali all'avanguardia in termini di qualità visiva e diversità degli avatar prodotti.
Questo articolo presenta un nuovo dataset vocale chiamato ``LibriTTS-R'', progettato per l'uso nella sintesi vocale (TTS). È stato ottenuto applicando tecniche di restauro audio al corpus LibriTTS, che consiste in 585 ore di dati vocali campionati a 24 kHz provenienti da 2.456 speaker e i relativi testi. I campioni costituenti di LibriTTS-R sono identici a quelli di LibriTTS, con la sola differenza di una qualità sonora migliorata. I risultati sperimentali mostrano che i campioni di riferimento di LibriTTS-R presentano una qualità sonora significativamente migliorata rispetto a quelli di LibriTTS. Inoltre, i sistemi neurali end-to-end per la sintesi vocale addestrati con LibriTTS-R hanno raggiunto una naturalezza del parlato paragonabile a quella dei campioni di riferimento. Il corpus è liberamente disponibile per il download all'indirizzo http://www.openslr.org/141/.
Presentiamo la ricetta di addestramento e i risultati del potenziamento di PaLI-X, un modello multilingue per la visione e il linguaggio, sia in termini di dimensioni dei componenti che di ampiezza della miscela di compiti di addestramento. Il nostro modello raggiunge nuovi livelli di prestazione su un'ampia gamma di compiti vari e complessi, tra cui attività di descrizione e risposta a domande basate su immagini, comprensione di documenti basati su immagini e apprendimento few-shot (in-context), nonché rilevamento di oggetti, risposta a domande su video e descrizione di video. PaLI-X avanza lo stato dell'arte nella maggior parte dei benchmark considerati per la visione e il linguaggio (oltre 25). Infine, osserviamo capacità emergenti, come il conteggio complesso e il rilevamento multilingue di oggetti, compiti che non sono esplicitamente presenti nella miscela di addestramento.
I grandi modelli linguistici (LLM) possono imparare a eseguire un'ampia gamma di attività di elaborazione del linguaggio naturale partendo da pochi esempi contestuali. Tuttavia, per generare stringhe da linguaggi altamente strutturati (ad esempio, il parsing semantico verso linguaggi specifici di dominio complessi), è difficile per un LLM generalizzare a partire da pochi esempi. Esploriamo il prompting grammaticale come approccio semplice per consentire agli LLM di utilizzare conoscenze esterne e vincoli specifici del dominio, espressi attraverso una grammatica in Forma di Backus-Naur (BNF), durante l'apprendimento contestuale. Il prompting grammaticale arricchisce ogni esempio dimostrativo con una grammatica specializzata che è minimamente sufficiente per generare il particolare esempio di output, dove la grammatica specializzata è un sottoinsieme della grammatica completa del DSL. Per l'inferenza, l'LLM predice prima una grammatica BNF dato un input di test, e poi genera l'output secondo le regole della grammatica. Gli esperimenti dimostrano che il prompting grammaticale può consentire agli LLM di ottenere risultati competitivi su un insieme diversificato di task di generazione di DSL, tra cui parsing semantico (SMCalFlow, Overnight, GeoQuery), pianificazione PDDL e persino generazione di molecole (SMILES).
I grandi modelli di diffusione hanno avuto successo nei compiti di sintesi da testo ad audio (T2A), ma spesso soffrono di problemi comuni come il disallineamento semantico e la scarsa coerenza temporale a causa di una comprensione limitata del linguaggio naturale e della scarsità di dati. Inoltre, le strutture spaziali 2D ampiamente utilizzate nei lavori T2A portano a una qualità audio insoddisfacente quando si generano campioni audio di lunghezza variabile, poiché non danno priorità adeguata alle informazioni temporali. Per affrontare queste sfide, proponiamo Make-an-Audio 2, un metodo T2A basato sulla diffusione latente che si basa sul successo di Make-an-Audio. Il nostro approccio include diverse tecniche per migliorare l'allineamento semantico e la coerenza temporale: in primo luogo, utilizziamo modelli linguistici pre-addestrati (LLM) per analizzare il testo in coppie strutturate <evento & ordine> per una migliore cattura delle informazioni temporali. Introduciamo anche un altro codificatore di testo strutturato per aiutare nell'apprendimento dell'allineamento semantico durante il processo di denoising della diffusione. Per migliorare le prestazioni della generazione di lunghezza variabile e potenziare l'estrazione delle informazioni temporali, progettiamo un denoiser di diffusione basato su Transformer feed-forward. Infine, utilizziamo gli LLM per aumentare e trasformare una grande quantità di dati audio-label in dataset audio-testo per alleviare il problema della scarsità di dati temporali. Esperimenti estensivi dimostrano che il nostro metodo supera i modelli di riferimento sia nelle metriche oggettive che soggettive, e ottiene guadagni significativi nella comprensione delle informazioni temporali, nella coerenza semantica e nella qualità del suono.
Proponiamo un algoritmo automatizzato per stressare un modello visivo addestrato generando immagini di test controfattuali guidate dal linguaggio (LANCE). Il nostro metodo sfrutta i recenti progressi nella modellazione del linguaggio su larga scala e nella modifica delle immagini basata su testo per arricchire un insieme di test IID con una serie di immagini di test diversificate, realistiche e impegnative senza alterare i pesi del modello. Valutiamo le prestazioni di un insieme diversificato di modelli pre-addestrati sui nostri dati generati e osserviamo cali di prestazioni significativi e consistenti. Analizziamo ulteriormente la sensibilità del modello rispetto a diversi tipi di modifiche e dimostriamo la sua applicabilità nell'evidenziare bias a livello di classe precedentemente sconosciuti in ImageNet.
I problemi che coinvolgono dati geometrici emergono in una varietà di campi, tra cui visione artificiale, robotica, chimica e fisica. Tali dati possono assumere numerose forme, come punti, vettori direzionali, piani o trasformazioni, ma fino ad oggi non esiste un'unica architettura che possa essere applicata a una così ampia varietà di tipi geometrici rispettandone le simmetrie. In questo articolo introduciamo il Geometric Algebra Transformer (GATr), un'architettura generica per dati geometrici. GATr rappresenta input, output e stati nascosti nell'algebra geometrica proiettiva, che offre una rappresentazione efficiente in uno spazio vettoriale a 16 dimensioni di oggetti geometrici comuni, nonché di operatori che agiscono su di essi. GATr è equivariante rispetto a E(3), il gruppo di simmetria dello spazio euclideo tridimensionale. In quanto trasformatore, GATr è scalabile, espressivo e versatile. Negli esperimenti di modellazione n-body e pianificazione robotica, GATr mostra significativi miglioramenti rispetto ai baseline non geometrici.
Questo articolo presenta un metodo in grado di adattare rapidamente avatar 3D dinamici a descrizioni testuali arbitrarie di nuovi stili. Tra gli approcci esistenti per la stilizzazione degli avatar, i metodi di ottimizzazione diretta possono produrre risultati eccellenti per stili arbitrari, ma sono spiacevolmente lenti. Inoltre, richiedono di ripetere il processo di ottimizzazione da zero per ogni nuovo input. I metodi di approssimazione rapida che utilizzano reti feed-forward addestrate su un ampio dataset di immagini di stile possono generare risultati per nuovi input velocemente, ma tendono a non generalizzare bene per stili nuovi e risultano carenti in termini di qualità. Pertanto, esploriamo un nuovo approccio, AlteredAvatar, che combina questi due metodi utilizzando il framework di meta-apprendimento. Nel ciclo interno, il modello impara a ottimizzare per adattarsi bene a un singolo stile target; mentre nel ciclo esterno, il modello impara a stilizzare in modo efficiente su molti stili. Dopo l'addestramento, AlteredAvatar apprende un'inizializzazione che può adattarsi rapidamente, con un numero ridotto di passi di aggiornamento, a un nuovo stile, che può essere fornito tramite testo, un'immagine di riferimento o una combinazione di entrambi. Dimostriamo che AlteredAvatar può raggiungere un buon equilibrio tra velocità, flessibilità e qualità, mantenendo la coerenza su un'ampia gamma di nuove visualizzazioni ed espressioni facciali.
I modelli di diffusione rappresentano lo stato dell'arte nella generazione di immagini, sintetizzando immagini di alta qualità suddividendo il processo di generazione in numerosi passaggi di rimozione del rumore a grana fine. Nonostante le loro prestazioni eccellenti, i modelli di diffusione sono computazionalmente costosi, richiedendo molte valutazioni di funzioni neurali (NFE). In questo lavoro, proponiamo un metodo basato sulla diffusione che può generare immagini valide quando interrotto in momenti arbitrari prima del completamento. Utilizzando modelli di diffusione pre-addestrati esistenti, dimostriamo che lo schema di generazione può essere ricomposto come due processi di diffusione annidati, consentendo un rapido perfezionamento iterativo di un'immagine generata. Utilizziamo questo approccio di Diffusione Annidata per osservare il processo di generazione e abilitare una pianificazione flessibile basata sulla preferenza istantanea dell'utente. Negli esperimenti su ImageNet e sulla generazione di immagini da testo basata su Stable Diffusion, mostriamo, sia qualitativamente che quantitativamente, che la qualità intermedia della generazione del nostro metodo supera notevolmente quella del modello di diffusione originale, mentre il risultato finale della generazione lenta rimane comparabile.
La comprensione delle immagini pubblicitarie è un compito cruciale con ampie applicazioni nel mondo reale. Sebbene sia estremamente impegnativo a causa della presenza di scene atipiche e diversificate, entità del mondo reale e ragionamenti sui testi presenti nelle scene, l'interpretazione delle immagini pubblicitarie è relativamente poco esplorata, specialmente nell'era dei modelli fondazionali visione-linguaggio (VLMs) che presentano un'impressionante generalizzabilità e adattabilità. In questo articolo, conduciamo il primo studio empirico sulla comprensione delle immagini pubblicitarie attraverso l'ottica dei VLMs pre-addestrati. Effettuiamo un benchmark e riveliamo le sfide pratiche nell'adattare questi VLMs alla comprensione delle immagini pubblicitarie. Proponiamo una semplice strategia di adattamento delle feature per fondere efficacemente le informazioni multimodali per le immagini pubblicitarie e la potenziamo ulteriormente con la conoscenza delle entità del mondo reale. Speriamo che il nostro studio attiri maggiore attenzione sulla comprensione delle immagini pubblicitarie, un ambito di grande rilevanza per l'industria pubblicitaria.