Articoli di ricerca IA selezionati quotidianamente con traduzioni
Scopriamo che le comuni schedulazioni del rumore nei modelli di diffusione non impongono che l'ultimo passo temporale abbia un rapporto segnale-rumore (SNR) pari a zero, e alcune implementazioni dei campionatori di diffusione non partono dall'ultimo passo temporale. Tali progettazioni sono difettose e non riflettono il fatto che il modello riceve rumore gaussiano puro durante l'inferenza, creando una discrepanza tra addestramento e inferenza. Dimostriamo che questa progettazione difettosa causa problemi reali nelle implementazioni esistenti. In Stable Diffusion, limita gravemente il modello a generare solo immagini con luminosità media e gli impedisce di produrre campioni molto luminosi o scuri. Proponiamo alcune semplici correzioni: (1) riscalare la schedulazione del rumore per imporre uno SNR terminale pari a zero; (2) addestrare il modello con la previsione di v; (3) modificare il campionatore per far sì che parta sempre dall'ultimo passo temporale; (4) riscalare la guida senza classificatore per prevenire la sovraesposizione. Questi semplici cambiamenti garantiscono che il processo di diffusione sia congruente tra addestramento e inferenza e consentono al modello di generare campioni più fedeli alla distribuzione originale dei dati.
In questo articolo presentiamo FitMe, un modello di riflettanza facciale e una pipeline di ottimizzazione di rendering differenziabile, che può essere utilizzato per acquisire avatar umani renderizzabili ad alta fedeltà da una o più immagini. Il modello è composto da un generatore multimodale basato su stili, che cattura l'aspetto facciale in termini di riflettanza diffusa e speculare, e da un modello di forma basato su PCA. Utilizziamo un processo di rendering differenziabile veloce che può essere impiegato in una pipeline di ottimizzazione, raggiungendo al contempo un'illuminazione facciale fotorealistica. Il nostro processo di ottimizzazione cattura accuratamente sia la riflettanza che la forma del viso con un alto livello di dettaglio, sfruttando l'espressività della rappresentazione latente basata su stili e del nostro modello di forma. FitMe raggiunge risultati all'avanguardia nell'acquisizione della riflettanza e nella conservazione dell'identità su singole immagini facciali "in-the-wild", mentre produce risultati impressionanti simili a scansioni quando vengono fornite più immagini facciali non vincolate appartenenti alla stessa identità. A differenza delle recenti ricostruzioni implicite di avatar, FitMe richiede solo un minuto e produce avatar rilucenti basati su mesh e texture, che possono essere utilizzati da applicazioni per utenti finali.
Determinare automaticamente se un testo e un'immagine corrispondente siano semanticamente allineati rappresenta una sfida significativa per i modelli di visione e linguaggio, con applicazioni nei compiti generativi di testo-immagine e immagine-testo. In questo lavoro, studiamo metodi per la valutazione automatica dell'allineamento testo-immagine. Introduciamo innanzitutto SeeTRUE: un insieme di valutazione completo, che abbraccia più dataset provenienti sia da compiti di generazione testo-immagine che immagine-testo, con giudizi umani sull'allineamento semantico di una coppia testo-immagine. Descriviamo poi due metodi automatici per determinare l'allineamento: il primo basato su una pipeline che utilizza modelli di generazione di domande e risposte visive, e il secondo che impiega un approccio di classificazione end-to-end tramite il fine-tuning di modelli preaddestrati multimodali. Entrambi i metodi superano approcci precedenti in vari compiti di allineamento testo-immagine, con miglioramenti significativi nei casi complessi che coinvolgono composizioni intricate o immagini non naturali. Infine, dimostriamo come i nostri approcci possano localizzare specifici disallineamenti tra un'immagine e un dato testo, e come possano essere utilizzati per riordinare automaticamente i candidati nella generazione testo-immagine.
Gli esseri umani possono facilmente interpretare una singola immagine come la rappresentazione di molteplici oggetti potenziali che consentono interazioni. Utilizziamo questa abilità per pianificare le nostre interazioni con il mondo e accelerare la comprensione di nuovi oggetti senza dover necessariamente interagire con essi. In questo articolo, desideriamo dotare le macchine di un'abilità simile, in modo che gli agenti intelligenti possano esplorare meglio le scene 3D o manipolare oggetti. Il nostro approccio si basa su un modello transformer che predice la posizione 3D, le proprietà fisiche e le affordance degli oggetti. Per alimentare questo modello, abbiamo raccolto un dataset composto da video di Internet, video egocentrici e immagini di ambienti interni per addestrare e validare il nostro approccio. Il nostro modello dimostra prestazioni solide sui nostri dati e si generalizza bene ai dati robotici.
I modelli di diffusione eccellono nella generazione di immagini da testo, in particolare nella generazione guidata dal soggetto per immagini personalizzate. Tuttavia, i metodi esistenti sono inefficienti a causa del fine-tuning specifico per il soggetto, che è computazionalmente intensivo e ostacola una distribuzione efficiente. Inoltre, i metodi esistenti hanno difficoltà con la generazione multi-soggetto, poiché spesso mescolano le caratteristiche tra i soggetti. Presentiamo FastComposer, che consente una generazione efficiente, personalizzata e multi-soggetto di immagini da testo senza fine-tuning. FastComposer utilizza embedding di soggetto estratti da un codificatore di immagini per arricchire il condizionamento testuale generico nei modelli di diffusione, consentendo la generazione di immagini personalizzate basate su immagini di soggetto e istruzioni testuali con solo passaggi in avanti. Per affrontare il problema della fusione delle identità nella generazione multi-soggetto, FastComposer propone una supervisione di localizzazione cross-attention durante l'addestramento, imponendo che l'attenzione dei soggetti di riferimento sia localizzata nelle regioni corrette delle immagini target. Il condizionamento ingenuo sugli embedding di soggetto porta a un overfitting del soggetto. FastComposer propone un condizionamento ritardato del soggetto nel passaggio di denoising per mantenere sia l'identità che l'editabilità nella generazione di immagini guidata dal soggetto. FastComposer genera immagini di più individui non visti con stili, azioni e contesti diversi. Raggiunge un'accelerazione di 300-2500 volte rispetto ai metodi basati su fine-tuning e richiede zero spazio di archiviazione aggiuntivo per nuovi soggetti. FastComposer apre la strada a una creazione efficiente, personalizzata e di alta qualità di immagini multi-soggetto. Codice, modello e dataset sono disponibili su https://github.com/mit-han-lab/fastcomposer.
La ricerca sull'apprendimento continuo online (OCL) si è principalmente concentrata sulla mitigazione dell'oblio catastrofico con un'allocazione di memoria fissa e limitata durante l'intera vita dell'agente. Tuttavia, la crescente accessibilità economica dello spazio di archiviazione evidenzia un'ampia gamma di applicazioni che non rispettano queste ipotesi. In questi casi, la preoccupazione principale risiede nella gestione delle spese computazionali piuttosto che nello spazio di archiviazione. In questo articolo, ci concentriamo su tali contesti, esplorando il problema dell'apprendimento continuo online allentando i vincoli di archiviazione e enfatizzando un budget economico fisso e limitato. Proponiamo un algoritmo semplice che può memorizzare in modo compatto e utilizzare l'intero flusso di dati in arrivo con budget computazionali ridotti, utilizzando un classificatore kNN e estrattori di caratteristiche pre-addestrati universali. Il nostro algoritmo offre una proprietà di coerenza attraente per l'apprendimento continuo: non dimenticherà mai i dati visti in passato. Stabiliamo un nuovo stato dell'arte su due grandi dataset OCL: Continual LOCalization (CLOC), che contiene 39 milioni di immagini su 712 classi, e Continual Google Landmarks V2 (CGLM), che contiene 580.000 immagini su 10.788 classi, superando metodi con budget computazionali molto più elevati del nostro sia in termini di riduzione dell'oblio catastrofico dei dati passati che di adattamento rapido a flussi di dati in rapida evoluzione. Forniamo il codice per riprodurre i nostri risultati all'indirizzo https://github.com/drimpossible/ACM.