Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione di immagini da testo hanno compiuto passi significativi nella sintesi di foto umane realistiche condizionate da prompt testuali. Tuttavia, i metodi di generazione personalizzata esistenti non riescono a soddisfare contemporaneamente i requisiti di alta efficienza, fedeltà promettente all'identità (ID) e controllabilità flessibile del testo. In questo lavoro, presentiamo PhotoMaker, un metodo efficiente di generazione personalizzata di immagini da testo, che codifica principalmente un numero arbitrario di immagini ID di input in un'incorporazione ID a stack per preservare le informazioni sull'identità. Tale incorporazione, che funge da rappresentazione ID unificata, non solo può racchiudere in modo completo le caratteristiche dello stesso ID di input, ma anche adattarsi alle caratteristiche di ID diversi per una successiva integrazione. Questo apre la strada a applicazioni più intriganti e di valore pratico. Inoltre, per guidare l'addestramento del nostro PhotoMaker, proponiamo una pipeline di costruzione dei dati orientata all'ID per assemblare i dati di addestramento. Sotto l'influenza del dataset costruito attraverso la pipeline proposta, il nostro PhotoMaker dimostra una migliore capacità di preservazione dell'ID rispetto ai metodi basati su fine-tuning al momento del test, offrendo al contempo miglioramenti significativi nella velocità, risultati di generazione di alta qualità, forti capacità di generalizzazione e un'ampia gamma di applicazioni. La nostra pagina del progetto è disponibile all'indirizzo https://photo-maker.github.io/.
La sintesi di interazioni uomo-oggetto semanticamente consapevoli e a lungo termine è fondamentale per simulare comportamenti umani realistici. In questo lavoro, affrontiamo il problema complesso di generare movimenti sincronizzati di oggetti e umani guidati da descrizioni linguistiche in scene 3D. Proponiamo CHOIS (Controllable Human-Object Interaction Synthesis), un approccio che genera simultaneamente il movimento degli oggetti e quello umano utilizzando un modello di diffusione condizionale, data una descrizione linguistica, gli stati iniziali dell'oggetto e dell'umano, e waypoint sparsi dell'oggetto. Mentre le descrizioni linguistiche informano lo stile e l'intento, i waypoint ancorano il movimento nella scena e possono essere efficacemente estratti utilizzando metodi di pianificazione di alto livello. Applicare in modo ingenuo un modello di diffusione fallisce nel prevedere il movimento dell'oggetto allineato con i waypoint di input e non può garantire il realismo delle interazioni che richiedono un contatto preciso mano-oggetto e un contatto appropriato ancorato al pavimento. Per superare questi problemi, introduciamo una perdita di geometria dell'oggetto come supervisione aggiuntiva per migliorare la corrispondenza tra il movimento generato dell'oggetto e i waypoint di input. Inoltre, progettiamo termini di guida per imporre vincoli di contatto durante il processo di campionamento del modello di diffusione addestrato.
La creazione di contenuti 3D a partire da una singola immagine è un compito di lunga data ma altamente desiderabile. I recenti progressi hanno introdotto prior di diffusione 2D, ottenendo risultati ragionevoli. Tuttavia, i metodi esistenti non sono sufficientemente iper-realistici per un utilizzo post-generazione, poiché gli utenti non possono visualizzare, renderizzare e modificare il contenuto 3D risultante da una gamma completa di angolazioni. Per affrontare queste sfide, introduciamo HyperDreamer con diversi design chiave e proprietà attraenti: 1) Visualizzabile: la modellazione di mesh a 360 gradi con texture ad alta risoluzione consente la creazione di modelli 3D visivamente accattivanti da una gamma completa di punti di osservazione. 2) Renderizzabile: la segmentazione semantica fine e i prior guidati dai dati sono incorporati come guida per apprendere proprietà ragionevoli di albedo, ruvidità e specularità dei materiali, consentendo una stima semantica arbitraria dei materiali. 3) Modificabile: per un modello generato o per i propri dati, gli utenti possono selezionare interattivamente qualsiasi regione con pochi clic e modificare efficientemente la texture con una guida basata su testo. Esperimenti estensivi dimostrano l'efficacia di HyperDreamer nella modellazione di materiali consapevoli della regione con texture ad alta risoluzione e nell'abilitazione di un'edizione user-friendly. Crediamo che HyperDreamer abbia il potenziale per far progredire la creazione di contenuti 3D e trovare applicazioni in vari domini.
I modelli di diffusione su larga scala per la generazione di video da testo (text-to-video, T2V) hanno compiuto notevoli progressi negli ultimi anni in termini di qualità visiva, movimento e coerenza temporale. Tuttavia, il processo di generazione rimane ancora una scatola nera, in cui tutti gli attributi (ad esempio, aspetto, movimento) vengono appresi e generati congiuntamente senza un controllo preciso, se non attraverso descrizioni testuali approssimative. Ispirati dall'animazione di immagini, che scompone il video in un aspetto specifico e nel corrispondente movimento, proponiamo AnimateZero per svelare il modello pre-addestrato di generazione video da testo, ovvero AnimateDiff, e fornirgli un controllo più preciso sull'aspetto e sul movimento. Per il controllo dell'aspetto, prendiamo in prestito i latenti intermedi e le loro caratteristiche dalla generazione di immagini da testo (text-to-image, T2I) per garantire che il primo frame generato corrisponda all'immagine data. Per il controllo temporale, sostituiamo l'attenzione temporale globale del modello T2V originale con la nostra proposta di attenzione a finestra corretta posizionalmente, per assicurare che gli altri frame si allineino bene con il primo frame. Grazie ai metodi proposti, AnimateZero può controllare con successo il processo di generazione senza ulteriori addestramenti. Come animatore zero-shot per immagini date, AnimateZero abilita anche nuove applicazioni, tra cui la generazione interattiva di video e l'animazione di immagini reali. Gli esperimenti dettagliati dimostrano l'efficacia del metodo proposto sia nella generazione video da testo che nelle relative applicazioni.
Il Reinforcement Learning (RL) offre un framework versatile per il raggiungimento di obiettivi a lungo termine. La sua generalità ci permette di formalizzare un'ampia gamma di problemi che i sistemi intelligenti del mondo reale incontrano, come gestire ricompense ritardate, affrontare l'osservabilità parziale, risolvere il dilemma tra esplorazione e sfruttamento, utilizzare dati offline per migliorare le prestazioni online e garantire il rispetto dei vincoli di sicurezza. Nonostante i notevoli progressi compiuti dalla comunità di ricerca nel RL nell'affrontare queste problematiche, le librerie RL open source esistenti tendono a concentrarsi su una porzione ristretta della pipeline di soluzioni RL, lasciando altri aspetti largamente trascurati. Questo articolo introduce Pearl, un pacchetto software per agenti RL pronto per la produzione, progettato esplicitamente per affrontare queste sfide in modo modulare. Oltre a presentare risultati preliminari di benchmark, l'articolo evidenzia le adozioni industriali di Pearl per dimostrarne l'idoneità all'uso in produzione. Pearl è open source su Github all'indirizzo github.com/facebookresearch/pearl e il suo sito ufficiale si trova su pearlagent.github.io.
Recentemente, i modelli di diffusione hanno compiuto progressi significativi nella generazione di immagini da testo (T2I), sintetizzando immagini con alta fedeltà e contenuti diversificati. Nonostante questi avanzamenti, la levigatezza dello spazio latente all'interno dei modelli di diffusione rimane in gran parte inesplorata. Spazi latenti lisci garantiscono che una perturbazione su un input latente corrisponda a un cambiamento graduale nell'immagine di output. Questa proprietà si rivela vantaggiosa in compiti successivi, come l'interpolazione di immagini, l'inversione e la modifica. In questo lavoro, evidenziamo la non levigatezza degli spazi latenti di diffusione osservando fluttuazioni visive evidenti risultanti da piccole variazioni latenti. Per affrontare questo problema, proponiamo Smooth Diffusion, una nuova categoria di modelli di diffusione che possono essere contemporaneamente ad alte prestazioni e lisci. Nello specifico, introduciamo la Regolarizzazione della Variazione Step-wise per imporre che la proporzione tra le variazioni di un input latente arbitrario e quelle dell'immagine di output sia costante in qualsiasi fase di addestramento della diffusione. Inoltre, ideiamo una metrica di deviazione standard dell'interpolazione (ISTD) per valutare efficacemente la levigatezza dello spazio latente di un modello di diffusione. Esperimenti quantitativi e qualitativi estesi dimostrano che Smooth Diffusion si distingue come una soluzione più desiderabile non solo nella generazione T2I ma anche in vari compiti successivi. Smooth Diffusion è implementato come un Smooth-LoRA plug-and-play per funzionare con vari modelli della comunità. Il codice è disponibile all'indirizzo https://github.com/SHI-Labs/Smooth-Diffusion.
In questo studio, esploriamo modelli di diffusione basati su Transformer per la generazione di immagini e video. Nonostante il dominio delle architetture Transformer in vari campi grazie alla loro flessibilità e scalabilità, il dominio della generazione visiva utilizza principalmente architetture U-Net basate su CNN, in particolare nei modelli basati su diffusione. Introduciamo GenTron, una famiglia di modelli generativi che impiegano la diffusione basata su Transformer, per colmare questa lacuna. Il nostro primo passo è stato adattare i Diffusion Transformer (DiT) dal condizionamento di classe a quello testuale, un processo che ha comportato un'approfondita esplorazione empirica del meccanismo di condizionamento. Successivamente, abbiamo scalato GenTron da circa 900M a oltre 3B parametri, osservando miglioramenti significativi nella qualità visiva. Inoltre, estendiamo GenTron alla generazione di video da testo, incorporando una nuova guida senza movimento per migliorare la qualità del video. Nelle valutazioni umane rispetto a SDXL, GenTron raggiunge un tasso di vittoria del 51.1% nella qualità visiva (con un tasso di pareggio del 19.8%) e un tasso di vittoria del 42.3% nell'allineamento al testo (con un tasso di pareggio del 42.9%). GenTron eccelle anche nel T2I-CompBench, evidenziando i suoi punti di forza nella generazione composizionale. Crediamo che questo lavoro fornirà spunti significativi e servirà come riferimento prezioso per la ricerca futura.
Proponiamo NeRFiller, un approccio che completa le porzioni mancanti di una cattura 3D attraverso l'inpainting generativo 3D utilizzando modelli generativi visivi 2D disponibili sul mercato. Spesso parti di una scena o di un oggetto catturati in 3D risultano mancanti a causa di fallimenti nella ricostruzione della mesh o della mancanza di osservazioni (ad esempio, regioni di contatto come il fondo degli oggetti o aree difficili da raggiungere). Affrontiamo questo impegnativo problema di inpainting 3D sfruttando un modello di diffusione per l'inpainting 2D. Identifichiamo un comportamento sorprendente di questi modelli, in cui generano inpainting più coerenti in 3D quando le immagini formano una griglia 2x2, e mostriamo come generalizzare questo comportamento a più di quattro immagini. Presentiamo quindi un framework iterativo per distillare queste regioni inpainting in una singola scena 3D coerente. A differenza di lavori correlati, ci concentriamo sul completamento delle scene piuttosto che sulla rimozione di oggetti in primo piano, e il nostro approccio non richiede maschere 2D precise degli oggetti o testo. Confrontiamo il nostro approccio con baseline rilevanti adattati al nostro contesto su una varietà di scene, dove NeRFiller crea i completamenti di scena più coerenti e plausibili in 3D. La nostra pagina del progetto è disponibile all'indirizzo https://ethanweber.me/nerfiller.
La generazione personalizzata utilizzando modelli di diffusione ha compiuto progressi impressionanti nella generazione di immagini, ma rimane insoddisfacente nel complesso compito della generazione di video, poiché richiede la controllabilità sia dei soggetti che dei movimenti. A tal fine, presentiamo DreamVideo, un approccio innovativo per generare video personalizzati a partire da alcune immagini statiche del soggetto desiderato e da alcuni video del movimento target. DreamVideo scompone questo compito in due fasi, apprendimento del soggetto e apprendimento del movimento, sfruttando un modello di diffusione video pre-addestrato. L'apprendimento del soggetto mira a catturare accuratamente l'aspetto dettagliato del soggetto dalle immagini fornite, ottenuto combinando l'inversione testuale e il fine-tuning del nostro adattatore di identità progettato con cura. Nell'apprendimento del movimento, progettiamo un adattatore di movimento e lo ottimizziamo sui video forniti per modellare efficacemente il pattern di movimento target. La combinazione di questi due adattatori leggeri ed efficienti consente una personalizzazione flessibile di qualsiasi soggetto con qualsiasi movimento. I risultati sperimentali estesi dimostrano la performance superiore del nostro DreamVideo rispetto ai metodi all'avanguardia per la generazione di video personalizzati. La nostra pagina del progetto è disponibile all'indirizzo https://dreamvideo-t2v.github.io.
Recentemente, i modelli di diffusione hanno mostrato miglioramenti nella qualità delle immagini sintetiche, oltre a un maggiore controllo nella generazione. Proponiamo e motiviamo Gen2Det, una pipeline modulare semplice per creare dati di addestramento sintetici per il rilevamento di oggetti in modo gratuito, sfruttando metodi all'avanguardia per la generazione di immagini ancorate. A differenza dei lavori esistenti che generano singole istanze di oggetti, richiedendo l'identificazione del primo piano seguito dall'incollaggio su altre immagini, semplifichiamo il processo generando direttamente immagini centrate sulla scena. Oltre ai dati sintetici, Gen2Det propone anche una serie di tecniche per sfruttare al meglio i dati generati, inclusi filtri a livello di immagine, filtri a livello di istanza e una migliore ricetta di addestramento per tenere conto delle imperfezioni nella generazione. Utilizzando Gen2Det, mostriamo miglioramenti significativi nei compiti di rilevamento e segmentazione di oggetti in vari contesti, indipendentemente dai metodi di rilevamento utilizzati. Nell'ambito del rilevamento a coda lunga su LVIS, Gen2Det migliora notevolmente le prestazioni sulle categorie rare, migliorando anche significativamente le prestazioni su altre categorie, ad esempio osserviamo un miglioramento di 2,13 Box AP e 1,84 Mask AP rispetto al solo addestramento su dati reali su LVIS con Mask R-CNN. Nel contesto di bassa disponibilità di dati su COCO, Gen2Det migliora costantemente sia Box AP che Mask AP di 2,27 e 1,85 punti. Nel contesto più generale di rilevamento, Gen2Det dimostra comunque guadagni robusti nelle prestazioni, ad esempio migliora Box AP e Mask AP su COCO di 0,45 e 0,32 punti.
I recenti significativi progressi nei modelli text-to-image aprono la possibilità di addestrare sistemi di visione utilizzando immagini sintetiche, potenzialmente superando la difficoltà di raccogliere dati curati su larga scala. Non è chiaro, tuttavia, come questi modelli si comportino su larga scala man mano che vengono aggiunti più dati sintetici al set di addestramento. In questo articolo studiamo le leggi di scala delle immagini sintetiche generate da modelli text-to-image all'avanguardia, per l'addestramento di modelli supervisionati: classificatori di immagini con supervisione delle etichette e CLIP con supervisione linguistica. Identifichiamo diversi fattori, tra cui prompt di testo, scala di guida senza classificatore e tipi di modelli text-to-image, che influenzano significativamente il comportamento di scala. Dopo aver ottimizzato questi fattori, osserviamo che le immagini sintetiche dimostrano una tendenza di scala simile, ma leggermente meno efficace, rispetto alle immagini reali nell'addestramento di CLIP, mentre sottoperformano significativamente in termini di scala durante l'addestramento di classificatori di immagini supervisionati. La nostra analisi indica che la principale ragione di questa sottoperformance è l'incapacità dei modelli text-to-image disponibili di generare determinati concetti, una limitazione che compromette significativamente l'addestramento dei classificatori di immagini. I nostri risultati suggeriscono inoltre che il ridimensionamento dei dati sintetici può essere particolarmente efficace in scenari come: (1) quando c'è una fornitura limitata di immagini reali per un problema supervisionato (ad esempio, meno di 0,5 milioni di immagini in ImageNet), (2) quando il dataset di valutazione diverge significativamente dai dati di addestramento, indicando uno scenario out-of-distribution, o (3) quando i dati sintetici vengono utilizzati in combinazione con immagini reali, come dimostrato nell'addestramento dei modelli CLIP.
Nonostante i modelli di diffusione abbiano dimostrato capacità potenti nel generare immagini fotorealistiche, la generazione di video realistici e diversificati è ancora agli inizi. Una delle ragioni principali è che i metodi attuali intrecciano insieme il contenuto spaziale e la dinamica temporale, portando a una complessità notevolmente aumentata nella generazione di video da testo (T2V). In questo lavoro, proponiamo HiGen, un metodo basato su modelli di diffusione che migliora le prestazioni disaccoppiando i fattori spaziali e temporali dei video da due prospettive, ovvero a livello di struttura e a livello di contenuto. A livello di struttura, scomponiamo il compito T2V in due passaggi, inclusi il ragionamento spaziale e il ragionamento temporale, utilizzando un denoiser unificato. Nello specifico, generiamo prior spazialmente coerenti utilizzando il testo durante il ragionamento spaziale e poi generiamo movimenti temporalmente coerenti da questi prior durante il ragionamento temporale. A livello di contenuto, estraiamo due sottili indizi dal contenuto del video di input che possono esprimere rispettivamente i cambiamenti di movimento e di aspetto. Questi due indizi guidano poi l'addestramento del modello per la generazione di video, consentendo variazioni di contenuto flessibili e migliorando la stabilità temporale. Attraverso il paradigma disaccoppiato, HiGen può ridurre efficacemente la complessità di questo compito e generare video realistici con accuratezza semantica e stabilità del movimento. Esperimenti estensivi dimostrano la superiorità delle prestazioni di HiGen rispetto ai metodi T2V all'avanguardia.