Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) sono stati degni di nota, tuttavia, questi MLLM a dominio generale spesso non riescono a comprendere e interagire efficacemente con le schermate delle interfacce utente (UI). In questo articolo, presentiamo Ferret-UI, un nuovo MLLM progettato per una migliore comprensione delle schermate UI mobili, dotato di capacità di riferimento, ancoraggio e ragionamento. Dato che le schermate UI presentano tipicamente un rapporto d'aspetto più allungato e contengono oggetti di interesse più piccoli (ad esempio, icone, testi) rispetto alle immagini naturali, incorporiamo una "risoluzione qualsiasi" su Ferret per ingrandire i dettagli e sfruttare caratteristiche visive potenziate. Nello specifico, ogni schermata viene divisa in 2 sotto-immagini in base al rapporto d'aspetto originale (cioè, divisione orizzontale per schermate verticali e divisione verticale per schermate orizzontali). Entrambe le sotto-immagini vengono codificate separatamente prima di essere inviate ai modelli linguistici. Raccogliamo meticolosamente campioni di addestramento da un'ampia gamma di attività UI di base, come il riconoscimento delle icone, la ricerca di testo e l'elenco dei widget. Questi campioni sono formattati per il seguimento di istruzioni con annotazioni di regione per facilitare un riferimento e un ancoraggio precisi. Per aumentare la capacità di ragionamento del modello, compiliamo ulteriormente un dataset per attività avanzate, tra cui descrizioni dettagliate, conversazioni di percezione/interazione e inferenze di funzioni. Dopo l'addestramento sui dataset curati, Ferret-UI dimostra una comprensione eccezionale delle schermate UI e la capacità di eseguire istruzioni aperte. Per la valutazione del modello, stabiliamo un benchmark completo che comprende tutte le attività menzionate. Ferret-UI eccelle non solo rispetto alla maggior parte degli MLLM UI open-source, ma supera anche GPT-4V in tutte le attività UI di base.
I recenti progressi nella generazione di video da testo (Text-to-Video, T2V) hanno ottenuto risultati notevoli nella sintesi di video di alta qualità a partire da descrizioni testuali. Un problema largamente trascurato nel T2V è che i modelli esistenti non hanno adeguatamente codificato la conoscenza fisica del mondo reale, pertanto i video generati tendono ad avere movimenti limitati e scarse variazioni. In questo articolo, proponiamo MagicTime, un modello di generazione di video time-lapse metamorfici, che apprende la conoscenza fisica del mondo reale dai video time-lapse e implementa la generazione metamorfica. In primo luogo, progettiamo uno schema MagicAdapter per disaccoppiare l'addestramento spaziale e temporale, codificare maggiori conoscenze fisiche dai video metamorfici e trasformare i modelli T2V pre-addestrati per generare video metamorfici. In secondo luogo, introduciamo una strategia di Estrazione Dinamica dei Fotogrammi per adattarsi ai video time-lapse metamorfici, che hanno un intervallo di variazione più ampio e coprono processi metamorfici drammatici degli oggetti, incorporando così più conoscenze fisiche rispetto ai video generici. Infine, introduciamo un Magic Text-Encoder per migliorare la comprensione dei prompt dei video metamorfici. Inoltre, creiamo un dataset video-testo time-lapse chiamato ChronoMagic, specificamente curato per sbloccare la capacità di generazione di video metamorfici. Esperimenti estensivi dimostrano la superiorità e l'efficacia di MagicTime nella generazione di video metamorfici di alta qualità e dinamici, suggerendo che la generazione di video time-lapse è una strada promettente verso la costruzione di simulatori metamorfici del mondo fisico.
I recenti progressi nell'editing generativo di immagini basato su diffusione hanno innescato una profonda rivoluzione, ridefinendo il panorama delle attività di outpaint e inpaint delle immagini. Nonostante questi avanzamenti, il campo deve affrontare sfide intrinseche, tra cui: i) qualità inferiore; ii) scarsa coerenza; iii) aderenza insufficiente alle istruzioni; iv) efficienza di generazione subottimale. Per affrontare questi ostacoli, presentiamo ByteEdit, un innovativo framework di apprendimento con feedback meticolosamente progettato per potenziare, conformare e accelerare le attività di editing generativo di immagini. ByteEdit integra in modo fluido modelli di ricompensa per immagini dedicati a migliorare l'estetica e l'allineamento immagine-testo, introducendo anche un modello di ricompensa denso a livello di pixel, concepito per favorire la coerenza nell'output. Inoltre, proponiamo una strategia pionieristica di apprendimento con feedback avversario e progressivo per accelerare la velocità di inferenza del modello. Attraverso estese valutazioni su larga scala condotte da utenti, dimostriamo che ByteEdit supera i principali prodotti di editing generativo di immagini, tra cui Adobe, Canva e MeiTu, sia in termini di qualità che di coerenza. ByteEdit-Outpainting mostra un miglioramento notevole del 388% e del 135% rispettivamente nella qualità e nella coerenza rispetto al modello di base. Gli esperimenti hanno anche verificato che i nostri modelli di accelerazione mantengono risultati eccellenti in termini di qualità e coerenza.
L'editing efficace di contenuti personali svolge un ruolo fondamentale nel consentire agli individui di esprimere la propria creatività, intrecciando narrazioni avvincenti all'interno delle loro storie visive e migliorando la qualità complessiva e l'impatto dei loro contenuti visivi. Pertanto, in questo lavoro, presentiamo SwapAnything, un nuovo framework in grado di sostituire qualsiasi oggetto in un'immagine con concetti personalizzati forniti come riferimento, mantenendo invariato il contesto. Rispetto ai metodi esistenti per la sostituzione personalizzata di soggetti, SwapAnything offre tre vantaggi unici: (1) controllo preciso di oggetti e parti arbitrarie anziché del soggetto principale, (2) conservazione più fedele dei pixel del contesto, (3) migliore adattamento del concetto personalizzato all'immagine. In primo luogo, proponiamo lo scambio variabile mirato per applicare il controllo regionale sulle mappe di feature latenti e scambiare variabili mascherate per una conservazione fedele del contesto e uno scambio iniziale del concetto semantico. Successivamente, introduciamo l'adattamento dell'aspetto, per integrare in modo fluido il concetto semantico nell'immagine originale in termini di posizione, forma, stile e contenuto durante il processo di generazione dell'immagine. Risultati estesi su valutazioni sia umane che automatiche dimostrano miglioramenti significativi del nostro approccio rispetto ai metodi di base per lo scambio personalizzato. Inoltre, SwapAnything mostra le sue capacità di scambio precise e fedeli in compiti di scambio di singoli oggetti, oggetti multipli, parti di oggetti e scambio cross-dominio. SwapAnything ottiene anche ottime prestazioni nello scambio basato su testo e in compiti oltre lo scambio, come l'inserimento di oggetti.
I modelli di diffusione hanno rivoluzionato il campo della generazione di immagini, portando alla proliferazione di modelli di alta qualità e a una vasta gamma di applicazioni downstream. Tuttavia, nonostante questi significativi progressi, le soluzioni competitive attuali continuano a soffrire di diverse limitazioni, tra cui una qualità visiva inferiore, una mancanza di appeal estetico e un'inferenza inefficiente, senza una soluzione completa all'orizzonte. Per affrontare queste sfide, presentiamo UniFL, un framework unificato che sfrutta l'apprendimento basato sul feedback per migliorare in modo completo i modelli di diffusione. UniFL si distingue come una soluzione universale, efficace e generalizzabile applicabile a vari modelli di diffusione, come SD1.5 e SDXL. In particolare, UniFL incorpora tre componenti chiave: l'apprendimento basato sul feedback percettivo, che migliora la qualità visiva; l'apprendimento basato sul feedback disaccoppiato, che migliora l'appeal estetico; e l'apprendimento basato sul feedback avversario, che ottimizza la velocità di inferenza. Esperimenti approfonditi e ampi studi sugli utenti convalidano la performance superiore del nostro metodo proposto nel migliorare sia la qualità dei modelli generati che la loro accelerazione. Ad esempio, UniFL supera ImageReward del 17% nella preferenza degli utenti in termini di qualità di generazione e supera LCM e SDXL Turbo rispettivamente del 57% e del 20% nell'inferenza a 4 passi. Inoltre, abbiamo verificato l'efficacia del nostro approccio in task downstream, tra cui Lora, ControlNet e AnimateDiff.
Il recupero del movimento denso e a lungo raggio dei pixel nei video è un problema complesso. Parte della difficoltà deriva dal processo di proiezione da 3D a 2D, che porta a occlusioni e discontinuità nel dominio del movimento bidimensionale. Sebbene il movimento 2D possa essere intricato, ipotizziamo che il movimento 3D sottostante possa spesso essere semplice e a bassa dimensionalità. In questo lavoro, proponiamo di stimare le traiettorie dei punti nello spazio 3D per mitigare i problemi causati dalla proiezione delle immagini. Il nostro metodo, denominato SpatialTracker, eleva i pixel 2D a 3D utilizzando stimatori di profondità monoculare, rappresenta il contenuto 3D di ogni fotogramma in modo efficiente mediante una rappresentazione triplanare ed esegue aggiornamenti iterativi utilizzando un transformer per stimare le traiettorie 3D. Il tracciamento in 3D ci consente di sfruttare vincoli "as-rigid-as-possible" (ARAP) mentre apprendiamo simultaneamente un embedding di rigidità che raggruppa i pixel in diverse parti rigide. Una valutazione estensiva dimostra che il nostro approccio raggiunge prestazioni di tracciamento all'avanguardia sia qualitativamente che quantitativamente, in particolare in scenari complessi come la rotazione fuori piano.
Con il successo dei grandi modelli linguistici (LLM), l'integrazione di modelli visivi negli LLM per costruire modelli di base visione-linguaggio ha recentemente suscitato un interesse crescente. Tuttavia, gli attuali modelli multimodali di grandi dimensioni basati su LLM (ad esempio, Video-LLaMA, VideoChat) possono elaborare solo un numero limitato di fotogrammi per la comprensione di video brevi. In questo studio, ci concentriamo principalmente sulla progettazione di un modello efficiente ed efficace per la comprensione di video a lungo termine. Invece di cercare di elaborare più fotogrammi simultaneamente come nella maggior parte dei lavori esistenti, proponiamo di elaborare i video in modo online e di memorizzare le informazioni video passate in una banca della memoria. Ciò consente al nostro modello di fare riferimento al contenuto video storico per analisi a lungo termine senza superare i vincoli di lunghezza del contesto degli LLM o i limiti della memoria GPU. La nostra banca della memoria può essere integrata in modo immediato negli attuali LLM multimodali. Condividiamo esperimenti estesi su varie attività di comprensione video, come la comprensione di video lunghi, il question answering su video e la generazione di didascalie video, e il nostro modello può raggiungere prestazioni all'avanguardia su più dataset. Il codice è disponibile all'indirizzo https://boheumd.github.io/MA-LMM/.
Generare scene centrate sull'uomo ad alta risoluzione con dettagli e controlli rimane una sfida per i modelli di diffusione testo-immagine esistenti. Questa sfida deriva dalle dimensioni limitate delle immagini di addestramento, dalla capacità limitata dell'encoder di testo (token limitati) e dalla difficoltà intrinseca di generare scene complesse che coinvolgono più esseri umani. Mentre i metodi attuali hanno tentato di affrontare solo il limite delle dimensioni di addestramento, spesso hanno prodotto scene centrate sull'uomo con gravi artefatti. Proponiamo BeyondScene, un nuovo framework che supera le limitazioni precedenti, generando scene centrate sull'uomo ad alta risoluzione (oltre 8K) con una corrispondenza testo-immagine eccezionale e naturalezza utilizzando modelli di diffusione pre-addestrati esistenti. BeyondScene adotta un approccio gerarchico e a stadi per generare inizialmente un'immagine di base dettagliata, concentrandosi sugli elementi cruciali nella creazione di istanze per più esseri umani e descrizioni dettagliate oltre il limite di token del modello di diffusione, e poi per convertire in modo fluido l'immagine di base in un output ad alta risoluzione, superando le dimensioni delle immagini di addestramento e incorporando dettagli consapevoli del testo e delle istanze attraverso il nostro nuovo processo di ingrandimento gerarchico consapevole delle istanze, che consiste nella nostra proposta di diffusione in avanti con iniezione di alte frequenze e diffusione congiunta adattativa. BeyondScene supera i metodi esistenti in termini di corrispondenza con descrizioni testuali dettagliate e naturalezza, aprendo la strada a applicazioni avanzate nella creazione di scene centrate sull'uomo ad alta risoluzione oltre la capacità dei modelli di diffusione pre-addestrati senza costosi ri-addestramenti. Pagina del progetto: https://janeyeon.github.io/beyond-scene.
Nel campo in rapida evoluzione dei modelli generativi, lo sviluppo di sistemi di diffusione testo-immagine efficienti e ad alta fedeltà rappresenta una frontiera significativa. Questo studio introduce YaART, un innovativo modello di diffusione a cascata testo-immagine di livello produttivo, allineato alle preferenze umane attraverso l'apprendimento per rinforzo basato sul feedback umano (RLHF). Durante lo sviluppo di YaART, ci siamo concentrati in particolare sulla scelta delle dimensioni del modello e del dataset di addestramento, aspetti che non erano stati precedentemente investigati in modo sistematico per i modelli di diffusione a cascata testo-immagine. In particolare, analizziamo in modo approfondito come queste scelte influenzino sia l'efficienza del processo di addestramento che la qualità delle immagini generate, aspetti di grande importanza pratica. Inoltre, dimostriamo che i modelli addestrati su dataset più piccoli di immagini di qualità superiore possono competere con successo con quelli addestrati su dataset più grandi, stabilendo uno scenario più efficiente per l'addestramento dei modelli di diffusione. Dal punto di vista della qualità, YaART è costantemente preferito dagli utenti rispetto a molti modelli all'avanguardia esistenti.
La modellazione e il rendering di avatar fotorealistici riveste un'importanza cruciale in molte applicazioni. Tuttavia, i metodi esistenti che costruiscono un avatar 3D a partire da osservazioni visive faticano a ricostruire esseri umani vestiti. Introduciamo PhysAvatar, un framework innovativo che combina l'inverse rendering con l'inverse physics per stimare automaticamente la forma e l'aspetto di un essere umano a partire da dati video multi-vista, insieme ai parametri fisici del tessuto dei loro abiti. A tal fine, adottiamo una tecnica di mesh-aligned 4D Gaussian per il tracciamento spazio-temporale della mesh, nonché un renderer inverso basato sulla fisica per stimare le proprietà intrinseche dei materiali. PhysAvatar integra un simulatore fisico per stimare i parametri fisici degli indumenti utilizzando un'ottimizzazione basata su gradienti in modo rigoroso. Queste nuove capacità consentono a PhysAvatar di creare rendering di alta qualità di avatar vestiti con abiti ampi in condizioni di movimento e illuminazione non presenti nei dati di addestramento. Questo rappresenta un significativo passo avanti verso la modellazione di esseri umani digitali fotorealistici utilizzando l'inverse rendering basato sulla fisica con la fisica in loop. Il sito web del progetto è disponibile all'indirizzo: https://qingqing-zhao.github.io/PhysAvatar
Presentiamo Diffusion-KTO, un approccio innovativo per allineare i modelli di diffusione testo-immagine formulando l'obiettivo di allineamento come la massimizzazione dell'utilità umana attesa. Poiché questo obiettivo si applica a ciascuna generazione in modo indipendente, Diffusion-KTO non richiede la raccolta di costosi dati di preferenza a coppie né l'addestramento di un complesso modello di ricompensa. Invece, il nostro obiettivo richiede semplici segnali di feedback binari per immagine, ad esempio "mi piace" o "non mi piace", che sono ampiamente disponibili. Dopo il fine-tuning utilizzando Diffusion-KTO, i modelli di diffusione testo-immagine mostrano prestazioni superiori rispetto alle tecniche esistenti, incluso il fine-tuning supervisionato e Diffusion-DPO, sia in termini di giudizio umano che di metriche di valutazione automatica come PickScore e ImageReward. In sintesi, Diffusion-KTO sblocca il potenziale di sfruttare i segnali binari per immagine facilmente disponibili e amplia l'applicabilità dell'allineamento dei modelli di diffusione testo-immagine con le preferenze umane.
In questo articolo presentiamo MoMA: un modello di immagini personalizzato open-vocabulary, privo di addestramento, che vanta capacità zero-shot flessibili. Con l'evoluzione rapida dei modelli test-to-immagine di base, cresce la domanda di una robusta traduzione immagine-to-immagine. Rispondendo a questa esigenza, MoMA si specializza nella generazione di immagini personalizzate guidata dal soggetto. Utilizzando un Multimodal Large Language Model (MLLM) open-source, addestriamo MoMA per svolgere un duplice ruolo come estrattore di feature e generatore. Questo approccio sinergizza efficacemente le informazioni dell'immagine di riferimento e del prompt testuale per produrre feature immagine utili, facilitando un modello di diffusione delle immagini. Per sfruttare al meglio le feature generate, introduciamo inoltre un nuovo metodo di scorciatoia self-attention che trasferisce in modo efficiente le feature immagine a un modello di diffusione delle immagini, migliorando la somiglianza dell'oggetto target nelle immagini generate. Notevolmente, come modulo plug-and-play privo di tuning, il nostro modello richiede solo una singola immagine di riferimento e supera i metodi esistenti nella generazione di immagini con alta fedeltà dei dettagli, migliorata conservazione dell'identità e fedeltà al prompt. Il nostro lavoro è open-source, fornendo così accesso universale a questi progressi.
I Transformer hanno catalizzato progressi nei campi della visione artificiale e dell'elaborazione del linguaggio naturale (NLP). Tuttavia, la notevole complessità computazionale pone limitazioni alla loro applicazione in compiti a contesto lungo, come la generazione di immagini ad alta risoluzione. Questo articolo introduce una serie di architetture adattate dal modello RWKV utilizzato in NLP, con le necessarie modifiche appositamente progettate per i modelli di diffusione applicati ai compiti di generazione di immagini, denominati Diffusion-RWKV. Similmente alla diffusione con i Transformer, il nostro modello è progettato per gestire in modo efficiente input suddivisi in patch in una sequenza con condizioni aggiuntive, scalando efficacemente e supportando sia parametri su larga scala che dataset estesi. Il suo vantaggio distintivo si manifesta nella ridotta complessità di aggregazione spaziale, rendendolo eccezionalmente abile nel processare immagini ad alta risoluzione, eliminando così la necessità di operazioni di finestratura o caching di gruppo. I risultati sperimentali su compiti di generazione di immagini condizionata e non condizionata dimostrano che Diffusion-RWKV raggiunge prestazioni pari o superiori ai modelli di diffusione basati su CNN o Transformer nelle metriche FID e IS, riducendo significativamente l'utilizzo totale di FLOP computazionali.
I recenti progressi nei modelli di diffusione hanno dimostrato una notevole capacità nel modificare immagini 2D basandosi su prompt testuali. Tuttavia, estendere queste tecniche per modificare scene in Neural Radiance Fields (NeRF) è complesso, poiché la modifica di singoli frame 2D può portare a incoerenze tra più viste. La nostra intuizione cruciale è che la geometria di una scena NeRF può fungere da ponte per integrare queste modifiche 2D. Utilizzando questa geometria, impieghiamo un ControlNet condizionato dalla profondità per migliorare la coerenza di ogni modifica delle immagini 2D. Inoltre, introduciamo un approccio di inpainting che sfrutta le informazioni sulla profondità delle scene NeRF per distribuire le modifiche 2D tra diverse immagini, garantendo robustezza contro errori e sfide di ricampionamento. I nostri risultati rivelano che questa metodologia raggiunge modifiche più consistenti, realistiche e dettagliate rispetto ai metodi leader esistenti per la modifica di scene NeRF guidata da testo.
Il question answering su video lunghi è un compito impegnativo che richiede il riconoscimento di attività a breve termine e il ragionamento sulle loro relazioni dettagliate. I modelli linguistici su video all'avanguardia (vLLM) rappresentano una soluzione promettente grazie alle loro capacità emergenti dimostrate su nuovi task. Tuttavia, nonostante siano stati addestrati su milioni di video della durata di pochi secondi, i vLLM non sono in grado di comprendere video della durata di minuti e di rispondere accuratamente a domande su di essi. Per affrontare questa limitazione, proponiamo un approccio leggero e auto-supervisionato, Key frame-conditioned long video-LLM (Koala), che introduce query spazio-temporali apprendibili per adattare i vLLM pre-addestrati alla generalizzazione su video più lunghi. Il nostro approccio introduce due nuovi tokenizer che si basano su token visivi calcolati da frame chiave sparsi del video per comprendere momenti brevi e lunghi dei video. Addestriamo il nostro approccio su HowTo100M e ne dimostriamo l'efficacia su benchmark di comprensione zero-shot di video lunghi, dove supera i modelli di grandi dimensioni all'avanguardia del 3-6% in termini di accuratezza assoluta su tutti i task. Sorprendentemente, mostriamo empiricamente che il nostro approccio non solo aiuta un vLLM pre-addestrato a comprendere video lunghi, ma migliora anche la sua accuratezza nel riconoscimento di azioni a breve termine.