Articoli di ricerca IA selezionati quotidianamente con traduzioni
I notevoli progressi dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno attirato un'attenzione senza precedenti, grazie alle loro prestazioni superiori in contesti visivi. Tuttavia, le loro capacità nella risoluzione di problemi matematici visivi rimangono insufficientemente valutate e comprese. Investigiamo i benchmark attuali per incorporare contenuti visivi eccessivi all'interno di domande testuali, che potenzialmente assistono gli MLLMs nel dedurre risposte senza interpretare veramente i diagrammi di input. A tal fine, introduciamo MathVerse, un benchmark visivo matematico completo progettato per una valutazione equa e approfondita degli MLLMs. Abbiamo meticolosamente raccolto 2.612 problemi matematici di alta qualità e multi-soggetto con diagrammi da fonti pubblicamente disponibili. Ogni problema è poi trasformato da annotatori umani in sei versioni distinte, ciascuna con diversi gradi di contenuto informativo in multimodalità, contribuendo a un totale di 15.000 campioni di test. Questo approccio permette a MathVerse di valutare in modo completo se e quanto gli MLLMs possono veramente comprendere i diagrammi visivi per il ragionamento matematico. Inoltre, proponiamo una strategia di valutazione a Catena di Pensiero (CoT) per una valutazione granulare delle risposte in output. Piuttosto che giudicare semplicemente Vero o Falso, utilizziamo GPT-4(V) per estrarre in modo adattivo i passaggi cruciali di ragionamento, e poi assegnare un punteggio a ciascun passaggio con un'analisi dettagliata degli errori, che può rivelare la qualità intermedia del ragionamento CoT degli MLLMs. Speriamo che il benchmark MathVerse possa fornire intuizioni uniche per guidare lo sviluppo futuro degli MLLMs. Pagina del progetto: https://mathverse-cuhk.github.io
La creazione di contenuti 3D a partire da prompt testuali ha recentemente dimostrato un notevole successo. Tuttavia, i metodi attuali di generazione 3D da testo spesso producono risultati che non si allineano bene con le preferenze umane. In questo articolo, presentiamo un framework completo, denominato DreamReward, per apprendere e migliorare i modelli di generazione 3D da testo basandoci sul feedback delle preferenze umane. Per iniziare, abbiamo raccolto 25k confronti esperti basati su una pipeline di annotazione sistematica che include valutazione e classificazione. Successivamente, abbiamo sviluppato Reward3D -- il primo modello di ricompensa per preferenze umane nella generazione 3D da testo, progettato per codificare efficacemente le preferenze umane. Basandoci sul modello di ricompensa 3D, abbiamo infine condotto un'analisi teorica e presentato il Reward3D Feedback Learning (DreamFL), un algoritmo di ottimizzazione diretto per migliorare i modelli di diffusione multi-vista con un sistema di punteggio ridefinito. Supportato da dimostrazioni teoriche e da ampie comparazioni sperimentali, il nostro DreamReward genera con successo risultati ad alta fedeltà e coerenti in 3D, con un significativo miglioramento nell'allineamento del prompt con l'intenzione umana. I nostri risultati dimostrano il grande potenziale dell'apprendimento basato sul feedback umano per migliorare i modelli di generazione 3D da testo.
Negli ultimi anni, l'applicazione di modelli linguistici multimodali di grandi dimensioni (MLLM) in vari campi ha ottenuto un successo notevole. Tuttavia, come modello di base per molte attività downstream, gli attuali MLLM sono composti dalla ben nota rete Transformer, che presenta una complessità computazionale quadratica meno efficiente. Per migliorare l'efficienza di tali modelli di base, proponiamo Cobra, un MLLM con complessità computazionale lineare. Nello specifico, Cobra integra il modello linguistico efficiente Mamba nella modalità visiva. Inoltre, esploriamo e studiamo vari schemi di fusione modale per creare un Mamba multimodale efficace. Esperimenti estesi dimostrano che (1) Cobra raggiunge prestazioni estremamente competitive rispetto ai metodi all'avanguardia attualmente efficienti dal punto di vista computazionale, come LLaVA-Phi, TinyLLaVA e MobileVLM v2, e offre una velocità maggiore grazie alla modellazione sequenziale lineare di Cobra. (2) Interessante notare che i risultati dei benchmark di previsione chiusi e impegnativi mostrano che Cobra si comporta bene nel superare illusioni visive e giudizi sulle relazioni spaziali. (3) In modo degno di nota, Cobra raggiunge prestazioni paragonabili a LLaVA con circa il 43% del numero di parametri. Renderemo disponibili tutti i codici di Cobra in open-source e speriamo che il metodo proposto possa facilitare future ricerche sui problemi di complessità negli MLLM. La nostra pagina del progetto è disponibile all'indirizzo: https://sites.google.com/view/cobravlm.
L'editing video-to-video consiste nel modificare un video sorgente insieme a controlli aggiuntivi (come prompt testuali, soggetti o stili) per generare un nuovo video che sia allineato con il video sorgente e i controlli forniti. I metodi tradizionali sono stati limitati a determinati tipi di editing, riducendo la loro capacità di soddisfare le ampie esigenze degli utenti. In questo articolo, introduciamo AnyV2V, un nuovo framework senza addestramento progettato per semplificare l'editing video in due passaggi principali: (1) utilizzare un modello di editing di immagini preesistente (ad esempio, InstructPix2Pix, InstantID, ecc.) per modificare il primo fotogramma, (2) impiegare un modello esistente di generazione da immagine a video (ad esempio, I2VGen-XL) per l'inversione DDIM e l'iniezione di feature. Nella prima fase, AnyV2V può integrare qualsiasi strumento di editing di immagini esistente per supportare una vasta gamma di attività di editing video. Oltre ai tradizionali metodi di editing basati su prompt, AnyV2V può anche supportare nuove attività di editing video, tra cui il trasferimento di stile basato su riferimento, l'editing guidato dal soggetto e la manipolazione dell'identità, che erano irraggiungibili con i metodi precedenti. Nella seconda fase, AnyV2V può integrare qualsiasi modello esistente da immagine a video per eseguire l'inversione DDIM e l'iniezione di feature intermedie, mantenendo la coerenza dell'aspetto e del movimento con il video sorgente. Nell'editing basato su prompt, dimostriamo che AnyV2V supera il miglior approccio precedente del 35% nell'allineamento del prompt e del 25% nella preferenza umana. Nelle tre nuove attività, dimostriamo che AnyV2V raggiunge anche un alto tasso di successo. Crediamo che AnyV2V continuerà a prosperare grazie alla sua capacità di integrare senza soluzione di continuità i metodi di editing di immagini in rapida evoluzione. Tale compatibilità può aiutare AnyV2V ad aumentare la sua versatilità per soddisfare le diverse esigenze degli utenti.
I recenti progressi nei modelli di diffusione guidati da testo hanno sbloccato potenti capacità di manipolazione delle immagini. Tuttavia, applicare questi metodi a immagini reali richiede l'inversione delle immagini nel dominio del modello di diffusione pre-addestrato. Raggiungere un'inversione fedele rimane una sfida, in particolare per i modelli più recenti addestrati a generare immagini con un numero ridotto di passaggi di denoising. In questo lavoro, introduciamo un metodo di inversione con un elevato rapporto qualità-operazioni, migliorando l'accuratezza della ricostruzione senza aumentare il numero di operazioni. Basandoci sull'inversione del processo di campionamento della diffusione, il nostro metodo utilizza un meccanismo di rirumore iterativo ad ogni passo di campionamento dell'inversione. Questo meccanismo affina l'approssimazione di un punto previsto lungo la traiettoria di diffusione in avanti, applicando iterativamente il modello di diffusione pre-addestrato e mediando queste previsioni. Valutiamo le prestazioni della nostra tecnica ReNoise utilizzando vari algoritmi di campionamento e modelli, inclusi i recenti modelli di diffusione accelerati. Attraverso valutazioni e confronti completi, ne dimostriamo l'efficacia in termini sia di accuratezza che di velocità. Inoltre, confermiamo che il nostro metodo preserva l'editabilità dimostrando la modifica di immagini reali guidata da testo.
I modelli di diffusione video hanno recentemente compiuto notevoli progressi nella qualità della generazione, ma sono ancora limitati dagli elevati requisiti di memoria e computazione. Ciò accade perché gli attuali modelli di diffusione video tentano spesso di elaborare direttamente video ad alta dimensionalità. Per affrontare questo problema, proponiamo il Content-Motion Latent Diffusion Model (CMD), una nuova ed efficiente estensione dei modelli di diffusione di immagini pre-addestrati per la generazione di video. Nello specifico, proponiamo un autoencoder che codifica in modo sintetico un video come una combinazione di un frame di contenuto (simile a un'immagine) e una rappresentazione latente del movimento a bassa dimensionalità. Il primo rappresenta il contenuto comune, mentre il secondo rappresenta il movimento sottostante nel video. Generiamo il frame di contenuto attraverso il fine-tuning di un modello di diffusione di immagini pre-addestrato, e la rappresentazione latente del movimento addestrando un nuovo modello di diffusione leggero. Un'innovazione chiave qui è la progettazione di uno spazio latente compatto che può sfruttare direttamente un modello di diffusione di immagini pre-addestrato, un approccio non adottato nei precedenti modelli di diffusione video latenti. Ciò porta a una generazione di qualità significativamente migliore e a costi computazionali ridotti. Ad esempio, CMD può campionare un video 7,7 volte più velocemente rispetto ai metodi precedenti, generando un video con risoluzione 512x1024 e lunghezza 16 in 3,1 secondi. Inoltre, CMD raggiunge un punteggio FVD di 212,7 su WebVid-10M, migliorando del 27,3% il precedente stato dell'arte di 292,4.
I recenti modelli su larga scala di visione e linguaggio (VLMs) hanno dimostrato capacità straordinarie nel comprendere e generare descrizioni testuali per contenuti visivi. Tuttavia, questi modelli mancano di una comprensione dei concetti specifici dell'utente. In questo lavoro, compiamo un primo passo verso la personalizzazione dei VLMs, consentendo loro di apprendere e ragionare sui concetti forniti dall'utente. Ad esempio, esploriamo se questi modelli possono imparare a riconoscerti in un'immagine e comunicare cosa stai facendo, adattando il modello per riflettere le tue esperienze personali e relazioni. Per riconoscere efficacemente una varietà di concetti specifici dell'utente, potenziamo il VLM con teste concettuali esterne che funzionano come interruttori per il modello, consentendo al VLM di identificare la presenza di specifici concetti target in una determinata immagine. Dopo aver riconosciuto il concetto, apprendiamo un nuovo embedding concettuale nello spazio delle caratteristiche intermedie del VLM. Questo embedding ha il compito di guidare il modello linguistico a integrare naturalmente il concetto target nella risposta generata. Applichiamo la nostra tecnica a BLIP-2 e LLaVA per la creazione di didascalie personalizzate per immagini e dimostriamo ulteriormente la sua applicabilità per risposte personalizzate a domande visive. I nostri esperimenti dimostrano la nostra capacità di generalizzare a immagini non viste di concetti appresi, preservando il comportamento del modello su input non correlati.
Presentiamo GRM, un ricostruttore su larga scala in grado di recuperare un asset 3D da immagini a vista sparsa in circa 0,1 secondi. GRM è un modello feed-forward basato su transformer che incorpora in modo efficiente le informazioni multi-vista per tradurre i pixel di input in Gaussiane allineate ai pixel, che vengono poi proiettate per creare un insieme di Gaussiane 3D densamente distribuite che rappresentano una scena. Insieme, la nostra architettura transformer e l'uso di Gaussiane 3D sbloccano un framework di ricostruzione scalabile ed efficiente. I risultati sperimentali estesi dimostrano la superiorità del nostro metodo rispetto alle alternative sia per quanto riguarda la qualità della ricostruzione che l'efficienza. Mostriamo inoltre il potenziale di GRM in compiti generativi, come text-to-3D e image-to-3D, integrandolo con modelli di diffusione multi-vista esistenti. Il sito web del nostro progetto è disponibile all'indirizzo: https://justimyhxu.github.io/projects/grm/.
Proponiamo Gaussian Frosting, una nuova rappresentazione basata su mesh per il rendering di alta qualità e la modifica di effetti 3D complessi in tempo reale. Il nostro approccio si basa sul recente framework 3D Gaussian Splatting, che ottimizza un insieme di Gaussiane 3D per approssimare un campo di radianza a partire da immagini. Proponiamo innanzitutto di estrarre una mesh di base dalle Gaussiane durante l'ottimizzazione, per poi costruire e affinare uno strato adattivo di Gaussiane con spessore variabile attorno alla mesh, al fine di catturare meglio i dettagli fini e gli effetti volumetrici vicini alla superficie, come capelli o erba. Chiamiamo questo strato Gaussian Frosting, poiché ricorda una glassatura su una torta. Più il materiale è sfumato, più spessa è la glassatura. Introduciamo inoltre una parametrizzazione delle Gaussiane per imporre che rimangano all'interno dello strato di glassatura e per regolare automaticamente i loro parametri durante la deformazione, il ridimensionamento, la modifica o l'animazione della mesh. La nostra rappresentazione consente un rendering efficiente utilizzando il Gaussian splatting, nonché la modifica e l'animazione attraverso la manipolazione della mesh di base. Dimostriamo l'efficacia del nostro metodo su varie scene sintetiche e reali, mostrando che supera gli approcci esistenti basati su superficie. Rilasceremo il nostro codice e un visualizzatore web-based come contributi aggiuntivi. La pagina del nostro progetto è la seguente: https://anttwo.github.io/frosting/
Introduciamo la generazione delimitata come un compito generalizzato per controllare la generazione di video al fine di sintetizzare movimenti arbitrari della telecamera e del soggetto basandosi esclusivamente su un fotogramma iniziale e uno finale. Il nostro obiettivo è sfruttare appieno la capacità di generalizzazione intrinseca di un modello da immagine a video senza ulteriori addestramenti o messe a punto del modello originale. Questo è ottenuto attraverso una nuova strategia di campionamento proposta, che chiamiamo Fusione a Inversione Temporale, che fonde i percorsi di denoising temporali in avanti e all'indietro condizionati rispettivamente sul fotogramma iniziale e su quello finale. Il percorso fuso produce un video che collega fluidamente i due fotogrammi, generando interpolazioni di movimenti fedeli del soggetto, nuove visualizzazioni di scene statiche e loop video senza soluzione di continuità quando i due fotogrammi delimitanti sono identici. Abbiamo curato un dataset di valutazione diversificato di coppie di immagini e abbiamo confrontato il nostro metodo con le tecniche esistenti più vicine. Abbiamo riscontrato che la Fusione a Inversione Temporale supera i lavori correlati in tutti i sottocompiti, dimostrando la capacità di generare movimenti complessi e visualizzazioni 3D coerenti guidate da fotogrammi delimitanti. Visita la pagina del progetto all'indirizzo https://time-reversal.github.io.
Proponiamo un metodo in grado di generare automaticamente cinemagraph a partire da un'immagine fissa di un paesaggio utilizzando uno StyleGAN pre-addestrato. Ispirati dal successo della recente generazione incondizionata di video, sfruttiamo un potente generatore di immagini pre-addestrato per sintetizzare cinemagraph di alta qualità. A differenza degli approcci precedenti che utilizzano principalmente lo spazio latente di uno StyleGAN pre-addestrato, il nostro metodo sfrutta il suo spazio delle feature profonde sia per l'inversione GAN che per la generazione di cinemagraph. Nello specifico, proponiamo il multi-scale deep feature warping (MSDFW), che deforma le feature intermedie di uno StyleGAN pre-addestrato a diverse risoluzioni. Utilizzando MSDFW, i cinemagraph generati sono ad alta risoluzione e presentano un'animazione in loop plausibile. Dimostriamo la superiorità del nostro metodo attraverso studi con utenti e confronti quantitativi con i metodi all'avanguardia per la generazione di cinemagraph e un metodo di generazione video che utilizza uno StyleGAN pre-addestrato.
I ricercatori e gli sviluppatori si affidano sempre più ai punteggi di tossicità per moderare gli output dei modelli linguistici generativi, in contesti come il servizio clienti, il recupero delle informazioni e la generazione di contenuti. Tuttavia, la valutazione della tossicità può rendere inaccessibili informazioni pertinenti, irrigidire o "bloccare" le norme culturali, e impedire i processi di riappropriazione linguistica, in particolare per le persone emarginate. In questo lavoro, estendiamo il concetto di ricorso algoritmico ai modelli linguistici generativi: forniamo agli utenti un meccanismo innovativo per ottenere la previsione desiderata impostando dinamicamente le soglie per il filtraggio della tossicità. In questo modo, gli utenti esercitano un maggiore controllo rispetto alle interazioni con il sistema di base. Uno studio pilota (n = 30) supporta il potenziale del nostro meccanismo di ricorso proposto, indicando miglioramenti nell'usabilità rispetto al filtraggio della tossicità con soglie fisse degli output del modello. I lavori futuri dovrebbero esplorare l'intersezione tra valutazione della tossicità, controllabilità del modello, autonomia dell'utente e processi di riappropriazione linguistica, in particolare per quanto riguarda il pregiudizio che molte comunità incontrano quando interagiscono con modelli linguistici generativi.