Articoli di ricerca IA selezionati quotidianamente con traduzioni
PaliGemma 2 è un aggiornamento del Modello di Visione-Linguaggio (VLM) open PaliGemma basato sulla famiglia di modelli linguistici Gemma 2. Combiniamo l'encoder di visione SigLIP-So400m, utilizzato anche da PaliGemma, con l'intera gamma di modelli Gemma 2, dal modello 2B fino al modello 27B. Alleniamo questi modelli a tre risoluzioni (224px, 448px e 896px) in diverse fasi per dotarli di una vasta conoscenza per il trasferimento tramite raffinamento. La famiglia risultante di modelli base che coprono diverse dimensioni e risoluzioni ci consente di indagare sui fattori che influenzano le prestazioni di trasferimento (come il tasso di apprendimento) e di analizzare l'interazione tra il tipo di compito, la dimensione del modello e la risoluzione. Aumentiamo ulteriormente il numero e l'ampiezza dei compiti di trasferimento al di là del campo di PaliGemma, inclusi diversi compiti correlati all'OCR come il riconoscimento della struttura delle tabelle, il riconoscimento della struttura molecolare, il riconoscimento dello spartito musicale, nonché la generazione di didascalie dettagliate e la redazione di referti radiografici, su cui PaliGemma 2 ottiene risultati all'avanguardia.
Approcci recenti hanno prodotto risultati promettenti nella distillazione di modelli di diffusione testo-immagine multi-step in modelli monopasso. La tecnica di distillazione efficiente all'avanguardia, cioè SwiftBrushv2 (SBv2), addirittura supera le prestazioni del modello di riferimento con risorse limitate. Tuttavia, il nostro studio rivela la sua instabilità nel gestire diverse strutture di modelli di diffusione a causa dell'utilizzo di una scala guida fissa all'interno della perdita di distillazione del punteggio variazionale (VSD). Un'altra debolezza dei modelli di diffusione monopasso esistenti è la mancanza di supporto per la guida negativa dei prompt, che è cruciale nella generazione pratica di immagini. Questo articolo presenta SNOOPI, un nuovo framework progettato per affrontare queste limitazioni potenziando la guida nei modelli di diffusione monopasso durante sia l'addestramento che l'inferenza. Prima di tutto, miglioriamo efficacemente la stabilità dell'addestramento attraverso Proper Guidance-SwiftBrush (PG-SB), che utilizza un approccio di guida senza classificatore a scala casuale. Variando la scala di guida di entrambi i modelli di riferimento, ampliamo le loro distribuzioni di output, ottenendo una perdita VSD più robusta che consente a SB di operare efficacemente su diverse strutture mentre mantiene prestazioni competitive. In secondo luogo, proponiamo un metodo senza addestramento chiamato Negative-Away Steer Attention (NASA), che integra prompt negativi nei modelli di diffusione monopasso tramite cross-attenzione per sopprimere elementi indesiderati nelle immagini generate. I nostri risultati sperimentali mostrano che i nostri metodi proposti migliorano significativamente i modelli di base su varie metriche. Notevolmente, raggiungiamo un punteggio HPSv2 di 31.08, stabilendo un nuovo benchmark all'avanguardia per i modelli di diffusione monopasso.
Presentiamo TokenFlow, un nuovo tokenizzatore d'immagini unificato che colma il divario di lunga data tra la comprensione e la generazione multimodale. Ricerche precedenti hanno cercato di impiegare un singolo codificatore di Quantizzazione Vettoriale (VQ) mirato alla ricostruzione per unificare questi due compiti. Osserviamo che la comprensione e la generazione richiedono granularità visive fondamentalmente diverse. Ciò porta a un compromesso critico, compromettendo in particolare le prestazioni nei compiti di comprensione multimodale. TokenFlow affronta questa sfida attraverso una innovativa architettura a doppio codebook che separa l'apprendimento delle caratteristiche semantiche e dei pixel mantenendo la loro allineamento tramite un meccanismo di mappatura condiviso. Questo design consente un accesso diretto sia alle rappresentazioni semantiche di alto livello cruciali per i compiti di comprensione, sia alle caratteristiche visive dettagliate essenziali per la generazione attraverso indici condivisi. I nostri ampi esperimenti dimostrano la superiorità di TokenFlow su molteplici dimensioni. Sfruttando TokenFlow, dimostriamo per la prima volta che l'input visivo discreto può superare LLaVA-1.5 13B nelle prestazioni di comprensione, ottenendo un miglioramento medio del 7,2\%. Per la ricostruzione d'immagini, otteniamo un forte punteggio FID di 0.63 a una risoluzione di 384*384. Inoltre, TokenFlow stabilisce prestazioni all'avanguardia nella generazione di immagini autoregressive con un punteggio GenEval di 0.55 a una risoluzione di 256*256, ottenendo risultati comparabili a SDXL.
I video a 360° offrono un'esperienza iper-immersiva che consente agli spettatori di esplorare una scena dinamica da tutti i 360 gradi. Per ottenere una creazione di contenuti più user-friendly e personalizzata nel formato video a 360°, cerchiamo di trasformare i video prospettici standard in video equirettangolari a 360°. A questo scopo, presentiamo Imagine360, il primo framework di generazione video da prospettiva a 360° che crea video a 360° di alta qualità con ricchi e diversi modelli di movimento da ancoraggi video. Imagine360 apprende modelli visivi e di movimento sferici dettagliati da dati video a 360° limitati con diversi design chiave. 1) In primo luogo, adottiamo il design a doppio ramo, che include un ramo di denoising video prospettico e panoramico per fornire vincoli locali e globali per la generazione di video a 360°, con modulo di movimento e strati spaziali LoRA ottimizzati su video web estesi a 360°. 2) Inoltre, è stata ideata una maschera antipodale per catturare dipendenze di movimento a lungo raggio, potenziando il movimento della telecamera invertita tra pixel antipodali attraverso emisferi. 3) Per gestire input video prospettici diversi, proponiamo design consapevoli dell'elevazione che si adattano a mascherature video variabili dovute a variazioni di elevazione tra i frame. Estesi esperimenti dimostrano che Imagine360 raggiunge una qualità grafica superiore e una coerenza di movimento tra i metodi di generazione video a 360° più avanzati. Crediamo che Imagine360 prometta di far progredire la creazione di video personalizzati e immersivi a 360°.
I modelli di diffusione sono stati applicati al completamento della scena LiDAR 3D grazie alla loro forte stabilità nell'addestramento e all'alta qualità del completamento. Tuttavia, la lenta velocità di campionamento limita l'applicazione pratica dei modelli di completamento della scena basati sulla diffusione poiché i veicoli autonomi richiedono una percezione efficiente degli ambienti circostanti. Questo articolo propone un nuovo metodo di distillazione adattato per i modelli di completamento della scena LiDAR 3D, chiamato ScoreLiDAR, che raggiunge un completamento della scena efficiente ma di alta qualità. ScoreLiDAR consente al modello distillato di campionare in significativamente meno passaggi dopo la distillazione. Per migliorare la qualità del completamento, introduciamo anche una nuova Perdita Strutturale, che incoraggia il modello distillato a catturare la struttura geometrica della scena LiDAR 3D. La perdita contiene un termine a livello di scena che vincola la struttura olistica e un termine a livello di punto che vincola i punti di riferimento chiave e la loro configurazione relativa. Estesi esperimenti dimostrano che ScoreLiDAR accelera significativamente il tempo di completamento da 30,55 a 5,37 secondi per frame (>5 volte) su SemanticKITTI e raggiunge prestazioni superiori rispetto ai modelli di completamento della scena LiDAR 3D all'avanguardia. Il nostro codice è disponibile pubblicamente su https://github.com/happyw1nd/ScoreLiDAR.
Gli avanzamenti recenti nei modelli video large multimodali (LMM) hanno migliorato significativamente le loro capacità di comprensione e ragionamento video. Tuttavia, le loro prestazioni diminuiscono su compiti fuori distribuzione (OOD) che sono sottorappresentati nei dati di addestramento. Metodi tradizionali come il fine-tuning su set di dati OOD sono impraticabili a causa dei costi computazionali elevati. Mentre l'apprendimento in contesto (ICL) con esempi dimostrativi ha mostrato prestazioni di generalizzazione promettenti nei compiti linguistici e nei compiti di immagine-linguaggio senza fine-tuning, l'applicazione dell'ICL ai compiti video-linguaggio incontra sfide dovute alla lunghezza del contesto limitata nei Video LMM, poiché i video richiedono lunghezze di token più estese. Per affrontare questi problemi, proponiamo VideoICL, un nuovo framework di apprendimento in contesto video per compiti OOD che introduce una strategia di selezione di esempi rilevanti basata sulla similarità e un approccio di inferenza iterativo basato sulla fiducia. Ciò consente di selezionare gli esempi più rilevanti e classificarli in base alla similarità, da utilizzare per l'inferenza. Se la risposta generata ha una bassa fiducia, il nostro framework seleziona nuovi esempi e esegue nuovamente l'inferenza, affinando iterativamente i risultati fino a ottenere una risposta ad alta fiducia. Questo approccio migliora le prestazioni di comprensione video OOD estendendo la lunghezza efficace del contesto senza incorrere in costi elevati. I risultati sperimentali su diversi benchmark dimostrano significativi miglioramenti delle prestazioni, specialmente in scenari specifici di dominio, gettando le basi per applicazioni di comprensione video più ampie. Il codice sarà rilasciato su https://github.com/KangsanKim07/VideoICL
La creazione di avatar realistici e animabili richiede ancora minuti di video multi-vista o monocolo auto-rotanti, e la maggior parte dei metodi manca di controllo preciso sui gesti e le espressioni. Per spingere i limiti di questa tecnologia, affrontiamo la sfida di costruire un avatar parlante a figura intera da un'unica immagine. Proponiamo un nuovo processo che affronta due questioni critiche: 1) modellazione dinamica complessa e 2) generalizzazione a gesti ed espressioni nuovi. Per ottenere una generalizzazione fluida, sfruttiamo modelli di diffusione immagine-video guidati dalla posa per generare fotogrammi video imperfetti come pseudolabel. Per superare la sfida della modellazione dinamica posta dai video pseudo-incoerenti e rumorosi, introduciamo una rappresentazione ibrida avatar 3DGS-mesh strettamente accoppiata e applichiamo diverse regolarizzazioni chiave per mitigare le incoerenze causate dai label imperfetti. Estesi esperimenti su soggetti diversi dimostrano che il nostro metodo consente la creazione di un avatar parlante a figura intera fotorealistico, precisamente animabile ed espressivo da una singola immagine.
In questo articolo, presentiamo un modello visione-linguaggio (VLM) coreano-inglese open-source, VARCO-VISION. Incorporiamo una strategia di addestramento passo dopo passo che consente al modello di apprendere informazioni linguistiche e visive preservando la conoscenza del modello di base. Il nostro modello dimostra prestazioni eccezionali in contesti diversi che richiedono capacità di comprensione e generazione di immagini-testo bilingue rispetto a modelli di dimensioni simili. VARCO-VISION è inoltre in grado di ancorare, fare riferimento e OCR, espandendo le sue possibilità di utilizzo e potenziali applicazioni per scenari reali. Oltre al modello, rilasciamo cinque set di dati di valutazione coreani, tra cui quattro benchmark a insieme chiuso e uno a insieme aperto. Prevediamo che il nostro traguardo amplierà le opportunità per i ricercatori di AI che mirano ad addestrare VLM. VARCO-VISION è disponibile su https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Questo articolo introduce MIDI, un nuovo paradigma per la generazione di scene 3D compositive da un'immagine singola. A differenza dei metodi esistenti che si basano su tecniche di ricostruzione o recupero o degli approcci recenti che impiegano la generazione oggetto per oggetto in più fasi, MIDI estende i modelli di generazione oggetto 3D da immagine pre-addestrati a modelli di diffusione multi-istanza, consentendo la generazione simultanea di molteplici istanze 3D con accurate relazioni spaziali e alta generalizzabilità. Al suo nucleo, MIDI incorpora un nuovo meccanismo di attenzione multi-istanza, che cattura efficacemente le interazioni tra oggetti e la coerenza spaziale direttamente nel processo di generazione, senza la necessità di processi complessi a più passaggi. Il metodo utilizza immagini parziali di oggetti e contesto globale della scena come input, modellando direttamente il completamento dell'oggetto durante la generazione 3D. Durante l'addestramento, supervisioniamo efficacemente le interazioni tra le istanze 3D utilizzando una quantità limitata di dati a livello di scena, incorporando dati di singoli oggetti per la regolarizzazione, mantenendo così la capacità di generalizzazione pre-addestrata. MIDI dimostra prestazioni all'avanguardia nella generazione immagine-scena, validate attraverso valutazioni su dati sintetici, dati di scene reali e immagini di scene stilizzate generate da modelli di diffusione testo-immagine.
I recenti progressi nei modelli generativi hanno significativamente migliorato la sintesi di nuove visuali (NVS) da dati multi-view. Tuttavia, i metodi esistenti dipendono da processi esterni di allineamento multi-view, come la stima esplicita della posa o la pre-ricostruzione, che limitano la loro flessibilità e accessibilità, specialmente quando l'allineamento è instabile a causa di sovrapposizioni insufficienti o occlusioni tra le visuali. In questo articolo, proponiamo NVComposer, un nuovo approccio che elimina la necessità di un allineamento esterno esplicito. NVComposer consente al modello generativo di inferire implicitamente le relazioni spaziali e geometriche tra visuali condizionali multiple introducendo due componenti chiave: 1) un modello di diffusione dual-stream immagine-posa che genera contemporaneamente nuove visuali target e pose della fotocamera condizionali, e 2) un modulo di allineamento delle caratteristiche consapevole della geometria che distilla priori geometrici da modelli stereo densi durante l'addestramento. Estesi esperimenti dimostrano che NVComposer raggiunge prestazioni all'avanguardia nei compiti generativi multi-view NVS, eliminando la dipendenza dall'allineamento esterno e migliorando così l'accessibilità del modello. Il nostro approccio mostra miglioramenti sostanziali nella qualità di sintesi all'aumentare del numero di visuali di input non posate, evidenziando il suo potenziale per sistemi generativi NVS più flessibili e accessibili.
Introduciamo NitroFusion, un approccio fondamentalmente diverso alla diffusione in un singolo passaggio che raggiunge una generazione di alta qualità attraverso un framework avversario dinamico. Mentre i metodi in un solo passaggio offrono notevoli vantaggi in termini di velocità, solitamente soffrono di degrado della qualità rispetto ai loro corrispettivi a più passaggi. Proprio come una giuria di critici d'arte fornisce un feedback completo specializzandosi in diversi aspetti come composizione, colore e tecnica, il nostro approccio mantiene un ampio pool di discriminatori specializzati che guidano collettivamente il processo di generazione. Ciascun gruppo di discriminatori sviluppa competenze in specifici aspetti di qualità a diversi livelli di rumore, fornendo feedback diversificato che consente una generazione in un solo passaggio ad alta fedeltà. Il nostro framework combina: (i) un pool di discriminatori dinamico con gruppi di discriminatori specializzati per migliorare la qualità della generazione, (ii) meccanismi di aggiornamento strategico per prevenire l'overfitting dei discriminatori, e (iii) discriminatori globali-locali per una valutazione della qualità multi-scala, e addestramento incondizionato/condizionato per una generazione bilanciata. Inoltre, il nostro framework supporta in modo unico un deployment flessibile attraverso un affinamento bottom-up, consentendo agli utenti di scegliere dinamicamente tra 1-4 passaggi di denoising con lo stesso modello per scambi diretti tra qualità e velocità. Attraverso esperimenti esaustivi, dimostriamo che NitroFusion supera significativamente i metodi in un solo passaggio esistenti su molteplici metriche di valutazione, eccellendo particolarmente nel preservare dettagli fini e coerenza globale.
Il rapido avanzamento dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) ha avuto un impatto significativo su varie attività multimodali. Tuttavia, questi modelli affrontano sfide nelle attività che richiedono comprensione spaziale all'interno di ambienti 3D. Sono stati fatti sforzi per potenziare i MLLM, come l'integrazione di caratteristiche di nuvole di punti, ma rimane una considerevole discrepanza tra le rappresentazioni apprese dai modelli e la complessità intrinseca delle scene 3D. Questa discrepanza deriva principalmente dall'addestramento dei MLLM su dati prevalentemente 2D, il che limita la loro efficacia nel comprendere spazi 3D. Per affrontare questo problema, in questo articolo proponiamo un nuovo modello generalista, ovvero Video-3D LLM, per la comprensione delle scene 3D. Trattando le scene 3D come video dinamici e incorporando la codifica della posizione 3D in queste rappresentazioni, il nostro Video-3D LLM allinea in modo più accurato le rappresentazioni video con contesti spaziali del mondo reale. Inoltre, abbiamo implementato una tecnica di campionamento di massima copertura per ottimizzare il bilanciamento tra costi computazionali ed efficienza delle prestazioni. Estesi esperimenti dimostrano che il nostro modello raggiunge prestazioni all'avanguardia su diversi benchmark di comprensione delle scene 3D, tra cui ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.
La valutazione attuale delle competenze matematiche nei LLM è limitata, poiché i benchmark esistenti sono o relativamente piccoli, si concentrano principalmente su problemi di scuola elementare e superiore, oppure mancano di diversità nei temi. Inoltre, l'inclusione di elementi visivi nei compiti rimane in gran parte inesplorata. Per affrontare queste lacune, presentiamo U-MATH, un nuovo benchmark di 1.100 problemi inediti di livello universitario tratti da materiali didattici. È bilanciato su sei materie principali, con il 20% di problemi multimodali. Date le caratteristiche aperte dei problemi U-MATH, impieghiamo un LLM per valutare la correttezza delle soluzioni generate. A tal fine, rilasciamo mu-MATH, un dataset per valutare le capacità dei LLM nel giudicare le soluzioni. La valutazione dei LLM di dominio generale, specifici per la matematica e multimodali mette in luce le sfide presentate da U-MATH. I nostri risultati rivelano che i LLM raggiungono una precisione massima del 63% solo nei compiti basati su testo, con un ancora più basso 45% nei problemi visivi. La valutazione delle soluzioni risulta impegnativa per i LLM, con il miglior giudice LLM che ha uno score F1 dell'80% su mu-MATH.
La generazione di dati sintetici con Large Language Models è un paradigma promettente per ampliare i dati naturali su una gamma quasi infinita di compiti. Date queste variazioni, sono scarse le comparazioni dirette tra gli algoritmi di generazione di dati sintetici, rendendo difficile comprendere da dove derivi il miglioramento e quali siano i colli di bottiglia. Proponiamo di valutare gli algoritmi attraverso la composizione dei dati sintetici generati da ciascun algoritmo in termini di qualità dei dati, diversità e complessità. Scegliamo queste tre caratteristiche per la loro importanza nei processi aperti e l'impatto che ognuna ha sulle capacità dei modelli successivi. Troviamo che la qualità è essenziale per la generalizzazione del modello all'interno della distribuzione, la diversità è essenziale per la generalizzazione al di fuori della distribuzione e la complessità è vantaggiosa per entrambe. Inoltre, sottolineiamo l'esistenza di compromessi tra qualità e diversità nei dati di addestramento e gli effetti successivi sulle prestazioni del modello. Esaminiamo quindi l'effetto dei vari componenti nella pipeline dei dati sintetici su ciascuna caratteristica dei dati. Questa analisi ci permette di tassonomizzare e confrontare gli algoritmi di generazione di dati sintetici attraverso i componenti che utilizzano e gli effetti risultanti sulla composizione dei dati QDC. Questa analisi si estende in una discussione sull'importanza di bilanciare QDC nei dati sintetici per algoritmi efficienti di apprendimento per rinforzo e auto-miglioramento. Analogamente ai compromessi QD nei dati di addestramento, spesso esistono compromessi tra la qualità dell'output del modello e la diversità dell'output che influenzano la composizione dei dati sintetici. Osserviamo che molti modelli vengono attualmente valutati e ottimizzati solo per la qualità dell'output, limitando così la diversità dell'output e il potenziale di auto-miglioramento. Sosteniamo che bilanciare questi compromessi sia essenziale per lo sviluppo di futuri algoritmi di auto-miglioramento e mettiamo in evidenza una serie di lavori che stanno facendo progressi in questa direzione.
Le caratteristiche interne dei modelli di diffusione pre-addestrati su larga scala sono state recentemente confermate come potenti descrittori semantici per una vasta gamma di compiti successivi. I lavori che utilizzano queste caratteristiche generalmente devono aggiungere rumore alle immagini prima di passarle attraverso il modello per ottenere le caratteristiche semantiche, poiché i modelli non offrono le caratteristiche più utili quando vengono fornite immagini con poco o nessun rumore. Mostreremo che questo rumore ha un impatto critico sull'utilità di queste caratteristiche che non può essere risolto tramite l'ensemble con diversi rumori casuali. Affrontiamo questo problema introducendo un metodo di raffinamento leggero e non supervisionato che consente alle backbones di diffusione di fornire caratteristiche semantiche di alta qualità e prive di rumore. Dimostriamo che queste caratteristiche superano facilmente le precedenti caratteristiche di diffusione in una vasta gamma di configurazioni di estrazione e compiti successivi, offrendo prestazioni migliori persino rispetto ai metodi basati su ensemble a una frazione del costo.
L'unione di LLM open-source eterogenei con architetture e dimensioni variabili potrebbe integrare i punti di forza di modelli diversi, ma i metodi di fusione esistenti affrontano sfide significative, come l'allineamento del vocabolario e la fusione delle matrici di distribuzione. Queste procedure non solo sono complesse, ma anche suscettibili di introdurre rumore ed errori. In questo articolo, proponiamo un metodo di fusione implicito, Ottimizzazione delle Preferenze con Ricompensa Ponderata (WRPO), che sfrutta l'ottimizzazione delle preferenze tra i LLM di origine e il LLM di destinazione per trasferire le loro capacità in modo efficace. WRPO elimina la necessità di allineamento del vocabolario e fusione delle matrici ed è in grado di essere scalato efficientemente per ospitare vari LLM. Per affrontare le deviazioni distribuzionali tra i LLM di origine e di destinazione, WRPO introduce una strategia di adattamento progressivo che sposta gradualmente la dipendenza da esempi preferiti dal LLM di destinazione ai LLM di origine. Estesi esperimenti sui benchmark MT-Bench, AlpacaEval-2 e Arena-Hard dimostrano che WRPO supera costantemente i metodi esistenti di fusione delle conoscenze e vari baselines di fine-tuning. Applicato al modello target LLaMA3-8B-Instruct, WRPO raggiunge un tasso di vincita controllato dalla lunghezza del 55,9% contro GPT-4-Preview-1106 su AlpacaEval-2 e un tasso di vincita del 46,2% contro GPT-4-0314 su Arena-Hard. Il nostro codice è disponibile su https://github.com/SLIT-AI/WRPO.
Il testo funge da segnale di controllo chiave nella generazione di video a causa della sua natura narrativa. Per rendere le descrizioni testuali in sequenze video, i modelli attuali di diffusione video prendono in prestito le caratteristiche dagli encoder di testo ma faticano con una limitata comprensione del testo. Il recente successo dei grandi modelli linguistici (LLM) mette in mostra il potere dei transformer basati solo sul decoder, che offre tre chiari vantaggi per la generazione testo-video (T2V), ovvero una precisa comprensione del testo grazie alla scalabilità superiore, l'immaginazione oltre il testo di input abilitata dalla previsione del token successivo e la flessibilità nel privilegiare gli interessi dell'utente attraverso l'ottimizzazione delle istruzioni. Tuttavia, il divario nella distribuzione delle caratteristiche emergente dai due diversi paradigmi di modellazione del testo ostacola l'uso diretto dei LLM nei modelli T2V consolidati. Questo lavoro affronta questa sfida con Mimir, un framework di addestramento end-to-end che presenta un fuser di token attentamente progettato per armonizzare le uscite dagli encoder di testo e dai LLM. Tale progettazione consente al modello T2V di sfruttare appieno le conoscenze pregresse sui video apprese, capitalizzando al contempo sulle capacità relative al testo dei LLM. Estesi risultati quantitativi e qualitativi dimostrano l'efficacia di Mimir nella generazione di video di alta qualità con un'eccellente comprensione del testo, specialmente nel trattare brevi didascalie e gestire movimenti dinamici. Pagina del progetto: https://lucaria-academy.github.io/Mimir/
I Large Multimodal Models (LMM) hanno ottenuto significativi progressi con lo sviluppo dell'ottimizzazione dell'istruzione. Tuttavia, mentre i modelli esistenti possono comprendere immagini e video a livello olistico, faticano ancora con la comprensione a livello di istanza che richiede una comprensione e allineamento più sfumati. La comprensione a livello di istanza è cruciale, poiché si concentra sugli elementi specifici che ci interessano di più. Con entusiasmo, i lavori esistenti trovano che i LMM all'avanguardia mostrano forti capacità di comprensione a livello di istanza quando vengono forniti con chiari indizi visivi. Motivati da ciò, introduciamo un flusso di annotazione automatizzato assistito da GPT-4o per estrarre informazioni a livello di istanza da immagini e video attraverso indirizzamenti visivi espliciti per la guida a livello di istanza. Basandoci su questo flusso di lavoro, proponiamo Inst-IT, una soluzione per potenziare i LMM nella comprensione a livello di istanza tramite l'ottimizzazione dell'istruzione con indirizzamento visivo esplicito. Inst-IT consiste in un benchmark per diagnosticare la comprensione a livello di istanza multimodale, un dataset di ottimizzazione dell'istruzione su larga scala e un paradigma di addestramento continuo all'ottimizzazione dell'istruzione per potenziare efficacemente le capacità di comprensione a livello di istanza spazio-temporale dei LMM esistenti. I risultati sperimentali mostrano che, con l'impulso di Inst-IT, i nostri modelli non solo raggiungono prestazioni eccezionali sul Benchmark di Inst-IT, ma dimostrano anche miglioramenti significativi su vari benchmark generici di comprensione di immagini e video. Ciò sottolinea che il nostro dataset non solo potenzia la comprensione a livello di istanza, ma rafforza anche le capacità complessive di comprensione di immagini e video generici.
Introduciamo LumiNet, una nuova architettura che sfrutta modelli generativi e rappresentazioni intrinseche latenti per un efficace trasferimento dell'illuminazione. Dato un'immagine di origine e un'immagine di illuminazione di destinazione, LumiNet sintetizza una versione rilucente della scena di origine che cattura l'illuminazione di destinazione. Il nostro approccio apporta due contributi chiave: una strategia di cura dei dati dal modello di illuminazione basato su StyleGAN per il nostro addestramento e un ControlNet basato sulla diffusione modificata che elabora sia le proprietà intrinseche latenti dell'immagine di origine che le proprietà estrinseche latenti dell'immagine di destinazione. Miglioriamo ulteriormente il trasferimento dell'illuminazione attraverso un adattatore appreso (MLP) che inietta le proprietà estrinseche latenti della destinazione tramite attenzione incrociata e raffinamento. A differenza del tradizionale ControlNet, che genera immagini con mappe condizionali da una singola scena, LumiNet elabora rappresentazioni latenti da due immagini diverse - preservando geometria e albedo dalla sorgente mentre trasferisce le caratteristiche dell'illuminazione dalla destinazione. Gli esperimenti dimostrano che il nostro metodo trasferisce con successo fenomeni di illuminazione complessi, inclusi riflessi speculari e illuminazione indiretta tra scene con layout spaziali e materiali variabili, superando gli approcci esistenti su scene interne impegnative utilizzando solo immagini come input.