Articoli di ricerca IA selezionati quotidianamente con traduzioni
La coerenza spazio-temporale è un argomento di ricerca cruciale nella generazione di video. Un segmento video generato di qualità deve garantire la plausibilità e la coerenza della trama, mantenendo al contempo la consistenza visiva degli oggetti e delle scene attraverso diversi punti di vista. Le ricerche precedenti, specialmente nei progetti open-source, si concentrano principalmente sulla coerenza temporale o spaziale, o su una loro combinazione di base, come l'aggiunta di una descrizione del movimento della fotocamera dopo un prompt senza vincolare i risultati di tale movimento. Tuttavia, il movimento della fotocamera può introdurre nuovi oggetti nella scena o eliminare quelli esistenti, sovrapponendosi e influenzando così la narrazione precedente. Specialmente nei video con numerosi movimenti di fotocamera, l'interazione tra più trame diventa sempre più complessa. Questo articolo introduce ed esamina la coerenza spazio-temporale integrale, considerando la sinergia tra lo sviluppo della trama e le tecniche di ripresa, e l'impatto a lungo termine del contenuto precedente sulla generazione successiva. La nostra ricerca comprende la costruzione del dataset fino allo sviluppo del modello. Inizialmente, abbiamo costruito un dataset DropletVideo-10M, che comprende 10 milioni di video con movimenti dinamici della fotocamera e azioni degli oggetti. Ogni video è annotato con una didascalia media di 206 parole, che descrive vari movimenti della fotocamera e sviluppi della trama. Successivamente, abbiamo sviluppato e addestrato il modello DropletVideo, che eccelle nel preservare la coerenza spazio-temporale durante la generazione di video. Il dataset e il modello DropletVideo sono accessibili all'indirizzo https://dropletx.github.io.
Costruire agenti robotici autonomi in grado di raggiungere prestazioni di livello umano in compiti incarnati nel mondo reale rappresenta un obiettivo fondamentale nella ricerca sui robot umanoidi. Recenti progressi hanno portato a significativi avanzamenti nella cognizione di alto livello con i Modelli di Base (Foundation Models, FMs) e nello sviluppo di abilità di basso livello per robot umanoidi. Tuttavia, la combinazione diretta di questi componenti spesso risulta in una scarsa robustezza ed efficienza a causa dell'accumulo di errori in compiti a lungo termine e della variabile latenza dei diversi moduli. Introduciamo Being-0, un framework gerarchico per agenti che integra un FM con una libreria modulare di abilità. Il FM gestisce compiti cognitivi di alto livello come la comprensione delle istruzioni, la pianificazione dei compiti e il ragionamento, mentre la libreria di abilità fornisce una locomozione stabile e una manipolazione abile per il controllo di basso livello. Per colmare il divario tra questi livelli, proponiamo un nuovo modulo Connector, alimentato da un modello visione-linguaggio (VLM) leggero. Il Connector potenzia le capacità incarnate del FM traducendo piani basati sul linguaggio in comandi eseguibili di abilità e coordinando dinamicamente la locomozione e la manipolazione per migliorare il successo dei compiti. Con tutti i componenti, ad eccezione del FM, implementabili su dispositivi di calcolo a basso costo a bordo, Being-0 raggiunge prestazioni efficienti e in tempo reale su un robot umanoide a grandezza naturale dotato di mani abili e visione attiva. Esperimenti estensivi in ambienti interni di grandi dimensioni dimostrano l'efficacia di Being-0 nel risolvere compiti complessi e a lungo termine che richiedono sottocompiti impegnativi di navigazione e manipolazione. Per ulteriori dettagli e video, visitare https://beingbeyond.github.io/being-0.
I metodi di generazione condizionata da immagini, come gli approcci basati su profondità e contorni (canny), hanno dimostrato capacità notevoli per la sintesi precisa di immagini. Tuttavia, i modelli esistenti continuano a lottare per controllare accuratamente il contenuto di più istanze (o regioni). Anche modelli all'avanguardia come FLUX e 3DIS affrontano sfide, come la fuoriuscita di attributi tra le istanze, che limita il controllo dell'utente. Per affrontare questi problemi, introduciamo DreamRenderer, un approccio senza necessità di addestramento basato sul modello FLUX. DreamRenderer consente agli utenti di controllare il contenuto di ciascuna istanza tramite bounding box o maschere, garantendo al contempo un'armonia visiva complessiva. Proponiamo due innovazioni chiave: 1) Bridge Image Tokens per il legame rigido degli attributi testuali, che utilizza token immagine replicati come token ponte per assicurare che gli embedding testuali di T5, pre-addestrati esclusivamente su dati testuali, leghino gli attributi visivi corretti per ciascuna istanza durante l'attenzione congiunta; 2) Legame rigido degli attributi immagine applicato solo agli strati vitali. Attraverso la nostra analisi di FLUX, abbiamo identificato gli strati critici responsabili del rendering degli attributi delle istanze e applicato il legame rigido degli attributi immagine solo in questi strati, utilizzando un legame morbido negli altri. Questo approccio garantisce un controllo preciso preservando la qualità dell'immagine. Le valutazioni sui benchmark COCO-POS e COCO-MIG dimostrano che DreamRenderer migliora il rapporto di successo delle immagini del 17,7% rispetto a FLUX e potenzia le prestazioni di modelli da layout a immagine come GLIGEN e 3DIS fino al 26,8%. Pagina del progetto: https://limuloo.github.io/DreamRenderer/.
La generazione personalizzata di immagini mira a produrre immagini di concetti specificati dall'utente, consentendo al contempo una modifica flessibile. Gli approcci recenti che non richiedono addestramento, pur mostrando una maggiore efficienza computazionale rispetto ai metodi basati su addestramento, faticano a preservare l'identità, l'applicabilità e la compatibilità con i trasformatori di diffusione (DiT). In questo articolo, scopriamo il potenziale inesplorato dei DiT, dove semplicemente sostituendo i token di denoising con quelli di un soggetto di riferimento si ottiene una ricostruzione zero-shot del soggetto. Questa tecnica di iniezione di caratteristiche semplice ma efficace sblocca scenari diversificati, dalla personalizzazione alla modifica delle immagini. Basandoci su questa osservazione, proponiamo Personalize Anything, un framework senza addestramento che realizza la generazione personalizzata di immagini nei DiT attraverso: 1) la sostituzione adattiva dei token in base al timestep, che rafforza la coerenza del soggetto tramite l'iniezione nelle fasi iniziali e aumenta la flessibilità attraverso la regolarizzazione nelle fasi avanzate, e 2) strategie di perturbazione delle patch per aumentare la diversità strutturale. Il nostro metodo supporta senza soluzione di continuità la generazione guidata dal layout, la personalizzazione multi-soggetto e la modifica controllata da maschere. Le valutazioni dimostrano prestazioni all'avanguardia nella preservazione dell'identità e nella versatilità. Il nostro lavoro stabilisce nuove intuizioni sui DiT, offrendo al contempo un paradigma pratico per una personalizzazione efficiente.
Il ragionamento e il comportamento strategico nelle interazioni sociali rappresentano un tratto distintivo dell'intelligenza. Questa forma di ragionamento è significativamente più sofisticata rispetto a compiti di pianificazione o ragionamento isolati in contesti statici (ad esempio, la risoluzione di problemi matematici). In questo articolo, presentiamo Strategic Planning, Interaction, and Negotiation (SPIN-Bench), una nuova valutazione multi-dominio progettata per misurare l'intelligenza della pianificazione strategica e del ragionamento sociale. Mentre molti benchmark esistenti si concentrano su una pianificazione ristretta o su ragionamenti a singolo agente, SPIN-Bench combina compiti classici PDDL, giochi da tavolo competitivi, giochi di carte cooperativi e scenari di negoziazione multi-agente in un unico framework unificato. Il framework include sia un benchmark che un'arena per simulare e valutare una varietà di contesti sociali per testare il ragionamento e il comportamento strategico degli agenti AI. Formuliamo il benchmark SPIN-Bench variando sistematicamente gli spazi di azione, la complessità degli stati e il numero di agenti interagenti per simulare una gamma di contesti sociali in cui il successo dipende non solo da una decisione metodica e graduale, ma anche dall'inferenza concettuale degli altri partecipanti (avversari o cooperativi). I nostri esperimenti rivelano che, sebbene i moderni LLM gestiscano ragionevolmente bene il recupero di informazioni di base e la pianificazione a breve termine, incontrano significativi colli di bottiglia nelle prestazioni in compiti che richiedono un ragionamento multi-hop profondo su ampi spazi di stati e una coordinazione socialmente abile in condizioni di incertezza. Prevediamo che SPIN-Bench possa fungere da catalizzatore per future ricerche sulla pianificazione multi-agente robusta, sul ragionamento sociale e sul teaming uomo-AI.
Estendendo il vantaggio del ragionamento a catena di pensiero (CoT) nei processi passo-passo simili a quelli umani ai contesti multimodali, il ragionamento multimodale CoT (MCoT) ha recentemente attirato una significativa attenzione della ricerca, specialmente nell'integrazione con i modelli linguistici multimodali di grandi dimensioni (MLLM). Gli studi esistenti sull'MCoT progettano varie metodologie e paradigmi di ragionamento innovativi per affrontare le sfide uniche di immagini, video, parlato, audio, dati 3D e strutturati attraverso diverse modalità, ottenendo un ampio successo in applicazioni come la robotica, l'assistenza sanitaria, la guida autonoma e la generazione multimodale. Tuttavia, l'MCoT presenta ancora sfide e opportunità distinte che richiedono ulteriore attenzione per garantire un progresso costante in questo campo, dove, purtroppo, manca una revisione aggiornata di questo dominio. Per colmare questa lacuna, presentiamo la prima indagine sistematica sul ragionamento MCoT, chiarendo i concetti e le definizioni fondamentali rilevanti. Offriamo una tassonomia completa e un'analisi approfondita delle metodologie attuali da diverse prospettive attraverso vari scenari applicativi. Inoltre, forniamo approfondimenti sulle sfide esistenti e sulle future direzioni di ricerca, con l'obiettivo di promuovere l'innovazione verso l'AGI multimodale.
Gli studi recenti generalmente migliorano le capacità di ragionamento dei MLLM (Modelli Linguistici Multimodali) attraverso un fine-tuning supervisionato su dati di ragionamento a catena di pensiero di alta qualità, il che spesso porta i modelli a imitare semplicemente i percorsi di ragionamento corretti senza comprendere quali siano i percorsi di ragionamento errati. In questo lavoro, miriamo a potenziare la capacità di ragionamento dei MLLM oltre la semplice imitazione passiva dei percorsi di ragionamento positivi. A tal fine, progettiamo lo Step-wise Group Relative Policy Optimization (StepGRPO), un nuovo framework di apprendimento per rinforzo online che consente ai MLLM di migliorare autonomamente la capacità di ragionamento attraverso ricompense semplici, efficaci e dense a livello di passaggio. Nello specifico, StepGRPO introduce due nuove ricompense basate su regole per il ragionamento: la Step-wise Reasoning Accuracy Reward (StepRAR) e la Step-wise Reasoning Validity Reward (StepRVR). La StepRAR premia i percorsi di ragionamento che contengono i passaggi intermedi necessari attraverso una tecnica di corrispondenza soft dei passaggi chiave, mentre la StepRVR premia i percorsi di ragionamento che seguono un processo ben strutturato e logicamente coerente attraverso una strategia di valutazione della completezza e della logica del ragionamento. Con il proposto StepGRPO, introduciamo R1-VL, una serie di MLLM con capacità eccezionali nel ragionamento passo-passo. Esperimenti estesi su 8 benchmark dimostrano la superiorità dei nostri metodi.
Introduciamo un nuovo contesto, il Transfer di Modifiche (Edit Transfer), in cui un modello apprende una trasformazione a partire da un singolo esempio sorgente-destinazione e la applica a una nuova immagine query. Mentre i metodi basati sul testo eccellono nelle manipolazioni semantiche attraverso prompt testuali, spesso incontrano difficoltà con dettagli geometrici precisi (ad esempio, cambiamenti di pose e punti di vista). D'altra parte, l'editing basato su riferimento si concentra tipicamente sullo stile o sull'aspetto e fallisce nelle trasformazioni non rigide. Apprendendo esplicitamente la trasformazione di editing da una coppia sorgente-destinazione, il Transfer di Modifiche mitiga i limiti sia dei riferimenti esclusivamente testuali che di quelli centrati sull'aspetto. Traendo ispirazione dall'apprendimento in contesto (in-context learning) nei modelli linguistici di grandi dimensioni, proponiamo un paradigma di apprendimento in contesto delle relazioni visive, basato su un modello text-to-image DiT. Organizziamo l'esempio modificato e l'immagine query in un composito unificato a quattro pannelli, quindi applichiamo un fine-tuning leggero con LoRA per catturare trasformazioni spaziali complesse a partire da esempi minimi. Nonostante l'utilizzo di soli 42 campioni di addestramento, il Transfer di Modifiche supera significativamente i metodi all'avanguardia TIE e RIE in scenari non rigidi e diversificati, dimostrando l'efficacia dell'apprendimento delle relazioni visive con pochi esempi.
La manipolazione visiva a livello di elemento è essenziale nella creazione di contenuti digitali, ma i metodi attuali basati su diffusione mancano della precisione e flessibilità degli strumenti tradizionali. In questo lavoro, introduciamo BlobCtrl, un framework che unisce generazione e modifica a livello di elemento utilizzando una rappresentazione probabilistica basata su blob. Impiegando i blob come primitive visive, il nostro approccio disaccoppia e rappresenta efficacemente la posizione spaziale, il contenuto semantico e le informazioni di identità, consentendo una manipolazione precisa a livello di elemento. I nostri contributi principali includono: 1) un'architettura di diffusione a doppio ramo con fusione gerarchica delle caratteristiche per un'integrazione senza soluzione di continuità tra primo piano e sfondo; 2) un paradigma di addestramento auto-supervisionato con aumento dei dati e funzioni di punteggio personalizzate; e 3) strategie di dropout controllabili per bilanciare fedeltà e diversità. Per supportare ulteriori ricerche, introduciamo BlobData per l'addestramento su larga scala e BlobBench per la valutazione sistematica. Gli esperimenti dimostrano che BlobCtrl eccelle in varie attività di manipolazione a livello di elemento mantenendo l'efficienza computazionale, offrendo una soluzione pratica per la creazione di contenuti visivi precisi e flessibili. Pagina del progetto: https://liyaowei-stu.github.io/project/BlobCtrl/
La ricerca scientifica richiede un ragionamento sofisticato su dati multimodali, una sfida particolarmente rilevante in biologia. Nonostante i recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) per la ricerca assistita dall'IA, i benchmark esistenti per il ragionamento multimodale si limitano a difficoltà di livello universitario, mentre i benchmark di livello di ricerca si concentrano su percezioni di livello inferiore, non raggiungendo la complessità del ragionamento multimodale necessario per la scoperta scientifica. Per colmare questa lacuna, introduciamo MicroVQA, un benchmark di risposta a domande visive (VQA) progettato per valutare tre capacità di ragionamento cruciali nei flussi di lavoro di ricerca: comprensione esperta delle immagini, generazione di ipotesi e proposta di esperimenti. MicroVQA consiste in 1.042 domande a scelta multipla (MCQ) curate da esperti di biologia su diverse modalità di microscopia, garantendo che i campioni VQA rappresentino la pratica scientifica reale. Nella costruzione del benchmark, abbiamo riscontrato che i metodi standard di generazione di MCQ inducono scorciatoie linguistiche, motivando un nuovo processo in due fasi: un prompt ottimizzato per LLM struttura coppie domanda-risposta in MCQ; poi, un agente basato su `RefineBot' le aggiorna per rimuovere le scorciatoie. Il benchmarking sui migliori MLLMs rivela una performance massima del 53%; i modelli con LLM più piccoli hanno prestazioni solo leggermente inferiori ai modelli migliori, suggerendo che il ragionamento basato sul linguaggio è meno impegnativo del ragionamento multimodale; e l'ottimizzazione con articoli scientifici migliora le prestazioni. L'analisi esperta delle risposte a catena di pensiero mostra che gli errori di percezione sono i più frequenti, seguiti da errori di conoscenza e poi da errori di sovrageneralizzazione. Queste intuizioni evidenziano le sfide nel ragionamento scientifico multimodale, dimostrando che MicroVQA è una risorsa preziosa per avanzare la ricerca biomedica guidata dall'IA. MicroVQA è disponibile all'indirizzo https://huggingface.co/datasets/jmhb/microvqa, e la pagina del progetto all'indirizzo https://jmhb0.github.io/microvqa.
Con il rapido sviluppo della tecnologia di ricostruzione 3D, anche la ricerca nella ricostruzione 4D sta progredendo. I metodi esistenti di ricostruzione 4D sono in grado di generare scene 4D di alta qualità. Tuttavia, a causa delle difficoltà nell'acquisizione di dati video multi-vista, gli attuali benchmark di ricostruzione 4D mostrano principalmente azioni eseguite in posizione, come la danza, all'interno di scenari limitati. Negli scenari pratici, molte scene coinvolgono movimenti spaziali su ampia scala, evidenziando i limiti dei dataset di ricostruzione 4D esistenti. Inoltre, i metodi di ricostruzione 4D esistenti si basano su campi di deformazione per stimare la dinamica degli oggetti 3D, ma i campi di deformazione faticano a gestire movimenti spaziali su ampia scala, il che limita la capacità di ottenere una ricostruzione 4D di alta qualità con movimenti spaziali estesi. In questo articolo, ci concentriamo sulla ricostruzione 4D di scene con significativi movimenti spaziali degli oggetti e proponiamo un nuovo benchmark di ricostruzione 4D, WideRange4D. Questo benchmark include dati di scene 4D ricchi di variazioni spaziali ampie, consentendo una valutazione più completa delle capacità di generazione dei metodi di generazione 4D. Inoltre, introduciamo un nuovo metodo di ricostruzione 4D, Progress4D, che genera risultati 4D stabili e di alta qualità in vari compiti complessi di ricostruzione 4D. Conduriamo esperimenti di confronto quantitativi e qualitativi su WideRange4D, dimostrando che il nostro Progress4D supera i metodi di ricostruzione 4D all'avanguardia esistenti. Progetto: https://github.com/Gen-Verse/WideRange4D
I video, con la loro dimensione temporale unica, richiedono una comprensione precisa e fondata, in cui le risposte sono direttamente collegate a prove visive e interpretabili. Nonostante i significativi progressi nelle capacità di ragionamento dei Modelli Linguistici di Grande Dimensione, il ragionamento multimodale - specialmente per i video - rimane inesplorato. In questo lavoro, introduciamo VideoMind, un innovativo agente video-linguistico progettato per la comprensione temporale fondata dei video. VideoMind incorpora due innovazioni chiave: (i) Identifichiamo le capacità essenziali per il ragionamento temporale nei video e sviluppiamo un flusso di lavoro agentico basato su ruoli, includendo un pianificatore per coordinare i diversi ruoli, un fondatore per la localizzazione temporale, un verificatore per valutare l'accuratezza degli intervalli temporali e un risponditore per il question-answering. (ii) Per integrare in modo efficiente questi diversi ruoli, proponiamo una nuova strategia Chain-of-LoRA, che consente un passaggio fluido tra i ruoli tramite adattatori LoRA leggeri, evitando il sovraccarico di più modelli e bilanciando così efficienza e flessibilità. Esperimenti estesi su 14 benchmark pubblici dimostrano che il nostro agente raggiunge prestazioni all'avanguardia in diverse attività di comprensione video, tra cui 3 su question-answering fondato sui video, 6 su localizzazione temporale nei video e 5 su question-answering video generale, evidenziando la sua efficacia nel far progredire gli agenti video e il ragionamento temporale a lungo termine.
I modelli di ricompensa sono diventati un elemento fondamentale nel NLP moderno, fungendo non solo da valutatori di testo scalabili, ma anche da componenti indispensabili in molte ricette di allineamento e algoritmi di inferenza in tempo reale. Tuttavia, sebbene i recenti modelli di ricompensa migliorino le prestazioni sui benchmark standard, ciò potrebbe essere in parte dovuto a effetti di overfitting, che confonderebbero la comprensione delle loro vere capacità. In questo lavoro, esaminiamo la robustezza dei modelli di ricompensa e l'entità di tale overfitting. Costruiamo **reWordBench**, che trasforma sistematicamente gli input dei modelli di ricompensa in modi che preservano il significato o l'ordinamento. Mostriamo che i modelli di ricompensa all'avanguardia subiscono un sostanziale degrado delle prestazioni anche con trasformazioni minime degli input, scendendo talvolta a un'accuratezza significativamente inferiore a quella casuale, suggerendo una certa fragilità. Per migliorare la robustezza dei modelli di ricompensa, proponiamo di addestrarli esplicitamente ad assegnare punteggi simili alle parafrasi, e scopriamo che questo approccio migliora anche la robustezza ad altri tipi distinti di trasformazioni. Ad esempio, il nostro modello di ricompensa robusto riduce tale degrado di circa la metà per il sottoinsieme Chat Hard in RewardBench. Inoltre, quando utilizzati nell'allineamento, i nostri modelli di ricompensa robusti dimostrano una migliore utilità e portano a output di qualità superiore, vincendo fino al 59% delle istanze contro un modello di ricompensa addestrato in modo standard.
Gli esseri umani elaborano il ragionamento video attraverso una logica sequenziale spazio-temporale: prima identificano i frame rilevanti ("quando"), poi analizzano le relazioni spaziali ("dove") tra gli oggetti chiave, e infine sfruttano queste relazioni per trarre inferenze ("cosa"). Tuttavia, i modelli linguistici di grandi dimensioni per video (Video-LLM) possono anche "ragionare attraverso una logica sequenziale spazio-temporale" nei video? Gli attuali benchmark per Video-LLM si concentrano principalmente sulla valutazione della presenza di oggetti, trascurando il ragionamento relazionale. Di conseguenza, è difficile misurare se un modello comprenda veramente le interazioni tra oggetti (azioni/eventi) nei video o si affidi semplicemente a "memorie" pre-addestrate di co-occorrenze come bias nella generazione delle risposte. In questo lavoro, introduciamo un benchmark di Ragionamento Spazio-Temporale nei Video (V-STaR) per affrontare queste carenze. L'idea chiave è scomporre la comprensione video in un compito di Ragionamento Spazio-Temporale Inverso (RSTR) che valuta simultaneamente quali oggetti sono presenti, quando si verificano gli eventi e dove sono localizzati, catturando la logica sottostante del Ragionamento a Catena (CoT). Per supportare questa valutazione, abbiamo costruito un dataset per elicitare il processo di ragionamento spazio-temporale dei Video-LLM. Esso contiene domande CoT da grossolane a fini generate da una pipeline semi-automatizzata alimentata da GPT-4, incorporando catene di ragionamento esplicite per mimare la cognizione umana. Gli esperimenti condotti su 14 Video-LLM utilizzando il nostro V-STaR rivelano significativi divari tra i Video-LLM attuali e le esigenze di un ragionamento spazio-temporale robusto e coerente.
Eseguire la presa robotica da un contenitore disordinato basandosi su istruzioni umane è un compito impegnativo, poiché richiede la comprensione sia delle sfumature del linguaggio libero che delle relazioni spaziali tra gli oggetti. I modelli visione-linguaggio (VLMs) addestrati su dati su larga scala, come GPT-4o, hanno dimostrato capacità di ragionamento notevoli sia su testo che su immagini. Ma possono davvero essere utilizzati per questo compito in un contesto zero-shot? E quali sono i loro limiti? In questo articolo, esploriamo queste domande di ricerca attraverso il compito di presa robotica basato su linguaggio libero e proponiamo un nuovo metodo, FreeGrasp, che sfrutta la conoscenza pre-addestrata dei VLMs per ragionare sulle istruzioni umane e sulle disposizioni spaziali degli oggetti. Il nostro metodo rileva tutti gli oggetti come punti chiave e utilizza questi punti per annotare marcatori sulle immagini, con l'obiettivo di facilitare il ragionamento spaziale zero-shot di GPT-4o. Ciò consente al nostro metodo di determinare se un oggetto richiesto è direttamente afferrabile o se è necessario afferrare e rimuovere prima altri oggetti. Poiché non esiste un dataset specificamente progettato per questo compito, introduciamo un dataset sintetico, FreeGraspData, estendendo il dataset MetaGraspNetV2 con istruzioni annotate da esseri umani e sequenze di presa con verità di base. Eseguiamo analisi estensive sia con FreeGraspData che con validazioni nel mondo reale utilizzando un braccio robotico dotato di pinza, dimostrando prestazioni all'avanguardia nel ragionamento e nell'esecuzione della presa. Sito web del progetto: https://tev-fbk.github.io/FreeGrasp/.
Allineare le immagini generate a prompt testuali complessi e alle preferenze umane rappresenta una sfida centrale nel campo del Contenuto Generato dall'Intelligenza Artificiale (AIGC). Con l'emergere della distillazione diffusa potenziata da ricompense come approccio promettente che migliora la controllabilità e la fedeltà dei modelli testo-immagine, identifichiamo un cambiamento di paradigma fondamentale: man mano che le condizioni diventano più specifiche e i segnali di ricompensa più forti, le ricompense stesse diventano la forza dominante nella generazione. Al contrario, le perdite di diffusione fungono da forma eccessivamente costosa di regolarizzazione. Per convalidare approfonditamente la nostra ipotesi, introduciamo R0, un nuovo approccio di generazione condizionata tramite massimizzazione regolarizzata delle ricompense. Invece di affidarsi a complesse perdite di distillazione diffusa, R0 propone una nuova prospettiva che tratta la generazione di immagini come un problema di ottimizzazione nello spazio dei dati, mirando a cercare immagini valide con alte ricompense composizionali. Attraverso progetti innovativi della parametrizzazione del generatore e tecniche di regolarizzazione appropriate, addestriamo modelli generativi testo-immagine all'avanguardia con R0 su larga scala. I nostri risultati sfidano la saggezza convenzionale della post-formazione diffusa e della generazione condizionata, dimostrando che le ricompense svolgono un ruolo dominante negli scenari con condizioni complesse. Speriamo che le nostre scoperte possano contribuire a ulteriori ricerche sui paradigmi di generazione centrati sull'uomo e sulle ricompense nel più ampio campo dell'AIGC. Il codice è disponibile all'indirizzo https://github.com/Luo-Yihong/R0.
Il video inpainting consiste nel modificare regioni locali all'interno di un video, garantendo coerenza spaziale e temporale. La maggior parte dei metodi esistenti si concentra principalmente sul completamento della scena (ovvero, il riempimento di aree mancanti) e manca della capacità di inserire nuovi oggetti in una scena in modo controllabile. Fortunatamente, i recenti progressi nei modelli di diffusione testo-video (T2V) aprono la strada al video inpainting guidato da testo. Tuttavia, l'adattamento diretto dei modelli T2V per l'inpainting rimane limitato nell'unificazione dei compiti di completamento e inserimento, manca di controllabilità sugli input e fatica con video lunghi, limitando così la loro applicabilità e flessibilità. Per affrontare queste sfide, proponiamo MTV-Inpaint, un framework unificato per il video inpainting multi-task in grado di gestire sia il tradizionale completamento della scena che i nuovi compiti di inserimento di oggetti. Per unificare questi compiti distinti, progettiamo un meccanismo di attenzione spaziale a doppio ramo nella U-Net di diffusione T2V, consentendo l'integrazione senza soluzione di continuità del completamento della scena e dell'inserimento di oggetti all'interno di un unico framework. Oltre alla guida testuale, MTV-Inpaint supporta il controllo multimodale integrando vari modelli di inpainting di immagini attraverso la nostra modalità proposta di inpainting immagine-video (I2V). Inoltre, proponiamo una pipeline a due stadi che combina l'inpainting dei fotogrammi chiave con la propagazione dei fotogrammi intermedi, consentendo a MTV-Inpaint di gestire efficacemente video lunghi con centinaia di fotogrammi. Esperimenti estensivi dimostrano che MTV-Inpaint raggiunge prestazioni all'avanguardia sia nei compiti di completamento della scena che di inserimento di oggetti. Inoltre, dimostra versatilità in applicazioni derivate come l'inpainting multimodale, la modifica e la rimozione di oggetti, il pennello per oggetti di immagine e la capacità di gestire video lunghi. Pagina del progetto: https://mtv-inpaint.github.io/.
La sintesi video-audio, che genera audio sincronizzato per contenuti visivi, migliora in modo significativo l'immersione dello spettatore e la coerenza narrativa nel cinema e nei media interattivi. Tuttavia, il doppiaggio video-audio per contenuti di lunga durata rimane una sfida irrisolta a causa di cambiamenti semantici dinamici, disallineamenti temporali e l'assenza di dataset dedicati. Mentre i metodi esistenti eccellono nei video brevi, falliscono in scenari lunghi (ad esempio, film) a causa di una sintesi frammentata e di una coerenza insufficiente tra le scene. Proponiamo LVAS-Agent, un innovativo framework multi-agente che emula i flussi di lavoro professionali del doppiaggio attraverso la specializzazione collaborativa dei ruoli. Il nostro approccio scompone la sintesi di video lunghi in quattro passaggi, tra cui la segmentazione delle scene, la generazione del copione, la progettazione del suono e la sintesi audio. Le innovazioni centrali includono un meccanismo di discussione-correzione per il perfezionamento delle scene/del copione e un ciclo di generazione-recupero per l'allineamento temporale-semantico. Per consentire una valutazione sistematica, introduciamo LVAS-Bench, il primo benchmark con 207 video lunghi curati professionalmente che coprono scenari diversificati. Gli esperimenti dimostrano un allineamento audio-visivo superiore rispetto ai metodi di base. Pagina del progetto: https://lvas-agent.github.io
Spesso, le esigenze e le capacità visive differiscono tra il gruppo di annotatori e quello degli utenti finali. La generazione di descrizioni dettagliate di diagrammi per utenti ciechi e ipovedenti (BLV) rappresenta uno di questi domini impegnativi. Gli annotatori vedenti potrebbero descrivere le immagini con facilità, ma studi esistenti hanno dimostrato che le generazioni dirette da parte loro sono costose, soggette a pregiudizi e in qualche modo carenti secondo gli standard BLV. In questo studio, chiediamo a individui vedenti di valutare — piuttosto che produrre — descrizioni di diagrammi generate da modelli visione-linguaggio (VLM) che sono stati guidati con supervisione latente tramite un'inferenza multi-passaggio. Le valutazioni dei vedenti si dimostrano efficaci e utili per educatori professionisti che sono essi stessi BLV e insegnano a studenti con disabilità visive. Rilasciamo Sightation, una raccolta di dataset di descrizioni di diagrammi che coprono 5k diagrammi e 137k campioni per scopi di completamento, preferenza, recupero, risposta a domande e addestramento al ragionamento, e ne dimostriamo il potenziale di fine-tuning in vari task downstream.
I modelli di base per video (Video Foundation Models, VFM) sono stati recentemente utilizzati per simulare il mondo reale, addestrare sistemi di intelligenza artificiale fisica e sviluppare esperienze visive creative. Tuttavia, esistono sfide significative nell'addestramento di VFM su larga scala e di alta qualità in grado di generare video di elevata qualità. Presentiamo una pipeline di addestramento VFM scalabile e open-source con NVIDIA NeMo, che offre un'acquisizione accelerata di dataset video, caricamento di dati multimodali e addestramento e inferenza paralleli di modelli di diffusione video. Forniamo inoltre un'analisi completa delle prestazioni che evidenzia le migliori pratiche per un addestramento e un'inferenza efficienti dei VFM.
Una varietà di Modelli di Diffusione Video Auto-Regressivi (ARVDM) ha ottenuto risultati notevoli nella generazione di video realistici di lunga durata. Tuttavia, le analisi teoriche di questi modelli rimangono scarse. In questo lavoro, sviluppiamo i fondamenti teorici per questi modelli e utilizziamo le nostre intuizioni per migliorare le prestazioni dei modelli esistenti. Iniziamo sviluppando Meta-ARVDM, un framework unificato di ARVDM che comprende la maggior parte dei metodi esistenti. Utilizzando Meta-ARVDM, analizziamo la divergenza KL tra i video generati da Meta-ARVDM e i video reali. La nostra analisi rivela due importanti fenomeni intrinseci agli ARVDM: l'accumulo di errori e il collo di bottiglia della memoria. Derivando un risultato di impossibilità teorica dell'informazione, dimostriamo che il fenomeno del collo di bottiglia della memoria non può essere evitato. Per mitigare il collo di bottiglia della memoria, progettiamo varie strutture di rete per utilizzare esplicitamente più frame passati. Otteniamo anche un compromesso significativamente migliorato tra la mitigazione del collo di bottiglia della memoria e l'efficienza inferenziale comprimendo i frame. I risultati sperimentali su DMLab e Minecraft convalidano l'efficacia dei nostri metodi. I nostri esperimenti dimostrano anche una frontiera di Pareto tra l'accumulo di errori e il collo di bottiglia della memoria tra i diversi metodi.
Le immagini stereo sono fondamentali per numerose applicazioni, inclusi i dispositivi di realtà estesa (XR), la guida autonoma e la robotica. Purtroppo, acquisire immagini stereo di alta qualità rimane una sfida a causa dei requisiti di calibrazione precisi delle configurazioni a doppia fotocamera e della complessità nell'ottenere mappe di disparità dense e accurate. I metodi esistenti per la generazione di immagini stereo si concentrano tipicamente sulla qualità visiva per la visualizzazione o sull'accuratezza geometrica per il matching, ma non su entrambi. Introduciamo GenStereo, un approccio basato sulla diffusione, per colmare questa lacuna. Il metodo include due innovazioni principali: (1) il condizionamento del processo di diffusione su un'incorporazione di coordinate consapevole della disparità e su un'immagine di input deformata, consentendo un allineamento stereo più preciso rispetto ai metodi precedenti, e (2) un meccanismo di fusione adattiva che combina in modo intelligente l'immagine generata dalla diffusione con un'immagine deformata, migliorando sia il realismo che la coerenza della disparità. Attraverso un addestramento esteso su 11 diversi dataset stereo, GenStereo dimostra una forte capacità di generalizzazione. GenStereo raggiunge prestazioni all'avanguardia sia nella generazione di immagini stereo che nei task di matching stereo non supervisionati. Il nostro framework elimina la necessità di configurazioni hardware complesse, consentendo la generazione di immagini stereo di alta qualità, rendendolo prezioso sia per applicazioni nel mondo reale che per scenari di apprendimento non supervisionato. La pagina del progetto è disponibile all'indirizzo https://qjizhi.github.io/genstereo.
Recenti lavori hanno cercato di quantificare l'incertezza dei modelli linguistici di grandi dimensioni per facilitare il controllo del modello e modulare la fiducia dell'utente. Studi precedenti si sono concentrati su misure di incertezza teoricamente fondate o che riflettono il comportamento medio esplicito del modello. In questo lavoro, indaghiamo una varietà di misure di incertezza, al fine di identificare quelle che correlano con l'incertezza a livello di gruppo umano. Scopriamo che le misure bayesiane e una variante delle misure di entropia, l'entropia top-k, tendono a concordare con il comportamento umano in funzione della dimensione del modello. Osserviamo che alcune misure forti diminuiscono nella somiglianza umana con l'aumentare della dimensione del modello, ma, attraverso una regressione lineare multipla, troviamo che combinare più misure di incertezza fornisce un allineamento comparabile con l'umano con una ridotta dipendenza dalla dimensione.
I metodi tradizionali white-box per creare perturbazioni avversarie contro i LLM si basano tipicamente solo sul calcolo del gradiente dal modello target, ignorando i meccanismi interni responsabili del successo o del fallimento dell'attacco. Al contrario, gli studi di interpretabilità che analizzano questi meccanismi interni mancano di applicazioni pratiche oltre agli interventi in tempo di esecuzione. Colmiamo questa lacuna introducendo un nuovo approccio white-box che sfrutta tecniche di interpretabilità meccanicistica per creare input avversari pratici. Nello specifico, identifichiamo prima i sottospazi di accettazione - insiemi di vettori di feature che non attivano i meccanismi di rifiuto del modello - poi utilizziamo l'ottimizzazione basata su gradiente per reindirizzare gli embedding dai sottospazi di rifiuto ai sottospazi di accettazione, ottenendo efficacemente jailbreak. Questo approccio mirato riduce significativamente il costo computazionale, raggiungendo tassi di successo dell'attacco dell'80-95\% su modelli all'avanguardia come Gemma2, Llama3.2 e Qwen2.5 in pochi minuti o addirittura secondi, rispetto alle tecniche esistenti che spesso falliscono o richiedono ore di calcolo. Crediamo che questo approccio apra una nuova direzione sia per la ricerca sugli attacchi che per lo sviluppo di difese. Inoltre, dimostra un'applicazione pratica dell'interpretabilità meccanicistica dove altri metodi sono meno efficienti, evidenziandone l'utilità. Il codice e i dataset generati sono disponibili su https://github.com/Sckathach/subspace-rerouting.
Il campo della psicologia ha da tempo riconosciuto un livello di categorizzazione di base che gli esseri umani utilizzano quando etichettano stimoli visivi, un termine coniato da Rosch nel 1976. Questo livello di categorizzazione è stato riscontrato come il più frequentemente utilizzato, con una maggiore densità di informazioni, e come utile nei compiti di linguaggio visivo con priming negli esseri umani. In questo studio, indaghiamo la categorizzazione di base in due modelli visione-linguaggio (VLMs) open-source rilasciati di recente. Questo articolo dimostra che Llama 3.2 Vision Instruct (11B) e Molmo 7B-D preferiscono entrambi la categorizzazione di base in modo coerente con il comportamento umano. Inoltre, le preferenze dei modelli sono in linea con comportamenti umani più sfumati, come gli effetti di categorizzazione di base biologica versus non biologica e il consolidato spostamento di livello di base degli esperti, suggerendo ulteriormente che i VLMs acquisiscono comportamenti di categorizzazione cognitiva dai dati umani su cui sono addestrati.
I recenti e rapidi progressi nella generazione testo-video (T2V), come SoRA e Kling, hanno dimostrato un grande potenziale per la creazione di simulatori del mondo. Tuttavia, gli attuali modelli T2V faticano a comprendere i principi fisici astratti e a generare video che rispettino le leggi della fisica. Questa sfida deriva principalmente dalla mancanza di una guida chiara sulle informazioni fisiche, dovuta a un significativo divario tra i principi fisici astratti e i modelli di generazione. A tal fine, introduciamo il World Simulator Assistant (WISA), un framework efficace per scomporre e incorporare i principi fisici nei modelli T2V. Nello specifico, WISA scompone i principi fisici in descrizioni testuali, categorie qualitative e proprietà quantitative. Per incorporare efficacemente questi attributi fisici nel processo di generazione, WISA include diversi design chiave, come il Mixture-of-Physical-Experts Attention (MoPA) e un Classificatore Fisico, migliorando la consapevolezza fisica del modello. Inoltre, la maggior parte dei dataset esistenti presenta video in cui i fenomeni fisici sono rappresentati in modo debole o intrecciati con più processi co-occorrenti, limitando la loro idoneità come risorse dedicate per l'apprendimento di principi fisici espliciti. Proponiamo un nuovo dataset video, WISA-32K, raccolto in base a categorie fisiche qualitative. Esso consiste di 32.000 video, che rappresentano 17 leggi fisiche in tre domini della fisica: dinamica, termodinamica e ottica. I risultati sperimentali dimostrano che WISA può migliorare efficacemente la compatibilità dei modelli T2V con le leggi fisiche del mondo reale, ottenendo un notevole miglioramento sul benchmark VideoPhy. Le dimostrazioni visive di WISA e WISA-32K sono disponibili su https://360cvgroup.github.io/WISA/.