Articoli di ricerca IA selezionati quotidianamente con traduzioni
Date due immagini che raffigurano una persona e un indumento indossato da un'altra persona, il nostro obiettivo è generare una visualizzazione di come l'indumento potrebbe apparire sulla persona in input. Una sfida chiave è sintetizzare una visualizzazione fotorealistica che preservi i dettagli dell'indumento, deformando quest'ultimo per adattarsi a un significativo cambiamento nella postura e nella forma del corpo tra i soggetti. I metodi precedenti si concentrano sulla preservazione dei dettagli dell'indumento senza una variazione efficace della postura e della forma, oppure consentono la prova virtuale con la forma e la postura desiderate ma mancano di dettagli sull'indumento. In questo articolo, proponiamo un'architettura basata su diffusione che unifica due UNet (denominata Parallel-UNet), che ci permette di preservare i dettagli dell'indumento e deformarlo per un significativo cambiamento nella postura e nel corpo all'interno di una singola rete. Le idee chiave alla base di Parallel-UNet includono: 1) l'indumento viene deformato implicitamente tramite un meccanismo di cross-attention, 2) la deformazione dell'indumento e la fusione con la persona avvengono come parte di un processo unificato anziché come una sequenza di due compiti separati. I risultati sperimentali indicano che TryOnDiffusion raggiunge prestazioni all'avanguardia sia qualitativamente che quantitativamente.
La natura riflettente dell'occhio umano è una fonte di informazioni sottovalutata riguardo all'aspetto del mondo che ci circonda. Acquisendo immagini degli occhi di una persona in movimento, possiamo raccogliere molteplici visualizzazioni di una scena al di fuori della linea di vista diretta della fotocamera attraverso i riflessi negli occhi. In questo articolo, ricostruiamo una scena 3D oltre la linea di vista della fotocamera utilizzando immagini ritratto che contengono riflessi oculari. Questo compito è impegnativo a causa di 1) la difficoltà di stimare con precisione le pose degli occhi e 2) l'aspetto intrecciato dell'iride dell'occhio e dei riflessi della scena. Il nostro metodo affina congiuntamente le pose della cornea, il campo di radianza che rappresenta la scena e la texture dell'iride dell'osservatore. Proponiamo inoltre un semplice prior di regolarizzazione sul pattern della texture dell'iride per migliorare la qualità della ricostruzione. Attraverso vari esperimenti su acquisizioni sintetiche e del mondo reale che includono persone con diversi colori degli occhi, dimostriamo la fattibilità del nostro approccio per ricostruire scene 3D utilizzando i riflessi oculari.
I modelli linguistici di grandi dimensioni per il codice (Code LLMs), come StarCoder, hanno dimostrato prestazioni eccezionali in compiti legati alla programmazione. Tuttavia, la maggior parte dei modelli esistenti viene pre-addestrata esclusivamente su ampi dataset di codice grezzo senza un successivo fine-tuning su istruzioni. In questo articolo, presentiamo WizardCoder, che potenzia i Code LLMs con un fine-tuning complesso su istruzioni, adattando il metodo Evol-Instruct al dominio del codice. Attraverso esperimenti approfonditi su quattro importanti benchmark per la generazione di codice, ovvero HumanEval, HumanEval+, MBPP e DS-1000, riveliamo le capacità eccezionali del nostro modello. Esso supera tutti gli altri Code LLMs open-source con un margine significativo. Inoltre, il nostro modello supera persino i più grandi LLMs chiusi, come Claude di Anthropic e Bard di Google, su HumanEval e HumanEval+. Il nostro codice, i pesi del modello e i dati sono pubblicamente disponibili all'indirizzo https://github.com/nlpxucan/WizardLM.
Le recenti ricerche sui Large Language Models (LLM) hanno portato a progressi significativi nello sviluppo di assistenti AI generalisti per l'elaborazione del linguaggio naturale (NLP). Alcuni studi hanno ulteriormente esplorato l'uso degli LLM per la pianificazione e l'invocazione di modelli o API al fine di affrontare query utente multimodali più generali. Nonostante questi progressi, i compiti complessi basati su contenuti visivi rimangono impegnativi a causa della natura eterogenea di tali attività. Questa diversità si riflette in due aspetti: 1) Percorsi di ragionamento. Per molte applicazioni reali, è difficile scomporre accuratamente una query semplicemente analizzando la query stessa. È solitamente necessario pianificare in base al contenuto visivo specifico e ai risultati di ogni passaggio. 2) Input e risultati intermedi flessibili. Le forme di input possono essere variabili in contesti reali e non includere solo una singola immagine o video, ma una combinazione di video e immagini, ad esempio un'immagine dalla prospettiva dell'utente con alcuni video di riferimento. Inoltre, un processo di ragionamento complesso genera anche risultati intermedi multimodali eterogenei, come narrazioni video, clip video segmentati, ecc. Per affrontare tali casi generali, proponiamo un assistente AI multimodale, AssistGPT, con un approccio di ragionamento intervallato tra codice e linguaggio chiamato Plan, Execute, Inspect, and Learn (PEIL) per integrare gli LLM con vari strumenti. Nello specifico, il Planner è in grado di utilizzare il linguaggio naturale per pianificare quale strumento nell'Executor dovrebbe agire successivamente in base allo stato attuale del ragionamento. L'Inspector è un gestore di memoria efficiente che assiste il Planner nel fornire le informazioni visive appropriate a uno strumento specifico. Infine, poiché l'intero processo di ragionamento è complesso e flessibile, un Learner è progettato per consentire al modello di esplorare autonomamente e scoprire la soluzione ottimale. Abbiamo condotto esperimenti sui benchmark A-OKVQA e NExT-QA, ottenendo risultati all'avanguardia. Inoltre, dimostrazioni pratiche evidenziano la capacità del nostro sistema di gestire domande molto più complesse di quelle presenti nei benchmark.
La Distillazione della Conoscenza (Knowledge Distillation, KD) è una tecnica promettente per ridurre l'elevata domanda computazionale dei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, i precedenti metodi di KD sono principalmente applicati a modelli di classificazione white-box o all'addestramento di modelli più piccoli per imitare API di modelli black-box come ChatGPT. Come distillare efficacemente la conoscenza da LLM generativi white-box è ancora poco esplorato, e diventa sempre più importante con la proliferazione degli LLM. In questo lavoro, proponiamo MiniLLM, che distilla modelli linguistici più piccoli da LLM generativi più grandi. Innanzitutto, sostituiamo l'obiettivo della divergenza di Kullback-Leibler (KLD) diretta negli approcci standard di KD con la KLD inversa, che è più adatta per la KD su modelli linguistici generativi, per evitare che il modello studente sovrastimi le regioni a bassa probabilità della distribuzione del modello insegnante. Successivamente, deriviamo un approccio di ottimizzazione efficace per apprendere questo obiettivo. Esperimenti estesi in contesti di seguimento delle istruzioni dimostrano che i modelli MiniLLM generano risposte più precise con una qualità complessiva superiore, un bias di esposizione inferiore, una migliore calibrazione e prestazioni migliori nella generazione di testi lunghi. Il nostro metodo è anche scalabile per diverse famiglie di modelli con parametri che vanno da 120M a 13B. Rilasceremo il nostro codice e i checkpoint dei modelli su https://aka.ms/MiniLLM.
Le prestazioni senza precedenti dei grandi modelli linguistici (LLM) rendono necessari miglioramenti nelle valutazioni. Piuttosto che esplorare semplicemente l'ampiezza delle capacità degli LLM, riteniamo che siano essenziali progettazioni meticolose e ponderate per ottenere valutazioni complete, imparziali e applicabili. Considerata l'importanza della conoscenza del mondo per gli LLM, abbiamo costruito un benchmark di valutazione orientato alla conoscenza per i grandi modelli linguistici (KoLA), in cui abbiamo progettato con cura tre fattori cruciali: (1) Per la modellazione delle capacità, abbiamo imitato la cognizione umana per formare una tassonomia a quattro livelli di abilità legate alla conoscenza, coprendo 19 task. (2) Per i dati, al fine di garantire confronti equi, utilizziamo sia Wikipedia, un corpus ampiamente pre-addestrato dagli LLM, insieme a corpora emergenti raccolti continuamente, con l'obiettivo di valutare la capacità di gestire dati non visti e conoscenze in evoluzione. (3) Per i criteri di valutazione, adottiamo un sistema contrastivo, che include punteggi standard complessivi per una migliore comparabilità numerica tra task e modelli, e una metrica unica di auto-contrasto per valutare automaticamente l'allucinazione di conoscenza. Abbiamo valutato 21 LLM open-source e commerciali e ottenuto alcuni risultati interessanti. Il dataset KoLA e la classifica aperta alla partecipazione sono pubblicamente disponibili all'indirizzo https://kola.xlore.cn e saranno continuamente aggiornati per fornire riferimenti per lo sviluppo di LLM e sistemi legati alla conoscenza.
I modelli linguistici di grandi dimensioni (LLM) di base come GPT-4 rappresentano una rivoluzione nell'IA grazie alle loro applicazioni nel mondo reale attraverso l'elaborazione del linguaggio naturale. Tuttavia, presentano anche molti rischi significativi, come la presenza di testi distorti, privati o dannosi, e l'inclusione non autorizzata di materiale protetto da copyright. Introduciamo h2oGPT, una suite di repository di codice open-source per la creazione e l'utilizzo di modelli linguistici di grandi dimensioni (LLM) basati su Transformer pre-addestrati generativi (GPT). L'obiettivo di questo progetto è creare la migliore alternativa veramente open-source ai GPT proprietari. In collaborazione e come parte della straordinaria e inarrestabile comunità open-source, rendiamo disponibili diversi modelli h2oGPT ottimizzati, da 7 a 40 miliardi di parametri, pronti per l'uso commerciale sotto licenze completamente permissive Apache 2.0. Inclusa nella nostra release è la ricerca di documenti privati al 100% utilizzando il linguaggio naturale. I modelli linguistici open-source aiutano a potenziare lo sviluppo dell'IA, rendendola più accessibile e affidabile. Abbassano le barriere di ingresso, consentendo a individui e gruppi di adattare questi modelli alle proprie esigenze. Questa apertura favorisce l'innovazione, la trasparenza e l'equità. Una strategia open-source è necessaria per condividere equamente i benefici dell'IA, e H2O.ai continuerà a democratizzare l'IA e i LLM.
Presentiamo DreamHuman, un metodo per generare modelli realistici e animabili di avatar umani 3D partendo esclusivamente da descrizioni testuali. I recenti metodi di generazione da testo a 3D hanno compiuto progressi significativi, ma presentano ancora carenze in aspetti importanti. Il controllo e spesso la risoluzione spaziale rimangono limitati, i metodi esistenti producono modelli 3D umani statici anziché animati, e la coerenza antropometrica per strutture complesse come le persone rimane una sfida. DreamHuman integra modelli di sintesi da testo a immagine di grandi dimensioni, campi di radianza neurale e modelli statistici del corpo umano in un nuovo framework di modellazione e ottimizzazione. Ciò rende possibile generare avatar umani 3D dinamici con texture di alta qualità e deformazioni superficiali specifiche per ogni istanza, apprese durante il processo. Dimostriamo che il nostro metodo è in grado di generare una vasta gamma di modelli umani 3D realistici e animabili a partire da testo. I nostri modelli 3D presentano un'ampia varietà di aspetto, abbigliamento, tonalità della pelle e forme del corpo, superando significativamente sia gli approcci generici da testo a 3D che i precedenti generatori di avatar 3D basati su testo in termini di fedeltà visiva. Per ulteriori risultati e animazioni, consultate il nostro sito web all'indirizzo https://dream-human.github.io.
Sebbene i grandi modelli linguistici (LLM) ottimizzati per istruzioni abbiano dimostrato capacità notevoli in vari compiti di NLP, la loro efficacia su altre modalità di dati oltre al testo non è stata ancora pienamente studiata. In questo lavoro, proponiamo Macaw-LLM, un nuovo LLM multimodale che integra in modo fluido informazioni visive, audio e testuali. Macaw-LLM è composto da tre componenti principali: un modulo di modalità per codificare dati multimodali, un modulo cognitivo per sfruttare LLM pre-addestrati e un modulo di allineamento per armonizzare rappresentazioni diverse. Il nostro innovativo modulo di allineamento collega in modo fluido le caratteristiche multimodali a quelle testuali, semplificando il processo di adattamento dai moduli di modalità al modulo cognitivo. Inoltre, abbiamo costruito un ampio dataset di istruzioni multimodali basato su dialoghi multi-turn, includendo 69K istanze di immagini e 50K istanze di video. Abbiamo reso pubblicamente disponibili i nostri dati, codice e modello, con la speranza che possano aprire la strada a future ricerche sugli LLM multimodali e ampliare le capacità degli LLM di gestire diverse modalità di dati e affrontare scenari real-world complessi.
I grandi modelli linguistici (LLM) hanno dimostrato progressi entusiasmanti nell'acquisizione di nuove e diverse capacità attraverso l'apprendimento contestuale, che spazia dal ragionamento logico alla scrittura di codice. Anche i ricercatori nel campo della robotica hanno esplorato l'uso degli LLM per potenziare le capacità di controllo robotico. Tuttavia, poiché le azioni di basso livello dei robot dipendono dall'hardware e sono sottorappresentate nei corpora di addestramento degli LLM, gli sforzi esistenti nell'applicare gli LLM alla robotica hanno principalmente trattato gli LLM come pianificatori semantici o si sono affidati a primitive di controllo progettate dall'uomo per interfacciarsi con il robot. D'altro canto, le funzioni di ricompensa si sono dimostrate rappresentazioni flessibili che possono essere ottimizzate per le politiche di controllo al fine di raggiungere compiti diversi, mentre la loro ricchezza semantica le rende adatte a essere specificate dagli LLM. In questo lavoro, introduciamo un nuovo paradigma che sfrutta questa intuizione utilizzando gli LLM per definire parametri di ricompensa che possono essere ottimizzati e realizzare una varietà di compiti robotici. Utilizzando la ricompensa come interfaccia intermedia generata dagli LLM, possiamo colmare efficacemente il divario tra istruzioni o correzioni linguistiche di alto livello e azioni robotiche di basso livello. Nel frattempo, combinando questo con un ottimizzatore in tempo reale, MuJoCo MPC, si potenzia un'esperienza interattiva di creazione del comportamento in cui gli utenti possono osservare immediatamente i risultati e fornire feedback al sistema. Per valutare sistematicamente le prestazioni del nostro metodo proposto, abbiamo progettato un totale di 17 compiti per un robot quadrupede simulato e un robot manipolatore abile. Dimostriamo che il nostro metodo proposto affronta con affidabilità il 90% dei compiti progettati, mentre una baseline che utilizza abilità primitive come interfaccia con Code-as-policies raggiunge il 50% dei compiti. Abbiamo ulteriormente validato il nostro metodo su un braccio robotico reale, dove abilità di manipolazione complesse come la spinta non prensile emergono attraverso il nostro sistema interattivo.
Quando si affrontano compiti decisionali, gli esseri umani si affidano tipicamente a informazioni provenienti da due fonti principali: (1) Dati storici sulle politiche, che forniscono una riproduzione delle interazioni con l'ambiente, e (2) Approfondimenti analitici in forma di linguaggio naturale, che rivelano il prezioso processo di pensiero o le considerazioni strategiche. Nonostante ciò, la maggior parte delle ricerche precedenti si concentra su una sola fonte: utilizzano esclusivamente la riproduzione storica per apprendere direttamente le politiche o le funzioni di valore, oppure si dedicano all'addestramento di modelli linguistici utilizzando semplici corpora di testo. In questo articolo, sosteniamo che un potente agente autonomo dovrebbe coprire entrambe le fonti. Pertanto, proponiamo ChessGPT, un modello GPT che collega l'apprendimento delle politiche e la modellazione del linguaggio integrando dati provenienti da queste due fonti nel contesto degli scacchi. Nello specifico, costruiamo un ampio dataset di partite e linguaggio relativo agli scacchi. Sfruttando questo dataset, presentiamo due esempi di modelli, ChessCLIP e ChessGPT, che integrano l'apprendimento delle politiche e la modellazione del linguaggio. Infine, proponiamo un framework di valutazione completo per valutare le capacità scacchistiche dei modelli linguistici. I risultati sperimentali convalidano l'efficacia del nostro modello e del dataset. Rendiamo disponibili il codice, il modello e il dataset all'indirizzo https://github.com/waterhorse1/ChessGPT.
Abbiamo curato un dataset completo di 4.550 domande e soluzioni tratte da problem set, esami intermedi ed esami finali di tutti i corsi di Matematica e Ingegneria Elettrica e Informatica (EECS) del MIT necessari per il conseguimento di una laurea. Valutiamo la capacità dei modelli linguistici di grandi dimensioni di soddisfare i requisiti di laurea per qualsiasi corso di laurea in Matematica e EECS del MIT. I nostri risultati dimostrano che GPT-3.5 risolve con successo un terzo dell'intero curriculum del MIT, mentre GPT-4, con l'ingegnerizzazione dei prompt, raggiunge un tasso di risoluzione perfetto su un set di test escludendo le domande basate su immagini. Abbiamo ottimizzato un modello linguistico open-source di grandi dimensioni su questo dataset. Utilizziamo GPT-4 per valutare automaticamente le risposte del modello, fornendo una dettagliata analisi delle prestazioni per corso, domanda e tipo di risposta. Incorporando le domande in uno spazio a bassa dimensionalità, esploriamo le relazioni tra domande, argomenti e corsi e scopriamo quali domande e corsi sono necessari per risolvere altre domande e corsi attraverso l'apprendimento few-shot. La nostra analisi offre preziose intuizioni sui prerequisiti dei corsi e sulla progettazione del curriculum, evidenziando il potenziale dei modelli linguistici per l'apprendimento e il miglioramento dell'educazione in Matematica e EECS.
Introduciamo l'anticipazione: un metodo per costruire un modello generativo controllabile di un processo puntuale temporale (il processo degli eventi) condizionato in modo asincrono sulle realizzazioni di un secondo processo correlato (il processo di controllo). Raggiungiamo questo obiettivo intercalando sequenze di eventi e controlli, in modo che i controlli appaiano in seguito a tempi di arresto nella sequenza degli eventi. Questo lavoro è motivato da problemi che sorgono nel controllo della generazione di musica simbolica. Ci concentriamo su compiti di controllo di riempimento, in cui i controlli sono un sottoinsieme degli eventi stessi, e la generazione condizionale completa una sequenza di eventi dati gli eventi di controllo fissi. Addestriamo modelli di riempimento anticipatorio utilizzando il vasto e diversificato dataset musicale Lakh MIDI. Questi modelli eguagliano le prestazioni dei modelli autoregressivi per la generazione musicale su richiesta, con l'ulteriore capacità di eseguire compiti di controllo di riempimento, inclusi gli accompagnamenti. I valutatori umani riferiscono che un modello anticipatorio produce accompagnamenti con una musicalità simile persino a quella della musica composta da esseri umani in un clip di 20 secondi.
La varietà di oggetti nel mondo reale è praticamente illimitata e quindi impossibile da catturare utilizzando modelli addestrati su un insieme fisso di categorie. Di conseguenza, negli ultimi anni, i metodi a vocabolario aperto hanno attirato l'interesse della comunità. Questo articolo propone un nuovo metodo per la segmentazione zero-shot a vocabolario aperto. I lavori precedenti si basano principalmente su un addestramento contrastivo utilizzando coppie immagine-testo, sfruttando meccanismi di raggruppamento per apprendere caratteristiche delle immagini che siano sia allineate con il linguaggio che ben localizzate. Tuttavia, ciò può introdurre ambiguità poiché l'aspetto visivo delle immagini con didascalie simili spesso varia. Invece, sfruttiamo le proprietà generative dei modelli di diffusione testo-immagine su larga scala per campionare un insieme di immagini di supporto per una determinata categoria testuale. Questo fornisce una distribuzione di aspetti per un dato testo, aggirando il problema dell'ambiguità. Proponiamo inoltre un meccanismo che considera il contesto di sfondo delle immagini campionate per localizzare meglio gli oggetti e segmentare direttamente lo sfondo. Dimostriamo che il nostro metodo può essere utilizzato per ancorare diversi estrattori di caratteristiche pre-addestrati auto-supervisionati al linguaggio naturale e fornire previsioni spiegabili mappandole alle regioni nell'insieme di supporto. La nostra proposta è priva di addestramento, basandosi esclusivamente su componenti pre-addestrati, eppure mostra prestazioni solide su una gamma di benchmark di segmentazione a vocabolario aperto, ottenendo un vantaggio di oltre il 10% sul benchmark Pascal VOC.
Affrontiamo un compito di riferimento nella robotica agile: la cattura di oggetti lanciati ad alta velocità. Si tratta di un'attività impegnativa che implica il tracciamento, l'intercettazione e l'accoglimento di un oggetto lanciato, avendo accesso solo alle osservazioni visive dell'oggetto e allo stato propriocettivo del robot, il tutto in una frazione di secondo. Presentiamo i meriti relativi di due strategie di soluzione fondamentalmente diverse: (i) il Controllo Predittivo basato su Modelli utilizzando l'ottimizzazione accelerata di traiettorie vincolate, e (ii) l'Apprendimento per Rinforzo utilizzando l'ottimizzazione di ordine zero. Forniamo approfondimenti su vari compromessi di prestazione, tra cui l'efficienza campionaria, il trasferimento da simulazione a realtà, la robustezza agli spostamenti di distribuzione e la multimodalità dell'intero corpo, attraverso esperimenti estensivi su hardware. Concludiamo con proposte sulla fusione di tecniche "classiche" e basate sull'apprendimento per il controllo agile dei robot. I video dei nostri esperimenti sono disponibili su https://sites.google.com/view/agile-catching.
Proponiamo un metodo per raccomandare musica per un video in input, consentendo all'utente di guidare la selezione musicale attraverso descrizioni in linguaggio naturale libero. Una delle principali sfide di questo contesto è che i dataset esistenti di video musicali forniscono le necessarie coppie di addestramento (video, musica), ma mancano di descrizioni testuali della musica. Questo lavoro affronta tale sfida con i seguenti tre contributi. Innanzitutto, proponiamo un approccio di sintesi testuale che si basa su una procedura di prompting basata su analogie per generare descrizioni musicali in linguaggio naturale da un modello linguistico su larga scala (BLOOM-176B), utilizzando come input i risultati di un classificatore musicale pre-addestrato e un piccolo numero di descrizioni testuali umane. In secondo luogo, utilizziamo queste descrizioni musicali sintetizzate per addestrare un nuovo modello trimodale, che fonde le rappresentazioni di input testuali e video per interrogare campioni musicali. Per l'addestramento, introduciamo un meccanismo di regolarizzazione tramite dropout testuale, che dimostriamo essere cruciale per le prestazioni del modello. Il design del nostro modello consente alla musica recuperata di essere coerente con le due modalità di input, abbinando lo stile visivo rappresentato nel video e il genere musicale, l'umore o gli strumenti descritti nella query in linguaggio naturale. In terzo luogo, per valutare il nostro approccio, raccogliamo un dataset di test per il nostro problema annotando un sottoinsieme di 4k clip dal dataset YT8M-MusicVideo con descrizioni musicali in linguaggio naturale, che rendiamo pubblicamente disponibili. Dimostriamo che il nostro approccio può eguagliare o superare le prestazioni dei metodi precedenti nel recupero musica-da-video, migliorando significativamente l'accuratezza del recupero quando si utilizza la guida testuale.
I modelli visione-linguaggio pre-addestrati (VLM) stanno diventando sempre più popolari grazie alle loro prestazioni eccezionali nelle applicazioni visive downstream, in particolare negli scenari few-shot e zero-shot. Tuttavia, selezionare il VLM con le migliori prestazioni per alcune applicazioni downstream non è banale, poiché dipende dal dataset e dal task. Nel frattempo, la valutazione esaustiva di tutti i VLM disponibili per una nuova applicazione non solo richiede tempo e risorse computazionali, ma necessita anche della raccolta di un dataset etichettato per la valutazione. Con l'aumento del numero di varianti open-source di VLM, emerge la necessità di una strategia efficiente per la selezione dei modelli che non richieda l'accesso a un dataset di valutazione curato. Questo articolo propone un nuovo task e benchmark per valutare in modo efficiente le prestazioni zero-shot dei VLM su applicazioni downstream senza accesso al dataset del task downstream. Nello specifico, introduciamo un nuovo task chiamato LOVM: Language-Only Vision Model Selection, in cui i metodi devono eseguire sia la selezione del modello che la previsione delle prestazioni basandosi esclusivamente su una descrizione testuale dell'applicazione downstream desiderata. Successivamente, abbiamo introdotto un ampio benchmark LOVM composto da valutazioni ground-truth di 35 VLM pre-addestrati e 23 dataset, in cui i metodi devono classificare i VLM pre-addestrati e prevedere le loro prestazioni zero-shot.
Recentemente, i modelli generativi basati sulla diffusione hanno ottenuto un notevole successo nella generazione e modifica di immagini. Tuttavia, il loro utilizzo per l'editing video incontra ancora importanti limitazioni. Questo articolo introduce VidEdit, un metodo innovativo per l'editing video basato su testo in modalità zero-shot, garantendo una forte coerenza temporale e spaziale. In primo luogo, proponiamo di combinare modelli di diffusione pre-addestrati per la generazione di immagini da testo con un approccio basato su atlanti, fornendo un metodo di editing efficiente e senza necessità di addestramento, che per progettazione assicura una transizione temporale fluida. In secondo luogo, sfruttiamo segmentatori panoptici già disponibili insieme a rilevatori di bordi, adattandoli per l'editing condizionato di atlanti basato sulla diffusione. Ciò garantisce un controllo spaziale preciso sulle regioni target, preservando rigorosamente la struttura del video originale. Esperimenti quantitativi e qualitativi dimostrano che VidEdit supera i metodi all'avanguardia sul dataset DAVIS, riguardo a fedeltà semantica, preservazione dell'immagine e metriche di coerenza temporale. Con questo framework, il processing di un singolo video richiede solo circa un minuto, ed è possibile generare multiple modifiche compatibili basate su un unico prompt testuale. Pagina web del progetto: https://videdit.github.io
I recenti progressi nella comprensione delle scene 3D consentono l'apprendimento scalabile di rappresentazioni su grandi dataset di scene diverse. Di conseguenza, è ora possibile generalizzare a scene e oggetti non visti, generare nuove visualizzazioni a partire da una singola o da un numero limitato di immagini di input, e realizzare una generazione controllata di scene che supporta l'editing. Tuttavia, l'addestramento congiunto su un gran numero di scene tipicamente compromette la qualità del rendering rispetto a modelli ottimizzati per singole scene, come i NeRF. In questo articolo, sfruttiamo i recenti progressi nei modelli di diffusione per dotare i modelli di apprendimento delle rappresentazioni di scene 3D della capacità di generare nuove visualizzazioni ad alta fedeltà, mantenendo al contempo vantaggi come l'editing a livello di oggetto in larga misura. In particolare, proponiamo DORSal, che adatta un'architettura di diffusione video per la generazione di scene 3D condizionata da rappresentazioni di scene basate su slot centrati sugli oggetti. Su scene sintetiche complesse con più oggetti e sul dataset su larga scala del mondo reale Street View, dimostriamo che DORSal abilita il rendering neurale scalabile di scene 3D con editing a livello di oggetto e migliora rispetto agli approcci esistenti.
Mostriamo come costruire un modello che consenta rendering realistici e da punti di vista liberi di una scena sotto condizioni di illuminazione nuove a partire da un video. Il nostro metodo -- UrbanIR: Urban Scene Inverse Rendering -- calcola una rappresentazione di inverse graphics dal video. UrbanIR inferisce congiuntamente forma, albedo, visibilità e illuminazione solare e atmosferica da un singolo video di scene esterne illimitate con illuminazione sconosciuta. UrbanIR utilizza video provenienti da telecamere montate su automobili (a differenza delle molteplici visualizzazioni degli stessi punti tipiche delle stime in stile NeRF). Di conseguenza, i metodi standard producono stime geometriche scadenti (ad esempio, per i tetti) e sono presenti numerosi "floaters". Errori nell'inferenza di inverse graphics possono portare a forti artefatti nel rendering. UrbanIR utilizza nuove funzioni di perdita per controllare queste e altre fonti di errore. UrbanIR impiega una nuova funzione di perdita per ottenere stime molto accurate dei volumi d'ombra nella scena originale. Le rappresentazioni risultanti facilitano l'editing controllabile, fornendo rendering fotorealistici da punti di vista liberi di scene riluminate e oggetti inseriti. La valutazione qualitativa dimostra significativi miglioramenti rispetto allo stato dell'arte.
In questo articolo, proponiamo un framework autonomo per la ricerca di informazioni e la risposta a domande visive, denominato AVIS. Il nostro metodo sfrutta un Large Language Model (LLM) per pianificare dinamicamente l'utilizzo di strumenti esterni e per analizzarne gli output, acquisendo così le conoscenze necessarie per fornire risposte alle domande poste. Rispondere a domande visive che richiedono conoscenze esterne, come "Quale evento viene commemorato dall'edificio raffigurato in questa immagine?", è un compito complesso. Questo compito presenta uno spazio di ricerca combinatorio che richiede una sequenza di azioni, tra cui l'invocazione di API, l'analisi delle loro risposte e la presa di decisioni informate. Abbiamo condotto uno studio sugli utenti per raccogliere una varietà di esempi di decisioni umane di fronte a questo compito. Questi dati sono stati poi utilizzati per progettare un sistema composto da tre componenti: un pianificatore basato su LLM che determina dinamicamente quale strumento utilizzare successivamente, un ragionatore basato su LLM che analizza ed estrae informazioni chiave dagli output degli strumenti, e un componente di memoria di lavoro che conserva le informazioni acquisite durante il processo. Il comportamento degli utenti raccolto serve come guida per il nostro sistema in due modi chiave. In primo luogo, creiamo un grafo di transizione analizzando la sequenza di decisioni prese dagli utenti. Questo grafo delinea stati distinti e limita l'insieme di azioni disponibili in ciascuno stato. In secondo luogo, utilizziamo esempi di decisioni degli utenti per fornire al nostro pianificatore e ragionatore basati su LLM istanze contestuali rilevanti, migliorando la loro capacità di prendere decisioni informate. Dimostriamo che AVIS raggiunge risultati all'avanguardia su benchmark di risposta a domande visive ad alta intensità di conoscenza, come Infoseek e OK-VQA.
In questo lavoro, studiamo l'impatto dei Modelli Linguistici su Larga Scala (LLM) sul Riconoscimento Automatico del Parlato (ASR) di video YouTube, che utilizziamo come fonte per l'ASR di contenuti lunghi. Dimostriamo una riduzione relativa fino all'8\% nel Tasso di Errore sulle Parole (WER) su set di test ASR di contenuti lunghi in inglese americano (en-us) e inglese indiano con code-switching (en-in), e una riduzione relativa fino al 30\% nel Tasso di Errore sui Termini Salienti (STER) rispetto a una solida baseline di primo passaggio che utilizza un modello linguistico basato sulla massima entropia. Un miglioramento nell'elaborazione dei reticoli che produce un reticolo con una topologia di digrafo appropriata (non ad albero) e che mantiene il contesto dall'ipotesi 1-best del segmento precedente(i) porta a significativi vantaggi nel rescoring con gli LLM. Troviamo inoltre che i miglioramenti nelle prestazioni derivanti dalla combinazione di LLM addestrati su grandi quantità di dati disponibili (come C4) e modelli linguistici neurali convenzionali sono additivi e superano significativamente una solida baseline di primo passaggio con un modello linguistico a massima entropia.
I recenti progressi nella ricostruzione neurale consentono una ricostruzione 3D di alta qualità a partire da raccolte di immagini acquisite in modo casuale. Le tecniche attuali valutano principalmente i loro progressi su raccolte di immagini relativamente semplici, dove le tecniche di Structure-from-Motion (SfM) possono fornire pose della camera di riferimento (ground-truth, GT). Tuttavia, notiamo che le tecniche SfM tendono a fallire su raccolte di immagini "in-the-wild", come i risultati di ricerca di immagini con sfondi e illuminazioni variabili. Per favorire un progresso sistematico nella ricerca sulla ricostruzione 3D da acquisizioni casuali di immagini, proponiamo NAVI: un nuovo dataset di raccolte di immagini agnostiche rispetto alla categoria, contenenti oggetti con scansioni 3D di alta qualità e allineamenti 2D-3D per immagine che forniscono parametri della camera GT quasi perfetti. Questi allineamenti 2D-3D ci permettono di estrarre annotazioni derivate accurate, come corrispondenze dense tra pixel, mappe di profondità e mappe di segmentazione. Dimostriamo l'utilizzo delle raccolte di immagini NAVI in diversi contesti problematici e mostriamo che NAVI consente valutazioni più approfondite che non erano possibili con i dataset esistenti. Riteniamo che NAVI sia vantaggioso per un progresso sistematico nella ricerca sulla ricostruzione 3D e sulla stima delle corrispondenze. Pagina del progetto: https://navidataset.github.io
La ricostruzione e la riluminazione di oggetti e scene in condizioni di illuminazione variabile rappresenta una sfida significativa: i metodi esistenti di rendering neurale spesso non sono in grado di gestire le complesse interazioni tra materiali e luce. L'incorporazione di tecniche di trasferimento di radianza pre-calcolate consente l'illuminazione globale, ma continua a presentare difficoltà con materiali che presentano effetti di scattering sottosuperficiale. Proponiamo un nuovo framework per l'apprendimento del campo di trasferimento di radianza attraverso il rendering volumetrico e l'utilizzo di vari indizi di aspetto per affinare la geometria end-to-end. Questo framework estende le capacità di riluminazione e ricostruzione per gestire una gamma più ampia di materiali in modo guidato dai dati. I modelli risultanti producono risultati di rendering plausibili in condizioni esistenti e nuove. Rilasceremo pubblicamente il nostro codice e un nuovo dataset di oggetti con effetti di scattering sottosuperficiale acquisiti in un light stage.
Consideriamo un robot incaricato di riordinare una scrivania su cui si trova una meticolosamente costruita macchina sportiva Lego. Un essere umano potrebbe riconoscere che non è socialmente appropriato smontare la macchina sportiva e metterla via come parte del "riordino". Come può un robot giungere a questa conclusione? Sebbene i grandi modelli linguistici (LLM) siano stati recentemente utilizzati per abilitare il ragionamento sociale, radicare questo ragionamento nel mondo reale si è rivelato impegnativo. Per ragionare nel mondo reale, i robot devono andare oltre il semplice interrogare passivamente gli LLM e *raccogliere attivamente informazioni dall'ambiente* necessarie per prendere la decisione corretta. Ad esempio, dopo aver rilevato che c'è una macchina occlusa, il robot potrebbe aver bisogno di percepire attivamente la macchina per sapere se si tratta di un modello avanzato di macchina fatta di Lego o di una macchinina costruita da un bambino. Proponiamo un approccio che sfrutta un LLM e un modello linguistico visivo (VLM) per aiutare un robot a percepire attivamente il proprio ambiente e svolgere un ragionamento sociale radicato. Per valutare la nostra struttura su larga scala, rilasciamo il dataset MessySurfaces che contiene immagini di 70 superfici del mondo reale che devono essere pulite. Inoltre, illustriamo il nostro approccio con un robot su 2 superfici progettate con cura. Rileviamo un miglioramento medio del 12,9% sul benchmark MessySurfaces e un miglioramento medio del 15% negli esperimenti con il robot rispetto ai baseline che non utilizzano la percezione attiva. Il dataset, il codice e i video del nostro approccio possono essere trovati all'indirizzo https://minaek.github.io/groundedsocialreasoning.
L'ottimizzazione degli iperparametri nei modelli di deep learning può portare a miglioramenti delle prestazioni di un ordine di grandezza a parità di risorse computazionali. Nonostante ciò, una sintonizzazione sistematica è poco comune, specialmente per i modelli di grandi dimensioni, che sono costosi da valutare e tendono ad avere molti iperparametri, rendendo necessarie scelte complesse riguardo ai compromessi, ai budget e ai limiti di ricerca. Per affrontare questi problemi e proporre un metodo pratico per sintonizzare in modo robusto i modelli di grandi dimensioni, presentiamo Cost-Aware Pareto Region Bayesian Search (CARBS), un algoritmo di ottimizzazione bayesiana che esegue una ricerca locale attorno alla frontiera di Pareto prestazioni-costo. CARBS si comporta bene anche in spazi di ricerca illimitati con molti iperparametri, apprende relazioni di scalabilità in modo da poter sintonizzare i modelli man mano che vengono scalati, e automatizza gran parte della "magia nera" della sintonizzazione. Tra i nostri risultati, risolviamo efficacemente l'intero benchmark ProcGen semplicemente sintonizzando una baseline semplice (PPO, come fornito nel documento originale di ProcGen). Riproduciamo inoltre il risultato di scalabilità tra dimensione del modello e token di addestramento del progetto Chinchilla (Hoffmann et al. 2022), scoprendo simultaneamente leggi di scalabilità per ogni altro iperparametro, attraverso un processo automatizzato semplice che utilizza significativamente meno risorse computazionali ed è applicabile a qualsiasi problema di deep learning (non solo ai modelli linguistici).