Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo SlowFast-LLaVA (o SF-LLaVA in breve), un modello linguistico di grandi dimensioni (LLM) per video che non richiede addestramento e che è in grado di catturare congiuntamente la semantica spaziale dettagliata e il contesto temporale a lungo raggio senza superare il budget di token dei LLM comunemente utilizzati. Questo è realizzato utilizzando un design a due flussi SlowFast degli input per i Video LLM per aggregare in modo efficace le caratteristiche dai fotogrammi campionati del video. Nello specifico, il percorso Slow estrae le caratteristiche a una bassa frequenza di fotogrammi mantenendo il maggior numero possibile di dettagli spaziali (ad esempio, con 24x24 token), mentre il percorso Fast opera a una frequenza di fotogrammi elevata ma utilizza un passo di pooling spaziale più ampio (ad esempio, downsampling 6x) per concentrarsi sugli indizi di movimento. Di conseguenza, questo design ci consente di catturare adeguatamente sia le caratteristiche spaziali che temporali che sono utili per comprendere i dettagli lungo il video. I risultati sperimentali mostrano che SF-LLaVA supera i metodi esistenti che non richiedono addestramento su un'ampia gamma di task video. Su alcuni benchmark, raggiunge prestazioni paragonabili o addirittura migliori rispetto ai Video LLM all'avanguardia che sono stati ottimizzati su dataset video.
I modelli linguistici di grandi dimensioni (LLM) destinati a diverse scale e dimensioni di implementazione sono attualmente prodotti addestrando ogni variante da zero; questo processo è estremamente intensivo dal punto di vista computazionale. In questo articolo, indaghiamo se il pruning di un LLM esistente e il suo successivo riaddestramento con una frazione (<3%) dei dati di addestramento originali possa rappresentare un'alternativa valida al ripetuto riaddestramento completo. A tal fine, sviluppiamo un insieme di best practice pratiche ed efficaci per la compressione degli LLM che combinano il pruning di profondità, larghezza, attenzione e MLP con il riaddestramento basato sulla distillazione della conoscenza; arriviamo a queste best practice attraverso un'esplorazione empirica dettagliata delle strategie di pruning per ciascun asse, dei metodi per combinare gli assi, delle strategie di distillazione e delle tecniche di ricerca per ottenere architetture compresse ottimali. Utilizziamo questa guida per comprimere la famiglia di LLM Nemotron-4 di un fattore compreso tra 2 e 4 volte, e confrontiamo le loro prestazioni con modelli di dimensioni simili su una varietà di task di modellazione linguistica. Derivare modelli da 8B e 4B da un modello già preaddestrato da 15B utilizzando il nostro approccio richiede fino a 40 volte meno token di addestramento per modello rispetto all'addestramento da zero; ciò si traduce in un risparmio dei costi computazionali di 1,8 volte per l'addestramento dell'intera famiglia di modelli (15B, 8B e 4B). I modelli Minitron mostrano un miglioramento fino al 16% nei punteggi MMLU rispetto all'addestramento da zero, si comportano in modo comparabile ad altri modelli della comunità come Mistral 7B, Gemma 7B e Llama-3 8B, e superano le tecniche di compressione all'avanguardia presenti in letteratura. Abbiamo reso open-source i pesi dei modelli Minitron su Huggingface, con materiale supplementare corrispondente incluso codice di esempio disponibile su GitHub.
L'enorme scala dei modelli foundation allo stato dell'arte ha limitato la loro accessibilità per gli scienziati, poiché esperimenti personalizzati su modelli di grandi dimensioni richiedono hardware costoso e ingegneria complessa che risulta impraticabile per la maggior parte dei ricercatori. Per alleviare questi problemi, introduciamo NNsight, un pacchetto Python open-source con un'API semplice e flessibile in grado di esprimere interventi su qualsiasi modello PyTorch costruendo grafi di calcolo. Introduciamo inoltre NDIF, una piattaforma di ricerca collaborativa che fornisce ai ricercatori l'accesso a LLM di scala foundation tramite l'API di NNsight. Codice, documentazione e tutorial sono disponibili all'indirizzo https://www.nnsight.net.
Comprendere i meccanismi della conoscenza nei Large Language Models (LLMs) è fondamentale per progredire verso un'AGI affidabile. Questo articolo esamina l'analisi dei meccanismi della conoscenza attraverso una nuova tassonomia che include l'utilizzo e l'evoluzione della conoscenza. L'utilizzo della conoscenza approfondisce i meccanismi di memorizzazione, comprensione, applicazione e creazione. L'evoluzione della conoscenza si concentra sulla progressione dinamica della conoscenza all'interno di LLM individuali e di gruppo. Inoltre, discutiamo quale conoscenza gli LLM hanno appreso, le ragioni della fragilità della conoscenza parametrica e la potenziale conoscenza oscura (ipotesi) che sarà difficile da affrontare. Speriamo che questo lavoro possa contribuire a comprendere la conoscenza negli LLM e fornire spunti per future ricerche.
I modelli multimodali di grandi dimensioni (LMM) offrono un potenziale significativo in vari ambiti, dall'assistenza personale nelle attività quotidiane ad applicazioni sofisticate come la diagnostica medica. Tuttavia, le loro capacità presentano limitazioni nel dominio dei videogiochi, come difficoltà nella comprensione delle scene, allucinazioni e descrizioni inaccurate del contenuto dei videogiochi, specialmente nei modelli open-source. Questo articolo descrive lo sviluppo di VideoGameBunny, un modello in stile LLaVA basato su Bunny, specificamente progettato per comprendere immagini provenienti da videogiochi. Rilasciamo checkpoint intermedi, log di addestramento e un ampio dataset composto da 185.259 immagini di videogiochi provenienti da 413 titoli, insieme a 389.565 coppie immagine-istruzione che includono didascalie delle immagini, coppie domanda-risposta e una rappresentazione JSON di 16 elementi di 136.974 immagini. I nostri esperimenti dimostrano che i nostri dati di alta qualità relativi ai videogiochi hanno il potenziale di far sì che un modello relativamente piccolo superi il modello all'avanguardia molto più grande LLaVa-1.6-34b (che ha più di 4 volte il numero di parametri). Il nostro studio apre la strada a future ricerche sulla comprensione dei videogiochi per compiti come il gioco, il commento e il debug. Codice e dati sono disponibili su https://videogamebunny.github.io/
L'apprendimento per rinforzo multi-agente (MARL) ha recentemente eccelso nel risolvere complessi problemi cooperativi e competitivi in ambienti multi-agente, prevalentemente con pochi agenti e osservabilità completa. Inoltre, una serie di cruciali compiti legati alla robotica, come la navigazione multi-robot e l'evitamento degli ostacoli, tradizionalmente affrontati con metodi classici non apprendibili (ad esempio, ricerca euristica), sono attualmente suggeriti di essere risolti con metodi basati sull'apprendimento o ibridi. Tuttavia, in questo dominio, è difficile, per non dire impossibile, condurre un confronto equo tra approcci classici, basati sull'apprendimento e ibridi a causa della mancanza di un framework unificato che supporti sia l'apprendimento che la valutazione. A tal fine, introduciamo POGEMA, un insieme di strumenti completi che include un ambiente veloce per l'apprendimento, un generatore di istanze di problemi, una raccolta di quelle predefinite, un toolkit di visualizzazione e uno strumento di benchmarking che consente una valutazione automatizzata. Introduciamo e specifichiamo un protocollo di valutazione che definisce una gamma di metriche relative al dominio calcolate sulla base degli indicatori di valutazione primari (come il tasso di successo e la lunghezza del percorso), consentendo un confronto equo e multidimensionale. Vengono presentati i risultati di tale confronto, che coinvolge una varietà di metodi MARL all'avanguardia, basati sulla ricerca e ibridi.
I modelli multimodali di grandi dimensioni (LMM) stanno elaborando input sempre più lunghi e ricchi. Nonostante i progressi, sono disponibili pochi benchmark pubblici per misurare tale sviluppo. Per colmare questa lacuna, introduciamo LongVideoBench, un benchmark di risposta alle domande che presenta input intervallati video-linguaggio della durata fino a un'ora. Il nostro benchmark include 3.763 video di varia lunghezza raccolti dal web con i relativi sottotitoli su temi diversi, progettati per valutare in modo completo gli LMM sulla comprensione multimodale a lungo termine. Per raggiungere questo obiettivo, interpretiamo la sfida principale come quella di recuperare e ragionare in modo accurato su informazioni multimodali dettagliate da input lunghi. A tal fine, formuliamo un nuovo compito di risposta alle domande video denominato ragionamento referenziale. Nello specifico, come parte della domanda, contiene una query referenziale che fa riferimento a contesti video correlati, chiamati contesto referenziato. Il modello deve quindi ragionare sui dettagli video rilevanti dal contesto referenziato. Seguendo il paradigma del ragionamento referenziale, abbiamo curato 6.678 domande a scelta multipla annotate da esseri umani in 17 categorie dettagliate, stabilendo uno dei benchmark più completi per la comprensione video di lunga durata. Le valutazioni suggeriscono che LongVideoBench presenta sfide significative anche per i modelli proprietari più avanzati (ad esempio GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), mentre le loro controparti open-source mostrano un divario di prestazioni ancora maggiore. Inoltre, i nostri risultati indicano che le prestazioni del modello sul benchmark migliorano solo quando sono in grado di elaborare più fotogrammi, posizionando LongVideoBench come un benchmark prezioso per valutare gli LMM di prossima generazione con contesto lungo.
L'apprendimento per rinforzo da feedback umano (RLHF) è un fattore chiave per la qualità e la sicurezza nei modelli linguistici all'avanguardia. Tuttavia, una strategia sorprendentemente semplice e potente al momento dell'inferenza è il campionamento Best-of-N, che seleziona la migliore generazione tra N candidati. In questo articolo, proponiamo Best-of-N Distillation (BOND), un nuovo algoritmo RLHF che mira a emulare Best-of-N senza il suo significativo sovraccarico computazionale al momento dell'inferenza. Nello specifico, BOND è un algoritmo di corrispondenza delle distribuzioni che costringe la distribuzione delle generazioni dalla politica ad avvicinarsi alla distribuzione Best-of-N. Utilizziamo la divergenza di Jeffreys (una combinazione lineare di KL in avanti e all'indietro) per bilanciare il comportamento di copertura e ricerca delle modalità, e deriviamo una formulazione iterativa che utilizza un'ancora mobile per l'efficienza. Dimostriamo l'efficacia del nostro approccio e diverse scelte progettuali attraverso esperimenti sulla sintesi astrattiva e sui modelli Gemma. L'allineamento delle politiche Gemma con BOND supera altri algoritmi RLHF migliorando i risultati su diversi benchmark.
Sebbene i Neural Radiance Fields (NeRF) abbiano dimostrato una qualità eccezionale, la loro prolungata durata di addestramento rimane un limite. I NeRF generalizzabili e basati su MVS, sebbene in grado di ridurre il tempo di addestramento, spesso comportano compromessi in termini di qualità. Questo articolo presenta un nuovo approccio chiamato BoostMVSNeRF per migliorare la qualità di rendering dei NeRF basati su MVS in scene su larga scala. Inizialmente, identifichiamo i limiti dei metodi NeRF basati su MVS, come la copertura limitata del viewport e gli artefatti dovuti a un numero ridotto di viste di input. Successivamente, affrontiamo questi limiti proponendo un nuovo metodo che seleziona e combina più volumi di costo durante il rendering volumetrico. Il nostro metodo non richiede addestramento e può adattarsi a qualsiasi metodo NeRF basato su MVS in modo feed-forward per migliorare la qualità del rendering. Inoltre, il nostro approccio è anche addestrabile end-to-end, consentendo la messa a punto su scene specifiche. Dimostriamo l'efficacia del nostro metodo attraverso esperimenti su dataset su larga scala, mostrando significativi miglioramenti nella qualità del rendering in scene su larga scala e scenari esterni illimitati. Rilasciamo il codice sorgente di BoostMVSNeRF all'indirizzo https://su-terry.github.io/BoostMVSNeRFs/.
I modelli di diffusione intrecciano la generazione di contenuto e stile durante il processo di denoising, portando a modifiche indesiderate del contenuto quando applicati direttamente a compiti di stilizzazione. I metodi esistenti faticano a controllare efficacemente il modello di diffusione per soddisfare i requisiti estetici della stilizzazione. In questo articolo, introduciamo Artist, un approccio senza necessità di addestramento che controlla esteticamente la generazione di contenuto e stile di un modello di diffusione pre-addestrato per la stilizzazione guidata da testo. La nostra intuizione chiave è quella di separare il denoising del contenuto e dello stile in processi di diffusione distinti, pur condividendo informazioni tra di essi. Proponiamo metodi semplici ma efficaci per il controllo del contenuto e dello stile che sopprimono la generazione di contenuti irrilevanti per lo stile, ottenendo risultati di stilizzazione armoniosi. Esperimenti estensivi dimostrano che il nostro metodo eccelle nel raggiungere i requisiti di stilizzazione a livello estetico, preservando i dettagli intricati nell'immagine del contenuto e allineandosi bene con il prompt di stile. Inoltre, mostriamo l'elevata controllabilità della forza di stilizzazione da varie prospettive. Il codice verrà rilasciato, pagina del progetto: https://DiffusionArtist.github.io
Nonostante i modelli di Flow Matching e di diffusione siano emersi come potenti paradigmi generativi per variabili continue come immagini e video, la loro applicazione a dati discreti ad alta dimensionalità, come il linguaggio, è ancora limitata. In questo lavoro, presentiamo Discrete Flow Matching, un nuovo paradigma di flusso discreto progettato specificamente per la generazione di dati discreti. Discrete Flow Matching offre diversi contributi chiave: (i) funziona con una famiglia generale di percorsi di probabilità che interpolano tra distribuzioni sorgente e target; (ii) consente una formula generica per il campionamento da questi percorsi di probabilità utilizzando posteriori appresi come il denoiser di probabilità (x-prediction) e la predizione del rumore (epsilon-prediction); (iii) praticamente, concentrarsi su percorsi di probabilità specifici definiti con diversi scheduler migliora notevolmente la perplessità generativa rispetto ai precedenti modelli di diffusione e flusso discreti; e (iv) scalando i modelli di Discrete Flow Matching fino a 1,7 miliardi di parametri, raggiungiamo il 6,7% di Pass@1 e il 13,4% di Pass@10 su HumanEval e il 6,7% di Pass@1 e il 20,6% di Pass@10 sui benchmark di codifica 1-shot MBPP. Il nostro approccio è in grado di generare dati discreti di alta qualità in modo non autoregressivo, riducendo significativamente il divario tra i modelli autoregressivi e i modelli di flusso discreto.
La generazione di scene 3D è molto richiesta in vari ambiti, tra cui realtà virtuale, gaming e industria cinematografica. Grazie alle potenti capacità generative dei modelli di diffusione testo-immagine, che forniscono prior affidabili, la creazione di scene 3D utilizzando solo prompt testuali è diventata fattibile, contribuendo così a un significativo avanzamento nella ricerca sulla generazione di scene 3D guidata da testo. Per ottenere una supervisione multi-vista da modelli di diffusione 2D, i metodi prevalenti impiegano tipicamente il modello di diffusione per generare un'immagine locale iniziale, seguita da un'iterativa espansione dell'immagine locale utilizzando modelli di diffusione per generare gradualmente le scene. Tuttavia, questi approcci basati sull'espansione tendono a produrre risultati di generazione di scene globalmente inconsistenti e con un basso grado di completezza, limitandone le applicazioni più ampie. Per affrontare questi problemi, introduciamo HoloDreamer, un framework che genera prima un panorama ad alta definizione come inizializzazione olistica dell'intera scena 3D, per poi sfruttare il 3D Gaussian Splatting (3D-GS) per ricostruire rapidamente la scena 3D, facilitando così la creazione di scene 3D coerenti dal punto di vista visivo e completamente chiuse. Nello specifico, proponiamo la Generazione di Panorami Equirettangolari Stilizzati, una pipeline che combina più modelli di diffusione per consentire la generazione di panorami equirettangolari dettagliati e stilizzati a partire da prompt testuali complessi. Successivamente, viene introdotta la Ricostruzione di Panorami a Due Fasi Potenziata, che esegue un'ottimizzazione a due fasi del 3D-GS per riempire le regioni mancanti e migliorare l'integrità della scena. Esperimenti completi hanno dimostrato che il nostro metodo supera i lavori precedenti in termini di coerenza e armonia visiva complessiva, nonché di qualità di ricostruzione e robustezza del rendering nella generazione di scene completamente chiuse.
I sistemi di intelligenza artificiale (AI) generica sono costruiti su vasti insiemi di dati pubblici del web, raccolti in corpora come C4, RefinedWeb e Dolma. Per quanto ne sappiamo, conduciamo la prima audit su larga scala e longitudinale dei protocolli di consenso per i domini web alla base dei corpora di addestramento AI. La nostra analisi di 14.000 domini web offre una visione ampia dei dati web accessibili e di come le preferenze di consenso per il loro utilizzo stiano cambiando nel tempo. Osserviamo una proliferazione di clausole specifiche per l'AI che limitano l'uso, differenze marcate nelle restrizioni per gli sviluppatori di AI, nonché incoerenze generali tra le intenzioni espresse nei Termini di Servizio dei siti web e i loro file robots.txt. Diagnosticiamo questi fenomeni come sintomi di protocolli web inefficaci, non progettati per gestire il riutilizzo diffuso di internet per l'AI. Le nostre analisi longitudinali mostrano che in un solo anno (2023-2024) c'è stato un rapido aumento delle restrizioni sui dati provenienti da fonti web, rendendo ~5%+ di tutti i token in C4, o il 28%+ delle fonti più attivamente mantenute e critiche in C4, completamente inaccessibili. Per quanto riguarda le restrizioni di crawling nei Termini di Servizio, il 45% di C4 è ora limitato. Se rispettate o applicate, queste restrizioni stanno rapidamente influenzando la diversità, l'aggiornamento e le leggi di scala per i sistemi di AI generica. Speriamo di illustrare la crisi emergente nel consenso sui dati, che sta chiudendo gran parte del web aperto, non solo per l'AI commerciale, ma anche per scopi non commerciali e accademici.
I modelli di diffusione hanno ottenuto notevoli progressi nell'animazione di immagini grazie alle loro potenti capacità generative. Tuttavia, mantenere la coerenza spazio-temporale con le informazioni dettagliate dell'immagine statica di input nel tempo (ad esempio, stile, sfondo e oggetto dell'immagine statica di input) e garantire fluidità nelle narrazioni video animate guidate da prompt testuali rimane ancora una sfida. In questo articolo, introduciamo Cinemo, un nuovo approccio all'animazione di immagini volto a ottenere una migliore controllabilità del movimento, nonché una maggiore coerenza temporale e fluidità. In generale, proponiamo tre strategie efficaci nelle fasi di addestramento e inferenza di Cinemo per raggiungere il nostro obiettivo. Nella fase di addestramento, Cinemo si concentra sull'apprendimento della distribuzione dei residui di movimento, piuttosto che prevedere direttamente i successivi tramite un modello di diffusione del movimento. Inoltre, viene proposta una strategia basata sull'indice di similarità strutturale per consentire a Cinemo di avere una migliore controllabilità dell'intensità del movimento. Nella fase di inferenza, viene introdotta una tecnica di raffinamento del rumore basata sulla trasformazione discreta del coseno per mitigare i cambiamenti improvvisi del movimento. Queste tre strategie consentono a Cinemo di produrre risultati altamente coerenti, fluidi e controllabili nel movimento. Rispetto ai metodi precedenti, Cinemo offre una controllabilità utente più semplice e precisa. Esperimenti estesi confrontati con diversi metodi all'avanguardia, inclusi sia strumenti commerciali che approcci di ricerca, su più metriche, dimostrano l'efficacia e la superiorità del nostro approccio proposto.
L'affinamento basato su ricompense è cruciale per allineare le politiche linguistiche con i comportamenti desiderati (ad esempio, creatività e sicurezza). Una sfida chiave in questo contesto è sviluppare modelli linguistici controllabili che bilancino in modo flessibile ed efficiente obiettivi multipli (e potenzialmente conflittuali). Questo articolo presenta la Politica Linguistica Condizionata (Conditioned Language Policy, CLP), un framework generale per l'affinamento di modelli linguistici su più obiettivi. Basandosi su tecniche di addestramento multi-task e affinamento efficiente dei parametri, CLP è in grado di apprendere modelli controllabili che bilanciano efficacemente obiettivi conflittuali durante l'inferenza. È importante notare che ciò non richiede l'addestramento o il mantenimento di più modelli per ottenere diversi compromessi tra gli obiettivi. Attraverso un'ampia serie di esperimenti e ablazioni, dimostriamo che il framework CLP apprende modelli controllabili che superano e dominano in senso Pareto gli approcci attuali all'avanguardia per l'affinamento multi-obiettivo.
Basandosi sulla potenza dei LLM, numerosi modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno recentemente ottenuto prestazioni notevoli in vari compiti di visione e linguaggio su più benchmark. Tuttavia, la maggior parte degli MLLM e dei benchmark esistenti si concentra principalmente su scenari di input con singole immagini, lasciando ancora poco esplorate le prestazioni degli MLLM quando devono gestire immagini multiple realistiche. Sebbene alcuni benchmark considerino immagini multiple, le loro dimensioni di valutazione e i campioni sono molto limitati. Pertanto, in questo articolo, proponiamo un nuovo benchmark, MIBench, per valutare in modo completo le capacità dettagliate degli MLLM in scenari con immagini multiple. Nello specifico, MIBench categorizza le abilità relative alle immagini multiple in tre scenari: istruzione con immagini multiple (MII), ricerca di conoscenza multimodale (MKS) e apprendimento in contesto multimodale (MIC), e costruisce 13 task con un totale di 13K campioni annotati. Durante la costruzione dei dati, per MII e MKS, estraiamo opzioni corrette da annotazioni manuali e creiamo distrattori impegnativi per ottenere domande a scelta multipla. Per MIC, per consentire una valutazione approfondita, impostiamo quattro sotto-task e trasformiamo i dataset originali in formati di apprendimento in contesto. Valutiamo diversi MLLM open-source e closed-source sul benchmark MIBench proposto. I risultati rivelano che, sebbene i modelli attuali eccellano nei task con singole immagini, mostrano carenze significative quando si confrontano con input di immagini multiple, come una percezione fine-grain confusa, un ragionamento limitato su immagini multiple e un apprendimento in contesto instabile. I dati annotati in MIBench sono disponibili su https://huggingface.co/datasets/StarBottle/MIBench.
Gli agenti linguistici, costruiti su modelli di linguaggio (LM), sono sistemi in grado di interagire con ambienti complessi, come il web aperto. In questo lavoro, esaminiamo se tali agenti possono eseguire compiti realistici e dispendiosi in termini di tempo sul web, ad esempio monitorare i mercati immobiliari o individuare attività commerciali rilevanti nelle vicinanze. Introduciamo AssistantBench, un nuovo benchmark impegnativo composto da 214 compiti realistici che possono essere valutati automaticamente, coprendo diversi scenari e domini. Troviamo che AssistantBench mette in luce i limiti dei sistemi attuali, inclusi i modelli di linguaggio e i modelli di linguaggio potenziati con il recupero di informazioni, poiché nessun modello raggiunge un'accuratezza superiore a 25 punti. Sebbene i LM "closed-book" performino bene, mostrano una bassa precisione poiché tendono a generare fatti inventati. Gli agenti web all'avanguardia raggiungono un punteggio vicino allo zero. Inoltre, introduciamo SeePlanAct (SPA), un nuovo agente web che supera significativamente i precedenti agenti, e un ensemble di SPA e modelli closed-book raggiunge la migliore performance complessiva. Inoltre, analizziamo i fallimenti dei sistemi attuali e sottolineiamo che la navigazione web rimane una sfida importante.
I modelli esistenti di testo-a-musica sono in grado di produrre audio di alta qualità con una grande diversità. Tuttavia, i prompt testuali da soli non possono controllare con precisione le caratteristiche musicali temporali, come gli accordi e il ritmo della musica generata. Per affrontare questa sfida, introduciamo MusiConGen, un modello testo-a-musica basato su Transformer e condizionato temporalmente, che si basa sul framework pre-addestrato MusicGen. La nostra innovazione risiede in un meccanismo di fine-tuning efficiente, progettato per GPU di livello consumer, che integra ritmo e accordi estratti automaticamente come segnale di condizionamento. Durante l'inferenza, la condizione può essere rappresentata da caratteristiche musicali estratte da un segnale audio di riferimento, oppure da una sequenza di accordi simbolici definita dall'utente, BPM e prompt testuali. La nostra valutazione delle prestazioni su due dataset – uno derivato da caratteristiche estratte e l'altro da input creati dall'utente – dimostra che MusiConGen può generare musica di accompagnamento realistica che si allinea bene con le condizioni specificate. Rendiamo disponibile il codice e i checkpoint del modello in open-source e forniamo esempi audio online, https://musicongen.github.io/musicongen_demo/.
La generazione di layout è il compito fondamentale del design intelligente, che richiede l'integrazione dell'estetica visiva e dell'espressione armoniosa della consegna dei contenuti. Tuttavia, i metodi esistenti affrontano ancora sfide nella generazione di layout precisi e visivamente accattivanti, inclusi problemi di blocco, sovrapposizione o disallineamento spaziale tra i layout, che sono strettamente correlati alla struttura spaziale dei layout grafici. Abbiamo osservato che questi metodi si concentrano eccessivamente sulle informazioni dei contenuti e mancano di vincoli sulla struttura spaziale del layout, determinando uno squilibrio nell'apprendimento delle caratteristiche consapevoli dei contenuti e delle caratteristiche consapevoli della grafica. Per affrontare questo problema, proponiamo la Generazione di Layout con Bilanciamento di Contenuto e Grafica utilizzando un Modello di Diffusione basato su Transformer (CGB-DM). Nello specifico, progettiamo innanzitutto un regolatore che bilancia il peso previsto dei contenuti e della grafica, superando la tendenza a prestare maggiore attenzione ai contenuti sulla tela. In secondo luogo, introduciamo un vincolo grafico del riquadro di salienza per migliorare ulteriormente l'allineamento delle caratteristiche geometriche tra le rappresentazioni dei layout e le immagini. Inoltre, adattiamo un modello di diffusione basato su transformer come architettura principale, la cui potente capacità di generazione garantisce la qualità nella generazione dei layout. I risultati sperimentali estesi indicano che il nostro metodo ha raggiunto prestazioni all'avanguardia sia nelle valutazioni quantitative che qualitative. Il nostro framework di modello può anche essere esteso ad altri campi del design grafico.
Presentiamo LocoTrack, un modello altamente preciso ed efficiente progettato per il compito di tracciamento di qualsiasi punto (TAP) attraverso sequenze video. Gli approcci precedenti in questo compito si basano spesso su mappe di correlazione 2D locali per stabilire corrispondenze da un punto nell'immagine di query a una regione locale nell'immagine target, il che spesso incontra difficoltà con regioni omogenee o caratteristiche ripetitive, portando ad ambiguità di corrispondenza. LocoTrack supera questa sfida con un approccio innovativo che utilizza corrispondenze a coppie complete tra regioni, ovvero correlazione 4D locale, per stabilire corrispondenze precise, con una corrispondenza bidirezionale e una fluidità di matching che migliorano significativamente la robustezza contro le ambiguità. Incorporiamo inoltre un codificatore di correlazione leggero per migliorare l'efficienza computazionale e un'architettura Transformer compatta per integrare informazioni temporali a lungo termine. LocoTrack raggiunge una precisione senza pari su tutti i benchmark TAP-Vid e opera a una velocità quasi 6 volte superiore rispetto allo stato dell'arte attuale.
La termografia ha una varietà di applicazioni, dal monitoraggio agricolo all'ispezione degli edifici, fino all'acquisizione di immagini in condizioni di scarsa visibilità, come in caso di luce ridotta, nebbia e pioggia. Tuttavia, la ricostruzione di scene termiche in 3D presenta diverse sfide a causa della risoluzione relativamente inferiore e delle caratteristiche limitate presenti nelle immagini a infrarossi a onda lunga (LWIR). Per superare queste sfide, proponiamo un framework unificato per la ricostruzione di scene da un insieme di immagini LWIR e RGB, utilizzando un campo di radianza multispettrale per rappresentare una scena osservata sia da telecamere visibili che a infrarossi, sfruttando così le informazioni provenienti da entrambi gli spettri. Calibriamo le telecamere RGB e a infrarossi reciprocamente, come passaggio di pre-elaborazione utilizzando un semplice target di calibrazione. Dimostriamo il nostro metodo su set reali di fotografie RGB e LWIR acquisite da una termocamera portatile, mostrando l'efficacia del nostro metodo nella rappresentazione delle scene attraverso gli spettri visibile e infrarosso. Mostriamo che il nostro metodo è in grado di eseguire la super-risoluzione termica, oltre a rimuovere visivamente gli ostacoli per rivelare oggetti che sono occlusi nei canali RGB o termici. Si prega di consultare https://yvette256.github.io/thermalnerf per i risultati video, nonché per il rilascio del nostro codice e dataset.
Introduciamo i Jacobiani Residui Temporali come una nuova rappresentazione per abilitare il trasferimento di movimenti basato sui dati. Il nostro approccio non presuppone l'accesso a rigging o fotogrammi chiave intermedi, produce movimenti geometricamente e temporalmente coerenti e può essere utilizzato per trasferire sequenze di movimento lunghe. Al centro del nostro approccio ci sono due reti neurali accoppiate che prevedono individualmente cambiamenti geometrici e temporali locali, successivamente integrati, spazialmente e temporalmente, per produrre le mesh animate finali. Le due reti sono addestrate congiuntamente, si completano a vicenda nella produzione di segnali spaziali e temporali e sono supervisionate direttamente con informazioni posizionali 3D. Durante l'inferenza, in assenza di fotogrammi chiave, il nostro metodo risolve essenzialmente un problema di estrapolazione del movimento. Testiamo il nostro setup su mesh diverse (forme sintetiche e scansionate) per dimostrare la sua superiorità nella generazione di animazioni realistiche e naturali su forme corporee non viste rispetto alle alternative SoTA. Video supplementari e codice sono disponibili su https://temporaljacobians.github.io/.
Questo articolo introduce GET-Zero, un'architettura di modello e una procedura di addestramento per apprendere una politica di controllo consapevole dell'embodiment in grado di adattarsi immediatamente a nuovi cambiamenti hardware senza necessità di riaddestramento. A tal fine, presentiamo il Graph Embodiment Transformer (GET), un modello transformer che sfrutta la connettività del grafo di embodiment come bias strutturale appreso nel meccanismo di attenzione. Utilizziamo il behavior cloning per distillare dati dimostrativi da politiche esperte specifiche per l'embodiment in un modello GET consapevole dell'embodiment, che condiziona le decisioni di controllo sulla configurazione hardware del robot. Condividiamo uno studio di caso su un compito di rotazione di oggetti in mano con destrezza, utilizzando diverse configurazioni di una mano robotica a quattro dita con giunti rimossi e con estensioni della lunghezza dei collegamenti. L'uso del modello GET insieme a una funzione di perdita di auto-modellazione consente a GET-Zero di generalizzare in zero-shot a variazioni non viste nella struttura del grafo e nella lunghezza dei collegamenti, ottenendo un miglioramento del 20% rispetto ai metodi di base. Tutto il codice e i risultati video qualitativi sono disponibili su https://get-zero-paper.github.io.
I recenti progressi nei Modelli Multimodali di Grande Scala (LMMs) hanno compiuto passi significativi nel campo del rispondere a domande visive su singole immagini. Tuttavia, questi modelli incontrano notevoli difficoltà quando devono affrontare query che abbracciano ampie collezioni di immagini, simili a scenari del mondo reale come la ricerca all'interno di grandi album fotografici, il trovare informazioni specifiche su internet o il monitoraggio dei cambiamenti ambientali attraverso immagini satellitari. Questo articolo esplora il compito del Rispondere a Domande Visive su Immagini Multiple (MIQA): dato un ampio insieme di immagini e una query in linguaggio naturale, il compito è generare una risposta pertinente e fondata. Proponiamo un nuovo benchmark pubblico, denominato "Visual Haystacks (VHs)", specificamente progettato per valutare le capacità dei LMMs nel recupero visivo e nel ragionamento su insiemi di immagini non correlate, dove eseguiamo valutazioni complete dimostrando che anche i robusti modelli closed-source lottano significativamente. Per affrontare queste carenze, introduciamo MIRAGE (Multi-Image Retrieval Augmented Generation), un nuovo framework di recupero/QA progettato per i LMMs che affronta le sfide del MIQA con miglioramenti marcati in efficienza e accuratezza rispetto ai metodi di base. La nostra valutazione mostra che MIRAGE supera i modelli closed-source GPT-4o fino all'11% sul benchmark VHs e offre miglioramenti fino a 3.4x in efficienza rispetto agli approcci multi-stage focalizzati sul testo.