Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Lumiere -- un modello di diffusione testo-video progettato per sintetizzare video che rappresentano movimenti realistici, diversificati e coerenti -- una sfida cruciale nella sintesi video. A tal fine, introduciamo un'architettura Space-Time U-Net che genera l'intera durata temporale del video in un'unica passata attraverso il modello. Questo approccio si distingue dai modelli video esistenti, che sintetizzano fotogrammi chiave distanti seguiti da una super-risoluzione temporale -- una metodologia che rende intrinsecamente difficile ottenere una coerenza temporale globale. Implementando sia il campionamento spaziale che (soprattutto) temporale in riduzione e aumento, e sfruttando un modello di diffusione testo-immagine pre-addestrato, il nostro modello impara a generare direttamente un video a bassa risoluzione con frame rate completo, elaborandolo su più scale spazio-temporali. Dimostriamo risultati all'avanguardia nella generazione testo-video e mostriamo che il nostro design facilita facilmente un'ampia gamma di attività di creazione di contenuti e applicazioni di editing video, tra cui immagine-video, inpainting video e generazione stilizzata.
Nel 2023, utilizzare grandi modelli di linguaggio visivo (LVLM) è diventato di tendenza nella comunità dell'IA. Tuttavia, il numero relativamente elevato di parametri (più di 7 miliardi) dei LVLM più popolari rende difficile l'addestramento e il deployment su GPU consumer, scoraggiando molti ricercatori con risorse limitate. Immaginate quanto sarebbe bello sperimentare tutte le funzionalità degli attuali LVLM su una vecchia GTX1080ti (la nostra unica scheda grafica). Di conseguenza, presentiamo in questo report Vary-toy, una versione ridotta di Vary insieme a Qwen-1.8B come modello di linguaggio "grande" di base. In Vary-toy, introduciamo un vocabolario visivo migliorato, che consente al modello non solo di possedere tutte le caratteristiche di Vary, ma anche di acquisire una maggiore generalità. Nello specifico, sostituiamo i campioni negativi di immagini naturali con dati di campioni positivi guidati dal rilevamento di oggetti nel processo di generazione del vocabolario visivo, sfruttando più efficacemente la capacità della rete del vocabolario e permettendole di codificare in modo efficiente le informazioni visive corrispondenti a oggetti naturali. Negli esperimenti, Vary-toy riesce a raggiungere il 65,6% di ANLS su DocVQA, il 59,1% di accuratezza su ChartQA, l'88,1% di accuratezza su RefCOCO e il 29% su MMVet. Il codice sarà reso disponibile pubblicamente sulla homepage.
I modelli di fondazione che incorporano linguaggio, visione e, più recentemente, azioni hanno rivoluzionato la capacità di sfruttare dati su scala internet per ragionare su compiti utili. Tuttavia, una delle principali sfide nell'addestramento di modelli di fondazione incarnati è la mancanza di dati radicati nel mondo fisico. In questo articolo, proponiamo AutoRT, un sistema che sfrutta i modelli di fondazione esistenti per ampliare la distribuzione di robot operativi in scenari completamente inediti con una supervisione umana minima. AutoRT utilizza modelli visione-linguaggio (VLM) per la comprensione e il radicamento della scena, e impiega ulteriormente grandi modelli linguistici (LLM) per proporre istruzioni diverse e innovative da eseguire da parte di una flotta di robot. Guidare la raccolta dei dati attingendo alla conoscenza dei modelli di fondazione consente ad AutoRT di ragionare efficacemente sui compromessi dell'autonomia e sulla sicurezza, ampliando significativamente la raccolta di dati per l'apprendimento dei robot. Dimostriamo che AutoRT propone istruzioni a oltre 20 robot in più edifici e raccoglie 77k episodi reali di robot tramite sia teleoperazione che politiche autonome dei robot. Sperimentalmente, mostriamo che tali dati "in-the-wild" raccolti da AutoRT sono significativamente più diversificati, e che l'uso di LLM da parte di AutoRT consente la raccolta di dati di robot che seguono istruzioni allineate alle preferenze umane.
I grandi modelli linguistici (LLM) comunemente impiegano la generazione autoregressiva durante l'inferenza, portando a un'elevata richiesta di larghezza di banda della memoria e, di conseguenza, a una latenza prolungata. Per mitigare questa inefficienza, presentiamo Bi-directional Tuning for Lossless Acceleration (BiTA), un metodo innovativo che accelera gli LLM attraverso una generazione semi-autoregressiva semplificata e la verifica delle bozze. Ispirati dal concetto di prompt tuning, potenziamo gli LLM con un design efficiente in termini di parametri chiamato bi-directional tuning per la capacità di generazione semi-autoregressiva. Utilizzando un decoding basato su alberi efficiente, i modelli eseguono la generazione e la verifica delle bozze candidate in parallelo, garantendo output identici alle loro controparti autoregressive sotto campionamento greedy. BiTA funziona come un modulo plug-in leggero, aumentando senza soluzione di continuità l'efficienza dell'inferenza degli LLM esistenti senza richiedere modelli di assistenza aggiuntivi o comportare costi di memoria significativi. Applicando il BiTA proposto, LLaMA-2-70B-Chat raggiunge un'accelerazione di 2,7 volte sul benchmark MT-Bench. Esperimenti estensivi confermano che il nostro metodo supera le tecniche di accelerazione all'avanguardia.
Nell'era dei modelli di grandi dimensioni, la natura autoregressiva del decoding spesso rende la latenza un collo di bottiglia significativo. Proponiamo un sistema ASR non autoregressivo con fusione di modelli linguistici che sfrutta efficacemente le capacità di parallelizzazione dell'hardware acceleratore. Il nostro approccio combina il Universal Speech Model (USM) e il modello linguistico PaLM 2 in modalità di scoring per segmento, ottenendo un miglioramento relativo medio del WER del 10,8% su FLEURS e del 3,6% sui sottotitoli di YouTube. Inoltre, il nostro studio di ablazione completo analizza parametri chiave come la dimensione del LLM, la lunghezza del contesto, la dimensione del vocabolario e la metodologia di fusione. Ad esempio, esploriamo l'impatto della dimensione del LLM, che varia da 128M a 340B parametri, sulle prestazioni ASR. Questo studio fornisce preziose informazioni sui fattori che influenzano l'efficacia dei sistemi pratici di riconoscimento vocale su larga scala con fusione di modelli linguistici.
Presentiamo GALA, un framework che prende in input una mesh 3D di un essere umano vestito a singolo strato e la scompone in asset 3D multi-strato completi. Gli output possono poi essere combinati con altri asset per creare nuovi avatar umani vestiti con qualsiasi posa. Gli approcci di ricostruzione esistenti spesso trattano gli esseri umani vestiti come un singolo strato di geometria, trascurando la composizione intrinseca di esseri umani con acconciature, abiti e accessori, limitando così l'utilità delle mesh per applicazioni a valle. Scomporre una mesh a singolo strato in strati separati è un compito impegnativo perché richiede la sintesi di geometria e texture plausibili per le regioni fortemente occluse. Inoltre, anche con una scomposizione riuscita, le mesh non sono normalizzate in termini di pose e forme del corpo, rendendo impossibile una composizione coerente con nuove identità e pose. Per affrontare queste sfide, proponiamo di sfruttare la conoscenza generale di un modello di diffusione 2D pre-addestrato come prior di geometria e aspetto per esseri umani e altri asset. Separiamo prima la mesh di input utilizzando la segmentazione della superficie 3D estratta da segmentazioni 2D multi-vista. Poi sintetizziamo la geometria mancante dei diversi strati sia nello spazio posato che in quello canonico utilizzando una nuova funzione di perdita Score Distillation Sampling (SDS) guidata dalla posa. Una volta completata l'inpainting della geometria 3D ad alta fedeltà, applichiamo la stessa perdita SDS alla sua texture per ottenere l'aspetto completo, incluse le regioni inizialmente occluse. Attraverso una serie di passaggi di scomposizione, otteniamo più strati di asset 3D in uno spazio canonico condiviso normalizzato in termini di pose e forme umane, supportando così una composizione senza sforzo con nuove identità e una rianimazione con nuove pose. I nostri esperimenti dimostrano l'efficacia del nostro approccio per i compiti di scomposizione, canonizzazione e composizione rispetto alle soluzioni esistenti.