Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici generativi su larga scala (LLM) hanno aperto numerose nuove possibilità, ma a causa dei loro significativi requisiti computazionali, il loro uso ubiquitario rimane una sfida. Alcune delle applicazioni più utili richiedono l'elaborazione di un gran numero di campioni alla volta e l'utilizzo di contesti lunghi, entrambi fattori che aumentano notevolmente il carico di comunicazione della memoria dei modelli. Introduciamo SparQ Attention, una tecnica per aumentare la velocità di inferenza degli LLM riducendo i requisiti di banda della memoria all'interno dei blocchi di attenzione attraverso il recupero selettivo della cronologia memorizzata. La nostra tecnica proposta può essere applicata direttamente agli LLM disponibili in commercio durante l'inferenza, senza richiedere alcuna modifica alla configurazione di pre-addestramento o ulteriori fasi di fine-tuning. Dimostriamo come SparQ Attention possa ridurre i requisiti di banda della memoria per l'attenzione fino a otto volte senza alcuna perdita di precisione, valutando i modelli Llama 2 e Pythia su un'ampia gamma di task downstream.
In questo articolo presentiamo DreaMoving, un framework di generazione video controllabile basato su diffusione per produrre video di danza umana personalizzati di alta qualità. Nello specifico, dati una sequenza di identità target e una sequenza di posture, DreaMoving è in grado di generare un video in cui l'identità target danza seguendo le sequenze di posture. A tal fine, proponiamo un Video ControlNet per il controllo del movimento e un Content Guider per la preservazione dell'identità. Il modello proposto è di facile utilizzo e può essere adattato alla maggior parte dei modelli di diffusione stilizzati per generare risultati diversificati. La pagina del progetto è disponibile all'indirizzo https://dreamoving.github.io/dreamoving.
La maggior parte della ricerca sulla generazione 3D si concentra sull'up-proiezione di modelli di base 2D nello spazio 3D, sia minimizzando la perdita di Score Distillation Sampling (SDS) 2D sia ottimizzando su dataset multi-vista. Senza prior espliciti 3D, questi metodi spesso portano ad anomalie geometriche e incoerenze multi-vista. Recentemente, i ricercatori hanno tentato di migliorare l'autenticità degli oggetti 3D addestrando direttamente su dataset 3D, sebbene a costo di una generazione di texture di bassa qualità a causa della limitata diversità delle texture nei dataset 3D. Per sfruttare i vantaggi di entrambi gli approcci, proponiamo Bidirectional Diffusion (BiDiff), un framework unificato che incorpora sia un processo di diffusione 3D che uno 2D, per preservare rispettivamente la fedeltà 3D e la ricchezza delle texture 2D. Inoltre, poiché una semplice combinazione potrebbe produrre risultati di generazione incoerenti, li colleghiamo ulteriormente con una nuova guida bidirezionale. In aggiunta, il nostro metodo può essere utilizzato come inizializzazione di modelli basati sull'ottimizzazione per migliorare ulteriormente la qualità del modello 3D e l'efficienza dell'ottimizzazione, riducendo il processo di generazione da 3,4 ore a 20 minuti. I risultati sperimentali hanno dimostrato che il nostro modello raggiunge una generazione 3D di alta qualità, diversificata e scalabile. Sito del progetto: https://bidiff.github.io/.
Introduciamo un approccio per potenziare i modelli di generazione testo-video con movimenti personalizzati, estendendo le loro capacità oltre i movimenti rappresentati nei dati di addestramento originali. Sfruttando alcuni campioni video che dimostrano movimenti specifici come input, il nostro metodo apprende e generalizza i modelli di movimento per scenari diversi specificati dal testo. I nostri contributi sono tre. Innanzitutto, per ottenere i nostri risultati, ottimizziamo un modello testo-video esistente per apprendere una nuova mappatura tra il movimento rappresentato negli esempi di input e un nuovo token unico. Per evitare l'overfitting sul nuovo movimento personalizzato, introduciamo un approccio di regolarizzazione sui video. In secondo luogo, sfruttando i precedenti di movimento in un modello pre-addestrato, il nostro metodo può produrre nuovi video che presentano più persone che eseguono il movimento personalizzato e può invocare il movimento in combinazione con altri movimenti. Inoltre, il nostro approccio si estende alla personalizzazione multimodale del movimento e dell'aspetto di soggetti individualizzati, consentendo la generazione di video con personaggi unici e movimenti distinti. Terzo, per validare il nostro metodo, introduciamo un approccio per valutare quantitativamente il movimento personalizzato appreso e conduciamo uno studio di ablazione sistematico. Dimostriamo che il nostro metodo supera significativamente i precedenti approcci di personalizzazione basati sull'aspetto quando estesi al compito di personalizzazione del movimento.
Con i recenti progressi nei modelli linguistici di grandi dimensioni, metodi come il prompting a catena di pensiero per elicitare catene di ragionamento hanno dimostrato di migliorare i risultati nei compiti di ragionamento. Tuttavia, i compiti che richiedono più passaggi di ragionamento continuano a rappresentare sfide significative per i modelli all'avanguardia. Traendo ispirazione dall'algoritmo di beam search, proponiamo PathFinder, un approccio basato sulla generazione di percorsi di ragionamento attraverso la ricerca ad albero. Esso migliora il ramificarsi diversificato e il ragionamento multi-hop attraverso l'integrazione di decodifica dinamica, abilitata da metodi e parametri di campionamento variabili. Utilizzando il ragionamento vincolato, PathFinder integra nuovi vincoli di qualità, potature e metodi di esplorazione per migliorare l'efficienza e la qualità della generazione. Inoltre, include funzionalità di punteggio e classificazione per migliorare la selezione dei candidati. Il nostro approccio supera le baseline competitive in tre complessi compiti di ragionamento aritmetico e di senso comune, con un miglioramento medio del 6%. Il nostro modello si generalizza bene a catene di ragionamento più lunghe e non viste, riflettendo complessità simili al beam search con grandi fattori di ramificazione.
I modelli di diffusione per il denoising hanno dimostrato risultati eccezionali nella generazione di immagini 2D, ma replicare questo successo nella generazione di forme 3D rimane una sfida. In questo articolo, proponiamo di sfruttare la profondità multi-vista, che rappresenta forme 3D complesse in un formato di dati 2D facile da denoisare. Abbiamo abbinato questa rappresentazione a un modello di diffusione, MVDD, in grado di generare nuvole di punti dense di alta qualità con oltre 20K punti e dettagli fini. Per garantire la coerenza 3D nella profondità multi-vista, introduciamo un'attenzione ai segmenti di linea epipolare che condiziona il passo di denoising per una vista sulle viste adiacenti. Inoltre, un modulo di fusione della profondità è incorporato nei passi di diffusione per garantire ulteriormente l'allineamento delle mappe di profondità. Quando arricchito con la ricostruzione della superficie, MVDD può anche produrre mesh 3D di alta qualità. Inoltre, MVDD si distingue in altre attività come il completamento della profondità e può servire come prior 3D, migliorando significativamente molte attività a valle, come l'inversione di GAN. I risultati all'avanguardia ottenuti da esperimenti estensivi dimostrano l'eccellente capacità di MVDD nella generazione di forme 3D, nel completamento della profondità e il suo potenziale come prior 3D per attività a valle.
Presentiamo EE-LLM, un framework per l'addestramento e l'inferenza su larga scala di modelli linguistici di grandi dimensioni (LLM) con uscita anticipata (early-exit). Mentre lavori recenti hanno mostrato prove preliminari dell'efficacia dell'uscita anticipata nell'accelerare l'inferenza degli LLM, EE-LLM compie un passo fondamentale verso la scalabilità degli LLM con uscita anticipata, supportandone l'addestramento e l'inferenza con un massiccio parallelismo 3D. Basato su Megatron-LM, EE-LLM implementa una varietà di innovazioni algoritmiche e ottimizzazioni delle prestazioni specifiche per l'uscita anticipata, tra cui un metodo leggero che facilita la retropropagazione per l'obiettivo di addestramento con uscita anticipata in presenza di parallelismo pipeline, tecniche per sfruttare le risorse inattive nel programma pipeline originale per il calcolo relativo ai livelli di uscita anticipata, e due approcci per l'inferenza con uscita anticipata compatibili con la memorizzazione della cache KV per la generazione autoregressiva. Il nostro studio analitico ed empirico dimostra che EE-LLM raggiunge un'elevata efficienza nell'addestramento con un overhead computazionale trascurabile rispetto all'addestramento standard degli LLM, oltre a un eccezionale aumento della velocità di inferenza senza compromettere la qualità dell'output. Per favorire ulteriori ricerche e l'adozione, rilasciamo EE-LLM all'indirizzo https://github.com/pan-x-c/EE-LLM.
I modelli visione-linguaggio (VL) che seguono istruzioni offrono un'interfaccia flessibile che supporta un'ampia gamma di attività multimodali in modalità zero-shot. Tuttavia, le interfacce che operano su immagini complete non consentono direttamente all'utente di "indicare" e accedere a regioni specifiche all'interno delle immagini. Questa capacità è importante non solo per supportare benchmark VL basati su riferimenti, ma anche per applicazioni pratiche che richiedono un ragionamento preciso all'interno dell'immagine. Costruiamo modelli di Common Sense Visuale Localizzato, che permettono agli utenti di specificare (multiple) regioni come input. Addestriamo il nostro modello campionando conoscenza di common sense localizzata da un grande modello linguistico (LLM): nello specifico, sollecitiamo un LLM a raccogliere conoscenza di common sense data una descrizione letterale globale dell'immagine e una descrizione letterale locale della regione generata automaticamente da un insieme di modelli VL. Con un modello critico addestrato separatamente che seleziona esempi di alta qualità, scopriamo che l'addestramento sul corpus di common sense localizzato può distillare con successo i modelli VL esistenti per supportare un'interfaccia che accetta riferimenti come input. Risultati empirici e valutazioni umane in uno setup zero-shot dimostrano che il nostro metodo di distillazione produce modelli VL di ragionamento più precisi rispetto a una baseline che passa un'espressione di riferimento generata a un LLM.