Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo una tecnica innovativa di inferenza basata su un modello di diffusione preaddestrato per la generazione di video condizionati da testo. Il nostro approccio, denominato FIFO-Diffusion, è concettualmente in grado di generare video di lunghezza infinita senza necessità di addestramento. Questo risultato è ottenuto eseguendo iterativamente un processo di denoising diagonale, che elabora contemporaneamente una serie di fotogrammi consecutivi con livelli di rumore crescenti in una coda; il nostro metodo rimuove un fotogramma completamente denoisato dalla testa della coda mentre aggiunge un nuovo fotogramma con rumore casuale alla coda. Tuttavia, il denoising diagonale è un'arma a doppio taglio, poiché i fotogrammi vicini alla coda possono trarre vantaggio da quelli più puliti attraverso un riferimento in avanti, ma tale strategia introduce una discrepanza tra addestramento e inferenza. Pertanto, introduciamo il partizionamento latente per ridurre il divario tra addestramento e inferenza e il denoising anticipato per sfruttare i benefici del riferimento in avanti. Abbiamo dimostrato i risultati promettenti e l'efficacia dei metodi proposti sui benchmark esistenti per la generazione di video da testo.
L'adattamento a basso rango è un metodo popolare di fine-tuning efficiente in termini di parametri per i grandi modelli linguistici. In questo articolo, analizziamo l'impatto dell'aggiornamento a basso rango, come implementato in LoRA. I nostri risultati suggeriscono che il meccanismo di aggiornamento a basso rango potrebbe limitare la capacità dei LLM di apprendere e memorizzare efficacemente nuove conoscenze. Ispirati da questa osservazione, proponiamo un nuovo metodo chiamato MoRA, che utilizza una matrice quadrata per ottenere un aggiornamento ad alto rango mantenendo lo stesso numero di parametri addestrabili. Per raggiungere questo obiettivo, introduciamo operatori non parametrici corrispondenti per ridurre la dimensione di input e aumentare la dimensione di output per la matrice quadrata. Inoltre, questi operatori assicurano che il peso possa essere riunito nei LLM, il che rende il nostro metodo utilizzabile come LoRA. Eseguiamo una valutazione completa del nostro metodo su cinque task: tuning delle istruzioni, ragionamento matematico, pre-training continuo, memoria e pre-training. Il nostro metodo supera LoRA nei task intensivi di memoria e raggiunge prestazioni comparabili negli altri task.
Man mano che i grandi modelli linguistici (LLM) continuano a crescere seguendo le leggi di scala, l'apprendimento per rinforzo basato sul feedback umano (RLHF) ha guadagnato un'attenzione significativa grazie alle sue prestazioni eccezionali. Tuttavia, a differenza del pre-addestramento o del fine-tuning di un singolo modello, scalare l'apprendimento per rinforzo basato sul feedback umano (RLHF) per l'addestramento di grandi modelli linguistici presenta sfide di coordinamento tra quattro modelli. Presentiamo OpenRLHF, un framework open-source che consente una scalabilità efficiente dell'RLHF. A differenza dei framework RLHF esistenti che collocano i quattro modelli sugli stessi GPU, OpenRLHF riprogetta la pianificazione per i modelli oltre i 70B parametri utilizzando Ray, vLLM e DeepSpeed, sfruttando un migliore utilizzo delle risorse e approcci di addestramento diversificati. Integrandosi perfettamente con Hugging Face, OpenRLHF fornisce una soluzione pronta all'uso con algoritmi ottimizzati e script di avvio, garantendo così una facile fruibilità. OpenRLHF implementa RLHF, DPO, campionamento per rifiuto e altre tecniche di allineamento. Potenziando lo sviluppo di LLM all'avanguardia, il codice di OpenRLHF è disponibile all'indirizzo https://github.com/OpenLLMAI/OpenRLHF.
Il crescente numero di adattamenti efficienti in termini di parametri di un modello linguistico di base di grandi dimensioni (LLM) richiede di studiare se possiamo riutilizzare tali adattatori addestrati per migliorare le prestazioni su nuovi compiti. Studiamo come costruire al meglio una libreria di adattatori dati multi-task e sviluppiamo tecniche per la generalizzazione sia in modalità zero-shot che supervisionata attraverso il routing in tale libreria. Valutiamo approcci esistenti per costruire questa libreria e introduciamo il clustering basato su modello, MBC, un metodo che raggruppa i compiti in base alla similarità dei loro parametri di adattamento, ottimizzando indirettamente il trasferimento attraverso il dataset multi-task. Per riutilizzare la libreria, presentiamo un nuovo meccanismo di routing zero-shot, Arrow, che consente la selezione dinamica degli adattatori più rilevanti per nuovi input senza la necessità di riaddestramento. Sperimentiamo con diversi LLM, come Phi-2 e Mistral, su un'ampia gamma di compiti tenuti da parte, verificando che gli adattatori basati su MBC e il routing Arrow portano a una generalizzazione superiore su nuovi compiti. Facciamo passi verso la creazione di LLM modulari e adattabili che possono eguagliare o superare l'addestramento congiunto tradizionale.
Le politiche di grandi dimensioni pre-addestrate su dataset robotici diversificati hanno il potenziale di trasformare l'apprendimento robotico: invece di addestrare nuove politiche da zero, tali politiche generaliste per robot possono essere affinate con solo una piccola quantità di dati specifici del dominio, pur generalizzando ampiamente. Tuttavia, per essere ampiamente applicabili in una gamma di scenari, ambienti e compiti di apprendimento robotico, tali politiche devono gestire sensori e spazi d'azione diversificati, adattarsi a una varietà di piattaforme robotiche comunemente utilizzate e affinarsi prontamente ed efficientemente a nuovi domini. In questo lavoro, miriamo a gettare le basi per lo sviluppo di politiche generaliste open-source e ampiamente applicabili per la manipolazione robotica. Come primo passo, introduciamo Octo, una politica di grandi dimensioni basata su transformer addestrata su 800.000 traiettorie del dataset Open X-Embodiment, il più grande dataset di manipolazione robotica fino ad oggi. Può essere istruita tramite comandi linguistici o immagini obiettivo e può essere efficacemente affinata a configurazioni robotiche con nuovi input sensoriali e spazi d'azione in poche ore su GPU consumer standard. In esperimenti condotti su 9 piattaforme robotiche, dimostriamo che Octo funge da inizializzazione versatile per politiche che può essere efficacemente affinata a nuovi spazi di osservazione e azione. Eseguiamo anche ablazioni dettagliate delle decisioni di progettazione per il modello Octo, dall'architettura ai dati di addestramento, per guidare la ricerca futura sulla costruzione di modelli robotici generalisti.
Sfruttando le capacità dei modelli linguistici di grandi dimensioni (LLM), i recenti modelli multimodali di grandi dimensioni (LMM) hanno dimostrato una notevole versatilità nella comprensione multimodale in contesti aperti. Tuttavia, questi modelli sono generalmente caratterizzati da un elevato numero di parametri e richiedono un'intensa capacità computazionale, limitando così la loro applicabilità in scenari con risorse limitate. A tal fine, sono stati proposti diversi LMM leggeri per massimizzare le capacità entro scale vincolate (ad esempio, 3B). Nonostante i risultati incoraggianti ottenuti da questi metodi, la maggior parte di essi si concentra solo su uno o due aspetti dello spazio di progettazione, e le scelte progettuali chiave che influenzano le capacità del modello non sono ancora state approfonditamente investigate. In questo articolo, conduciamo uno studio sistematico sui LMM leggeri, considerando gli aspetti dell'architettura del modello, della strategia di addestramento e dei dati di addestramento. Sulla base delle nostre scoperte, otteniamo Imp -- una famiglia di LMM altamente capaci nelle scale 2B-4B. In particolare, il nostro modello Imp-3B supera costantemente tutti gli esistenti LMM leggeri di dimensioni simili, e addirittura supera i LMM più avanzati alla scala 13B. Con tecniche di quantizzazione a basso bit e riduzione della risoluzione, il nostro modello Imp può essere implementato su un chip mobile Qualcomm Snapdragon 8Gen3 con un'elevata velocità di inferenza di circa 13 token/s.
I Transformer sono diventati architetture fondamentali sia per i compiti di elaborazione del linguaggio naturale che per quelli di visione artificiale. Tuttavia, l'elevato costo computazionale rende piuttosto impegnativo il loro dispiegamento su dispositivi con risorse limitate. Questo articolo indaga i moduli che costituiscono un collo di bottiglia computazionale nei transformer efficienti, ovvero i livelli di normalizzazione e i moduli di attenzione. LayerNorm è comunemente utilizzato nelle architetture transformer, ma non è computazionalmente vantaggioso a causa del calcolo delle statistiche durante l'inferenza. Tuttavia, sostituire LayerNorm con BatchNorm, più efficiente, nei transformer spesso porta a prestazioni inferiori e al collasso durante l'addestramento. Per affrontare questo problema, proponiamo un metodo innovativo denominato PRepBN per sostituire progressivamente LayerNorm con BatchNorm ri-parametrizzato durante l'addestramento. Inoltre, proponiamo un modulo di attenzione lineare semplificato (SLA) che è semplice ma efficace per ottenere prestazioni solide. Esperimenti estesi sulla classificazione delle immagini e sul rilevamento degli oggetti dimostrano l'efficacia del nostro metodo proposto. Ad esempio, il nostro SLAB-Swin ottiene un'accuratezza top-1 dell'83,6% su ImageNet-1K con una latenza di 16,2ms, che è 2,4ms in meno rispetto a Flatten-Swin con un'accuratezza superiore dello 0,1%. Abbiamo anche valutato il nostro metodo per il compito di modellazione del linguaggio, ottenendo prestazioni comparabili e una latenza inferiore. I codici sono disponibili pubblicamente su https://github.com/xinghaochen/SLAB e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
In questo lavoro, proponiamo un nuovo metodo chiamato Trajectory Score Matching (TSM) che mira a risolvere il problema dell'inconsistenza della pseudo ground truth causato dall'errore accumulato nell'Interval Score Matching (ISM) quando si utilizza il processo di inversione dei Denoising Diffusion Implicit Models (DDIM). A differenza dell'ISM, che adotta il processo di inversione dei DDIM per calcolare su un singolo percorso, il nostro metodo TSM sfrutta il processo di inversione dei DDIM per generare due percorsi a partire dallo stesso punto iniziale per il calcolo. Poiché entrambi i percorsi partono dallo stesso punto iniziale, il TSM può ridurre l'errore accumulato rispetto all'ISM, alleviando così il problema dell'inconsistenza della pseudo ground truth. Il TSM migliora la stabilità e la coerenza dei percorsi generati dal modello durante il processo di distillazione. Dimostriamo ciò sperimentalmente e mostriamo inoltre che l'ISM è un caso speciale del TSM. Inoltre, per ottimizzare l'attuale processo di ottimizzazione multi-stadio dalla generazione di testo ad alta risoluzione alla generazione 3D, adottiamo Stable Diffusion XL come guida. In risposta ai problemi di replicazione anomala e divisione causati da gradienti instabili durante il processo di 3D Gaussian splatting quando si utilizza Stable Diffusion XL, proponiamo un metodo di clipping del gradiente pixel per pixel. Esperimenti estensivi dimostrano che il nostro modello supera significativamente i modelli state-of-the-art in termini di qualità visiva e prestazioni. Codice: https://github.com/xingy038/Dreamer-XL.