Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il progetto BigCode, una collaborazione scientifica aperta focalizzata sullo sviluppo responsabile di Large Language Models per il codice (Code LLMs), presenta StarCoder2. In collaborazione con Software Heritage (SWH), abbiamo costruito The Stack v2 sulla base dei beni comuni digitali del loro archivio di codice sorgente. Accanto ai repository SWH che coprono 619 linguaggi di programmazione, abbiamo selezionato con cura altre fonti di dati di alta qualità, come le pull request di GitHub, i notebook di Kaggle e la documentazione del codice. Ciò ha portato a un set di addestramento 4 volte più grande rispetto al primo dataset di StarCoder. Abbiamo addestrato i modelli StarCoder2 con 3B, 7B e 15B parametri su 3,3-4,3 trilioni di token e li abbiamo valutati accuratamente su un set completo di benchmark per Code LLM. Abbiamo riscontrato che il nostro modello più piccolo, StarCoder2-3B, supera altri Code LLM di dimensioni simili nella maggior parte dei benchmark e supera anche StarCoderBase-15B. Il nostro modello più grande, StarCoder2-15B, supera significativamente altri modelli di dimensioni comparabili. Inoltre, eguaglia o supera CodeLlama-34B, un modello più del doppio delle sue dimensioni. Sebbene DeepSeekCoder-33B sia il modello con le migliori prestazioni nel completamento del codice per linguaggi ad alta risorsa, abbiamo osservato che StarCoder2-15B lo supera nei benchmark di ragionamento matematico e sul codice, oltre che in diversi linguaggi a bassa risorsa. Rendiamo disponibili i pesi del modello con una licenza OpenRAIL e garantiamo la massima trasparenza sui dati di addestramento rilasciando gli identificatori persistenti di SoftWare Heritage (SWHIDs) per i dati del codice sorgente.
Le reti neurali ricorrenti (RNN) offrono inferenza rapida e scalano efficientemente su sequenze lunghe, ma sono difficili da addestrare e complesse da scalare. Proponiamo Hawk, una RNN con ricorrenze lineari controllate da gate, e Griffin, un modello ibrido che combina ricorrenze lineari controllate da gate con attenzione locale. Hawk supera le prestazioni riportate di Mamba su compiti downstream, mentre Griffin eguaglia le prestazioni di Llama-2 nonostante sia stato addestrato su oltre 6 volte meno token. Dimostriamo inoltre che Griffin è in grado di estrapolare su sequenze significativamente più lunghe di quelle osservate durante l'addestramento. I nostri modelli eguagliano l'efficienza hardware dei Transformer durante l'addestramento, mentre durante l'inferenza presentano una latenza inferiore e una produttività significativamente maggiore. Scaliamo Griffin fino a 14 miliardi di parametri e spieghiamo come partizionare i nostri modelli per un addestramento distribuito efficiente.
L'apprendimento profondo tradizionale spesso trascura i byte, le unità fondamentali del mondo digitale, dove tutte le forme di informazioni e operazioni sono codificate e manipolate in formato binario. Ispirati dal successo della previsione del token successivo nell'elaborazione del linguaggio naturale, introduciamo bGPT, un modello con previsione del byte successivo per simulare il mondo digitale. bGPT eguaglia le prestazioni di modelli specializzati in varie modalità, inclusi testo, audio e immagini, e offre nuove possibilità per prevedere, simulare e diagnosticare il comportamento di algoritmi o hardware. Ha replicato quasi perfettamente il processo di conversione dei dati musicali simbolici, raggiungendo un basso tasso di errore di 0,0011 bit per byte nella conversione dalla notazione ABC al formato MIDI. Inoltre, bGPT dimostra capacità eccezionali nella simulazione del comportamento della CPU, con un'accuratezza superiore al 99,99% nell'esecuzione di varie operazioni. Sfruttando la previsione del byte successivo, modelli come bGPT possono apprendere direttamente da vasti dati binari, simulando efficacemente i complessi schemi del mondo digitale.
La qualità dei dati e delle annotazioni determina il limite superiore della qualità di un modello downstream. Sebbene esistano ampi corpora testuali e coppie immagine-testo, i dati video-testo di alta qualità sono molto più difficili da raccogliere. Innanzitutto, l'etichettatura manuale è più dispendiosa in termini di tempo, poiché richiede che un annotatore guardi l'intero video. In secondo luogo, i video hanno una dimensione temporale, composta da diverse scene concatenate e che mostrano molteplici azioni. Di conseguenza, per creare un dataset video con didascalie di alta qualità, proponiamo un approccio automatico che sfrutta input multimodali, come la descrizione testuale del video, i sottotitoli e i singoli fotogrammi video. Nello specifico, selezioniamo 3,8 milioni di video ad alta risoluzione dal dataset HD-VILA-100M, disponibile pubblicamente. Successivamente, li suddividiamo in clip video semanticamente coerenti e applichiamo diversi modelli insegnanti cross-modalità per ottenere didascalie per ciascun video. Poi, ottimizziamo un modello di retrieval su un piccolo sottoinsieme in cui la migliore didascalia di ciascun video viene selezionata manualmente e utilizziamo il modello sull'intero dataset per selezionare la migliore didascalia come annotazione. In questo modo, otteniamo 70 milioni di video associati a didascalie testuali di alta qualità. Abbiamo denominato questo dataset Panda-70M. Dimostriamo il valore del dataset proposto su tre task downstream: generazione di didascalie video, retrieval video e testo, e generazione video guidata da testo. I modelli addestrati sui dati proposti ottengono punteggi significativamente migliori sulla maggior parte delle metriche in tutti i task.
Trattiamo il controllo di umanoidi nel mondo reale come un problema di predizione del token successivo, simile alla previsione della parola successiva nel linguaggio. Il nostro modello è un trasformatore causale addestrato tramite previsione autoregressiva di traiettorie sensorimotorie. Per tenere conto della natura multimodale dei dati, eseguiamo la previsione in modo allineato alla modalità, e per ogni token di input prevediamo il token successivo della stessa modalità. Questa formulazione generale ci consente di sfruttare dati con modalità mancanti, come traiettorie video senza azioni. Addestriamo il nostro modello su una raccolta di traiettorie simulate provenienti da precedenti politiche di rete neurale, controller basati su modelli, dati di motion capture e video di YouTube di esseri umani. Dimostriamo che il nostro modello consente a un umanoide a grandezza naturale di camminare a San Francisco in modalità zero-shot. Il nostro modello può trasferirsi al mondo reale anche quando addestrato su soli 27 ore di dati di camminata, e può generalizzare a comandi non visti durante l'addestramento come camminare all'indietro. Questi risultati suggeriscono una strada promettente verso l'apprendimento di compiti di controllo complessi nel mondo reale attraverso la modellazione generativa di traiettorie sensorimotorie.
Presentiamo MOSAIC, un'architettura modulare per robot domestici progettata per eseguire compiti collaborativi complessi, come cucinare insieme a utenti comuni. MOSAIC collabora strettamente con gli esseri umani, interagisce con gli utenti utilizzando il linguaggio naturale, coordina più robot e gestisce un vocabolario aperto di oggetti di uso quotidiano. Al suo interno, MOSAIC sfrutta la modularità: utilizza modelli pre-addestrati su larga scala per compiti generali come il riconoscimento del linguaggio e delle immagini, mentre impiega moduli snelli progettati per il controllo specifico dei compiti. Abbiamo valutato estensivamente MOSAIC su 60 prove end-to-end in cui due robot collaborano con un utente umano per cucinare una combinazione di 6 ricette. Abbiamo anche testato approfonditamente i singoli moduli con 180 episodi di presa visuomotoria, 60 episodi di previsione del movimento umano e 46 valutazioni online degli utenti sul pianificatore dei compiti. Dimostriamo che MOSAIC è in grado di collaborare in modo efficiente con gli esseri umani eseguendo l'intero sistema end-to-end con un utente reale, completando il 68,3% (41/60) delle prove di cucina collaborativa di 6 ricette diverse, con un tasso di completamento dei sottocompiti del 91,6%. Infine, discutiamo i limiti del sistema attuale e le entusiasmanti sfide aperte in questo dominio. Il sito web del progetto è disponibile all'indirizzo https://portal-cornell.github.io/MOSAIC/.
I modelli di diffusione hanno ottenuto un grande successo nella sintesi di immagini di alta qualità. Tuttavia, generare immagini ad alta risoluzione con i modelli di diffusione rimane una sfida a causa degli enormi costi computazionali, che si traducono in una latenza proibitiva per applicazioni interattive. In questo articolo, proponiamo DistriFusion per affrontare questo problema sfruttando il parallelismo su più GPU. Il nostro metodo divide l'input del modello in più patch e assegna ciascuna patch a una GPU. Tuttavia, implementare in modo ingenuo un tale algoritmo rompe l'interazione tra le patch e compromette la fedeltà, mentre incorporare tale interazione comporterebbe un enorme sovraccarico di comunicazione. Per superare questo dilemma, osserviamo l'elevata somiglianza tra l'input di passaggi di diffusione adiacenti e proponiamo il parallelismo a patch spostate, che sfrutta la natura sequenziale del processo di diffusione riutilizzando le mappe di caratteristiche pre-calcolate dal passaggio temporale precedente per fornire contesto al passaggio corrente. Pertanto, il nostro metodo supporta la comunicazione asincrona, che può essere eseguita in pipeline con il calcolo. Esperimenti estensivi dimostrano che il nostro metodo può essere applicato al recente Stable Diffusion XL senza degradazione della qualità e ottenere un accelerazione fino a 6,1 volte su otto NVIDIA A100 rispetto a una. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/mit-han-lab/distrifuser.
Recenti studi hanno dimostrato che i modelli linguistici basati su meccanismi di attenzione eccellono nel richiamo, ovvero nella capacità di ancorare le generazioni a token precedentemente osservati nel contesto. Tuttavia, l'efficienza dei modelli basati su attenzione è limitata durante l'inferenza dal consumo aggressivo di memoria del KV-cache. In questo lavoro, esploriamo se è possibile migliorare l'efficienza dei modelli linguistici (ad esempio riducendo il consumo di memoria) senza compromettere il richiamo. Applicando esperimenti e teoria a un ampio insieme di architetture, identifichiamo un compromesso fondamentale tra la dimensione dello stato di un modello e la sua capacità di richiamo. Mostriamo che alternative efficienti all'attenzione (ad esempio H3, Mamba, RWKV) mantengono uno stato ricorrente di dimensione fissa, ma faticano nel richiamo. Proponiamo BASED, una semplice architettura che combina attenzione lineare e attenzione a finestra scorrevole. Variando la dimensione della finestra di BASED e la dimensione delle feature dell'attenzione lineare, possiamo regolare la dimensione dello stato e attraversare la frontiera di Pareto della curva di compromesso tra richiamo e memoria, recuperando la piena qualità dell'attenzione da un lato e la piccola dimensione dello stato delle alternative all'attenzione dall'altro. Addestriamo modelli linguistici fino a 1,3 miliardi di parametri e mostriamo che BASED eguaglia i modelli sub-quadratici più forti (ad esempio Mamba) in termini di perplessità e li supera in compiti reali intensivi di richiamo di 6,22 punti di accuratezza. Le implementazioni dell'attenzione lineare sono spesso meno efficienti delle implementazioni ottimizzate dell'attenzione standard. Per rendere BASED competitivo, sviluppiamo algoritmi consapevoli delle operazioni di I/O che consentono un throughput 24 volte superiore nella generazione linguistica rispetto a FlashAttention-2, quando si generano 1024 token utilizzando modelli da 1,3 miliardi di parametri. Il codice per questo lavoro è disponibile all'indirizzo: https://github.com/HazyResearch/based.
I modelli linguistici di grandi dimensioni mostrano un grande potenziale nella generazione e ottimizzazione del codice. I metodi di campionamento ampiamente utilizzati, come il Nucleus Sampling, aumentano la diversità della generazione, ma spesso producono campioni ripetuti per temperature basse e campioni incoerenti per temperature elevate. Inoltre, il coefficiente di temperatura deve essere regolato per ogni task, limitandone l'usabilità. Presentiamo il Priority Sampling, una tecnica di campionamento semplice e deterministica che produce campioni unici ordinati in base alla confidenza del modello. Ogni nuovo campione espande il token non espanso con la probabilità più alta nell'albero di ricerca ampliato. Inoltre, il Priority Sampling supporta la generazione basata su espressioni regolari, fornendo un processo di esplorazione controllato e strutturato. Il Priority Sampling supera il Nucleus Sampling per qualsiasi numero di campioni, migliorando le prestazioni del modello originale dal 2,87% al 5% rispetto a -Oz. Inoltre, supera l'autotuner utilizzato per la generazione delle etichette per l'addestramento del modello originale in soli 30 campioni.
Il Latent Consistency Model (LCM) estende il Consistency Model allo spazio latente e sfrutta la tecnica di distillazione guidata della consistenza per ottenere prestazioni impressionanti nell'accelerare la sintesi da testo a immagine. Tuttavia, abbiamo osservato che l'LCM fatica a generare immagini con chiarezza e dettagli intricati. Per affrontare questa limitazione, inizialmente approfondiamo e chiariamo le cause sottostanti. La nostra indagine identifica che il problema principale deriva da errori in tre aree distinte. Di conseguenza, introduciamo la Trajectory Consistency Distillation (TCD), che comprende la funzione di consistenza della traiettoria e il campionamento stocastico strategico. La funzione di consistenza della traiettoria riduce gli errori di distillazione ampliando l'ambito della condizione al contorno di auto-consistenza e conferendo alla TCD la capacità di tracciare accuratamente l'intera traiettoria della Probability Flow ODE. Inoltre, il campionamento stocastico strategico è specificamente progettato per evitare gli errori accumulati nel campionamento di consistenza multi-step, ed è meticolosamente adattato per completare il modello TCD. Gli esperimenti dimostrano che la TCD non solo migliora significativamente la qualità dell'immagine a bassi NFEs, ma produce anche risultati più dettagliati rispetto al modello insegnante ad alti NFEs.
La sintesi di nuove viste attraverso modelli di diffusione ha dimostrato un notevole potenziale nella generazione di immagini diversificate e di alta qualità. Tuttavia, il processo indipendente di generazione delle immagini in questi metodi prevalenti comporta sfide nel mantenere la coerenza tra più viste. Per affrontare questo problema, introduciamo ViewFusion, un nuovo algoritmo senza necessità di addestramento che può essere integrato senza soluzione di continuità in modelli di diffusione pre-addestrati esistenti. Il nostro approccio adotta un metodo auto-regressivo che sfrutta implicitamente le viste precedentemente generate come contesto per la generazione della vista successiva, garantendo una robusta coerenza multi-vista durante il processo di generazione di nuove viste. Attraverso un processo di diffusione che fonde le informazioni delle viste note tramite la denoising interpolata, il nostro framework estende con successo i modelli condizionati su singola vista per operare in contesti condizionati su più viste senza alcuna ulteriore messa a punto. I risultati sperimentali estesi dimostrano l'efficacia di ViewFusion nella generazione di nuove viste consistenti e dettagliate.