Articoli di ricerca IA selezionati quotidianamente con traduzioni
È stato a lungo stabilito che i modelli predittivi possono essere trasformati in compressori senza perdita e viceversa. Per coincidenza, negli ultimi anni, la comunità di machine learning si è concentrata sull'addestramento di modelli (linguistici) auto-supervisionati sempre più grandi e potenti. Poiché questi grandi modelli linguistici dimostrano capacità predittive impressionanti, sono ben posizionati per essere compressori efficaci. In questo lavoro, sosteniamo l'idea di considerare il problema della predizione attraverso la lente della compressione e valutiamo le capacità di compressione dei modelli (fondamentali) di grandi dimensioni. Mostriamo che i grandi modelli linguistici sono potenti predittori generici e che la prospettiva della compressione offre nuove intuizioni sulle leggi di scalabilità, la tokenizzazione e l'apprendimento in contesto. Ad esempio, Chinchilla 70B, pur essendo addestrato principalmente su testo, comprime le patch di ImageNet al 43,4% e i campioni di LibriSpeech al 16,4% della loro dimensione originale, superando compressori specifici per dominio come PNG (58,5%) o FLAC (30,3%). Infine, dimostriamo che l'equivalenza predizione-compressione ci consente di utilizzare qualsiasi compressore (come gzip) per costruire un modello generativo condizionale.
In questo lavoro, presentiamo un metodo di apprendimento per rinforzo scalabile per l'addestramento di politiche multi-task a partire da grandi dataset offline che possono sfruttare sia dimostrazioni umane che dati raccolti in modo autonomo. Il nostro metodo utilizza un Transformer per fornire una rappresentazione scalabile delle funzioni Q addestrate tramite backup di differenze temporali offline. Pertanto, ci riferiamo al metodo come Q-Transformer. Discretizzando ogni dimensione dell'azione e rappresentando il valore Q di ciascuna dimensione dell'azione come token separati, possiamo applicare tecniche efficaci di modellazione sequenziale ad alta capacità per il Q-learning. Presentiamo diverse decisioni progettuali che consentono buone prestazioni con l'addestramento RL offline e dimostriamo che Q-Transformer supera gli algoritmi RL offline precedenti e le tecniche di apprendimento per imitazione su un'ampia suite di task di manipolazione robotica nel mondo reale. Il sito web del progetto e i video sono disponibili all'indirizzo https://q-transformer.github.io.
I modelli linguistici di grandi dimensioni (LLM) con miliardi di parametri hanno dimostrato prestazioni eccezionali in vari compiti di elaborazione del linguaggio naturale. Questo rapporto presenta OpenBA, un modello seq2seq bilingue asimmetrico open-source da 15B, per contribuire con una variante di LLM alla comunità di modelli open-source orientati al cinese. Abbiamo potenziato OpenBA con tecniche efficaci ed efficienti e adottato una strategia di addestramento in tre fasi per addestrare il modello da zero. La nostra soluzione può anche ottenere prestazioni molto competitive con soli 380B di token, superando LLaMA-70B sul benchmark BELEBELE, BLOOM-176B sul benchmark MMLU e GLM-130B sul benchmark C-Eval (hard). Questo rapporto fornisce i dettagli principali per pre-addestrare un modello analogo, inclusi l'elaborazione dei dati di pre-addestramento, la raccolta dei dati Bilingual Flan, le osservazioni empiriche che hanno ispirato il design dell'architettura del nostro modello, gli obiettivi di addestramento delle diverse fasi e altre tecniche di potenziamento. Abbiamo rifattorizzato il nostro codice per seguire i principi di progettazione della libreria Huggingface Transformers, rendendolo più conveniente per gli sviluppatori, e abbiamo rilasciato checkpoint di diverse fasi di addestramento su https://huggingface.co/openBA. Ulteriori dettagli sul nostro progetto sono disponibili su https://github.com/OpenNLG/openBA.git.
Questo articolo si propone di comprendere gli impatti di varie combinazioni di dati (ad esempio, testo web, Wikipedia, GitHub, libri) sull'addestramento di modelli linguistici di grandi dimensioni utilizzando SlimPajama. SlimPajama è un dataset multi-sorgente rigorosamente deduplicato, che è stato raffinato e ulteriormente deduplicato a 627 miliardi di token partendo dall'esteso dataset RedPajama di 1,2 trilioni di token contribuito da Together. Abbiamo definito la nostra ricerca come SlimPajama-DC, un'analisi empirica progettata per scoprire le caratteristiche fondamentali e le migliori pratiche associate all'uso di SlimPajama nell'addestramento di modelli linguistici di grandi dimensioni. Durante la nostra ricerca con SlimPajama, sono emerse due osservazioni fondamentali: (1) Deduplicazione globale vs. deduplicazione locale. Analizziamo e discutiamo come le deduplicazioni globali (attraverso diverse sorgenti di dataset) e locali (all'interno di una singola sorgente di dataset) influenzino le prestazioni dei modelli addestrati. (2) Proporzioni di dataset multi-sorgente di alta qualità/altamente deduplicati nella combinazione. Per studiare questo aspetto, abbiamo costruito sei configurazioni del dataset SlimPajama e abbiamo addestrato ciascuna di esse utilizzando il modello Cerebras-GPT da 1,3 miliardi di parametri con Alibi e SwiGLU. La nostra migliore configurazione supera di un margine significativo il modello da 1,3 miliardi di parametri addestrato su RedPajama utilizzando lo stesso numero di token di addestramento. Tutti i nostri modelli da 1,3 miliardi di parametri sono stati addestrati sul cluster Cerebras 16x CS-2 con un totale di 80 PFLOP/s in precisione mista bf16. Estendiamo ulteriormente le nostre scoperte (come l'importanza di aumentare la diversità dei dati dopo la deduplicazione globale) su un modello da 7 miliardi di parametri con addestramento a batch di grandi dimensioni. I nostri modelli e i dataset separati SlimPajama-DC sono disponibili su: https://huggingface.co/MBZUAI-LLM e https://huggingface.co/datasets/cerebras/SlimPajama-627B.
I recenti progressi nella generazione audio sono stati stimolati dall'evoluzione di modelli di deep learning su larga scala e da dataset estesi. Tuttavia, il compito della generazione video-to-audio (V2A) continua a rappresentare una sfida, principalmente a causa della complessa relazione tra i dati visivi e uditivi ad alta dimensionalità e delle difficoltà legate alla sincronizzazione temporale. In questo studio, presentiamo FoleyGen, un sistema V2A open-domain basato su un paradigma di modellazione del linguaggio. FoleyGen sfrutta un codec neurale audio preesistente per la conversione bidirezionale tra forme d'onda e token discreti. La generazione dei token audio è facilitata da un singolo modello Transformer, condizionato da caratteristiche visive estratte da un encoder visivo. Un problema comune nella generazione V2A è il disallineamento tra l'audio generato e le azioni visibili nel video. Per affrontare questo problema, esploriamo tre nuovi meccanismi di attenzione visiva. Inoltre, conduciamo una valutazione approfondita di molteplici encoder visivi, ciascuno preaddestrato su task unimodali o multimodali. I risultati sperimentali sul dataset VGGSound dimostrano che il nostro sistema FoleyGen supera i precedenti sistemi in tutte le metriche oggettive e nelle valutazioni umane.
Presentiamo POP3D, un nuovo framework che crea un modello 3D a 360° a partire da una singola immagine. POP3D risolve due problemi significativi che limitano la ricostruzione da singola vista. In primo luogo, POP3D offre una sostanziale generalizzabilità a categorie arbitrarie, una caratteristica che i metodi precedenti faticano a raggiungere. In secondo luogo, POP3D migliora ulteriormente la fedeltà e la naturalezza della ricostruzione, un aspetto cruciale in cui i lavori contemporanei risultano carenti. Il nostro approccio combina i punti di forza di quattro componenti principali: (1) un predittore di profondità e normali monoculari che serve a prevedere indizi geometrici cruciali, (2) un metodo di space carving in grado di delimitare le porzioni potenzialmente non visibili dell'oggetto target, (3) un modello generativo pre-addestrato su un ampio dataset di immagini che può completare le regioni non visibili del target, e (4) un metodo di ricostruzione di superfici implicite neurali progettato per ricostruire oggetti utilizzando immagini RGB insieme a indizi geometrici monoculari. La combinazione di questi componenti consente a POP3D di generalizzare facilmente attraverso varie immagini in contesti reali e di generare ricostruzioni all'avanguardia, superando significativamente lavori simili. Pagina del progetto: http://cg.postech.ac.kr/research/POP3D