HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

6 papers found

La Modellazione del Linguaggio È Compressione
Language Modeling Is Compression

Sep 19

ByGrégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness

È stato a lungo stabilito che i modelli predittivi possono essere trasformati in compressori senza perdita e viceversa. Per coincidenza, negli ultimi anni, la comunità di machine learning si è concentrata sull'addestramento di modelli (linguistici) auto-supervisionati sempre più grandi e potenti. Poiché questi grandi modelli linguistici dimostrano capacità predittive impressionanti, sono ben posizionati per essere compressori efficaci. In questo lavoro, sosteniamo l'idea di considerare il problema della predizione attraverso la lente della compressione e valutiamo le capacità di compressione dei modelli (fondamentali) di grandi dimensioni. Mostriamo che i grandi modelli linguistici sono potenti predittori generici e che la prospettiva della compressione offre nuove intuizioni sulle leggi di scalabilità, la tokenizzazione e l'apprendimento in contesto. Ad esempio, Chinchilla 70B, pur essendo addestrato principalmente su testo, comprime le patch di ImageNet al 43,4% e i campioni di LibriSpeech al 16,4% della loro dimensione originale, superando compressori specifici per dominio come PNG (58,5%) o FLAC (30,3%). Infine, dimostriamo che l'equivalenza predizione-compressione ci consente di utilizzare qualsiasi compressore (come gzip) per costruire un modello generativo condizionale.

Q-Transformer: Apprendimento per Rinforzo Offline Scalabile tramite Funzioni Q Autoregressive
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Sep 18

ByYevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine

In questo lavoro, presentiamo un metodo di apprendimento per rinforzo scalabile per l'addestramento di politiche multi-task a partire da grandi dataset offline che possono sfruttare sia dimostrazioni umane che dati raccolti in modo autonomo. Il nostro metodo utilizza un Transformer per fornire una rappresentazione scalabile delle funzioni Q addestrate tramite backup di differenze temporali offline. Pertanto, ci riferiamo al metodo come Q-Transformer. Discretizzando ogni dimensione dell'azione e rappresentando il valore Q di ciascuna dimensione dell'azione come token separati, possiamo applicare tecniche efficaci di modellazione sequenziale ad alta capacità per il Q-learning. Presentiamo diverse decisioni progettuali che consentono buone prestazioni con l'addestramento RL offline e dimostriamo che Q-Transformer supera gli algoritmi RL offline precedenti e le tecniche di apprendimento per imitazione su un'ampia suite di task di manipolazione robotica nel mondo reale. Il sito web del progetto e i video sono disponibili all'indirizzo https://q-transformer.github.io.

OpenBA: Un Modello Bilingue Asimmetrico seq2seq Open-source da 15B Parametri Pre-addestrato da Zero
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch

Sep 19

ByJuntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo, Wangjie You, Dan Qiao, Wenliang Chen, Guohong Fu, Qiaoming Zhu, Guodong Zhou, Min Zhang

I modelli linguistici di grandi dimensioni (LLM) con miliardi di parametri hanno dimostrato prestazioni eccezionali in vari compiti di elaborazione del linguaggio naturale. Questo rapporto presenta OpenBA, un modello seq2seq bilingue asimmetrico open-source da 15B, per contribuire con una variante di LLM alla comunità di modelli open-source orientati al cinese. Abbiamo potenziato OpenBA con tecniche efficaci ed efficienti e adottato una strategia di addestramento in tre fasi per addestrare il modello da zero. La nostra soluzione può anche ottenere prestazioni molto competitive con soli 380B di token, superando LLaMA-70B sul benchmark BELEBELE, BLOOM-176B sul benchmark MMLU e GLM-130B sul benchmark C-Eval (hard). Questo rapporto fornisce i dettagli principali per pre-addestrare un modello analogo, inclusi l'elaborazione dei dati di pre-addestramento, la raccolta dei dati Bilingual Flan, le osservazioni empiriche che hanno ispirato il design dell'architettura del nostro modello, gli obiettivi di addestramento delle diverse fasi e altre tecniche di potenziamento. Abbiamo rifattorizzato il nostro codice per seguire i principi di progettazione della libreria Huggingface Transformers, rendendolo più conveniente per gli sviluppatori, e abbiamo rilasciato checkpoint di diverse fasi di addestramento su https://huggingface.co/openBA. Ulteriori dettagli sul nostro progetto sono disponibili su https://github.com/OpenNLG/openBA.git.

SlimPajama-DC: Comprendere le Combinazioni di Dati per l'Addestramento di Modelli Linguistici di Grande Dimensione
SlimPajama-DC: Understanding Data Combinations for LLM Training

Sep 19

ByZhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing

Questo articolo si propone di comprendere gli impatti di varie combinazioni di dati (ad esempio, testo web, Wikipedia, GitHub, libri) sull'addestramento di modelli linguistici di grandi dimensioni utilizzando SlimPajama. SlimPajama è un dataset multi-sorgente rigorosamente deduplicato, che è stato raffinato e ulteriormente deduplicato a 627 miliardi di token partendo dall'esteso dataset RedPajama di 1,2 trilioni di token contribuito da Together. Abbiamo definito la nostra ricerca come SlimPajama-DC, un'analisi empirica progettata per scoprire le caratteristiche fondamentali e le migliori pratiche associate all'uso di SlimPajama nell'addestramento di modelli linguistici di grandi dimensioni. Durante la nostra ricerca con SlimPajama, sono emerse due osservazioni fondamentali: (1) Deduplicazione globale vs. deduplicazione locale. Analizziamo e discutiamo come le deduplicazioni globali (attraverso diverse sorgenti di dataset) e locali (all'interno di una singola sorgente di dataset) influenzino le prestazioni dei modelli addestrati. (2) Proporzioni di dataset multi-sorgente di alta qualità/altamente deduplicati nella combinazione. Per studiare questo aspetto, abbiamo costruito sei configurazioni del dataset SlimPajama e abbiamo addestrato ciascuna di esse utilizzando il modello Cerebras-GPT da 1,3 miliardi di parametri con Alibi e SwiGLU. La nostra migliore configurazione supera di un margine significativo il modello da 1,3 miliardi di parametri addestrato su RedPajama utilizzando lo stesso numero di token di addestramento. Tutti i nostri modelli da 1,3 miliardi di parametri sono stati addestrati sul cluster Cerebras 16x CS-2 con un totale di 80 PFLOP/s in precisione mista bf16. Estendiamo ulteriormente le nostre scoperte (come l'importanza di aumentare la diversità dei dati dopo la deduplicazione globale) su un modello da 7 miliardi di parametri con addestramento a batch di grandi dimensioni. I nostri modelli e i dataset separati SlimPajama-DC sono disponibili su: https://huggingface.co/MBZUAI-LLM e https://huggingface.co/datasets/cerebras/SlimPajama-627B.

FoleyGen: Generazione Audio Guidata Visivamente
FoleyGen: Visually-Guided Audio Generation

Sep 19

ByXinhao Mei, Varun Nagaraja, Gael Le Lan, Zhaoheng Ni, Ernie Chang, Yangyang Shi, Vikas Chandra

I recenti progressi nella generazione audio sono stati stimolati dall'evoluzione di modelli di deep learning su larga scala e da dataset estesi. Tuttavia, il compito della generazione video-to-audio (V2A) continua a rappresentare una sfida, principalmente a causa della complessa relazione tra i dati visivi e uditivi ad alta dimensionalità e delle difficoltà legate alla sincronizzazione temporale. In questo studio, presentiamo FoleyGen, un sistema V2A open-domain basato su un paradigma di modellazione del linguaggio. FoleyGen sfrutta un codec neurale audio preesistente per la conversione bidirezionale tra forme d'onda e token discreti. La generazione dei token audio è facilitata da un singolo modello Transformer, condizionato da caratteristiche visive estratte da un encoder visivo. Un problema comune nella generazione V2A è il disallineamento tra l'audio generato e le azioni visibili nel video. Per affrontare questo problema, esploriamo tre nuovi meccanismi di attenzione visiva. Inoltre, conduciamo una valutazione approfondita di molteplici encoder visivi, ciascuno preaddestrato su task unimodali o multimodali. I risultati sperimentali sul dataset VGGSound dimostrano che il nostro sistema FoleyGen supera i precedenti sistemi in tutte le metriche oggettive e nelle valutazioni umane.

Ricostruzione a 360^circ da una singola immagine utilizzando Space Carved Outpainting
360^circ Reconstruction From a Single Image Using Space Carved Outpainting

Sep 19

ByNuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho

Presentiamo POP3D, un nuovo framework che crea un modello 3D a 360° a partire da una singola immagine. POP3D risolve due problemi significativi che limitano la ricostruzione da singola vista. In primo luogo, POP3D offre una sostanziale generalizzabilità a categorie arbitrarie, una caratteristica che i metodi precedenti faticano a raggiungere. In secondo luogo, POP3D migliora ulteriormente la fedeltà e la naturalezza della ricostruzione, un aspetto cruciale in cui i lavori contemporanei risultano carenti. Il nostro approccio combina i punti di forza di quattro componenti principali: (1) un predittore di profondità e normali monoculari che serve a prevedere indizi geometrici cruciali, (2) un metodo di space carving in grado di delimitare le porzioni potenzialmente non visibili dell'oggetto target, (3) un modello generativo pre-addestrato su un ampio dataset di immagini che può completare le regioni non visibili del target, e (4) un metodo di ricostruzione di superfici implicite neurali progettato per ricostruire oggetti utilizzando immagini RGB insieme a indizi geometrici monoculari. La combinazione di questi componenti consente a POP3D di generalizzare facilmente attraverso varie immagini in contesti reali e di generare ricostruzioni all'avanguardia, superando significativamente lavori simili. Pagina del progetto: http://cg.postech.ac.kr/research/POP3D

SlimPajama-DC: Comprendere le Combinazioni di Dati per l'Addestramento di Modelli Linguistici di Grande Dimensione
SlimPajama-DC: Understanding Data Combinations for LLM Training

Sep 19

ByZhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing