HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

6 papers found

Taalmodeling Is Compressie
Language Modeling Is Compression

Sep 19

ByGrégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness

Het is al lang bekend dat voorspellende modellen kunnen worden omgezet in verliesloze compressoren en vice versa. Toevallig heeft de machine learning-gemeenschap zich de afgelopen jaren gericht op het trainen van steeds grotere en krachtigere zelfgesuperviseerde (taal)modellen. Aangezien deze grote taalmodellen indrukwekkende voorspellende capaciteiten vertonen, zijn ze uitstekend gepositioneerd om sterke compressoren te zijn. In dit werk pleiten we ervoor om het voorspellingsprobleem te bekijken door de lens van compressie en evalueren we de compressiecapaciteiten van grote (basis)modellen. We laten zien dat grote taalmodellen krachtige algemene voorspellers zijn en dat het compressieperspectief nieuwe inzichten biedt in schaalwetten, tokenisatie en in-context leren. Zo comprimeert Chinchilla 70B, hoewel voornamelijk getraind op tekst, ImageNet-patches tot 43,4% en LibriSpeech-monsters tot 16,4% van hun ruwe grootte, waarmee het domeinspecifieke compressoren zoals PNG (58,5%) of FLAC (30,3%) verslaat. Tot slot laten we zien dat de equivalentie tussen voorspelling en compressie het mogelijk maakt om elke compressor (zoals gzip) te gebruiken om een conditioneel generatief model te bouwen.

Q-Transformer: Schaalbaar Offline Reinforcement Learning via Autoregressieve Q-Functies
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

Sep 18

ByYevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine

In dit werk presenteren we een schaalbare methode voor reinforcement learning om multi-task beleidsregels te trainen met behulp van grote offline datasets die zowel menselijke demonstraties als autonoom verzamelde gegevens kunnen benutten. Onze methode maakt gebruik van een Transformer om een schaalbare representatie te bieden voor Q-functies die worden getraind via offline temporele differentie-backups. Daarom noemen we de methode Q-Transformer. Door elke actiedimensie te discretiseren en de Q-waarde van elke actiedimensie als afzonderlijke tokens te representeren, kunnen we effectieve technieken voor sequentiemodellering met hoge capaciteit toepassen voor Q-learning. We presenteren verschillende ontwerpbeslissingen die een goede prestaties mogelijk maken bij offline RL-training, en laten zien dat Q-Transformer eerdere offline RL-algoritmen en imitatietechnieken overtreft op een grote en diverse suite van real-world robotmanipulatietaken. De website en video's van het project zijn te vinden op https://q-transformer.github.io.

OpenBA: Een open-source 15B tweetalig asymmetrisch seq2seq-model Vanaf nul voorgetraind
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch

Sep 19

ByJuntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo, Wangjie You, Dan Qiao, Wenliang Chen, Guohong Fu, Qiaoming Zhu, Guodong Zhou, Min Zhang

Grote taalmmodellen (LLM's) met miljarden parameters hebben uitstekende prestaties laten zien op verschillende taken binnen natuurlijke taalverwerking. Dit rapport presenteert OpenBA, een open-source 15B tweetalig asymmetrisch seq2seq-model, om een LLM-variant bij te dragen aan de Chineesgerichte open-source modelgemeenschap. We verbeteren OpenBA met effectieve en efficiënte technieken en hanteren een driestaps trainingsstrategie om het model vanaf nul te trainen. Onze oplossing kan ook zeer competitieve prestaties behalen met slechts 380B tokens, wat beter is dan LLaMA-70B op de BELEBELE-benchmark, BLOOM-176B op de MMLU-benchmark en GLM-130B op de C-Eval (hard)-benchmark. Dit rapport biedt de belangrijkste details om een vergelijkbaar model voor te trainen, inclusief de verwerking van voor-trainingsdata, de verzameling van tweetalige Flan-data, de empirische observaties die ons modelarchitectuurontwerp inspireren, de trainingsdoelen van verschillende fasen en andere verbeteringstechnieken. We hebben onze code herzien volgens de ontwerp principes van de Huggingface Transformers Library, waardoor het voor ontwikkelaars gemakkelijker te gebruiken is, en hebben checkpoints van verschillende trainingsfasen vrijgegeven op https://huggingface.co/openBA. Meer details over ons project zijn beschikbaar op https://github.com/OpenNLG/openBA.git.

SlimPajama-DC: Inzicht in Data-combinaties voor LLM-training
SlimPajama-DC: Understanding Data Combinations for LLM Training

Sep 19

ByZhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing

Dit artikel beoogt de impact te begrijpen van verschillende datacombinaties (bijv. webtekst, Wikipedia, GitHub, boeken) op het trainen van grote taalmodel(len) met behulp van SlimPajama. SlimPajama is een rigoureus gededupliceerde, multi-source dataset, die is verfijnd en verder gededupliceerd tot 627B tokens uit de uitgebreide 1.2T tokens RedPajama dataset, bijgedragen door Together. We hebben ons onderzoek aangeduid als SlimPajama-DC, een empirische analyse ontworpen om fundamentele kenmerken en best practices te onthullen die gepaard gaan met het gebruik van SlimPajama bij het trainen van grote taalmodel(len). Tijdens ons onderzoek met SlimPajama kwamen twee cruciale observaties naar voren: (1) Globale deduplicatie versus lokale deduplicatie. We analyseren en bespreken hoe globale (over verschillende bronnen van datasets) en lokale (binnen een enkele bron van een dataset) deduplicaties de prestaties van getrainde modellen beïnvloeden. (2) Verhoudingen van hoogwaardige/sterk gededupliceerde multi-source datasets in de combinatie. Om dit te bestuderen, construeren we zes configuraties van de SlimPajama dataset en trainen we individuele configuraties met behulp van het 1.3B Cerebras-GPT model met Alibi en SwiGLU. Onze beste configuratie overtreft het 1.3B model getraind op RedPajama met hetzelfde aantal trainings-tokens aanzienlijk. Al onze 1.3B modellen zijn getraind op het Cerebras 16x CS-2 cluster met een totaal van 80 PFLOP/s in bf16 gemengde precisie. We breiden onze ontdekkingen (zoals het vergroten van datadiversiteit is cruciaal na globale deduplicatie) verder uit op een 7B model met grote batch-grootte training. Onze modellen en de afzonderlijke SlimPajama-DC datasets zijn beschikbaar op: https://huggingface.co/MBZUAI-LLM en https://huggingface.co/datasets/cerebras/SlimPajama-627B.

FoleyGen: Visueel-Gestuurde Audiogeneratie
FoleyGen: Visually-Guided Audio Generation

Sep 19

ByXinhao Mei, Varun Nagaraja, Gael Le Lan, Zhaoheng Ni, Ernie Chang, Yangyang Shi, Vikas Chandra

Recente vooruitgang in audiogeneratie is gestimuleerd door de evolutie van grootschalige deep learning-modellen en uitgebreide datasets. De taak van video-naar-audio (V2A) generatie blijft echter een uitdaging, voornamelijk vanwege de complexe relatie tussen de hoogdimensionale visuele en auditieve gegevens, en de uitdagingen die gepaard gaan met temporele synchronisatie. In deze studie introduceren we FoleyGen, een open-domein V2A-generatiesysteem gebaseerd op een taalmodelleringsparadigma. FoleyGen maakt gebruik van een kant-en-klare neurale audiocodec voor bidirectionele conversie tussen golfvormen en discrete tokens. De generatie van audiotokens wordt gefaciliteerd door een enkel Transformer-model, dat wordt geconditioneerd op visuele kenmerken die zijn geëxtraheerd uit een visuele encoder. Een veelvoorkomend probleem bij V2A-generatie is de verkeerde uitlijning van gegenereerde audio met de zichtbare acties in de video. Om dit aan te pakken, onderzoeken we drie nieuwe visuele aandachtmechanismen. We voeren verder een uitgebreide evaluatie uit van meerdere visuele encoders, die elk zijn voorgetraind op enkelvoudige of multimodale taken. De experimentele resultaten op de VGGSound-dataset laten zien dat ons voorgestelde FoleyGen eerdere systemen overtreft op alle objectieve metrieken en menselijke evaluaties.

360^circ Reconstructie vanuit een enkele afbeelding met behulp van Space Carved Outpainting
360^circ Reconstruction From a Single Image Using Space Carved Outpainting

Sep 19

ByNuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho

We introduceren POP3D, een nieuw framework dat een volledig 360°-zicht 3D-model creëert vanuit een enkele afbeelding. POP3D lost twee prominente problemen op die de reconstructie vanuit één beeld beperken. Ten eerste biedt POP3D aanzienlijke generaliseerbaarheid naar willekeurige categorieën, een eigenschap waar eerdere methoden moeite mee hebben. Ten tweede verbetert POP3D de reconstructiefideliteit en natuurlijkheid verder, een cruciaal aspect waar gelijktijdige werken tekortschieten. Onze aanpak combineert de sterke punten van vier primaire componenten: (1) een monoculaire diepte- en normaalvoorspeller die cruciale geometrische aanwijzingen voorspelt, (2) een space carving-methode die in staat is om de mogelijk onzichtbare delen van het doelobject af te bakenen, (3) een generatief model dat vooraf is getraind op een grootschalige beelddataset en in staat is om onzichtbare regio's van het doel te voltooien, en (4) een neurale impliciete oppervlakreconstructiemethode die is afgestemd op het reconstrueren van objecten met behulp van RGB-beelden samen met monoculaire geometrische aanwijzingen. De combinatie van deze componenten stelt POP3D in staat om moeiteloos te generaliseren over diverse in-the-wild afbeeldingen en state-of-the-art reconstructies te genereren, waardoor het vergelijkbare werken met een aanzienlijke marge overtreft. Projectpagina: http://cg.postech.ac.kr/research/POP3D

SlimPajama-DC: Inzicht in Data-combinaties voor LLM-training
SlimPajama-DC: Understanding Data Combinations for LLM Training

Sep 19

ByZhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing