Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het is al lang bekend dat voorspellende modellen kunnen worden omgezet in verliesloze compressoren en vice versa. Toevallig heeft de machine learning-gemeenschap zich de afgelopen jaren gericht op het trainen van steeds grotere en krachtigere zelfgesuperviseerde (taal)modellen. Aangezien deze grote taalmodellen indrukwekkende voorspellende capaciteiten vertonen, zijn ze uitstekend gepositioneerd om sterke compressoren te zijn. In dit werk pleiten we ervoor om het voorspellingsprobleem te bekijken door de lens van compressie en evalueren we de compressiecapaciteiten van grote (basis)modellen. We laten zien dat grote taalmodellen krachtige algemene voorspellers zijn en dat het compressieperspectief nieuwe inzichten biedt in schaalwetten, tokenisatie en in-context leren. Zo comprimeert Chinchilla 70B, hoewel voornamelijk getraind op tekst, ImageNet-patches tot 43,4% en LibriSpeech-monsters tot 16,4% van hun ruwe grootte, waarmee het domeinspecifieke compressoren zoals PNG (58,5%) of FLAC (30,3%) verslaat. Tot slot laten we zien dat de equivalentie tussen voorspelling en compressie het mogelijk maakt om elke compressor (zoals gzip) te gebruiken om een conditioneel generatief model te bouwen.
In dit werk presenteren we een schaalbare methode voor reinforcement learning om multi-task beleidsregels te trainen met behulp van grote offline datasets die zowel menselijke demonstraties als autonoom verzamelde gegevens kunnen benutten. Onze methode maakt gebruik van een Transformer om een schaalbare representatie te bieden voor Q-functies die worden getraind via offline temporele differentie-backups. Daarom noemen we de methode Q-Transformer. Door elke actiedimensie te discretiseren en de Q-waarde van elke actiedimensie als afzonderlijke tokens te representeren, kunnen we effectieve technieken voor sequentiemodellering met hoge capaciteit toepassen voor Q-learning. We presenteren verschillende ontwerpbeslissingen die een goede prestaties mogelijk maken bij offline RL-training, en laten zien dat Q-Transformer eerdere offline RL-algoritmen en imitatietechnieken overtreft op een grote en diverse suite van real-world robotmanipulatietaken. De website en video's van het project zijn te vinden op https://q-transformer.github.io.
Grote taalmmodellen (LLM's) met miljarden parameters hebben uitstekende prestaties laten zien op verschillende taken binnen natuurlijke taalverwerking. Dit rapport presenteert OpenBA, een open-source 15B tweetalig asymmetrisch seq2seq-model, om een LLM-variant bij te dragen aan de Chineesgerichte open-source modelgemeenschap. We verbeteren OpenBA met effectieve en efficiënte technieken en hanteren een driestaps trainingsstrategie om het model vanaf nul te trainen. Onze oplossing kan ook zeer competitieve prestaties behalen met slechts 380B tokens, wat beter is dan LLaMA-70B op de BELEBELE-benchmark, BLOOM-176B op de MMLU-benchmark en GLM-130B op de C-Eval (hard)-benchmark. Dit rapport biedt de belangrijkste details om een vergelijkbaar model voor te trainen, inclusief de verwerking van voor-trainingsdata, de verzameling van tweetalige Flan-data, de empirische observaties die ons modelarchitectuurontwerp inspireren, de trainingsdoelen van verschillende fasen en andere verbeteringstechnieken. We hebben onze code herzien volgens de ontwerp principes van de Huggingface Transformers Library, waardoor het voor ontwikkelaars gemakkelijker te gebruiken is, en hebben checkpoints van verschillende trainingsfasen vrijgegeven op https://huggingface.co/openBA. Meer details over ons project zijn beschikbaar op https://github.com/OpenNLG/openBA.git.
Dit artikel beoogt de impact te begrijpen van verschillende datacombinaties (bijv. webtekst, Wikipedia, GitHub, boeken) op het trainen van grote taalmodel(len) met behulp van SlimPajama. SlimPajama is een rigoureus gededupliceerde, multi-source dataset, die is verfijnd en verder gededupliceerd tot 627B tokens uit de uitgebreide 1.2T tokens RedPajama dataset, bijgedragen door Together. We hebben ons onderzoek aangeduid als SlimPajama-DC, een empirische analyse ontworpen om fundamentele kenmerken en best practices te onthullen die gepaard gaan met het gebruik van SlimPajama bij het trainen van grote taalmodel(len). Tijdens ons onderzoek met SlimPajama kwamen twee cruciale observaties naar voren: (1) Globale deduplicatie versus lokale deduplicatie. We analyseren en bespreken hoe globale (over verschillende bronnen van datasets) en lokale (binnen een enkele bron van een dataset) deduplicaties de prestaties van getrainde modellen beïnvloeden. (2) Verhoudingen van hoogwaardige/sterk gededupliceerde multi-source datasets in de combinatie. Om dit te bestuderen, construeren we zes configuraties van de SlimPajama dataset en trainen we individuele configuraties met behulp van het 1.3B Cerebras-GPT model met Alibi en SwiGLU. Onze beste configuratie overtreft het 1.3B model getraind op RedPajama met hetzelfde aantal trainings-tokens aanzienlijk. Al onze 1.3B modellen zijn getraind op het Cerebras 16x CS-2 cluster met een totaal van 80 PFLOP/s in bf16 gemengde precisie. We breiden onze ontdekkingen (zoals het vergroten van datadiversiteit is cruciaal na globale deduplicatie) verder uit op een 7B model met grote batch-grootte training. Onze modellen en de afzonderlijke SlimPajama-DC datasets zijn beschikbaar op: https://huggingface.co/MBZUAI-LLM en https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Recente vooruitgang in audiogeneratie is gestimuleerd door de evolutie van grootschalige deep learning-modellen en uitgebreide datasets. De taak van video-naar-audio (V2A) generatie blijft echter een uitdaging, voornamelijk vanwege de complexe relatie tussen de hoogdimensionale visuele en auditieve gegevens, en de uitdagingen die gepaard gaan met temporele synchronisatie. In deze studie introduceren we FoleyGen, een open-domein V2A-generatiesysteem gebaseerd op een taalmodelleringsparadigma. FoleyGen maakt gebruik van een kant-en-klare neurale audiocodec voor bidirectionele conversie tussen golfvormen en discrete tokens. De generatie van audiotokens wordt gefaciliteerd door een enkel Transformer-model, dat wordt geconditioneerd op visuele kenmerken die zijn geëxtraheerd uit een visuele encoder. Een veelvoorkomend probleem bij V2A-generatie is de verkeerde uitlijning van gegenereerde audio met de zichtbare acties in de video. Om dit aan te pakken, onderzoeken we drie nieuwe visuele aandachtmechanismen. We voeren verder een uitgebreide evaluatie uit van meerdere visuele encoders, die elk zijn voorgetraind op enkelvoudige of multimodale taken. De experimentele resultaten op de VGGSound-dataset laten zien dat ons voorgestelde FoleyGen eerdere systemen overtreft op alle objectieve metrieken en menselijke evaluaties.
We introduceren POP3D, een nieuw framework dat een volledig 360°-zicht 3D-model creëert vanuit een enkele afbeelding. POP3D lost twee prominente problemen op die de reconstructie vanuit één beeld beperken. Ten eerste biedt POP3D aanzienlijke generaliseerbaarheid naar willekeurige categorieën, een eigenschap waar eerdere methoden moeite mee hebben. Ten tweede verbetert POP3D de reconstructiefideliteit en natuurlijkheid verder, een cruciaal aspect waar gelijktijdige werken tekortschieten. Onze aanpak combineert de sterke punten van vier primaire componenten: (1) een monoculaire diepte- en normaalvoorspeller die cruciale geometrische aanwijzingen voorspelt, (2) een space carving-methode die in staat is om de mogelijk onzichtbare delen van het doelobject af te bakenen, (3) een generatief model dat vooraf is getraind op een grootschalige beelddataset en in staat is om onzichtbare regio's van het doel te voltooien, en (4) een neurale impliciete oppervlakreconstructiemethode die is afgestemd op het reconstrueren van objecten met behulp van RGB-beelden samen met monoculaire geometrische aanwijzingen. De combinatie van deze componenten stelt POP3D in staat om moeiteloos te generaliseren over diverse in-the-wild afbeeldingen en state-of-the-art reconstructies te genereren, waardoor het vergelijkbare werken met een aanzienlijke marge overtreft. Projectpagina: http://cg.postech.ac.kr/research/POP3D