Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We vervolgen het onderzoek naar de kracht van kleinere Transformer-gebaseerde taalmodelen, zoals geïnitieerd door TinyStories -- een model met 10 miljoen parameters dat coherent Engels kan produceren -- en het vervolgwerk over phi-1, een model met 1,3 miljard parameters dat prestaties levert in Python-codering die dicht bij de state-of-the-art liggen. Het laatste werk stelde voor om bestaande Large Language Models (LLMs) te gebruiken om "leerboekkwaliteit" data te genereren als een manier om het leerproces te verbeteren in vergelijking met traditionele webdata. We volgen de "Textbooks Are All You Need"-aanpak, waarbij we deze keer focussen op gezond verstand redeneren in natuurlijke taal, en creëren een nieuw model met 1,3 miljard parameters genaamd phi-1.5, met prestaties op natuurlijke taal taken die vergelijkbaar zijn met modellen die 5x groter zijn, en dat de meeste niet-frontier LLMs overtreft op complexere redeneertaken zoals basisschool wiskunde en eenvoudige codering. In het algemeen vertoont phi-1.5 veel van de kenmerken van veel grotere LLMs, zowel goede -- zoals het vermogen om "stap voor stap te denken" of enige rudimentaire in-context learning uit te voeren -- als slechte, waaronder hallucinaties en het potentieel voor giftige en bevooroordeelde generaties -- bemoedigend is echter dat we verbetering zien op dat gebied dankzij de afwezigheid van webdata. We maken phi-1.5 open-source om verder onderzoek naar deze urgente onderwerpen te bevorderen.
Hoewel Multimodale Grote Taalmodellen (MM-LLMs) recentelijk spannende vooruitgang hebben geboekt, vallen ze meestal ten prooi aan de beperking van alleen input-zijde multimodale begrip, zonder de mogelijkheid om inhoud in meerdere modaliteiten te produceren. Aangezien wij mensen de wereld altijd waarnemen en communiceren met anderen via verschillende modaliteiten, wordt het ontwikkelen van any-to-any MM-LLMs die inhoud in elke modaliteit kunnen accepteren en leveren essentieel voor AI op menselijk niveau. Om deze kloof te dichten, presenteren we een end-to-end algemeen toepasbaar any-to-any MM-LLM-systeem, NExT-GPT. We verbinden een LLM met multimodale adapters en verschillende diffusiedecoders, waardoor NExT-GPT inputs kan waarnemen en outputs kan genereren in willekeurige combinaties van tekst, afbeeldingen, video's en audio. Door gebruik te maken van bestaande goed getrainde en hoogpresterende encoders en decoders, wordt NExT-GPT afgestemd met slechts een kleine hoeveelheid parameters (1%) van bepaalde projectielagen, wat niet alleen voordelig is voor kosteneffectieve training, maar ook een gemakkelijke uitbreiding naar meer potentiële modaliteiten mogelijk maakt. Bovendien introduceren we een modaliteit-switching instructie-afstemming (MosIT) en stellen handmatig een hoogwaardige dataset samen voor MosIT, waarop NExT-GPT wordt uitgerust met complexe cross-modale semantische begrip en inhoudsgeneratie. Over het geheel genomen toont ons onderzoek de veelbelovende mogelijkheid van het bouwen van een AI-agent die universele modaliteiten kan modelleren, wat de weg vrijmaakt voor meer mensachtig AI-onderzoek in de gemeenschap.
We introduceren MADLAD-400, een handmatig gecontroleerde, algemene dataset van 3T tokens in één taal, gebaseerd op CommonCrawl en bestrijkt 419 talen. We bespreken de beperkingen die aan het licht zijn gekomen door zelfaudit van MADLAD-400, en de rol die data-audit speelde in het proces van datasetcreatie. Vervolgens trainen en publiceren we een meertalig vertaalmodel met 10,7 miljard parameters op 250 miljard tokens, dat meer dan 450 talen omvat met behulp van publiek beschikbare data, en we constateren dat het concurrerend is met aanzienlijk grotere modellen. We rapporteren de resultaten in verschillende domeinen. Daarnaast trainen we een taalmodel met 8 miljard parameters en evalueren de resultaten op few-shot vertaling. We stellen de basismodellen beschikbaar aan de onderzoeksgemeenschap.
In dit werk gebruiken we grote taalmodellen (LLMs) om onderzoek naar het P versus NP-probleem te versterken en te versnellen, een van de belangrijkste open problemen in de theoretische informatica en wiskunde. Specifiek stellen we Socratisch redeneren voor, een algemeen raamwerk dat diepgaand denken met LLMs bevordert voor complexe probleemoplossing. Socratisch redeneren moedigt LLMs aan om problemen recursief te ontdekken, op te lossen en te integreren, terwijl zelfevaluatie en verfijning worden gefaciliteerd. Onze pilotstudie over het P vs. NP-probleem toont aan dat GPT-4 met succes een bewijsschema produceert en zich gedurende 97 dialoogbeurten bezighoudt met rigoureus redeneren, waarbij het concludeert "P ≠ NP", wat in lijn is met (Xu en Zhou, 2023). Het onderzoek onthult nieuwe inzichten binnen de uitgebreide oplossingsruimte van LLMs, wat licht werpt op het gebruik van LLMs voor wetenschap.
We analyseren een familie van grote taalmodellen op een lichtgewicht manier die op een enkele GPU kan worden uitgevoerd. Specifiek richten we ons op de OPT-familie van modellen, variërend van 125 miljoen tot 66 miljard parameters, en vertrouwen we alleen op of een FFN-neuron geactiveerd is of niet. Ten eerste vinden we dat het vroege deel van het netwerk spaarzaam is en veel discrete kenmerken vertegenwoordigt. Hier zijn veel neuronen (meer dan 70% in sommige lagen van het 66 miljard model) "dood", wat betekent dat ze nooit activeren op een grote verzameling diverse data. Tegelijkertijd zijn veel van de actieve neuronen gereserveerd voor discrete kenmerken en fungeren ze als token- en n-gram-detectoren. Interessant is dat hun corresponderende FFN-updates niet alleen volgende token-kandidaten bevorderen, zoals verwacht zou kunnen worden, maar ook expliciet gericht zijn op het verwijderen van informatie over de tokens die hen activeren, d.w.z. de huidige invoer. Voor zover wij weten, is dit het eerste voorbeeld van mechanismen die gespecialiseerd zijn in het verwijderen (in plaats van toevoegen) van informatie uit de reststroom. Naarmate de schaal toeneemt, worden modellen spaarzamer in de zin dat ze meer dode neuronen en token-detectoren hebben. Ten slotte zijn sommige neuronen positioneel: of ze geactiveerd worden, hangt grotendeels (of uitsluitend) af van de positie en minder (of helemaal niet) van tekstuele data. We vinden dat kleinere modellen sets van neuronen hebben die fungeren als positiebereikindicatoren, terwijl grotere modellen op een minder expliciete manier werken.
Grote hoeveelheden tekstdata hebben de afgelopen jaren aanzienlijk bijgedragen aan de ontwikkeling van grote taalmodelen (LLMs). Deze data wordt meestal verkregen door het web te scrapen, wat resulteert in vooraf getrainde datasets die bestaan uit rommelige webtekst. Tot nu toe hebben inspanningen om deze datasets te verfijnen tot een subset van hogere kwaliteit, vertrouwd op handmatig gemaakte heuristieken die zijn gecodeerd als op regels gebaseerde filters. In dit werk nemen we een breder perspectief en onderzoeken we schaalbare schattingen van data-kwaliteit die kunnen worden gebruikt om de kwaliteit van vooraf getrainde data systematisch te meten. We voeren een grondige vergelijking op grote schaal uit van de eenvoudige data-kwaliteitsschatting van perplexiteit, evenals meer geavanceerde en rekenintensieve schattingen van de Error L2-Norm en memorisatie. Deze metrieken worden gebruikt om vooraf getrainde corpora te rangschikken en te verfijnen, en we vergelijken vervolgens LLMs die zijn getraind op deze verfijnde datasets. Verrassend genoeg ontdekken we dat de eenvoudige techniek van perplexiteit onze rekenintensievere scoringsmethoden overtreft. We verbeteren onze baseline zonder verfijning terwijl we trainen op slechts 30% van de originele trainingsdataset. Ons werk legt de basis voor onontgonnen strategieën in het automatisch samenstellen van hoogwaardige corpora en suggereert dat het grootste deel van de vooraf getrainde data kan worden verwijderd terwijl de prestaties behouden blijven.
Transformers zijn het dominante model geworden in deep learning, maar de reden voor hun superieure prestaties is slecht begrepen. Hier stellen we de hypothese op dat de sterke prestaties van Transformers voortkomen uit een architectonische voorkeur voor mesa-optimalisatie, een geleerd proces dat plaatsvindt tijdens de forward pass van een model en bestaat uit de volgende twee stappen: (i) de constructie van een intern leerdoel, en (ii) de bijbehorende oplossing die wordt gevonden door optimalisatie. Om deze hypothese te testen, reverse-engineeren we een reeks autoregressieve Transformers die zijn getraind op eenvoudige sequentiemodelleringstaken, waarbij we onderliggende gradient-gebaseerde mesa-optimalisatie-algoritmen ontdekken die de voorspellingen sturen. Bovendien laten we zien dat het geleerde optimalisatie-algoritme in de forward pass direct kan worden hergebruikt om supervised few-shot taken op te lossen, wat suggereert dat mesa-optimalisatie ten grondslag zou kunnen liggen aan de in-context leer capaciteiten van grote taalmodellen. Tot slot introduceren we een nieuwe self-attention laag, de mesa-laag, die expliciet en efficiënt optimalisatieproblemen oplost die in de context zijn gespecificeerd. We ontdekken dat deze laag kan leiden tot verbeterde prestaties in synthetische en voorlopige taalmodelleringsexperimenten, wat onze hypothese ondersteunt dat mesa-optimalisatie een belangrijke operatie is die verborgen zit in de gewichten van getrainde Transformers.
Grote Taalmodellen (LLMs) hebben hun uitzonderlijke capaciteiten bewezen bij het uitvoeren van taakgerelateerde taken. Hun implementatie brengt echter aanzienlijke uitdagingen met zich mee vanwege de aanzienlijke geheugen- en opslagvereisten. Als reactie op dit probleem is gewichtsgewijze kwantisatie, met name 3- en 4-bit gewichtsgewijze kwantisatie, naar voren gekomen als een van de meest haalbare oplossingen. Naarmate het aantal bits afneemt, wordt het kwantisatierooster breder, wat het belang van naar boven en naar beneden afronden benadrukt. Hoewel eerdere studies hebben aangetoond dat het finetunen van naar boven en naar beneden afronden met de toevoeging van verstoringen de nauwkeurigheid in sommige scenario's kan verbeteren, wordt onze studie gedreven door de precieze en beperkte grens van deze verstoringen, waarbij alleen de drempel voor het wijzigen van de afrondingswaarde van belang is. Daarom stellen we een beknopte en zeer effectieve aanpak voor om de taak van gewichtsafronding te optimaliseren. Onze methode, genaamd SignRound, omvat lichtgewicht bloksgewijze afstemming met behulp van signed gradient descent, waardoor we uitstekende resultaten kunnen behalen binnen 400 stappen. SignRound overtreft de gevestigde baseline van afronden-naar-dichtstbijzijnde (RTN) en kan indrukwekkend concurreren met recente methoden, zonder extra inferentie-overhead te introduceren. De broncode zal binnenkort openbaar beschikbaar zijn op https://github.com/intel/neural-compressor.
Audio-Language modellen leren gezamenlijk multimodale tekst- en audio-representaties die Zero-Shot inferentie mogelijk maken. Modellen vertrouwen op encoders om krachtige representaties van de input te creëren en te generaliseren naar meerdere taken, variërend van geluiden, muziek en spraak. Hoewel modellen opmerkelijke prestaties hebben bereikt, is er nog steeds een prestatiekloof met taakspecifieke modellen. In dit artikel stellen we een Contrastive Language-Audio Pretraining-model voor dat is voorgetraind met een diverse verzameling van 4,6 miljoen audio-tekst-paren, waarbij twee innovatieve encoders worden gebruikt voor Zero-Shot inferentie. Om audio-representaties te leren, hebben we een audio-encoder getraind op 22 audio-taken, in plaats van de standaardtraining voor geluidsgebeurtenisclassificatie. Om taalrepresentaties te leren, hebben we een autoregressief decoder-only model getraind in plaats van de standaard encoder-only modellen. Vervolgens worden de audio- en taalrepresentaties samengebracht in een gezamenlijke multimodale ruimte met behulp van Contrastive Learning. We hebben onze encoders gebruikt om de downstream-prestaties met een marge te verbeteren. We hebben de generalisatie van onze representaties uitgebreid geëvalueerd op 26 downstream-taken, de grootste in de literatuur. Ons model behaalt state-of-the-art resultaten in verschillende taken en leidt de weg naar algemene audio-representaties.
Het inbedden van polygonale mesh-assets binnen fotorealistische Neural Radiance Fields (NeRF)-volumes, zodat ze kunnen worden gerenderd en hun dynamiek op een fysiek consistente manier met de NeRF kan worden gesimuleerd, is vanuit het systeemperspectief van het integreren van NeRF in de traditionele graphics-pipeline nog weinig onderzocht. Dit artikel ontwerpt een tweerichtingskoppeling tussen mesh en NeRF tijdens rendering en simulatie. We bespreken eerst de lichttransportvergelijkingen voor zowel mesh als NeRF, en destilleren deze vervolgens tot een efficiënt algoritme voor het bijwerken van radiantie en doorvoer langs een geworpen straal met een willekeurig aantal reflecties. Om het verschil op te lossen tussen de lineaire kleurruimte die de padvolger veronderstelt en de sRGB-kleurruimte die standaard NeRF gebruikt, trainen we NeRF met High Dynamic Range (HDR)-afbeeldingen. We presenteren ook een strategie om lichtbronnen te schatten en schaduwen op de NeRF te werpen. Tot slot bekijken we hoe de hybride oppervlakte-volumetrische formulering efficiënt kan worden geïntegreerd met een hoogwaardige fysica-simulator die stoffen, rigide en zachte lichamen ondersteunt. Het volledige render- en simulatiewysteem kan op een GPU worden uitgevoerd met interactieve snelheden. We tonen aan dat een hybride systeemaanpak alternatieven overtreft in visuele realisme voor mesh-invoeging, omdat het realistisch lichttransport mogelijk maakt vanuit volumetrische NeRF-media naar oppervlakken, wat het uiterlijk van reflecterende/brekende oppervlakken en de verlichting van diffuse oppervlakken beïnvloedt, geïnformeerd door de dynamische scène.
Leerparadigma's voor grote taalmodellen (LLMs) vallen momenteel meestal binnen in-context learning (ICL) of volledige fine-tuning. Elk van deze benaderingen brengt zijn eigen afwegingen met zich mee op basis van beschikbare data, modelgrootte, rekenkosten, gebruiksgemak en uiteindelijke kwaliteit, waarbij geen van beide oplossingen over de hele linie goed presteert. In dit artikel beschrijven we eerst de ICL- en fine-tuning-paradigma's op een manier die hun natuurlijke verbanden benadrukt. Op basis van deze verbanden stellen we een nieuw leerparadigma voor, genaamd FIAT, dat de beste aspecten van deze paradigma's combineert. Hierdoor worden prompt-gestuurde instructies en chain-of-thought redenering mogelijk gemaakt met de grootste modellen, terwijl ook vergelijkbare methoden worden gebruikt om parameter-updates uit te voeren op een bescheiden groot LLM met parameter-efficiënte tuning. We evalueren de effectiviteit van FIAT op een verscheidenheid aan meertalige taken en observeren dat FIAT beter presteert dan zowel ICL als fine-tuning bij schalen variërend van 100 tot 10.000 trainingsvoorbeelden. We hopen dat FIAT een praktische manier biedt om het volledige potentieel van LLMs te benutten zonder een moeilijke keuze te hoeven maken tussen leerparadigma's.