Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodellen (LMs) zijn alomtegenwoordig geworden in zowel NLP-onderzoek als in commerciële productaanbiedingen. Naarmate hun commerciële belang is toegenomen, zijn de krachtigste modellen gesloten geworden, afgeschermd achter propriëtaire interfaces, waarbij belangrijke details over hun trainingsdata, architectuur en ontwikkeling niet worden vrijgegeven. Gezien het belang van deze details voor het wetenschappelijk bestuderen van deze modellen, inclusief hun vooroordelen en potentiële risico's, vinden wij het essentieel dat de onderzoeksgemeenschap toegang heeft tot krachtige, echt open LMs. Met dit doel voor ogen beschrijft dit technische rapport de eerste release van OLMo, een state-of-the-art, echt Open Taalmodel en het framework om de wetenschap van taalmodellering te bouwen en te bestuderen. In tegenstelling tot de meeste eerdere inspanningen, waarbij alleen modelgewichten en inferentiecode werden vrijgegeven, geven wij OLMo en het hele framework vrij, inclusief trainingsdata en trainings- en evaluatiecode. Wij hopen dat deze release de open onderzoeksgemeenschap zal versterken en een nieuwe golf van innovatie zal inspireren.
Taalmodelen zijn een cruciale technologie geworden voor het aanpakken van een breed scala aan natuurlijke taalverwerkingstaken, maar veel details over hoe de best presterende taalmodelen zijn ontwikkeld, worden niet gerapporteerd. In het bijzonder wordt informatie over hun pretrainingscorpora zelden besproken: commerciële taalmodelen geven zelden informatie over hun data; zelfs open modellen geven zelden de datasets vrij waarop ze zijn getraind, of een exact recept om deze te reproduceren. Als gevolg hiervan is het uitdagend om bepaalde onderzoekslijnen binnen taalmodelonderzoek uit te voeren, zoals het begrijpen hoe trainingsdata de mogelijkheden van modellen beïnvloedt en hun beperkingen vormgeeft. Om open onderzoek naar het pretrainen van taalmodelen te faciliteren, brengen we Dolma uit, een Engels corpus van drie biljoen tokens, opgebouwd uit een diverse mix van webcontent, wetenschappelijke artikelen, code, boeken in het publieke domein, sociale media en encyclopedische materialen. Daarnaast openen we onze data-curatietoolkit om verdere experimenten en reproductie van ons werk mogelijk te maken. In dit rapport documenteren we Dolma, inclusief de ontwerp principes, details over de constructie ervan, en een samenvatting van de inhoud. We verweven dit rapport met analyses en experimentele resultaten van het trainen van taalmodelen op tussenliggende staten van Dolma om te delen wat we hebben geleerd over belangrijke data-curatiepraktijken, waaronder de rol van inhouds- of kwaliteitsfilters, deduplicatie en het mengen van meerdere bronnen. Dolma is gebruikt om OLMo te trainen, een state-of-the-art, open taalmodel en framework ontworpen om de wetenschap van taalmodelen te bouwen en te bestuderen.
We introduceren CroissantLLM, een 1,3B taalmodel vooraf getraind op een set van 3T Engelse en Franse tokens, om de onderzoeks- en industriële gemeenschap een hoogwaardig, volledig open-source tweetalig model te bieden dat soepel draait op consumentenhardware. Hiervoor pionieren we met de aanpak van het trainen van een intrinsiek tweetalig model met een 1:1 Engels-Frans verhouding in de voorafgaande trainingsdata, een aangepaste tokenizer en tweetalige fine-tuning datasets. We publiceren de trainingsdataset, die onder meer een Franse subset bevat met handmatig gecureerde, hoogwaardige en gevarieerde databronnen. Om de prestaties buiten het Engels te evalueren, ontwikkelen we een nieuwe benchmark, FrenchBench, bestaande uit een reeks classificatie- en generatietaken die verschillende orthogonale aspecten van modelprestaties in de Franse taal bestrijken. Daarnaast, geworteld in transparantie en om verder onderzoek naar grote taalmodelen te bevorderen, publiceren we codebases, tientallen checkpoints van verschillende modelgroottes, trainingsdatadistributies en trainingsstappen, evenals fine-tuned Chat-modellen en sterke vertaalmodellen. We evalueren ons model via het FMTI-raamwerk en valideren 81% van de transparantiecriteria, ver boven de scores van zelfs de meest open initiatieven. Dit werk verrijkt het NLP-landschap en breekt met eerder Engels-centrisch werk om ons begrip van meertaligheid in taalmodelen te versterken.
Het begrijpen van context is essentieel voor het begrijpen van menselijke taal, een vaardigheid waarvan is gebleken dat Large Language Models (LLM's) deze in toenemende mate op indrukwekkende wijze demonstreren. Hoewel de evaluatie van LLM's verschillende domeinen binnen het gebied van Natural Language Processing omvat, is er beperkte aandacht besteed aan het onderzoeken van hun linguïstische vermogen om contextuele kenmerken te begrijpen. Dit artikel introduceert een benchmark voor contextbegrip door bestaande datasets aan te passen voor de evaluatie van generatieve modellen. Deze benchmark bestaat uit vier verschillende taken en negen datasets, allemaal voorzien van prompts die zijn ontworpen om het vermogen van de modellen om context te begrijpen te beoordelen. Ten eerste evalueren we de prestaties van LLM's onder het in-context learning pretrainingsscenario. Experimentele resultaten geven aan dat vooraf getrainde dense modellen moeite hebben met het begrijpen van meer genuanceerde contextuele kenmerken in vergelijking met state-of-the-art fijn afgestemde modellen. Ten tweede, aangezien LLM-compressie een groeiend belang heeft in zowel onderzoek als praktische toepassingen, beoordelen we het contextbegrip van gekwantiseerde modellen onder in-context-learning instellingen. We constateren dat 3-bit post-training kwantisatie leidt tot verschillende gradaties van prestatievermindering op onze benchmark. We voeren een uitgebreide analyse van deze scenario's uit om onze experimentele resultaten te onderbouwen.
We introduceren SymbolicAI, een veelzijdig en modulair framework dat een op logica gebaseerde benadering hanteert voor conceptleren en stroombeheer in generatieve processen. SymbolicAI maakt de naadloze integratie van generatieve modellen met een diverse reeks oplossers mogelijk door grote taalmodellen (LLM's) te behandelen als semantische parsers die taken uitvoeren op basis van zowel natuurlijke als formele taal instructies, waardoor de kloof tussen symbolisch redeneren en generatieve AI wordt overbrugd. We benutten principes van probabilistisch programmeren om complexe taken aan te pakken, en maken gebruik van differentieerbare en klassieke programmeerparadigma's met hun respectievelijke sterke punten. Het framework introduceert een reeks polymorfe, compositionele en zelf-referentiële operaties voor de manipulatie van datastromen, waarbij de uitvoer van LLM's wordt afgestemd op gebruikersdoelen. Hierdoor kunnen we schakelen tussen de mogelijkheden van verschillende foundation modellen die zijn uitgerust met zero- en few-shot leermogelijkheden en gespecialiseerde, fijn afgestemde modellen of oplossers die bedreven zijn in het aanpakken van specifieke problemen. Op zijn beurt vergemakkelijkt het framework het creëren en evalueren van verklaarbare computationele grafieken. We sluiten af met de introductie van een kwaliteitsmaat en de bijbehorende empirische score voor het evalueren van deze computationele grafieken, en stellen een benchmark voor die verschillende state-of-the-art LLM's vergelijkt over een reeks complexe workflows. We verwijzen naar de empirische score als de "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", of kortweg de VERTEX-score. De codebase van het framework en de benchmark zijn hieronder gelinkt.
We presenteren bewijs van aanzienlijk voordeel door efficiënte exploratie bij het verzamelen van menselijke feedback om grote taalmodellen te verbeteren. In onze experimenten genereert een agent sequentieel queries terwijl een beloningsmodel wordt aangepast aan de ontvangen feedback. Onze best presterende agent genereert queries met behulp van dubbele Thompson sampling, waarbij onzekerheid wordt gerepresenteerd door een epistemisch neuraal netwerk. Onze resultaten tonen aan dat efficiënte exploratie een hoog prestatieniveau mogelijk maakt met aanzienlijk minder queries. Bovendien spelen zowel onzekerheidsinschatting als de keuze van het exploratieschema cruciale rollen.
Machine unlearning is naar voren gekomen als een nieuw paradigma om opzettelijk gegevensmonsters te vergeten van een bepaald model, om te voldoen aan strenge regelgeving. Bestaande methoden voor machine unlearning zijn echter voornamelijk gericht op classificatiemodellen, waardoor het landschap van unlearning voor generatieve modellen relatief onontgonnen blijft. Dit artikel dient als een brug, waarbij de kloof wordt gedicht door een unificerend raamwerk te bieden voor machine unlearning bij image-to-image generatieve modellen. Binnen dit raamwerk stellen we een computationeel efficiënt algoritme voor, ondersteund door rigoureuze theoretische analyse, dat een verwaarloosbare prestatievermindering op de behouden monsters aantoont, terwijl de informatie van de te vergeten monsters effectief wordt verwijderd. Empirische studies op twee grootschalige datasets, ImageNet-1K en Places-365, tonen verder aan dat ons algoritme niet afhankelijk is van de beschikbaarheid van de behouden monsters, wat verder in overeenstemming is met het beleid voor gegevensretentie. Voor zover wij weten, is dit werk de eerste dat systemische, theoretische en empirische verkenningen van machine unlearning vertegenwoordigt, specifiek toegesneden op image-to-image generatieve modellen. Onze code is beschikbaar op https://github.com/jpmorganchase/l2l-generator-unlearning.
Een gangbare aanpak voor het afstemmen van taalmodellen op menselijke voorkeuren is om eerst een beloningsmodel te leren uit voorkeursdata, en vervolgens dit beloningsmodel te gebruiken om het taalmodel bij te werken. We bestuderen twee nauw verwante problemen die bij deze aanpak ontstaan. Ten eerste behoudt elke monotone transformatie van het beloningsmodel de voorkeursrangschikking; is er een keuze die "beter" is dan andere? Ten tweede willen we taalmodellen vaak afstemmen op meerdere eigenschappen: hoe moeten we meerdere beloningsmodellen combineren? Met behulp van een probabilistische interpretatie van het afstemmingsproces identificeren we een natuurlijke keuze voor transformatie voor (het veelvoorkomende geval van) beloningen die zijn geleerd uit Bradley-Terry voorkeursmodellen. Deze afgeleide transformatie heeft twee belangrijke eigenschappen. Ten eerste benadrukt het het verbeteren van slecht presterende uitvoer, in plaats van uitvoer die al goed scoort. Dit vermindert zowel onderfitting (waarbij sommige prompts niet worden verbeterd) als beloningsmanipulatie (waarbij het model leert om misspecificatie van het beloningsmodel uit te buiten). Ten tweede maakt het een principiële aggregatie van beloningen mogelijk door optelling te koppelen aan logische conjunctie: de som van getransformeerde beloningen komt overeen met de waarschijnlijkheid dat de uitvoer "goed" is in alle gemeten eigenschappen, in een zin die we precies maken. Experimenten waarbij taalmodellen worden afgestemd om zowel behulpzaam als onschadelijk te zijn met behulp van RLHF tonen aanzienlijke verbeteringen ten opzichte van de baseline (niet-getransformeerde) aanpak.
We introduceren Amortized Text-to-Mesh (AToM), een feed-forward text-to-mesh framework dat is geoptimaliseerd voor meerdere tekstprompts tegelijk. In tegenstelling tot bestaande text-to-3D-methoden die vaak tijdrovende optimalisatie per prompt vereisen en meestal representaties anders dan polygonale meshes opleveren, genereert AToM direct hoogwaardige textuurmeshes in minder dan 1 seconde met een reductie van ongeveer 10 keer in de trainingskosten, en generaliseert het naar onbekende prompts. Onze kernidee is een nieuwe triplane-gebaseerde text-to-mesh-architectuur met een tweefasen amortized optimalisatiestrategie die een stabiele training garandeert en schaalbaarheid mogelijk maakt. Door uitgebreide experimenten op diverse promptbenchmarks presteert AToM aanzienlijk beter dan state-of-the-art amortized benaderingen met meer dan 4 keer hogere nauwkeurigheid (in de DF415-dataset) en produceert het meer onderscheidbare en hogere kwaliteit 3D-outputs. AToM toont sterke generaliseerbaarheid en biedt fijnmazige 3D-assets voor onbekende geïnterpoleerde prompts zonder verdere optimalisatie tijdens inferentie, in tegenstelling tot per-prompt oplossingen.
Dit werk introduceert EE-Tuning, een lichtgewicht en economische oplossing voor het trainen/afstemmen van large language models (LLM's) met early-exit. In tegenstelling tot de gebruikelijke aanpak van volledige parameter pre-training, versterkt EE-Tuning elke vooraf getrainde (en mogelijk fijn afgestemde) standaard LLM met extra early-exit lagen die op een parameter-efficiënte manier worden afgestemd, wat aanzienlijk minder rekenkracht en trainingsdata vereist. Onze implementatie van EE-Tuning bereikt uitstekende trainings efficiëntie door uitgebreide prestatie optimalisaties, evenals schaalbaarheid dankzij de volledige compatibiliteit met 3D-parallelisme. Resultaten van systematische experimenten valideren de effectiviteit van EE-Tuning, waarbij wordt bevestigd dat effectieve early-exit LLM-inferentie kan worden bereikt met een beperkt trainingsbudget. In de hoop early-exit LLM's toegankelijk te maken voor de gemeenschap, hebben we de broncode van onze implementatie van EE-Tuning vrijgegeven op https://github.com/pan-x-c/EE-LLM.