Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We beschrijven de ontwikkeling en mogelijkheden van Meltemi 7B, het eerste open Large Language Model voor de Griekse taal. Meltemi 7B heeft 7 miljard parameters en is getraind op een corpus van 40 miljard Griekse tokens. Voor de ontwikkeling van Meltemi 7B hebben we Mistral aangepast door middel van continue voorafgaande training op het Griekse corpus. Meltemi 7B bevat actuele informatie tot september 2023. Daarnaast hebben we een Griekse instructiecorpus vertaald en samengesteld, die is gebruikt voor de instructie-afstemming van een chatmodel, genaamd Meltemi 7B Instruct. Er is speciale aandacht besteed aan de afstemming en het verwijderen van giftige inhoud voor Meltemi 7B Instruct. De ontwikkelde modellen worden geëvalueerd op een breed scala aan verzamelde evaluatiecorpora, en voorbeelden van prompts en antwoorden worden gepresenteerd. Zowel Meltemi 7B als Meltemi 7B Instruct zijn beschikbaar op https://huggingface.co/ilsp onder de Apache 2.0-licentie.
Grootschalige voorafgaande trainingsmethodologieën voor chemische taalmodellen vertegenwoordigen een doorbraak in de cheminformatica. Deze methoden blinken uit in taken zoals eigenschapsvoorspelling en molecuulgeneratie door middel van het leren van gecontextualiseerde representaties van invoertokens via zelfsupervisie op grote ongeannoteerde corpora. Typisch omvat dit voorafgaande training op ongeannoteerde gegevens, gevolgd door fine-tuning op specifieke taken, wat de afhankelijkheid van geannoteerde datasets vermindert en het begrip van chemische taalrepresentatie verbreedt. Dit artikel introduceert een groot encoder-decoder chemisch basis model dat vooraf is getraind op een gecureerde dataset van 91 miljoen SMILES-voorbeelden afkomstig uit PubChem, wat overeenkomt met 4 miljard moleculaire tokens. Het voorgestelde basis model ondersteunt verschillende complexe taken, waaronder kwantumeigenschapsvoorspelling, en biedt flexibiliteit met twee hoofdvarianten (289M en 8x289M). Onze experimenten op meerdere benchmarkdatasets valideren de capaciteit van het voorgestelde model om state-of-the-art resultaten te leveren voor verschillende taken. We bieden ook een voorlopige beoordeling van de compositionaliteit van de embeddingruimte als een voorwaarde voor redeneertaken. We tonen aan dat de geproduceerde latente ruimte scheidbaar is in vergelijking met de state-of-the-art, met mogelijkheden voor few-shot learning.
Grote Taalmodellen (LLM's) hebben een revolutie teweeggebracht in het vakgebied van natuurlijke taalverwerking, waarbij ze ongekende prestaties hebben bereikt in diverse toepassingen door gebruik te maken van grotere modelgroottes en langere sequentielengtes. De daarmee gepaard gaande stijging in reken- en geheugenkosten brengt echter aanzienlijke uitdagingen met zich mee, met name bij het beheren van lange sequenties vanwege de kwadratische complexiteit van het transformer-attentiemechanisme. Dit artikel richt zich op het scenario van lange contexten en behandelt de inefficiënties in het geheugengebruik van de KV-cache tijdens inferentie. In tegenstelling tot bestaande benaderingen die het geheugen optimaliseren op basis van de sequentielengtes, ontdekken wij dat de kanaaldimensie van de KV-cache aanzienlijke redundantie vertoont, gekenmerkt door een onbalans in de grootteverdeling en een laag-rangstructuur in de aandachtswaarden. Op basis van deze observaties stellen wij ThinK voor, een nieuwe query-afhankelijke KV-cache pruning-methode die is ontworpen om het verlies van aandachtswaarden te minimaliseren terwijl de minst significante kanalen selectief worden verwijderd. Onze aanpak behoudt of verbetert niet alleen de modelnauwkeurigheid, maar reduceert ook de geheugenkosten met meer dan 20% vergeleken met standaard KV-cache verwijderingsmethoden. Uitgebreide evaluaties op de LLaMA3- en Mistral-modellen over diverse lange-sequentie datasets bevestigen de effectiviteit van ThinK, waarmee een nieuwe standaard wordt gezet voor efficiënte LLM-implementatie zonder in te leveren op prestaties. We schetsen ook het potentieel van het uitbreiden van onze methode naar value-cache pruning, wat de veelzijdigheid en brede toepasbaarheid van ThinK aantoont in het verminderen van zowel geheugen- als rekenoverhead.
Naarmate grote taalmodellen (LLMs) steeds meer worden geïntegreerd in operationele workflows (LLM-Ops), is er een dringende behoefte aan effectieve beveiligingsmaatregelen om veilige en afgestemde interacties te waarborgen, inclusief de mogelijkheid om potentieel onveilige of ongepaste inhoud in verschillende talen te detecteren. Bestaande veilig-voor-werkclassificatoren zijn echter voornamelijk gericht op Engelstalige tekst. Om deze kloof voor de Maleisische taal te overbruggen, presenteren we een nieuwe veilig-voor-werktekstclassificatie die specifiek is afgestemd op Maleisische taalinhoud. Door een unieke dataset van Maleisische tekst, die meerdere inhoudscategorieën omvat, te cureren en annoteren, hebben we een classificatiemodel getraind dat in staat is potentieel onveilig materiaal te identificeren met behulp van state-of-the-art technieken voor natuurlijke taalverwerking. Dit werk vertegenwoordigt een belangrijke stap in het mogelijk maken van veiligere interacties en inhoudsfiltering om potentiële risico's te beperken en een verantwoorde inzet van LLMs te waarborgen. Om de toegankelijkheid te maximaliseren en verder onderzoek te bevorderen naar het verbeteren van afstemming in LLM-Ops voor de Maleisische context, is het model openbaar vrijgegeven op https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
We introduceren Diffusion Augmented Agents (DAAG), een nieuw framework dat gebruikmaakt van grote taalmodellen, visuele taalmodellen en diffusiemodellen om de steekproefficientie en transfer learning te verbeteren in reinforcement learning voor belichaamde agents. DAAG herlabelt de eerdere ervaringen van de agent door middel van diffusiemodellen om video's op een temporeel en geometrisch consistente manier te transformeren, zodat ze overeenkomen met doelinstructies met een techniek die we Hindsight Experience Augmentation noemen. Een groot taalmodel regisseert dit autonome proces zonder menselijk toezicht, waardoor het geschikt is voor levenslang leren scenario's. Het framework vermindert de hoeveelheid beloningsgelabelde data die nodig is om 1) een visueel taalmodel te finetunen dat fungeert als een beloningsdetector, en 2) RL-agents te trainen voor nieuwe taken. We demonstreren de verbeteringen in steekproefficientie van DAAG in gesimuleerde robotica-omgevingen die manipulatie en navigatie omvatten. Onze resultaten laten zien dat DAAG het leren van beloningsdetectoren, het overdragen van eerdere ervaringen en het verwerven van nieuwe taken verbetert - cruciale vaardigheden voor het ontwikkelen van efficiënte levenslang lerende agents. Aanvullend materiaal en visualisaties zijn beschikbaar op onze website https://sites.google.com/view/diffusion-augmented-agents/.
Dit artikel introduceert een innovatieve aanpak voor beeldmatting die de traditionele regressiegebaseerde taak herdefinieert als een generatief modelleerprobleem. Onze methode benut de mogelijkheden van latente diffusiemodellen, verrijkt met uitgebreide vooraf getrainde kennis, om het mattingproces te regulariseren. We presenteren nieuwe architectonische innovaties die ons model in staat stellen mattes te produceren met superieure resolutie en detail. De voorgestelde methode is veelzijdig en kan zowel begeleidingsvrije als begeleidingsgebaseerde beeldmatting uitvoeren, waarbij verschillende aanvullende aanwijzingen worden ondersteund. Onze uitgebreide evaluatie over drie benchmarkdatasets toont de superieure prestaties van onze aanpak, zowel kwantitatief als kwalitatief. De resultaten weerspiegelen niet alleen de robuuste effectiviteit van onze methode, maar benadrukken ook het vermogen om visueel overtuigende mattes te genereren die fotorealistische kwaliteit benaderen. De projectpagina voor dit artikel is beschikbaar op https://lightchaserx.github.io/matting-by-generation/.
Wij presenteren Knesset-DictaBERT, een groot Hebreeuws taalmodel dat is afgestemd op het Knesset Corpus, dat bestaat uit Israëlische parlementaire verslagen. Het model is gebaseerd op de DictaBERT-architectuur en toont aanzienlijke verbeteringen in het begrijpen van parlementaire taal volgens de MLM-taak. Wij bieden een gedetailleerde evaluatie van de prestaties van het model, waarbij verbeteringen in perplexiteit en nauwkeurigheid ten opzichte van het baseline DictaBERT-model worden aangetoond.
Bestaande methoden voor muziekbeschrijving zijn beperkt tot het genereren van beknopte globale beschrijvingen van korte muziekfragmenten, die geen fijnmazige muzikale kenmerken en tijdgebonden muzikale veranderingen vastleggen. Om deze beperkingen aan te pakken, stellen we FUTGA voor, een model dat is uitgerust met fijnmazige muziekbegripcapaciteiten door te leren van generatieve augmentatie met temporele composities. We maken gebruik van bestaande muziekbeschrijvingsdatasets en grote taalmodellen (LLMs) om fijnmazige muziekbeschrijvingen te synthetiseren met structurele beschrijvingen en tijdsgrenzen voor volledige nummers. Gesterkt door de voorgestelde synthetische dataset, is FUTGA in staat om de temporele veranderingen in de muziek op belangrijke overgangspunten en hun muzikale functies te identificeren, evenals gedetailleerde beschrijvingen te genereren voor elk muzieksegment. We introduceren verder een dataset met volledige muziekbeschrijvingen gegenereerd door FUTGA, als een aanvulling op de MusicCaps- en Song Describer-datasets. We evalueren de automatisch gegenereerde beschrijvingen op verschillende downstream taken, waaronder muziekgeneratie en -retrieval. De experimenten tonen de kwaliteit van de gegenereerde beschrijvingen en de betere prestaties in diverse downstream taken die worden bereikt door de voorgestelde muziekbeschrijvingsaanpak. Onze code en datasets zijn te vinden op https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
Neurale Informatie Retrieval heeft een snelle vooruitgang geboekt in talen met veel bronnen, maar de voortgang in talen met minder bronnen, zoals Japans, is belemmerd door gegevensschaarste en andere uitdagingen. Als gevolg hiervan hebben meertalige modellen de informatie retrieval in het Japans gedomineerd, ondanks hun computationele inefficiëntie en het onvermogen om linguïstische nuances vast te leggen. Hoewel recente multi-vector eentalige modellen zoals JaColBERT deze kloof hebben verkleind, blijven ze achter bij meertalige methoden in grootschalige evaluaties. Dit werk richt zich op de suboptimale trainingsmethoden van multi-vector retrievers in omgevingen met minder bronnen, met een focus op Japans. We evalueren en verbeteren systematisch belangrijke aspecten van de inferentie- en trainingsinstellingen van JaColBERT, en meer in het algemeen, multi-vector modellen. We verbeteren de prestaties verder door een nieuwe checkpoint-samenvoegingsstap, die effectief blijkt te zijn in het combineren van de voordelen van fine-tuning met de generalisatiecapaciteiten van het oorspronkelijke checkpoint. Op basis van onze analyse introduceren we een nieuw trainingsrecept, wat resulteert in het JaColBERTv2.5-model. JaColBERTv2.5, met slechts 110 miljoen parameters en getraind in minder dan 15 uur op 4 A100 GPU's, presteert aanzienlijk beter dan alle bestaande methoden op alle gangbare benchmarks, met een gemiddelde score van 0.754, aanzienlijk hoger dan het vorige beste resultaat van 0.720. Om toekomstig onderzoek te ondersteunen, maken we onze definitieve modellen, tussenliggende checkpoints en alle gebruikte gegevens openbaar beschikbaar.
HAL (Hyper Articles en Ligne) is het nationale Franse publicatierepository, gebruikt door de meeste instellingen voor hoger onderwijs en onderzoek voor hun open science-beleid. Als digitale bibliotheek is het een rijke verzameling van wetenschappelijke documenten, maar het potentieel voor geavanceerd onderzoek is onderbenut gebleven. Wij presenteren HALvest, een unieke dataset die de kloof overbrugt tussen citatienetwerken en de volledige tekst van artikelen die op HAL zijn ingediend. We hebben onze dataset samengesteld door HAL te filteren op wetenschappelijke publicaties, wat resulteert in ongeveer 700.000 documenten, verspreid over 34 talen in 13 geïdentificeerde domeinen, geschikt voor het trainen van taalmodelen, en goed voor ongeveer 16,5 miljard tokens (waarvan 8 miljard in het Frans en 7 miljard in het Engels, de meest vertegenwoordigde talen). We transformeren de metadata van elk artikel in een citatienetwerk, wat resulteert in een gerichte heterogene grafiek. Deze grafiek bevat uniek geïdentificeerde auteurs op HAL, evenals alle open ingediende artikelen en hun citaties. We bieden een basislijn voor auteurschapstoewijzing met behulp van de dataset, implementeren een reeks state-of-the-art modellen in grafrepresentatieleer voor linkvoorspelling, en bespreken het nut van onze gegenereerde kennisgrafiekstructuur.