Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmmodellen (LLMs) die getraind zijn op algemene domeincorpora hebben opmerkelijke resultaten laten zien bij taken op het gebied van natuurlijke taalverwerking (NLP). Eerder onderzoek heeft echter aangetoond dat LLMs die getraind zijn met domeingerichte corpora beter presteren bij gespecialiseerde taken. Geïnspireerd door dit cruciale inzicht hebben we INDUS ontwikkeld, een uitgebreide suite van LLMs die specifiek zijn afgestemd op de domeinen aardwetenschappen, biologie, natuurkunde, heliofysica, planetaire wetenschappen en astrofysica, en die getraind zijn met zorgvuldig samengestelde wetenschappelijke corpora uit diverse databronnen. De suite van modellen omvat: (1) een encodermodel getraind met domeinspecifieke vocabulaire en corpora om taken voor natuurlijk taalbegrip aan te pakken, (2) een op contrastief leren gebaseerd algemeen tekstembeddingmodel getraind met een diverse set datasets uit meerdere bronnen om taken voor informatiezoeken aan te pakken, en (3) kleinere versies van deze modellen die zijn gemaakt met behulp van kennisdistillatietechnieken om toepassingen met latentie- of resourcebeperkingen aan te pakken. We hebben ook drie nieuwe wetenschappelijke benchmarkdatasets gecreëerd, namelijk CLIMATE-CHANGE-NER (entiteitsherkenning), NASA-QA (extractieve vraag-antwoord) en NASA-IR (informatiezoeken) om onderzoek in deze multidisciplinaire velden te versnellen. Tot slot laten we zien dat onze modellen zowel algemene encoders (RoBERTa) als bestaande domeinspecifieke encoders (SciBERT) overtreffen bij deze nieuwe taken, evenals bij bestaande benchmarktaken in de domeinen van belang.
Het enorme geheugengebruik is een belangrijke beperking geweest bij het inzetten van hoogdoorvoerende grote taalmodel(len) in real-world toepassingen. Naast het grote aantal parameters verbruikt de key-value (KV)-cache voor het aandachtmechanisme in de transformer-architectuur een aanzienlijke hoeveelheid geheugen, vooral wanneer het aantal lagen groot is voor diepe taalmodel(len). In dit artikel stellen we een nieuwe methode voor die alleen de KVs van een klein aantal lagen berekent en cachet, waardoor het geheugengebruik aanzienlijk wordt bespaard en de inferentie-doorvoer wordt verbeterd. Onze experimenten met grote taalmodel(len) laten zien dat onze methode tot 26 keer hogere doorvoer bereikt dan standaard transformers en competitieve prestaties levert bij taalmodellering en downstream taken. Bovendien is onze methode orthogonaal aan bestaande geheugenbesparende technieken voor transformers, waardoor het eenvoudig is om deze te integreren met ons model, wat verdere verbetering in de inferentie-efficiëntie oplevert. Onze code is beschikbaar op https://github.com/whyNLP/LCKV.
Het begrijpen van hoe de prestaties van taalmodellen variëren met schaal is cruciaal voor de ontwikkeling van benchmarks en algoritmen. Schaalwetten zijn een benadering om dit inzicht op te bouwen, maar de vereiste om modellen op veel verschillende schalen te trainen, heeft hun gebruik beperkt. Wij stellen een alternatieve, observationele benadering voor die het trainen van modellen omzeilt en in plaats daarvan schaalwetten opbouwt uit ~80 publiek beschikbare modellen. Het opbouwen van een enkele schaalwet uit meerdere modelfamilies is uitdagend vanwege grote variaties in hun trainingscompute-efficiënties en -mogelijkheden. Wij laten echter zien dat deze variaties consistent zijn met een eenvoudige, gegeneraliseerde schaalwet waarbij de prestaties van taalmodellen een functie zijn van een laagdimensionale mogelijkheidsruimte, en modelfamilies alleen variëren in hun efficiëntie in het omzetten van trainingscompute naar mogelijkheden. Met deze benadering laten we de verrassende voorspelbaarheid van complexe schaalverschijnselen zien: we laten zien dat verschillende emergente verschijnselen een vloeiend, sigmoïdaal gedrag volgen en voorspelbaar zijn uit kleine modellen; we laten zien dat de agentprestaties van modellen zoals GPT-4 nauwkeurig kunnen worden voorspeld uit eenvoudigere niet-agentische benchmarks; en we laten zien hoe de impact van post-trainingsinterventies zoals Chain-of-Thought en Self-Consistency kan worden voorspeld naarmate de mogelijkheden van taalmodellen blijven verbeteren.
Eerdere studies over 3D-scènebegrip hebben voornamelijk gespecialiseerde modellen ontwikkeld voor specifieke taken of vereisten taakspecifieke fine-tuning. In deze studie stellen we Grounded 3D-LLM voor, dat het potentieel van 3D grote multimodale modellen (3D LMMs) onderzoekt om verschillende 3D-visietaken te consolideren binnen een uniform generatief kader. Het model gebruikt scène-referentietokens als speciale zelfstandige naamwoorden om te verwijzen naar 3D-scènes, waardoor het mogelijk wordt om sequenties te verwerken die 3D- en tekstuele data interleaven. Het biedt een natuurlijke aanpak voor het vertalen van 3D-visietaken naar taalformaten met behulp van taakspecifieke instructiesjablonen. Om het gebruik van referentietokens in daaropvolgende taalmodellering te vergemakkelijken, hebben we grootschalige gegronde taaldatasets samengesteld die een fijnere scène-tekstcorrespondentie op zinsniveau bieden door bestaande objectlabels te bootstrappen. Vervolgens hebben we Contrastive LAnguage-Scene Pre-training (CLASP) geïntroduceerd om deze data effectief te benutten, waardoor 3D-visie wordt geïntegreerd met taalmodellen. Onze uitgebreide evaluatie omvat open-eindtaken zoals dense captioning en 3D QA, naast gesloten-eindtaken zoals objectdetectie en taalgrounding. Experimenten over meerdere 3D-benchmarks onthullen de toonaangevende prestaties en de brede toepasbaarheid van Grounded 3D-LLM. Code en datasets zullen worden vrijgegeven op de projectpagina: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
Grote Taalmodellen (LLM's) hebben aanzienlijke aandacht gekregen op het gebied van natuurlijke taalverwerking (NLP) vanwege hun brede scala aan toepassingen. Het trainen van LLM's voor talen anders dan Engels brengt echter aanzienlijke uitdagingen met zich mee, vanwege de moeilijkheid om grootschalige corpora en de benodigde rekenbronnen te verkrijgen. In dit artikel stellen we ChatFlow voor, een op cross-linguale transfer gebaseerd LLM, om deze uitdagingen aan te pakken en grote Chinese taalmodelen op een kosteneffectieve manier te trainen. We gebruiken een mix van Chinese, Engelse en parallelle corpora om het LLaMA2-model continu te trainen, met als doel cross-linguale representaties uit te lijnen en de kennisoverdracht specifiek naar het Chinese taalmodel te vergemakkelijken. Daarnaast gebruiken we een dynamische data sampler om het model geleidelijk over te laten gaan van onbewaakte voorafgaande training naar bewaakte fijnafstemming. Experimentele resultaten tonen aan dat onze aanpak de modelconvergentie versnelt en superieure prestaties bereikt. We evalueren ChatFlow op populaire Chinese en Engelse benchmarks, en de resultaten geven aan dat het andere Chinese modellen die zijn nageleerd op LLaMA-2-7B overtreft.