Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's) winnen steeds meer populariteit in zowel de academische wereld als de industrie, dankzij hun ongekende prestaties in diverse toepassingen. Omdat LLM's een cruciale rol blijven spelen in zowel onderzoek als dagelijks gebruik, wordt hun evaluatie steeds belangrijker, niet alleen op taakniveau, maar ook op maatschappelijk niveau voor een beter begrip van hun potentiële risico's. In de afgelopen jaren zijn er aanzienlijke inspanningen geleverd om LLM's vanuit verschillende perspectieven te onderzoeken. Dit artikel biedt een uitgebreid overzicht van deze evaluatiemethoden voor LLM's, met focus op drie belangrijke dimensies: wat te evalueren, waar te evalueren en hoe te evalueren. Ten eerste geven we een overzicht vanuit het perspectief van evaluatietaken, waaronder algemene natuurlijke taalverwerkingstaken, redeneren, medisch gebruik, ethiek, onderwijs, natuur- en sociale wetenschappen, agenttoepassingen en andere gebieden. Ten tweede beantwoorden we de vragen 'waar' en 'hoe' door in te gaan op de evaluatiemethoden en benchmarks, die cruciale componenten zijn bij het beoordelen van de prestaties van LLM's. Vervolgens vatten we de succes- en faalgevallen van LLM's in verschillende taken samen. Tot slot werpen we licht op enkele toekomstige uitdagingen die voor ons liggen bij de evaluatie van LLM's. Ons doel is om waardevolle inzichten te bieden aan onderzoekers op het gebied van LLM-evaluatie, waardoor de ontwikkeling van vaardigere LLM's wordt ondersteund. Ons belangrijkste punt is dat evaluatie als een essentiële discipline moet worden beschouwd om de ontwikkeling van LLM's beter te ondersteunen. We houden de gerelateerde open-source materialen consistent bij op: https://github.com/MLGroupJLU/LLM-eval-survey.
Hoewel recente taalmodelle in staat zijn om lange contexten als invoer te verwerken, is relatief weinig bekend over hoe goed taalmodelle langere contexten gebruiken. We analyseren de prestaties van taalmodelle op twee taken die vereisen dat relevante informatie binnen hun invoercontexten wordt geïdentificeerd: vraagbeantwoording over meerdere documenten en sleutel-waarde-retrieval. We constateren dat de prestaties vaak het hoogst zijn wanneer relevante informatie aan het begin of het einde van de invoercontext voorkomt, en aanzienlijk verslechteren wanneer modellen relevante informatie in het midden van lange contexten moeten benaderen. Bovendien nemen de prestaties aanzienlijk af naarmate de invoercontext langer wordt, zelfs voor expliciet ontworpen lange-contextmodellen. Onze analyse biedt een beter inzicht in hoe taalmodelle hun invoercontext gebruiken en levert nieuwe evaluatieprotocollen op voor toekomstige lange-contextmodellen.
Veel cognitieve benaderingen van welzijn, zoals het herkennen en herformuleren van onhelpende gedachten, hebben de afgelopen decennia aanzienlijke empirische ondersteuning gekregen, maar zijn nog steeds niet echt wijdverbreid geadopteerd in zelfhulpformaat. Een belemmering voor die adoptie is een gebrek aan voldoende specifiek en divers oefenmateriaal dat hierop is toegespitst. Dit onderzoek onderzoekt of huidige taalmodelle gebruikt kunnen worden om zowel een vrijwel onbeperkte hoeveelheid oefenmateriaal te produceren dat standaard onhelpende denkpatronen illustreert die passen bij specifieke gegeven contexten, als geschikte positieve herformuleringen te genereren. We stellen PATTERNREFRAME voor, een nieuwe dataset van ongeveer 10.000 voorbeelden van gedachten die onhelpende denkpatronen bevatten, afgestemd op een gegeven persona, vergezeld van ongeveer 27.000 positieve herformuleringen. Door deze dataset te gebruiken om huidige modellen te trainen en/of te evalueren, laten we zien dat bestaande modellen al krachtige hulpmiddelen kunnen zijn om een overvloed aan op maat gemaakt oefenmateriaal en hypothesen te genereren, zonder of met minimale aanvullende modeltraining.
Grote taalmodelen hebben een uitzonderlijk vermogen om nieuwe informatie op een contextuele manier te integreren. Het volledige potentieel van een dergelijke aanpak wordt echter vaak beperkt door een tekortkoming in de effectieve contextlengte. Een oplossing voor dit probleem is het uitrusten van een aandachtlaag met toegang tot een extern geheugen, dat bestaat uit (sleutel, waarde)-paren. Naarmate het aantal documenten toeneemt, neemt echter de verhouding tussen relevante en irrelevante sleutels af, waardoor het model zich meer op de irrelevante sleutels richt. Wij identificeren een belangrijk probleem, het zogenaamde afleidingsprobleem, waarbij sleutels die aan verschillende semantische waarden zijn gekoppeld, kunnen overlappen, waardoor ze moeilijk te onderscheiden zijn. Om dit probleem aan te pakken, introduceren we de Focused Transformer (FoT), een techniek die een trainingsproces gebruikt dat is geïnspireerd op contrastief leren. Deze nieuwe aanpak verbetert de structuur van de (sleutel, waarde)-ruimte, waardoor de contextlengte kan worden uitgebreid. Onze methode maakt het mogelijk om bestaande, grootschalige modellen te fine-tunen om hun effectieve context te verlengen. Dit wordt gedemonstreerd door onze fine-tuning van 3B en 7B OpenLLaMA checkpoints. De resulterende modellen, die wij LongLLaMA noemen, tonen vooruitgang in taken die een lange context vereisen. We laten verder zien dat onze LongLLaMA-modellen een contextlengte van 256 k vakkundig beheren voor passkey-retrieval.
Autoregressieve grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in verschillende taken voor natuurlijke taalgeneratie. Ze brengen echter hoge rekenkosten en latentie met zich mee als gevolg van de autoregressieve token-voor-token-generatie. Om dit probleem aan te pakken, zijn verschillende benaderingen voorgesteld om de rekenkosten te verlagen met behulp van early-exit-strategieën. Deze strategieën maken snellere tekstgeneratie mogelijk met minder rekenkracht, zonder het volledige rekenkundige grafiek op elke token toe te passen. Hoewel bestaande token-level early-exit-methoden veelbelovende resultaten laten zien voor online inferentie, kunnen ze niet direct worden toegepast voor batch-inferentie en Key-Value-caching. Dit komt omdat ze moeten wachten tot de laatste token in een batch uitstapt voordat ze kunnen stoppen met rekenen. Dit beperkt de praktische toepassing van dergelijke technieken ernstig. In dit artikel stellen we een eenvoudige en effectieve token-level early-exit-methode voor, SkipDecode, die naadloos werkt met batch-inferentie en KV-caching. Het overwint eerdere beperkingen door een enkel uitstappunt in te stellen voor elke token in een batch op elke sequentiepositie. Het garandeert ook een monotone afname van uitstappunten, waardoor het opnieuw berekenen van KV-caches voor voorgaande tokens overbodig wordt. In plaats van de berekening voortijdig te beëindigen zoals in eerdere werken, omzeilt onze aanpak de lagere tot middelste lagen en wijdt het het grootste deel van de rekenkracht aan de bovenste lagen, waardoor latere tokens kunnen profiteren van de rekenkracht die door eerdere tokens is besteed. Onze experimentele resultaten tonen aan dat SkipDecode een 2x tot 5x versnelling van de inferentie kan bereiken met verwaarloosbare terugval over een verscheidenheid aan taken. Dit wordt bereikt met OPT-modellen van 1,3 miljard en 6,7 miljard parameters, terwijl het direct compatibel is met batchverwerking en KV-caching-optimalisatietechnieken.
In dit artikel richten we ons op Whisper, een recent automatisch spraakherkenningsmodel dat is getraind met een enorme gelabelde spraakcorpus van 680k uur, opgenomen onder diverse omstandigheden. We tonen eerst een interessant inzicht: hoewel Whisper zeer robuust is tegen real-world achtergrondgeluiden (bijvoorbeeld muziek), is de audioweergave ervan eigenlijk niet ruis-invariant, maar juist sterk gecorreleerd aan niet-spraakgeluiden, wat erop wijst dat Whisper spraak herkent afhankelijk van het type ruis. Met dit inzicht bouwen we een geïntegreerd model voor audiolabeling en spraakherkenning, Whisper-AT, door de backbone van Whisper te bevriezen en er een lichtgewicht audiolabelingsmodel bovenop te trainen. Met minder dan 1% extra rekenkosten kan Whisper-AT audio-events herkennen, naast gesproken tekst, in een enkele voorwaartse pass.
We evalueren de video-begripcapaciteiten van bestaande foundation models aan de hand van een zorgvuldig ontworpen experimentprotocol dat bestaat uit drie kenmerkende taken (actieherkenning, temporele lokalisatie en spatiotemporele lokalisatie), acht datasets die goed ontvangen zijn door de gemeenschap, en vier aanpassingsmethoden om een foundation model (FM) af te stemmen op een downstreamtaak. Bovendien stellen we een scalaire VideoGLUE-score (VGS) voor om de effectiviteit en efficiëntie van een FM te meten bij het aanpassen aan algemene video-begriptaken. Onze belangrijkste bevindingen zijn als volgt. Ten eerste presteren taakspecifieke modellen aanzienlijk beter dan de zes FM's die in dit werk zijn bestudeerd, in scherp contrast met wat FM's hebben bereikt in natuurlijke taal- en beeldbegrip. Ten tweede zijn video-native FM's, waarvan de vooraf getrainde gegevens de videomodaliteit bevatten, over het algemeen beter dan beeld-native FM's in het classificeren van bewegingrijke video's, het lokaliseren van acties in de tijd, en het begrijpen van een video met meer dan één actie. Ten derde kunnen de video-native FM's goed presteren op videotaken onder lichte aanpassingen aan downstreamtaken (bijvoorbeeld het bevriezen van de FM-backbones), terwijl beeld-native FM's winnen bij volledige end-to-end finetuning. De eerste twee observaties onthullen de noodzaak en enorme mogelijkheden om onderzoek te doen naar video-gerichte FM's, en de laatste bevestigt dat zowel taken als aanpassingsmethoden van belang zijn als het gaat om de evaluatie van FM's.