Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De recente DeepSeek-R1-release heeft het immense potentieel van reinforcement learning (RL) aangetoond bij het verbeteren van de algemene redeneervaardigheden van grote taalmodellen (LLMs). Hoewel DeepSeek-R1 en ander vervolgwerk zich voornamelijk richten op het toepassen van RL op competitieve programmeer- en wiskundeproblemen, introduceert dit artikel SWE-RL, de eerste aanpak om RL-gebaseerd redeneren van LLMs op te schalen voor real-world software engineering. Door gebruik te maken van een lichtgewicht, op regels gebaseerde beloning (bijvoorbeeld de gelijkenisscore tussen de grondwaarheid en door het LLM gegenereerde oplossingen), stelt SWE-RL LLMs in staat om autonoom de redeneerprocessen en oplossingen van een ontwikkelaar te herstellen door te leren van uitgebreide open-source software-evolutiedata — het verslag van de volledige levenscyclus van software, inclusief code-snapshots, codewijzigingen en gebeurtenissen zoals issues en pull requests. Getraind op basis van Llama 3, behaalt ons resulterende redeneermodel, Llama3-SWE-RL-70B, een oplossingspercentage van 41,0% op SWE-bench Verified — een door mensen geverifieerde verzameling van real-world GitHub-issues. Voor zover wij weten, is dit de beste prestatie die tot nu toe is gerapporteerd voor middelgrote (<100B) LLMs, en zelfs vergelijkbaar met toonaangevende propriëtaire LLMs zoals GPT-4o. Verrassend genoeg heeft Llama3-SWE-RL, ondanks het uitvoeren van RL uitsluitend op software-evolutiedata, zelfs gegeneraliseerde redeneervaardigheden ontwikkeld. Het laat bijvoorbeeld verbeterde resultaten zien op vijf taken buiten het domein, namelijk functieprogrammering, bibliotheekgebruik, coderedenering, wiskunde en algemeen taalbegrip, terwijl een baseline met supervised finetuning gemiddeld zelfs tot prestatievermindering leidt. Over het algemeen opent SWE-RL een nieuwe richting om de redeneervaardigheden van LLMs te verbeteren door middel van reinforcement learning op massale software engineering-data.
Recente vooruitgang in open-source multimodale grote taalmodellen (MLLMs) heeft zich voornamelijk gericht op het verbeteren van fundamentele capaciteiten, waardoor een aanzienlijke kloof ontstaat in de afstemming op menselijke voorkeuren. Dit artikel introduceert OmniAlign-V, een uitgebreide dataset van 200K hoogwaardige trainingsvoorbeelden met diverse afbeeldingen, complexe vragen en uiteenlopende antwoordformaten om de afstemming van MLLMs op menselijke voorkeuren te verbeteren. We presenteren ook MM-AlignBench, een door mensen geannoteerde benchmark die specifiek is ontworpen om de afstemming van MLLMs op menselijke waarden te evalueren. Experimentele resultaten tonen aan dat het finetunen van MLLMs met OmniAlign-V, gebruikmakend van Supervised Fine-Tuning (SFT) of Direct Preference Optimization (DPO), de afstemming op menselijke voorkeuren aanzienlijk verbetert, terwijl de prestaties op standaard VQA-benchmarks behouden of zelfs verbeterd worden, waardoor hun fundamentele capaciteiten intact blijven. Onze datasets, benchmark, code en checkpoints zijn vrijgegeven op https://github.com/PhoenixZ810/OmniAlign-V.
Een efficiënte implementatie van aandacht (attention) is essentieel voor grote modellen vanwege de kwadratische tijdcomplexiteit. Gelukkig vertoont aandacht vaak sparsity, wat betekent dat veel waarden in de aandachtmatrix (attention map) bijna nul zijn, waardoor de bijbehorende berekeningen kunnen worden overgeslagen. Veel studies hebben dit sparse patroon benut om aandacht te versnellen. De meeste bestaande werken richten zich echter op het optimaliseren van aandacht binnen specifieke modellen door bepaalde sparse patronen van de aandachtmatrix te benutten. Een universele sparse aandacht die zowel de versnelling als de end-to-end prestaties van diverse modellen garandeert, blijft nog ongrijpbaar. In dit artikel stellen we SpargeAttn voor, een universele sparse en gekwantiseerde aandacht voor elk model. Onze methode gebruikt een tweestaps online filter: in de eerste stap voorspellen we snel en nauwkeurig de aandachtmatrix, waardoor sommige matrixvermenigvuldigingen in de aandacht kunnen worden overgeslagen. In de tweede stap ontwerpen we een online softmax-aware filter dat geen extra overhead veroorzaakt en nog meer matrixvermenigvuldigingen overslaat. Experimenten tonen aan dat onze methode diverse modellen aanzienlijk versnelt, waaronder taal-, beeld- en videogeneratie, zonder in te leveren op end-to-end metrieken. De code is beschikbaar op https://github.com/thu-ml/SpargeAttn.
Achtergrondconsistentie blijft een belangrijke uitdaging in beeldbewerkingstaken. Ondanks uitgebreide ontwikkelingen kampen bestaande methoden nog steeds met een afweging tussen het behouden van gelijkenis met het originele beeld en het genereren van inhoud die aansluit bij het doel. Hier stellen we KV-Edit voor, een trainingsvrije aanpak die gebruikmaakt van de KV-cache in DiTs om achtergrondconsistentie te behouden, waarbij achtergrondtokens worden bewaard in plaats van opnieuw gegenereerd, waardoor complexe mechanismen of kostbare training overbodig worden en uiteindelijk nieuwe inhoud wordt gegenereerd die naadloos integreert met de achtergrond binnen door de gebruiker opgegeven regio's. We onderzoeken verder het geheugengebruik van de KV-cache tijdens het bewerken en optimaliseren de ruimtecomplexiteit naar O(1) met behulp van een inversievrije methode. Onze aanpak is compatibel met elk DiT-gebaseerd generatief model zonder aanvullende training. Experimenten tonen aan dat KV-Edit bestaande methoden aanzienlijk overtreft wat betreft zowel achtergrond- als beeldkwaliteit, en zelfs trainingsgebaseerde methoden overstijgt. De projectwebpagina is beschikbaar op https://xilluill.github.io/projectpages/KV-Edit.
Meerlaagse beeldgeneratie is een fundamentele taak die gebruikers in staat stelt om specifieke beeldlagen te isoleren, te selecteren en te bewerken, waardoor de interactie met generatieve modellen wordt gerevolutioneerd. In dit artikel introduceren we de Anonymous Region Transformer (ART), die de directe generatie van variabele meerlaagse transparante beelden mogelijk maakt op basis van een globale tekstprompt en een anonieme regiolay-out. Geïnspireerd door de Schematheorie, die suggereert dat kennis is georganiseerd in kaders (schema's) die mensen in staat stellen nieuwe informatie te interpreteren en te leren door deze te koppelen aan eerder opgedane kennis, stelt deze anonieme regiolay-out het generatieve model in staat om autonoom te bepalen welke set visuele tokens moet overeenkomen met welke teksttokens, wat in contrast staat met de voorheen dominante semantische lay-out voor de beeldgeneratietaak. Bovendien vermindert het laaggewijze regio-uitsnijdmechanisme, dat alleen de visuele tokens selecteert die bij elke anonieme regio horen, de rekenkosten voor aandacht aanzienlijk en maakt het de efficiënte generatie van beelden met talrijke afzonderlijke lagen mogelijk (bijv. 50+). In vergelijking met de volledige aandachtbenadering is onze methode meer dan 12 keer sneller en vertoont deze minder laagconflicten. Daarnaast stellen we een hoogwaardige meerlaagse transparante beeldauto-encoder voor die het directe coderen en decoderen van de transparantie van variabele meerlaagse beelden op een gezamenlijke manier ondersteunt. Door precieze controle en schaalbare laaggeneratie mogelijk te maken, vestigt ART een nieuw paradigma voor interactieve contentcreatie.
De snelle vooruitgang in de computertechnologie verhoogt de schaal en kosten van het trainen van Large Language Models (LLM's) aanzienlijk. Het nauwkeurig voorspellen van de prestaties op downstream taken vóór het trainen van het model is cruciaal voor een efficiënte toewijzing van middelen, maar blijft uitdagend vanwege twee primaire beperkingen: (1) het "emergence-fenomeen", waarbij prestatiemetingen voor downstream taken pas betekenisvol worden na uitgebreide training, wat het gebruik van kleinere modellen voor voorspelling beperkt; (2) ongelijke verdelingen van taakmoeilijkheden en het ontbreken van consistente schaalwetten, wat resulteert in aanzienlijke variabiliteit in metingen. Bestaande methoden voor prestatievoorspelling hebben beperkte nauwkeurigheid en betrouwbaarheid, wat de beoordeling van de potentiële mogelijkheden van LLM's belemmert. Om deze uitdagingen aan te pakken, stellen we een Clustering-On-Difficulty (COD) framework voor voor het voorspellen van downstream prestaties. COD construeert eerst een voorspelbare ondersteuningssubset door taken te clusteren op basis van moeilijkheidskenmerken, waarbij strategisch niet-emergente en niet-schaalbare clusters worden uitgesloten. De scores op de geselecteerde subset dienen als effectieve tussenliggende voorspellers van downstream prestaties op de volledige evaluatieset. Met theoretische ondersteuning leiden we een mappingfunctie af die prestatiemetingen van de voorspelbare subset omzet naar de volledige evaluatieset, waardoor een nauwkeurige extrapolatie van de downstream prestaties van LLM's wordt gegarandeerd. De voorgestelde methode is toegepast om de prestatieschaling van een 70B LLM te voorspellen, wat bruikbare inzichten biedt voor de toewijzing van trainingsmiddelen en helpt bij het monitoren van het trainingsproces. Opmerkelijk is dat COD opmerkelijke voorspellingsnauwkeurigheid bereikt op het 70B LLM door gebruik te maken van een ensemble van kleine modellen, met een absolute gemiddelde afwijking van 1,36% over acht belangrijke LLM-evaluatiebenchmarks.
Wetenschappelijk experimenteren, een hoeksteen van menselijke vooruitgang, vereist strengheid in betrouwbaarheid, methodische controle en interpreteerbaarheid om zinvolle resultaten op te leveren. Ondanks de groeiende mogelijkheden van grote taalmodelen (LLM's) bij het automatiseren van verschillende aspecten van het wetenschappelijke proces, blijft het automatiseren van rigoureus experimenteren een aanzienlijke uitdaging. Om deze kloof te overbruggen, stellen we Curie voor, een AI-agentframework ontworpen om strengheid in het experimenteerproces in te bedden via drie belangrijke componenten: een intra-agent strengheidsmodule om de betrouwbaarheid te verbeteren, een inter-agent strengheidsmodule om methodische controle te behouden, en een experimentkennismodule om de interpreteerbaarheid te vergroten. Om Curie te evalueren, hebben we een nieuwe experimentele benchmark ontworpen bestaande uit 46 vragen verdeeld over vier computerwetenschappelijke domeinen, afgeleid van invloedrijke onderzoeksartikelen en veelgebruikte open-sourceprojecten. Vergeleken met de sterkste geteste baseline behalen we een 3,4 keer verbetering in het correct beantwoorden van experimentele vragen. Curie is open-source beschikbaar op https://github.com/Just-Curieous/Curie.
Recente studies hebben onderzocht hoe verschillende LoRA's gecombineerd kunnen worden om geleerde stijl en inhoud gezamenlijk te genereren. Bestaande methoden slagen er echter niet in om zowel het oorspronkelijke onderwerp als de stijl effectief tegelijkertijd te behouden, of vereisen aanvullende training. In dit artikel stellen we dat de intrinsieke eigenschappen van LoRA diffusiemodellen effectief kunnen begeleiden bij het samenvoegen van geleerd onderwerp en stijl. Op basis van dit inzicht introduceren we K-LoRA, een eenvoudige maar effectieve LoRA-fusiebenadering zonder training. In elke aandachtlaag vergelijkt K-LoRA de Top-K elementen in elke te fuseren LoRA, om te bepalen welke LoRA geselecteerd moet worden voor optimale fusie. Dit selectiemechanisme zorgt ervoor dat de meest representatieve kenmerken van zowel onderwerp als stijl behouden blijven tijdens het fusieproces, waardoor hun bijdragen effectief in balans worden gebracht. Experimentele resultaten tonen aan dat de voorgestelde methode de door de oorspronkelijke LoRA's geleerde onderwerp- en stijlinformatie effectief integreert, en zowel kwalitatief als kwantitatief beter presteert dan state-of-the-art trainingsgebaseerde benaderingen.
Om visuele informatie te benutten, vertrouwt het Multimodal Large Language Model (MLLM) op het waarnemingsproces van zijn visuele encoder. De volledigheid en nauwkeurigheid van de visuele waarneming hebben een aanzienlijke invloed op de precisie van ruimtelijk redeneren, gedetailleerd begrip en andere taken. MLLM beschikt echter nog niet over de autonome capaciteit om zijn eigen visuele waarnemingsprocessen te beheersen, zoals het selectief bekijken van specifieke regio's in een afbeelding of het focussen op informatie gerelateerd aan specifieke objectcategorieën. In dit werk introduceren we het concept van de Visual Perception Token, met als doel MLLM uit te rusten met een mechanisme om zijn visuele waarnemingsprocessen te controleren. We ontwerpen twee typen Visual Perception Tokens, genaamd de Region Selection Token en de Vision Re-Encoding Token. MLLM's genereren deze tokens autonoom, net zoals ze tekst genereren, en gebruiken ze om aanvullende visuele waarnemingsacties te activeren. De Region Selection Token identificeert expliciet specifieke regio's in een afbeelding die verdere waarneming vereisen, terwijl de Vision Re-Encoding Token zijn verborgen toestanden gebruikt als controlesignalen om aanvullende visuele waarnemingsprocessen te sturen. Uitgebreide experimenten tonen de voordelen van deze tokens aan bij het omgaan met ruimtelijk redeneren, het verbeteren van gedetailleerd begrip en andere taken. Gemiddeld verbetert de introductie van Visual Perception Tokens de prestaties van een 2B-model met 23,6%, waarbij de score stijgt van 0,572 naar 0,708, en overtreft het zelfs een 7B-parametermodel met 13,4% (van 0,624). Bekijk onze repo op https://github.com/yu-rp/VisualPerceptionToken.
Trainingsstabiliteit is een aanhoudende uitdaging bij het vooraf trainen van grote taalmmodellen (LLMs), met name voor architecturen zoals Post-Norm Transformers, die gevoelig zijn voor gradientexplosie en -dissipatie. In dit artikel stellen we Scale-Distribution Decoupling (SDD) voor, een nieuwe aanpak die de training stabiliseert door expliciet de schaal en verdeling van de gewichtsmatrix in volledig verbonden lagen te ontkoppelen. SDD past een normalisatiemechanisme toe om activeringen te reguleren en een leerbare schaalvector om goed geconditioneerde gradients te behouden, waardoor gradientexplosie en -dissipatie effectief worden voorkomen. Deze scheiding verbetert de optimalisatie-efficiëntie, vooral in diepe netwerken, door stabiele gradientpropagatie te garanderen. Experimentele resultaten tonen aan dat onze methode de training stabiliseert over verschillende LLM-architecturen en bestaande technieken overtreft in verschillende normalisatieconfiguraties. Bovendien is de voorgestelde methode lichtgewicht en compatibel met bestaande frameworks, waardoor het een praktische oplossing is voor het stabiliseren van LLM-training. Code is beschikbaar op https://github.com/kaihemo/SDD.
We introduceren WebGames, een uitgebreide benchmark suite ontworpen om algemene web-browsing AI-agenten te evalueren aan de hand van een verzameling van 50+ interactieve uitdagingen. Deze uitdagingen zijn specifiek ontworpen om eenvoudig te zijn voor mensen, terwijl ze systematisch de beperkingen van huidige AI-systemen testen op het gebied van fundamentele browserinteracties, geavanceerde invoerverwerking, cognitieve taken, workflowautomatisering en interactief entertainment. Ons framework elimineert externe afhankelijkheden door middel van een hermetische testomgeving, wat reproduceerbare evaluatie met verifieerbare grondwaarheid-oplossingen garandeert. We evalueren toonaangevende visie-taalmodellen, waaronder GPT-4o, Claude Computer-Use, Gemini-1.5-Pro en Qwen2-VL, tegenover menselijke prestaties. De resultaten tonen een aanzienlijk vermogensgat, waarbij het beste AI-systeem slechts een slagingspercentage van 43,1% behaalt in vergelijking met menselijke prestaties van 95,7%, wat fundamentele beperkingen benadrukt in het vermogen van huidige AI-systemen om veelvoorkomende webinteractiepatronen te hanteren die mensen intuïtief vinden. De benchmark is publiekelijk beschikbaar op webgames.convergence.ai en biedt een lichtgewicht, client-side implementatie die snelle evaluatiecycli mogelijk maakt. Door zijn modulaire architectuur en gestandaardiseerde uitdagingsspecificaties biedt WebGames een robuuste basis voor het meten van vooruitgang in de ontwikkeling van capabelere web-browsing agenten.
Gemotiveerd door het verminderen van de reken- en opslagkosten van LLM's, hebben modelcompressie en KV-cachecompressie veel aandacht gekregen van onderzoekers. Huidige methoden leggen echter vooral de nadruk op het behouden van de prestaties van gecomprimeerde LLM's, zoals gemeten aan de hand van perplexiteit of eenvoudige nauwkeurigheid bij taken zoals common sense kennisvragen en basis rekenkundig redeneren. In deze blog presenteren we een kort overzicht van recente vooruitgang in LLM's met betrekking tot retrieval-augmented generation, meerstaps redeneren, externe tools en computationele expressiviteit, die allemaal de prestaties van LLM's aanzienlijk verbeteren. Vervolgens stellen we een loterij-LLM-hypothese voor, die suggereert dat voor een gegeven LLM en taak er een kleinere loterij-LLM bestaat die met behulp van meerstaps redeneren en externe tools dezelfde prestaties kan leveren als het originele LLM. Op basis van het overzicht van de huidige vooruitgang in LLM's, bespreken en vatten we de essentiële capaciteiten samen die de loterij-LLM en KV-cachecompressie moeten bezitten, die momenteel over het hoofd worden gezien in bestaande methoden.
Multimodale Large Language Models (MLLMs) hebben de afgelopen jaren een snelle vooruitgang geboekt in visuele herkenningstaken. Gezien hun potentiële integratie in veel kritieke toepassingen, is het belangrijk om de beperkingen van hun visuele perceptie te begrijpen. In dit werk onderzoeken we of MLLMs kleine visuele details even effectief kunnen waarnemen als grote details bij het beantwoorden van vragen over afbeeldingen. We observeren dat hun prestaties zeer gevoelig zijn voor de grootte van het visuele onderwerp van de vraag, en tonen verder aan dat dit effect feitelijk causaal is door een interventiestudie uit te voeren. Vervolgens bestuderen we de aandachtspatronen van MLLMs bij het beantwoorden van visuele vragen, en vinden intrigerend genoeg dat ze consistent weten waar ze moeten kijken, zelfs wanneer ze het verkeerde antwoord geven. Op basis van deze bevindingen stellen we vervolgens trainingsvrije visuele interventiemethoden voor die gebruikmaken van de interne kennis van elke MLLM zelf, in de vorm van aandacht- en gradiëntkaarten, om hun perceptie van kleine visuele details te verbeteren. We evalueren onze voorgestelde methoden op twee veelgebruikte MLLMs en zeven visuele vraag-antwoordbenchmarks en laten zien dat ze de nauwkeurigheid van MLLMs aanzienlijk kunnen verbeteren zonder enige training te vereisen. Onze resultaten verduidelijken het risico van het toepassen van MLLMs op visuele herkenningstaken met betrekking tot kleine details en geven aan dat visuele interventie met behulp van de interne toestand van het model een veelbelovende richting is om dit risico te mitigeren.
Evaluaties van grote taalmodellen (LLM's) vertrouwen doorgaans op geaggregeerde metrieken zoals nauwkeurigheid of menselijke voorkeur, waarbij gemiddelden worden genomen over gebruikers en prompts. Dit gemiddelde verhult echter gebruikers- en promptspecifieke variaties in modelprestaties. Om dit aan te pakken, stellen we Prompt-to-Leaderboard (P2L) voor, een methode die leaderboards genereert die specifiek zijn voor een prompt. De kernidee is om een LLM te trainen dat natuurlijke taalprompts als invoer neemt en een vector van Bradley-Terry-coëfficiënten uitvoert, die vervolgens worden gebruikt om de menselijke voorkeursstem te voorspellen. De resulterende promptspecifieke leaderboards maken het mogelijk om onbewaakte taakspecifieke evaluaties uit te voeren, optimale routering van queries naar modellen, personalisatie en geautomatiseerde evaluatie van modelsterktes en -zwaktes. Data van Chatbot Arena suggereren dat P2L het genuanceerde landschap van taalmodelprestaties beter vastlegt dan de gemiddelde leaderboard. Bovendien suggereren onze bevindingen dat P2L's vermogen om promptspecifieke evaluaties te produceren een machtswet-schaal volgt, vergelijkbaar met wat wordt waargenomen bij LLM's zelf. In januari 2025 behaalde de router die we op basis van deze methodologie hebben getraind de eerste plaats in de Chatbot Arena leaderboard. Onze code is beschikbaar via deze GitHub-link: https://github.com/lmarena/p2l.
Iteratieve datageneratie en modelhertraining worden veel gebruikt om grote taalmmodellen (LLMs) af te stemmen. Dit omvat doorgaans een beleidsmodel om on-policy reacties te genereren en een beloningsmodel om de selectie van trainingsdata te begeleiden. Direct Preference Optimization (DPO) verbetert dit proces verder door voorkeursparen van gekozen en afgewezen reacties te construeren. In dit werk streven we ernaar om het aantal on-policy samples op te schalen via herhaalde willekeurige steekproeven om de afstemmingsprestatie te verbeteren. De conventionele praktijk selecteert het sample met de hoogste beloning als gekozen en het laagste als afgewezen voor DPO. Onze experimenten tonen echter aan dat deze strategie leidt tot een prestatievermindering naarmate de steekproefomvang toeneemt. Om dit aan te pakken, onderzoeken we de constructie van voorkeursdata vanuit het perspectief van de onderliggende normale verdeling van samplebeloningen. We categoriseren de beloningsruimte in zeven representatieve punten en verkennen systematisch alle 21 (C_7^2) paarsgewijze combinaties. Door evaluaties op vier modellen met behulp van AlpacaEval 2, ontdekken we dat het selecteren van de afgewezen reactie op beloningspositie mu - 2sigma in plaats van de minimale beloning, cruciaal is voor optimale prestaties. We introduceren uiteindelijk een schaalbare strategie voor de constructie van voorkeursdata die de modelprestaties consistent verbetert naarmate de steekproefomvang toeneemt.
In dit artikel introduceren we LDGen, een nieuwe methode voor het integreren van grote taalmodellen (LLM's) in bestaande tekst-naar-beeld diffusiemodellen, terwijl de rekenkundige eisen worden geminimaliseerd. Traditionele tekstencoders, zoals CLIP en T5, vertonen beperkingen in meertalige verwerking, wat de beeldgeneratie over diverse talen hindert. Wij pakken deze uitdagingen aan door gebruik te maken van de geavanceerde mogelijkheden van LLM's. Onze aanpak hanteert een taalrepresentatiestrategie die hiërarchische bijschriftoptimalisatie en menselijke instructietechnieken toepast om precieze semantische informatie te verkrijgen. Vervolgens integreren we een lichtgewicht adapter en een cross-modale verfijner om efficiënte kenmerkuitlijning en interactie tussen LLM's en beeldkenmerken te faciliteren. LDGen verkort de trainingsduur en maakt zero-shot meertalige beeldgeneratie mogelijk. Experimentele resultaten tonen aan dat onze methode de basislijnmodellen overtreft in zowel promptnaleving als beeldesthetische kwaliteit, terwijl naadloos meerdere talen worden ondersteund. Projectpagina: https://zrealli.github.io/LDGen.
Auditieve foundation models, waaronder auditieve large language models (LLM's), verwerken alle geluidsinputs op dezelfde manier, onafhankelijk van luisteraarperceptie. Menselijke auditieve perceptie is echter van nature selectief: luisteraars richten zich op specifieke sprekers terwijl ze anderen negeren in complexe auditieve scènes. Bestaande modellen nemen deze selectiviteit niet mee, wat hun vermogen beperkt om perceptie-afgestemde reacties te genereren. Om dit aan te pakken, introduceren we Intention-Informed Auditory Scene Understanding (II-ASU) en presenteren we Auditory Attention-Driven LLM (AAD-LLM), een prototypesysteem dat hersensignalen integreert om de aandacht van de luisteraar af te leiden. AAD-LLM breidt een auditieve LLM uit door intracraniële elektro-encefalografie (iEEG)-opnames te incorporeren om te decoderen naar welke spreker een luisteraar luistert en de reacties dienovereenkomstig te verfijnen. Het model voorspelt eerst de aandachtstrekkende spreker op basis van neurale activiteit en conditioneert vervolgens de reactiegeneratie op deze afgeleide aandachtstoestand. We evalueren AAD-LLM op sprekersbeschrijving, spraaktranscriptie en -extractie, en vraagbeantwoording in scenario's met meerdere sprekers, waarbij zowel objectieve als subjectieve beoordelingen een verbeterde afstemming met de intentie van de luisteraar laten zien. Door een eerste stap te zetten naar intentiebewuste auditieve AI, verkent dit werk een nieuw paradigma waarin luisteraarperceptie machine-luisteren informeert, wat de weg vrijmaakt voor toekomstige luisteraargerichte auditieve systemen. Demo en code beschikbaar: https://aad-llm.github.io.
Grote Taalmodellen (LLMs) zijn naar voren gekomen als transformerende instrumenten in kunstmatige intelligentie (AI), waarbij ze opmerkelijke capaciteiten vertonen in uiteenlopende taken zoals tekstgeneratie, redeneren en besluitvorming. Hoewel hun succes voornamelijk is gedreven door vooruitgang in rekenkracht en deep learning-architecturen, vereisen opkomende problemen -- op gebieden zoals onzekerheidskwantificering, besluitvorming, causale inferentie en distributieverschuiving -- een diepere betrokkenheid van het vakgebied statistiek. Dit artikel onderzoekt potentiële gebieden waar statistici belangrijke bijdragen kunnen leveren aan de ontwikkeling van LLMs, met name die welke gericht zijn op het bevorderen van betrouwbaarheid en transparantie voor menselijke gebruikers. Daarom richten we ons op kwesties zoals onzekerheidskwantificering, interpreteerbaarheid, eerlijkheid, privacy, watermarking en modelaanpassing. We overwegen ook mogelijke rollen voor LLMs in statistische analyse. Door AI en statistiek met elkaar te verbinden, streven we ernaar een diepere samenwerking te bevorderen die zowel de theoretische fundamenten als de praktische toepassingen van LLMs vooruithelpt, en uiteindelijk hun rol vormgeeft bij het aanpakken van complexe maatschappelijke uitdagingen.
State space models (SSMs), zoals Mamba, zijn naar voren gekomen als een efficiënt alternatief voor transformers voor het modelleren van lange-contextsequenties. Ondanks hun toenemende adoptie ontbreekt het SSMs echter aan de interpreteerbaarheidsinstrumenten die cruciaal zijn geweest voor het begrijpen en verbeteren van aandacht-gebaseerde architecturen. Hoewel recente inspanningen inzicht bieden in de interne mechanismen van Mamba, ontbinden ze niet expliciet de bijdragen op tokenniveau, wat leidt tot hiaten in het begrijpen van hoe Mamba sequenties selectief verwerkt over verschillende lagen. In dit werk introduceren we LaTIM, een nieuwe methode voor token-niveau ontleding voor zowel Mamba-1 als Mamba-2, die fijnmazige interpreteerbaarheid mogelijk maakt. We evalueren onze methode uitgebreid in diverse taken, waaronder machinaal vertalen, kopiëren en retrieval-gebaseerde generatie, en tonen aan dat deze effectief is in het onthullen van Mamba's token-token interactiepatronen.
We introduceren Shakti VLM, een familie van vision-language modellen met een capaciteit van 1B en 4B parameters, ontworpen om de uitdagingen op het gebied van data-efficiëntie in multimodale learning aan te pakken. Hoewel recente VLMs sterke prestaties behalen door middel van uitgebreide trainingsdata, maken Shakti-modellen gebruik van architectonische innovaties om competitieve resultaten te bereiken met minder tokens. Belangrijke verbeteringen omvatten QK-Normalisatie voor aandachtstabiliteit, hybride normalisatietechnieken en verbeterde positionele codering. Een drietraps trainingsstrategie optimaliseert verder de leer efficiëntie. Evaluaties tonen aan dat Shakti-VLM-1B en Shakti-VLM-4B uitblinken in documentbegrip, visueel redeneren, OCR-extractie en algemeen multimodaal redeneren. Onze resultaten benadrukken dat hoge prestaties kunnen worden bereikt door modelontwerp en trainingsstrategie in plaats van louter datavolume, wat Shakti tot een efficiënte oplossing maakt voor multimodale taken op bedrijfsschaal.
We introduceren WiCkeD, een eenvoudige methode om de complexiteit van bestaande meerkeuzebenchmarks te verhogen door willekeurig een keuze te vervangen door "Geen van de bovenstaande", een methode die vaak wordt gebruikt in educatieve tests. We laten zien dat WiCkeD automatisch kan worden toegepast op elke bestaande benchmark, waardoor deze uitdagender wordt. We passen WiCkeD toe op 6 populaire benchmarks en gebruiken het om 18 open-weight LLM's te evalueren. De prestaties van de modellen dalen gemiddeld met 12,1 punten ten opzichte van de originele versies van de datasets. Wanneer chain-of-thought wordt gebruikt op 3 MMLU-datasets, is de prestatievermindering voor de WiCkeD-variant vergelijkbaar met die waargenomen bij het direct gebruiken van de LLM's, wat aantoont dat WiCkeD ook uitdagend is voor modellen met verbeterde redeneervaardigheden. WiCkeD onthult ook dat sommige modellen gevoeliger zijn voor het extra redeneren dat vereist is, wat aanvullende informatie oplevert ten opzichte van de originele benchmarks. We publiceren onze code en data op https://github.com/ahmedselhady/wicked-benchmarks.
Moderne taalmodellen vertrouwen op statische vocabulaire, die vastgesteld worden voorafgaand aan het vooraf trainen, in tegenstelling tot de adaptieve woordenschatverwerving die wordt waargenomen bij menselijke taalverwerving. Om deze kloof te overbruggen, introduceren we vocabulaire curriculumleren, een aanpak die de efficiëntie van het vooraf trainen verbetert met log-lineaire schaalwinsten ten opzichte van de vocabulairegrootte. Onze methode wisselt af tussen entropie-gestuurde vocabulaire-uitbreiding en modeloptimalisatie, waardoor modellen overdraagbare representaties kunnen leren over diverse tokenisatiegranulariteiten heen. Deze aanpak leidt van nature tot een optimaal patroon voor computationele toewijzing: langere tokens vangen voorspelbare inhoud op, terwijl kortere tokens zich richten op complexere, moeilijker te voorspellen contexten. Experimenten met kleinschalige GPT-modellen tonen verbeterde schaalefficiëntie aan, wat de effectiviteit van dynamische tokenisatie onderstreept. We stellen onze code beschikbaar om verder onderzoek te ondersteunen en zijn van plan onze experimenten uit te breiden naar grotere modellen en diverse domeinen.