Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het post-trainen van taalmmodellen (LMs) met reinforcement learning (RL) kan hun complexe redeneervermogen verbeteren zonder supervised fine-tuning, zoals aangetoond door DeepSeek-R1-Zero. Het effectief inzetten van RL voor LMs vereist echter aanzienlijke parallelisatie om de inferentie op te schalen, wat niet-triviale technische uitdagingen met zich meebrengt (bijv. latentie, geheugen en betrouwbaarheid) naast steeds hogere financiële kosten. Wij presenteren Swarm sAmpling Policy Optimization (SAPO), een volledig gedecentraliseerd en asynchroon RL post-trainingsalgoritme. SAPO is ontworpen voor gedecentraliseerde netwerken van heterogene rekenknooppunten, waarbij elk knooppunt zijn eigen beleidsmodel(len) beheert terwijl het "rollouts" deelt met anderen in het netwerk; er zijn geen expliciete aannames nodig over latentie, modelhomogeniteit of hardware, en knooppunten kunnen indien gewenst in isolatie werken. Hierdoor vermijdt het algoritme veelvoorkomende knelpunten bij het opschalen van RL post-training, terwijl het ook nieuwe mogelijkheden biedt (en zelfs aanmoedigt). Door rollouts te bemonsteren die "gedeeld" zijn over het netwerk, maakt het "Aha-momenten" mogelijk om zich te verspreiden, waardoor het leerproces wordt gebootstrapt. In dit artikel laten we zien dat SAPO cumulatieve beloningswinsten tot 94% behaalde in gecontroleerde experimenten. We delen ook inzichten uit tests op een netwerk met duizenden knooppunten, bijgedragen door leden van de Gensyn-gemeenschap, die het algoritme uitvoerden op diverse hardware en modellen tijdens een open-source demo.
Parallel denken is naar voren gekomen als een nieuwe benadering om de redeneervaardigheden van grote taalmodellen (LLMs) te verbeteren door meerdere redeneerpaden gelijktijdig te verkennen. Het activeren van dergelijke capaciteiten via training blijft echter een uitdaging, aangezien bestaande methoden voornamelijk vertrouwen op supervised fine-tuning (SFT) over synthetische data, wat teacher-forced imitatie aanmoedigt in plaats van exploratie en generalisatie. In tegenstelling hiermee stellen wij Parallel-R1 voor, het eerste reinforcement learning (RL) raamwerk dat parallel denkgedrag mogelijk maakt voor complexe real-world redeneertaken. Ons raamwerk maakt gebruik van een progressief curriculum dat expliciet het cold-start probleem aanpakt bij het trainen van parallel denken met RL. We gebruiken eerst SFT op prompt-gegenereerde trajecten van eenvoudigere taken om het parallel denkvermogen in te prenten, en schakelen vervolgens over naar RL om deze vaardigheid te verkennen en te generaliseren op moeilijkere problemen. Experimenten op verschillende wiskundige benchmarks, waaronder MATH, AMC23 en AIME, tonen aan dat Parallel-R1 succesvol parallel denken inboet, wat leidt tot een nauwkeurigheidsverbetering van 8,4% ten opzichte van het sequentiële denkmodel dat direct op uitdagende taken met RL is getraind. Verdere analyse onthult een duidelijke verschuiving in het denkgedrag van het model: in een vroeg stadium gebruikt het parallel denken als een exploratiestrategie, terwijl het in een later stadium dezelfde capaciteit gebruikt voor multi-perspectief verificatie. Het meest significant is dat we parallel denken valideren als een mid-training exploratiescaffold, waarbij deze tijdelijke verkenningsfase een hoger prestatieplafond na RL ontsluit, wat een verbetering van 42,9% oplevert ten opzichte van de baseline op AIME25. Ons model, data en code zullen open-source worden gemaakt op https://github.com/zhengkid/Parallel-R1.
Multimodale grote taalmodellen (MLLMs) die zijn getraind met visuele instructieafstemming hebben sterke prestaties behaald in diverse taken, maar blijven beperkt in visueel gerichte taken zoals objecttelling of ruimtelijk redeneren. Wij schrijven deze kloof toe aan het heersende tekstgerichte supervisieparadigma, dat slechts indirecte begeleiding biedt voor het visuele pad en vaak leidt tot het verlies van fijnmazige visuele details tijdens de training. In dit artikel presenteren we VIsual Representation ALignment (VIRAL), een eenvoudige maar effectieve regularisatiestrategie die de interne visuele representaties van MLLMs afstemt op die van vooraf getrainde visuele basis modellen (VFMs). Door deze afstemming expliciet af te dwingen, stelt VIRAL het model in staat niet alleen kritieke visuele details van de visuele invoercodering te behouden, maar ook aanvullende visuele kennis van VFMs aan te vullen, waardoor het vermogen om complexe visuele invoer te interpreteren wordt verbeterd. Onze experimenten tonen consistente verbeteringen aan in alle taken op veelgebruikte multimodale benchmarks. Daarnaast voeren we uitgebreide ablatiestudies uit om de belangrijkste ontwerpkeuzes achter ons framework te valideren. Wij geloven dat deze eenvoudige bevinding een belangrijke richting opent voor de effectieve integratie van visuele informatie in de training van MLLMs.
Recente vooruitgang in grote multimodale modellen heeft beeldgebaseerde tools gecombineerd met reinforcement learning om visuele problemen aan te pakken. Bestaande open-source benaderingen vertonen echter vaak monotone redeneerpatronen en staan slechts een beperkt aantal interactiestappen toe, waardoor ze ongeschikt zijn voor moeilijke taken die trial-and-error exploratie vereisen. In dit werk pakken we deze beperking aan door toolgebaseerde interacties op te schalen en introduceren we Mini-o3, een systeem dat diep, multi-staps redeneren uitvoert -- over tientallen stappen -- en state-of-the-art prestaties behaalt op uitdagende visuele zoekopdrachten. Onze methode voor het reproduceren van OpenAI o3-achtig gedrag bestaat uit drie belangrijke componenten. Ten eerste construeren we de Visual Probe Dataset, een verzameling van duizenden uitdagende visuele zoekproblemen die zijn ontworpen voor exploratief redeneren. Ten tweede ontwikkelen we een iteratief dataverzamelingsproces om cold-start trajecten te verkrijgen die diverse redeneerpatronen vertonen, waaronder depth-first search, trial-and-error en doelbehoud. Ten derde stellen we een over-turn masking strategie voor die voorkomt dat over-turn reacties (die het maximale aantal stappen bereiken) worden bestraft tijdens reinforcement learning, waardoor trainings-efficiëntie wordt gebalanceerd met schaalbaarheid tijdens testen. Ondanks training met een bovengrens van slechts zes interactiestappen, genereert ons model trajecten die natuurlijk schalen naar tientallen stappen tijdens inferentie, waarbij de nauwkeurigheid verbetert naarmate het aantal stappen toeneemt. Uitgebreide experimenten tonen aan dat Mini-o3 rijke redeneerpatronen en diepe denkpaden produceert, waardoor uitdagende visuele zoekproblemen effectief worden opgelost.
Unified multimodal models (UMMs) verenigen visueel begrip en generatie binnen een enkele architectuur. Traditionele training is echter gebaseerd op afbeelding-tekstparen (of -reeksen) waarvan de bijschriften doorgaans beperkt zijn en fijnmazige visuele details missen—zelfs wanneer ze honderden woorden gebruiken om een eenvoudige afbeelding te beschrijven. Wij introduceren Reconstruction Alignment (RecA), een resource-efficiënte post-trainingsmethode die visueel begrip-encoder-embeddings gebruikt als dichte "tekstprompts," waardoor rijke supervisie wordt geboden zonder bijschriften. Concreet conditioneert RecA een UMM op zijn eigen visueel begrip-embeddings en optimaliseert het om de invoerafbeelding te reconstrueren met een zelfgesuperviseerd reconstructieverlies, waardoor begrip en generatie opnieuw worden uitgelijnd. Ondanks zijn eenvoud is RecA breed toepasbaar: over autoregressieve, masked-autoregressieve en diffusie-gebaseerde UMMs heen verbetert het consistent de generatie- en bewerkingsnauwkeurigheid. Met slechts 27 GPU-uren verbetert post-training met RecA de prestaties van afbeeldingsgeneratie aanzienlijk op GenEval (0.73→0.90) en DPGBench (80.93→88.15), terwijl het ook bewerkingsbenchmarks versterkt (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Opmerkelijk is dat RecA veel grotere open-source modellen overtreft en breed toepasbaar is over diverse UMM-architecturen, wat het vestigt als een efficiënte en algemene post-trainingsuitlijningsstrategie voor UMMs.
Het uitvoeren van taakgestuurde taken in dynamische visuele omgevingen blijft een centrale uitdaging in embodied AI. Bestaande Vision-Language-Action (VLA)-modellen hanteren voornamelijk reactieve state-to-action-mapping, wat vaak leidt tot kortzichtige gedragingen en een gebrek aan robuustheid in dynamische scènes. In dit artikel introduceren we F1, een vooraf getraind VLA-framework dat visuele vooruitziendheid integreert in de besluitvormingspijplijn. F1 maakt gebruik van een Mixture-of-Transformer-architectuur met specifieke modules voor perceptie, vooruitziendheidsgeneratie en controle, waardoor begrip, generatie en acties worden verbonden. Kern van F1 is een next-scale-voorspellingsmechanisme dat doelgerichte visuele vooruitziendheid synthetiseert als expliciete planningsdoelen. Door plausibele toekomstige visuele statussen te voorspellen, herformuleert F1 actiegeneratie als een vooruitziendheidsgestuurd invers dynamisch probleem, waardoor acties mogelijk worden die impliciet visuele doelen bereiken. Om F1 robuuste en generaliseerbare capaciteiten te geven, stellen we een driestappen-trainingsrecept voor op een uitgebreide dataset met meer dan 330k trajecten over 136 diverse taken. Dit trainingsschema verbetert modulair redeneren en rust het model uit met overdraagbare visuele vooruitziendheid, wat cruciaal is voor complexe en dynamische omgevingen. Uitgebreide evaluaties op real-world taken en simulatiebenchmarks tonen aan dat F1 consistent beter presteert dan bestaande benaderingen, met aanzienlijke verbeteringen in zowel taaksuccespercentage als generalisatievermogen.
Reinforcement Learning (RL) heeft zich zeer effectief bewezen bij het verbeteren van de complexe redeneervaardigheden van Large Language Models (LLMs), maar de onderliggende mechanismen die dit succes aansturen, blijven grotendeels ondoorzichtig. Onze analyse onthult dat raadselachtige fenomenen zoals "aha-momenten", "length-scaling" en entropiedynamiek geen losstaande gebeurtenissen zijn, maar kenmerken van een emergent redeneerhiërarchie, vergelijkbaar met de scheiding tussen hoogstrategische planning en laagniveau procedurele uitvoering in de menselijke cognitie. We ontdekken een overtuigende tweefasendynamiek: aanvankelijk wordt een model beperkt door procedurele correctheid en moet het zijn vaardigheden op laagniveau verbeteren. Het leerproces verschuift vervolgens beslissend, waarbij prestatieverbeteringen worden aangedreven door de exploratie en beheersing van hoogstrategische planning. Dit inzicht legt een kerninefficiëntie bloot in heersende RL-algoritmen zoals GRPO, die optimalisatiedruk ongericht toepassen en het leersignaal verdunnen over alle tokens. Om dit aan te pakken, stellen we HIerarchy-Aware Credit Assignment (HICRA) voor, een algoritme dat optimalisatie-inspanningen concentreert op tokens met een hoge impact op de planning. HICRA presteert aanzienlijk beter dan sterke baseline-methoden, wat aantoont dat het richten op dit strategische knelpunt essentieel is voor het ontgrendelen van geavanceerd redeneren. Bovendien valideren we semantische entropie als een superieure kompas voor het meten van strategische exploratie in vergelijking met misleidende metrieken zoals token-niveau entropie.
Recente vooruitgang in beeldaanpassing toont een breed scala aan toepassingsmogelijkheden dankzij sterkere aanpassingsmogelijkheden. Omdat wij mensen echter gevoeliger zijn voor gezichten, blijft het een aanzienlijke uitdaging om een consistente identiteit te behouden terwijl identiteitsverwarring met meerdere referentiebeelden wordt vermeden, wat de identiteitsschaalbaarheid van aanpassingsmodellen beperkt. Om dit aan te pakken presenteren we UMO, een Unified Multi-identity Optimization-framework, ontworpen om hoogwaardige identiteitsbehoud te handhaven en identiteitsverwarring met schaalbaarheid te verminderen. Met het "multi-to-multi matching"-paradigma herformuleert UMO multi-identiteitsgeneratie als een globaal toewijzingsoptimalisatieprobleem en bevrijdt het multi-identiteitsconsistentie voor bestaande beeldaanpassingsmethoden in het algemeen door middel van reinforcement learning op diffusiemodellen. Om de training van UMO te vergemakkelijken, ontwikkelen we een schaalbare aanpassingsdataset met meerdere referentiebeelden, bestaande uit zowel gesynthetiseerde als echte delen. Daarnaast stellen we een nieuwe metriek voor om identiteitsverwarring te meten. Uitgebreide experimenten tonen aan dat UMO niet alleen de identiteitsconsistentie aanzienlijk verbetert, maar ook identiteitsverwarring vermindert bij verschillende beeldaanpassingsmethoden, waarmee het een nieuwe state-of-the-art neerzet onder open-source methoden op het gebied van identiteitsbehoud. Code en model: https://github.com/bytedance/UMO
Grote taalmodellen (LLM's) hebben de afgelopen jaren een snelle vooruitgang geboekt, aangedreven door schaal, overvloedige hoogwaardige trainingsdata en reinforcement learning. Toch stuit deze vooruitgang op een fundamenteel knelpunt: de behoefte aan steeds meer data waaruit modellen kunnen blijven leren. In dit werk stellen we een reinforcement learning-benadering voor die deze afhankelijkheid opheft door modellen in staat te stellen zich te verbeteren zonder aanvullende data. Onze methode maakt gebruik van een speltheoretisch raamwerk van zelfspel, waarbij de capaciteiten van een model worden gezien als prestaties in een competitief spel en sterkere strategieën ontstaan door het model tegen zichzelf te laten spelen - een proces dat we Language Self-Play (LSP) noemen. Experimenten met Llama-3.2-3B-Instruct op benchmarks voor instructievolging laten zien dat voorgetrainde modellen niet alleen hun prestaties op uitdagende taken kunnen verbeteren door middel van zelfspel alleen, maar dit ook effectiever kunnen doen dan data-gedreven basislijnen.
In standaard causale aandacht zijn de query, key en value (QKV) van elk token statisch en coderen ze alleen de voorafgaande context. We introduceren CAuSal aTtention with Lookahead kEys (CASTLE), een aandachtmechanisme dat de keys van elk token voortdurend bijwerkt naarmate de context zich ontvouwt. We noemen deze bijgewerkte keys lookahead keys omdat ze tot eerdere posities behoren, maar informatie integreren van tokens die later verschijnen ten opzichte van die posities, terwijl het autoregressieve eigenschap strikt behouden blijft. Hoewel het mechanisme sequentieel lijkt, leiden we een wiskundige equivalentie af die expliciet materialiseren van lookahead keys op elke positie vermijdt en efficiënte parallelle training mogelijk maakt. Op taalmodelleringsbenchmarks presteert CASTLE consistent beter dan standaard causale aandacht over verschillende modelschalen, waarbij de validatieperplexiteit wordt verlaagd en de prestaties op een reeks downstream taken worden verbeterd.
Reinforcement learning met verifieerbare beloningen (RLVR) heeft opmerkelijke successen geboekt in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs). Bestaande RLVR-methoden kampen echter vaak met inefficiënte exploratie door een mismatch tussen de moeilijkheidsgraad van de trainingsdata en de capaciteit van het model. LLMs slagen er niet in om haalbare redeneerpaden te ontdekken wanneer problemen te moeilijk zijn, terwijl ze weinig nieuwe vaardigheden leren wanneer problemen te eenvoudig zijn. In dit werk formaliseren we de impact van probleemmoeilijkheid door de relatie tussen verliesafnamesnelheid en nauwkeurigheid van rollouts te kwantificeren. Op basis van deze analyse stellen we SEELE voor, een nieuw RLVR-raamwerk met begeleiding dat dynamisch de probleemmoeilijkheid aanpast om binnen het hoogrenderende gebied te blijven. SEELE verrijkt elk trainingsvoorbeeld door een hint (een deel van een volledige oplossing) toe te voegen na het oorspronkelijke probleem. In tegenstelling tot eerdere hint-gebaseerde benaderingen, past SEELE opzettelijk en adaptief de hintlengte voor elk probleem aan om een optimale moeilijkheidsgraad te bereiken. Om de optimale hintlengte te bepalen, gebruikt SEELE een strategie voor meervoudige rollout-steekproeven. In elke ronde past het een item response theory-model toe op de nauwkeurigheid-hint-paren die in voorgaande rondes zijn verzameld, om de benodigde hintlengte voor de volgende ronde te voorspellen. Deze aanpassing van de moeilijkheidsgraad op instantieniveau en in realtime zorgt ervoor dat de probleemmoeilijkheid aansluit bij de evoluerende modelcapaciteit, waardoor de exploratie-efficiëntie wordt verbeterd. Experimentele resultaten tonen aan dat SEELE Group Relative Policy Optimization (GRPO) en Supervised Fine-tuning (SFT) respectievelijk met +11,8 en +10,5 punten overtreft, en de beste eerdere begeleidingsgebaseerde aanpak gemiddeld met +3,6 punten overstijgt op zes wiskundige redeneerbenchmarks.
AI-ondersteunde radiologische interpretatie is gebaseerd op voornamelijk smalle, enkelvoudige-taakmodellen. Deze aanpak is onpraktisch voor het bestrijken van het brede spectrum aan beeldvormingstechnieken, ziekten en radiologische bevindingen. Foundationmodellen (FM's) bieden de belofte van brede generalisatie over verschillende modaliteiten en in situaties met weinig data. Dit potentieel is echter grotendeels onbenut gebleven in de radiologie. Wij introduceren Curia, een foundationmodel getraind op de volledige output van dwarsdoorsnede-beeldvorming van een groot ziekenhuis over meerdere jaren, wat naar onze kennis de grootste dergelijke verzameling van real-world data omvat - 150.000 onderzoeken (130 TB). Op een nieuw samengestelde externe validatiebenchmark van 19 taken identificeert Curia nauwkeurig organen, detecteert aandoeningen zoals hersenbloedingen en myocardinfarcten, en voorspelt uitkomsten bij tumorgradering. Curia evenaart of overtreft de prestaties van radiologen en recente foundationmodellen, en vertoont klinisch significante emergente eigenschappen in cross-modale en low-data-regimes. Om de vooruitgang te versnellen, maken wij de gewichten van ons basismodel beschikbaar op https://huggingface.co/raidium/curia.
Recente studies hebben de effectiviteit aangetoond van het direct afstemmen van diffusiemodellen op menselijke voorkeuren met behulp van differentieerbare beloningen. Ze vertonen echter twee primaire uitdagingen: (1) ze zijn afhankelijk van meerstaps denoising met gradientberekening voor beloningsscoring, wat rekenkundig duur is en daardoor de optimalisatie beperkt tot slechts een paar diffusiestappen; (2) ze hebben vaak continue offline aanpassing van beloningsmodellen nodig om de gewenste esthetische kwaliteit te bereiken, zoals fotorealisme of precieze lichteffecten. Om de beperking van meerstaps denoising aan te pakken, stellen we Direct-Align voor, een methode die vooraf een ruisprior definieert om originele afbeeldingen effectief te herstellen vanuit elke tijdstap via interpolatie, waarbij gebruik wordt gemaakt van de vergelijking dat diffusietoestanden interpolaties zijn tussen ruis en doelafbeeldingen, wat overoptimalisatie in latere tijdstappen effectief vermijdt. Bovendien introduceren we Semantic Relative Preference Optimization (SRPO), waarbij beloningen worden geformuleerd als tekstgeconditioneerde signalen. Deze aanpak maakt online aanpassing van beloningen mogelijk in reactie op positieve en negatieve promptaugmentatie, waardoor de afhankelijkheid van offline beloningsfine-tuning wordt verminderd. Door het FLUX.1.dev-model te fine-tunen met geoptimaliseerde denoising en online beloningsaanpassing, verbeteren we de door mensen beoordeelde realisme en esthetische kwaliteit met meer dan 3x.
We introduceren SimpleQA Verified, een benchmark van 1.000 prompts voor het evalueren van de feitelijke nauwkeurigheid van korte antwoorden van Large Language Models (LLM), gebaseerd op OpenAI's SimpleQA. Het adresseert kritieke beperkingen in OpenAI's benchmark, waaronder ruis en incorrecte labels, thematische vooroordelen en redundantie van vragen. SimpleQA Verified is ontwikkeld via een rigoureus meerfasen filterproces, waarbij deduplicatie, thematische balancering en bronafstemming zijn toegepast om een betrouwbaarder en uitdagender evaluatieset te creëren, naast verbeteringen in de autorater-prompt. Op deze nieuwe benchmark behaalt Gemini 2.5 Pro een state-of-the-art F1-score van 55.6, waarmee het andere toonaangevende modellen, waaronder GPT-5, overtreft. Dit werk biedt de onderzoeksgemeenschap een hoger-fidelity instrument om echte vooruitgang in de feitelijke nauwkeurigheid van parametrische modellen te volgen en hallucinaties te verminderen. De benchmarkdataset, evaluatiecode en leaderboard zijn beschikbaar op: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
Text-to-image diffusiemodellen zijn rekenintensief en vereisen vaak tientallen forward passes door grote transformer-backbones. Stable Diffusion XL genereert bijvoorbeeld hoogwaardige afbeeldingen met 50 evaluaties van een model met 2,6 miljard parameters, een kostbaar proces zelfs voor een enkele batch. Modellen met weinig stappen verlagen deze kosten tot 2-8 denoising-stappen, maar blijven afhankelijk van grote, ongecomprimeerde U-Net- of diffusie-transformer-backbones, die vaak te kostbaar zijn voor full-precision inferentie zonder datacenter-GPU's. Deze vereisten beperken ook bestaande post-training kwantiseringsmethoden die afhankelijk zijn van full-precision kalibratie. Wij introduceren Q-Sched, een nieuw paradigma voor post-training kwantisering dat de scheduler van het diffusiemodel aanpast in plaats van de modelgewichten. Door het traject van de sampling met weinig stappen aan te passen, bereikt Q-Sched full-precision nauwkeurigheid met een 4x reductie in modelgrootte. Om kwantisatiebewuste voorwaardelijkingscoëfficiënten te leren, stellen we het JAQ-verlies voor, dat tekst-afbeelding compatibiliteit combineert met een beeldkwaliteitsmetriek voor fijnmazige optimalisatie. JAQ is referentievrij en vereist slechts een handvol kalibratieprompts, waardoor full-precision inferentie tijdens kalibratie wordt vermeden. Q-Sched levert aanzienlijke verbeteringen op: een 15,5% betere FID ten opzichte van het FP16 4-stappen Latent Consistency Model en een 16,6% verbetering ten opzichte van het FP16 8-stappen Phased Consistency Model, wat aantoont dat kwantisering en distillatie met weinig stappen complementair zijn voor hoogwaardige generatie. Een grootschalige gebruikersstudie met meer dan 80.000 annotaties bevestigt verder de effectiviteit van Q-Sched op zowel FLUX.1[snel] als SDXL-Turbo.
We stellen Delta L Normalisatie voor, een eenvoudige maar effectieve methode voor het aggregeren van verlies, afgestemd op de kenmerken van dynamische generatielengtes in Reinforcement Learning met Verifieerbare Beloningen (RLVR). Recentelijk heeft RLVR sterk potentieel getoond in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs), maar een grote uitdaging ligt in de aanzienlijke variabiliteit van responslengtes tijdens de training, wat leidt tot hoge gradiëntvariantie en instabiele optimalisatie. Hoewel eerdere methoden zoals GRPO, DAPO en Dr. GRPO verschillende verliesnormalisatietermen introduceren om dit probleem aan te pakken, produceren ze ofwel bevooroordeelde schattingen of lijden ze nog steeds aan hoge gradiëntvariantie. Door het effect van variërende lengtes op het beleidsverlies zowel theoretisch als empirisch te analyseren, herformuleren we het probleem als het vinden van een minimum-variantie onbevooroordeelde schatter. Onze voorgestelde Delta L Normalisatie biedt niet alleen een onbevooroordeelde schatting van het werkelijke beleidsverlies, maar minimaliseert ook de gradiëntvariantie in theorie. Uitgebreide experimenten tonen aan dat het consistent superieure resultaten behaalt over verschillende modelgroottes, maximale lengtes en taken. Onze code zal openbaar gemaakt worden op https://github.com/zerolllin/Delta-L-Normalization.
Naarmate generatieve AI-systemen competent en gedemocratiseerd raken in wetenschap, bedrijfsleven en overheid, is dieper inzicht in hun faalmodi nu een acute noodzaak. De occasionele volatiliteit in hun gedrag, zoals de neiging van transformermodellen om te hallucineren, belemmert het vertrouwen en de adoptie van opkomende AI-oplossingen in hoogrisicogebieden. In dit werk onderzoeken we hoe en wanneer hallucinaties ontstaan in vooraf getrainde transformermodellen via conceptrepresentaties die worden vastgelegd door sparse autoencoders, onder scenario's met experimenteel gecontroleerde onzekerheid in de invoerruimte. Onze systematische experimenten tonen aan dat het aantal semantische concepten dat door het transformermodel wordt gebruikt, toeneemt naarmate de invoerinformatie steeds ongestructureerder wordt. Bij toenemende onzekerheid in de invoerruimte wordt het transformermodel gevoelig voor het activeren van coherente maar invoerongevoelige semantische kenmerken, wat leidt tot gehallucineerde uitvoer. In het extreme geval van pure-ruisinvoer identificeren we een breed scala aan robuust geactiveerde en betekenisvolle concepten in de tussenliggende activaties van vooraf getrainde transformermodellen, waarvan we de functionele integriteit bevestigen via gerichte sturing. We tonen ook aan dat hallucinaties in de uitvoer van een transformermodel betrouwbaar kunnen worden voorspeld op basis van de conceptpatronen die zijn ingebed in de activaties van transformerlagen. Deze verzameling inzichten in de interne verwerkingsmechanica van transformermodellen heeft directe gevolgen voor het afstemmen van AI-modellen op menselijke waarden, AI-veiligheid, het openen van het aanvalsoppervlak voor potentiële adversariële aanvallen, en het bieden van een basis voor automatische kwantificering van het hallucinatierisico van een model.
Grote taalmodellen (LLMs) zijn ongelooflijke en veelzijdige tools voor tekstgebaseerde taken die talloze, voorheen ondenkbare toepassingen mogelijk hebben gemaakt. Retrievalmodellen daarentegen hebben nog niet zulke capabele algemene modellen voortgebracht. Om dit doel te bereiken, moeten retrievalmodellen complexe retrievaltaken kunnen uitvoeren, waarbij queries meerdere onderdelen, beperkingen of vereisten in natuurlijke taal bevatten. Deze taken vormen een natuurlijke voortzetting van de eenvoudige, enkelvoudige queries die worden gebruikt in de overgrote meerderheid van bestaande, veelgebruikte evaluatiesets. Complexe queries ontstaan vanzelfsprekend doordat mensen verwachten dat zoeksystemen meer specifieke en vaak ambitieuze informatieverzoeken aankunnen, zoals blijkt uit de manier waarop mensen LLM-gebaseerde informatiesystemen gebruiken. Ondanks de groeiende behoefte aan retrievalmodellen om hun mogelijkheden uit te breiden in complexe retrievaltaken, zijn er beperkte middelen beschikbaar om het vermogen van retrievalmodellen te beoordelen op een uitgebreide set van diverse complexe taken. De weinige middelen die bestaan, hebben een beperkte reikwijdte en missen vaak realistische instellingen, waardoor het moeilijk is om de werkelijke mogelijkheden van retrievalmodellen op complexe real-world retrievaltaken te kennen. Om dit tekort aan te pakken en innovatie in de volgende generatie retrievalmodellen te stimuleren, construeren wij een diverse en realistische set van complexe retrievaltaken en benchmarken we een representatieve set van state-of-the-art retrievalmodellen. Daarnaast onderzoeken we de impact van LLM-gebaseerde query-uitbreiding en herschrijving op de retrievalkwaliteit. Onze resultaten laten zien dat zelfs de beste modellen moeite hebben om hoogwaardige retrievalresultaten te produceren, met een gemiddelde nDCG@10 van slechts 0,346 en een R@100 van slechts 0,587 over alle taken. Hoewel LLM-augmentatie zwakkere modellen kan helpen, presteert het sterkste model slechter op alle metrieken bij alle herschrijftechnieken.