Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit rapport introduceren we ERNIE 5.0, een inherent autoregressief fundamentmodel dat is ontworpen voor verenigde multimodale interpretatie en generatie van tekst, beeld, video en audio. Alle modaliteiten worden vanaf nul getraind onder een verenigde voorspellingsdoelstelling voor de volgende groep tokens, gebaseerd op een ultra-sparse mixture-of-experts (MoE)-architectuur met modaliteitonafhankelijke expertroutering. Om praktische uitdagingen bij grootschalige implementatie onder uiteenlopende resourcebeperkingen aan te pakken, hanteert ERNIE 5.0 een nieuw elastisch trainingsparadigma. Binnen één enkele voorafgaande trainingsrun leert het model een familie van submodellen met variërende dieptes, experticapaciteiten en routeringssparsiteit, waardoor flexibele afwegingen mogelijk zijn tussen prestaties, modelgrootte en inferentielatentie in geheugen- of tijdsgebonden scenario's. Bovendien pakken we systematisch de uitdagingen aan van het opschalen van reinforcement learning naar verenigde fundamentmodellen, waardoor efficiënte en stabiele training-na-het-trainen gegarandeerd wordt onder ultra-sparse MoE-architecturen en diverse multimodale settings. Uitgebreide experimenten tonen aan dat ERNIE 5.0 sterke en gebalanceerde prestaties levert across meerdere modaliteiten. Voor zover wij weten, vertegenwoordigt ERNIE 5.0 onder openbaar gemaakte modellen de eerste realisatie op productieschaal van een verenigd autoregressief model met een biljoen parameters dat zowel multimodale interpretatie als generatie ondersteunt. Om verder onderzoek te vergemakkelijken, presenteren we gedetailleerde visualisaties van modaliteitonafhankelijke expertroutering in het verenigde model, samen met een uitgebreide empirische analyse van elastische training, met als doel diepgaande inzichten aan de onderzoeksgemeenschap te bieden.
De inzet van Large Language Models (LLM's) stuit op een kritieke beperking bij het verwerken van lange invoer: de buitensporige geheugenvoetafdruk van de Key Value (KV)-cache. Om dit knelpunt aan te pakken, benut het token-pruningparadigma aandachtssparsiteit om selectief een kleine, kritieke subset van tokens te behouden. Bestaande methoden schieten echter tekort: statische methoden riskeren onomkeerbaar informatieverlies, en dynamische strategieën gebruiken heuristieken die de query-afhankelijke aard van tokenbelang onvoldoende vatten. Wij stellen FASA voor, een nieuw raamwerk dat query-bewuste tokenverwijdering bereikt door tokenbelang dynamisch te voorspellen. FASA vloeit voort uit een nieuw inzicht in RoPE: de ontdekking van functionele sparsiteit op het niveau van frequentieblokken (FC). Onze belangrijkste bevinding is dat een kleine, identificeerbare subset van "dominante" FC's consistent een hoge contextuele overeenstemming vertoont met de volledige aandachtskop. Dit biedt een robuuste en rekenkundig gratis proxy voor het identificeren van saliante tokens. Voortbouwend op dit inzicht identificeert FASA eerst een kritieke set tokens met behulp van dominante FC's, en voert vervolgens gerichte aandachtberekening uitsluitend op deze uitgedunde subset uit. Omdat slechts een kleine fractie van de KV-cache wordt benaderd, verlaagt FASA de vereisten voor geheugenbandbreedte en de rekenkosten aanzienlijk. Over een spectrum van lange-context taken, van sequentiemodellering tot complexe CoT-redenering, presteert FASA consistent beter dan alle token-verwijderingsbaselines en bereikt bijna oracle-nauwkeurigheid, wat een opmerkelijke robuustheid demonstreert, zelfs onder beperkte budgetten. Opmerkelijk is dat op LongBench-V1 FASA bijna 100% van de volledige KV-prestatie bereikt wanneer slechts 256 tokens worden aangehouden, en een 2,56x versnelling bereikt met slechts 18,9% van de cache op AIME24.
Recente vooruitgang in Large Language Models (LLM's) heeft zich grotendeels gericht op *depth scaling* (diepteschaling), waarbij een enkele agent langetermijnproblemen oplost met meerstapsredenering en toolgebruik. Naarmate taken echter breder worden, verschuift het belangrijkste knelpunt van individuele competentie naar organisatorisch vermogen. In dit werk verkennen we een complementaire dimensie van *width scaling* (breedteschaling) met multi-agent systemen om brede informatiezoekvragen aan te pakken. Bestaande multi-agent systemen zijn vaak afhankelijk van handmatig ontworpen workflows en beurtelingsinteracties die werk niet effectief paralleliseren. Om deze kloof te overbruggen, stellen we WideSeek-R1 voor, een *lead-agent-subagent* raamwerk dat is getraind via *multi-agent reinforcement learning* (MARL) om schaalbare orchestratie en parallelle uitvoering te combineren. Door gebruik te maken van een gedeeld LLM met geïsoleerde contexten en gespecialiseerde tools, optimaliseert WideSeek-R1 gezamenlijk de lead-agent en parallelle subagents op een samengestelde dataset van 20k brede informatiezoektaken. Uitgebreide experimenten tonen aan dat WideSeek-R1-4B een item F1-score van 40.0% behaalt op de WideSearch-benchmark, wat vergelijkbaar is met de prestaties van de single-agent DeepSeek-R1-671B. Bovendien vertoont WideSeek-R1-4B consistente prestatieverbeteringen naarmate het aantal parallelle subagents toeneemt, wat de effectiviteit van breedteschaling benadrukt.
Multimodale Proces Beloningsmodellen (MPRM's) vormen de kern van stap-voor-stap supervisie voor visueel redeneren in MLLM's. De training van MPRM's vereist typisch grootschalige, met Monte Carlo (MC) geannoteerde corpora, wat aanzienlijke trainingskosten met zich meebrengt. Dit artikel onderzoekt de data-efficiëntie van MPRM-training. Onze eerste experimenten tonen aan dat MPRM-training snel verzadigt onder willekeurige subsampling van de trainingsdata, wat duidt op aanzienlijke redundantie binnen bestaande MC-geannoteerde corpora. Om dit te verklaren, formaliseren we een theoretisch kader en laten we zien dat informatieve gradient-updates afhangen van twee factoren: labelmengsels van positieve/negatieve stappen en labelbetrouwbaarheid (gemiddelde MC-scores van positieve stappen). Geleid door deze inzichten stellen we de Balanced-Information Score (BIS) voor, die zowel mengsel als betrouwbaarheid prioriteert op basis van bestaande MC-signalen op rollout-niveau, zonder extra kosten te genereren. Over twee backbones (InternVL2.5-8B en Qwen2.5-VL-7B) heen op VisualProcessBench, evenaren en overtreffen BIS-geselecteerde subsets consistent de prestaties van de volledige dataset bij kleine fracties daarvan. Opmerkelijk is dat het BIS-subset de prestaties van de volledige dataset bereikt met slechts 10% van de trainingsdata, een relatieve verbetering van 4.1% ten opzichte van willekeurige subsampling.
Omni-modale Large Language Models (Omni-LLM's) hebben sterke capaciteiten getoond in audio-video-begriptaken. Hun afhankelijkheid van lange multimodale tokensequenties leidt echter tot aanzienlijke rekenkosten. Ondanks deze uitdaging zijn tokencompressiemethoden die voor Omni-LLM's zijn ontworpen, nog beperkt. Om deze kloof te overbruggen, stellen we **OmniSIFT** voor (Omni-modal Spatio-temporal Informed Fine-grained Token compression), een modaal-asymmetrisch tokencompressieraamwerk op maat van Omni-LLM's. Concreet hanteert OmniSIFT een tweefasencompressiestrategie: (i) een spatio-temporele videoreductiemodule die redundantie verwijdert die voortkomt uit zowel intra-frame structuur als inter-frame overlap, en (ii) een visie-gestuurd audioselectiemodule die audiotokens filtert. Het gehele raamwerk wordt end-to-end geoptimaliseerd via een differentieerbare straight-through estimator. Uitgebreide experimenten op vijf representatieve benchmarks tonen de doeltreffendheid en robuustheid van OmniSIFT aan. Opmerkelijk is dat voor Qwen2.5-Omni-7B, OmniSIFT slechts 4,85M parameters introduceert terwijl een lagere latentie wordt gehandhaafd in vergelijking met trainingsvrije basismethoden zoals OmniZip. Met slechts 25% van de oorspronkelijke tokencontext presteert OmniSIFT consistent beter dan alle compressie-basismethoden en overtreft het zelfs de prestaties van het volledige tokenmodel bij verschillende taken.
Dit werk introduceert Hybride Sparse Attention (HySparse), een nieuwe architectuur die elke full attention-laag afwisselt met meerdere sparse attention-lagen. Hoewel conceptueel eenvoudig, leidt HySparse strategisch de tokenselectie en KV-caches voor elke sparse laag direct af van de voorafgaande full attention-laag. Deze architectuur lost twee fundamentele beperkingen van eerdere sparse attention-methoden op. Ten eerste vertrouwen conventionele benaderingen typisch op aanvullende proxies om tokenbelangrijkheid te voorspellen, wat extra complexiteit en potentieel suboptimale prestaties introduceert. HySparse gebruikt daarentegen de full attention-laag als een precieze orakel om belangrijke tokens te identificeren. Ten tweede verminderen bestaande sparse attention-ontwerpen vaak de rekenkracht zonder de KV-cache te besparen. HySparse stelt sparse attention-lagen in staat om de full attention KV-cache te hergebruiken, waardoor zowel rekenkracht als geheugen worden gereduceerd. We evalueren HySparse op zowel 7B dense als 80B MoE-modellen. In alle settings presteert HySparse consistent beter dan zowel full attention- als hybride SWA-baselines. Opmerkelijk is dat in het 80B MoE-model met in totaal 49 lagen, slechts 5 lagen full attention gebruiken, toch behaalt HySparse aanzienlijke prestatieverbeteringen terwijl de KV-cache-opslag met bijna 10x wordt verminderd.
Het inzetten van humanoïde robots in realistische omgevingen is fundamenteel uitdagend, omdat het een naadloze integratie vereist van waarneming, voortbeweging en manipulatie onder gedeeltelijke waarnemingen en dynamisch veranderende omstandigheden. Evenals een robuuste overgang tussen sub-taken van verschillende types. Om deze uitdagingen aan te pakken, stellen we een nieuwe taak voor – EgoActing – die vereist dat hoogwaardige instructies direct worden verankerd in diverse, precieze, ruimtelijk bewuste humanoïde acties. We concretiseren deze taak verder door EgoActor te introduceren, een verenigd en schaalbaar vision-language model (VLM) dat locomotorische primitieven (zoals lopen, draaien, zijwaarts bewegen, hoogte veranderen), hoofd bewegingen, manipulatiecommando's en mens-robotinteracties kan voorspellen om waarneming en uitvoering in real-time te coördineren. We benutten brede supervisie op egocentrische RGB-data van real-world demonstraties, ruimtelijk redenerende vraag-antwoordtaken, en gesimuleerde omgevingsdemonstraties, waardoor EgoActor robuuste, contextbewuste beslissingen kan nemen en vloeiende actie-inferentie (binnen 1 seconde) kan uitvoeren met zowel 8B- als 4B-parametermodellen. Uitgebreide evaluaties in zowel gesimuleerde als realistische omgevingen tonen aan dat EgoActor effectief abstracte taakplanning en concrete motorische uitvoering verbindt, terwijl het generaliseert over diverse taken en onbekende omgevingen.
Ondanks snelle vooruitgang in autoregressieve videodiffusie vormt een opkomend systeemalgoritmeknelpunt een beperking voor zowel inzetbaarheid als generatievermogen: het KV-cachegeheugen. In autoregressieve videogeneratiemodellen groeit de KV-cache met de generatiegeschiedenis en domineert al snel het GPU-geheugen, vaak meer dan 30 GB overschrijdend, wat implementatie op breed beschikbare hardware verhindert. Crucialer is dat beperkte KV-cachebudgetten het effectieve werkgeheugen beperken, wat direct de consistentie op lange termijn in identiteit, lay-out en beweging aantast. Om deze uitdaging aan te pakken, presenteren wij Quant VideoGen (QVG), een trainingsvrij KV-cachekwantiseringsraamwerk voor autoregressieve videodiffusiemodellen. QVG benut spatiotemporele redundantie in video's via Semantisch Bewust Gladstrijken, waardoor residuen met een lage magnitude ontstaan die vriendelijk zijn voor kwantisering. Verder introduceert het Progressieve Residukwantisering, een meerfasenschema van grof naar fijn dat kwantisatiefouten vermindert en tegelijk een soepele kwaliteit-geheugenafweging mogelijk maakt. Op de benchmarks LongCat Video, HY WorldPlay en Self Forcing vestigt QVG een nieuwe Pareto-frontier tussen kwaliteit en geheugenefficiëntie, waarbij het KV-cachegeheugen tot 7,0 keer wordt teruggebracht met minder dan 4% end-to-end latentietoename, terwijl het consequent superieure generatiekwaliteit behaalt ten opzichte van bestaande basislijnen.
Recente vooruitgang in autonome LLM-agenten toont aan dat zij hun prestaties kunnen verbeteren door iteratieve interactie met de omgeving. Wij definiëren dit paradigma als Test-Time Improvement (TTI). De mechanismen achter hoe en waarom TTI slaagt of faalt, blijven echter slecht begrepen, en bestaande evaluatiemetrics vangen hun taakoptimalisatie-efficiëntie, gedragsaanpassing na foutieve acties en de specifieke utility van het werkgeheugen voor taakvoltooiing niet goed af. Om deze lacunes aan te pakken, stellen wij Test-time Improvement Diagnostic Evaluation (TIDE) voor, een agent- en omgevingsagnostisch raamwerk dat TTI ontleedt in drie uitgebreide en onderling verbonden dimensies. Het raamwerk meet (1) de algemene temporele dynamiek van taakvoltooiing en (2) identificeert of de prestaties primair worden beperkt door recursief loopgedrag of (3) door belastende opgestapelde geheugeninhoud. Uitgebreide experimenten met diverse agenten en omgevingen tonen met TIDE aan dat het verbeteren van agentprestaties meer vereist dan het opschalen van interne redeneerprocessen, en pleiten voor het expliciet optimaliseren van de interactiedynamiek tussen de agent en de omgeving.
Het simuleren van vervormbare objecten onder rijke interacties blijft een fundamentele uitdaging voor real-to-sim robotmanipulatie, waarbij de dynamica gezamenlijk wordt aangedreven door omgevingseffecten en robotacties. Bestaande simulatoren vertrouwen op vooraf gedefinieerde fysica of data-gedreven dynamiek zonder robot-gestoorde controle, wat de nauwkeurigheid, stabiliteit en generalisatie beperkt. Dit artikel presenteert SoMA, een 3D Gaussian Splat-simulator voor zachte lichaammanipulatie. SoMA koppelt vervormbare dynamica, omgevingskrachten en robotgewrichtsacties in een verenigde latente neurale ruimte voor end-to-end real-to-sim simulatie. Het modelleren van interacties op geleerde Gaussian splats maakt controleerbare, stabiele manipulatie op lange termijn en generalisatie voorbij waargenomen trajecten mogelijk, zonder vooraf gedefinieerde fysieke modellen. SoMA verbetert de resimulatienauwkeurigheid en generalisatie bij real-world robotmanipulatie met 20%, waardoor stabiele simulatie van complexe taken zoals het vouwen van textiel op lange termijn mogelijk wordt.
Diffusion Large Language Models (dLLM's) zijn naar voren gekomen als een veelbelovend alternatief voor puur autoregressieve taalmodellen omdat ze meerdere tokens parallel kunnen decoderen. State-of-the-art block-wise dLLM's vertrouwen echter op een "remasking"-mechanisme dat alleen de meest zelfverzekerde tokens decodeert en de rest wegwerpt, wat effectief rekenkracht verspilt. Wij tonen aan dat het recyclen van rekenkracht van de weggegooide tokens voordelig is, omdat deze tokens contextuele informatie behouden die nuttig is voor volgende decodeerstappen. Met dit in gedachten stellen wij Residual Context Diffusion (RCD) voor, een module die deze weggegooide tokenrepresentaties omzet in contextuele residuen en deze opnieuw injecteert voor de volgende denoising-stap. RCD gebruikt een ontkoppelde tweefasige trainingspijplijn om de geheugenknelpunten die gepaard gaan met backpropagatie te omzeilen. Wij valideren onze methode op zowel lange CoT-redeneermodellen (SDAR) als korte CoT-instructievolgende modellen (LLaDA). Wij tonen aan dat een standaard dLLM efficiënt kan worden omgezet naar het RCD-paradigma met slechts ~1 miljard tokens. RCD verbetert frontier dLLM's consistent met 5-10 punten in nauwkeurigheid met minimale extra rekenkosten over een breed scala aan benchmarks. Opmerkelijk is dat RCD bij de meest uitdagende AIME-taken de basislijnnauwkeurigheid bijna verdubbelt en tot 4-5x minder denoising-stappen bereikt bij gelijke nauwkeurigheidsniveaus.
Versterkend leren (RL) is een hoeksteen geworden voor het finetunen van Large Language Models (LLA's), waarbij Proximal Policy Optimization (PPO) dient als het de facto standaardalgoritme. Ondanks deze alomtegenwoordigheid stellen wij dat het kernmechanisme van ratio-clipping in PPO structureel ongeschikt is voor de grote vocabularia die inherent zijn aan LLA's. PPO beperkt policy-updates op basis van de waarschijnlijkheidsratio van bemonsterde tokens, wat fungeert als een ruwe Monte Carlo-schatting met één steekproef voor de werkelijke policy-divergentie. Dit creëert een suboptimaal leerdynamiek: updates voor tokens met een lage waarschijnlijkheid worden agressief overbestraft, terwijl potentieel catastrofale verschuivingen in tokens met een hoge waarschijnlijkheid onvoldoende worden begrensd, wat leidt tot trainingsinefficiëntie en instabiliteit. Om dit aan te pakken, stellen wij Divergence Proximal Policy Optimization (DPPO) voor, dat heuristische clipping vervangt door een meer principiële beperking gebaseerd op een directe schatting van policy-divergentie (bijvoorbeeld Total Variation of KL). Om een groot geheugenverbruik te vermijden, introduceren wij de efficiënte Binaire en Top-K-benaderingen om de essentiële divergentie te vangen met verwaarloosbare overhead. Uitgebreide empirische evaluaties tonen aan dat DPPO superieure trainingsstabiliteit en -efficiëntie bereikt in vergelijking met bestaande methoden, en biedt zo een robuustere basis voor RL-gebaseerd LLA-finetunen.
Recente DiT-gebaseerde tekst-naar-beeldmodellen nemen in toenemende mate LLM's als tekstencoders aan, toch blijft tekstconditionering grotendeels statisch en wordt vaak slechts één enkele LLM-laag gebruikt, ondanks een uitgesproken semantische hiërarchie over de LLM-lagen heen en niet-stationaire denoiseringsdynamiek over zowel diffusietijd als netwerkdiepte. Om het dynamische proces van DiT-generatie beter te matchen en daarmee het generatieve vermogen van het diffusiemodel te verbeteren, introduceren we een uniform genormaliseerd convex fusieraamwerk voorzien van lichtgewicht gates om multimodale LLM-verborgen toestanden systematisch te organiseren via tijdgebonden, dieptegbonden en gezamenlijke fusie. Experimenten vestigen Depth-wise Semantic Routing als de superieure conditioneringsstrategie, die consistent tekst-beelduitlijning en compositionele generatie verbetert (bijv. +9,97 op de GenAI-Bench Teltaak). Omgekeerd constateren we dat puur tijdgebonden fusie paradoxaal genoeg de visuele generatiefideliteit kan aantasten. Wij schrijven dit toe aan een train-inferentie trajectmismatch: onder classifier-free guidance volgen nominale tijdstappen de effectieve SNR niet, wat leidt tot semantisch mistiming van feature-injectie tijdens inferentie. Over het geheel genomen positioneren onze resultaten dieptegbonden routing als een sterke en effectieve baseline en benadrukken ze de kritieke noodzaak van trajectbewuste signalen om robuuste tijdafhankelijke conditionering mogelijk te maken.
Hoewel recente vooruitgang in neurale representaties en generatieve modellen een revolutie teweeg heeft gebracht in 3D-contentcreatie, wordt het vakgebied nog steeds beperkt door aanzienlijke dataprocessingsknelpunten. Om dit aan te pakken, introduceren wij HY3D-Bench, een open-source-ecosysteem dat is ontworpen om een uniforme, hoogwaardige basis voor 3D-generatie te vestigen. Onze bijdragen zijn drievoudig: (1) We hebben een bibliotheek samengesteld van 250k hoogfideliteits-3D-objecten, gedistilleerd uit grootschalige repositories, waarbij een rigoureus proces wordt gebruikt om trainingsklare artefacten te leveren, waaronder waterdichte meshes en multi-view weergaven; (2) We introduceren gestructureerde decompositie op onderdeelniveau, wat de granulariteit biedt die essentieel is voor fijnmazige perceptie en controleerbare bewerking; en (3) We overbruggen distributiekloofjes uit de echte wereld via een schaalbare AIGC-synthesepijplijn, waarbij we 125k synthetische assets bijdragen om de diversiteit in long-tail-categorieën te vergroten. Empirisch gevalideerd door de training van Hunyuan3D-2.1-Small, democratiseert HY3D-Bench de toegang tot robuuste databronnen, met als doel innovatie te katalyseren op het gebied van 3D-perceptie, robotica en digitale contentcreatie.
Hoogwaardige wetenschappelijke illustraties zijn cruciaal voor het effectief communiceren van complexe wetenschappelijke en technische concepten, maar hun handmatige creatie blijft een erkend knelpunt in zowel de academische wereld als de industrie. Wij presenteren FigureBench, de eerste grootschalige benchmark voor het genereren van wetenschappelijke illustraties op basis van langdurende wetenschappelijke teksten. Het bevat 3.300 hoogwaardige wetenschappelijke tekst-illustratie paren, die diverse tekst-naar-illustratie taken beslaan uit wetenschappelijke artikelen, overzichtsartikelen, blogs en leerboeken. Bovendien stellen wij AutoFigure voor, het eerste agent-gebaseerde framework dat automatisch hoogwaardige wetenschappelijke illustraties genereert op basis van langdurende wetenschappelijke tekst. Specifiek gaat AutoFigure, voordat het eindresultaat wordt weergegeven, uitgebreid aan de slag met denken, herschikking en validatie om een lay-out te produceren die zowel structureel solide als esthetisch verfijnd is, waardoor een wetenschappelijke illustratie ontstaat die zowel structurele volledigheid als esthetische aantrekkingskracht bereikt. Door gebruik te maken van de hoogwaardige data van FigureBench, voeren wij uitgebreide experimenten uit om de prestaties van AutoFigure te testen tegenover verschillende baseline-methoden. De resultaten tonen aan dat AutoFigure consistent alle baseline-methoden overtreft en publicatieklare wetenschappelijke illustraties produceert. De code, dataset en huggingface space zijn vrijgegeven op https://github.com/ResearAI/AutoFigure.
Group Relative Policy Optimization (GRPO) is recentelijk naar voren gekomen als een praktische methode voor het afstemmen van grote taalmodellen op verifieerbare doelstellingen. Onder schaarse terminale beloningen stagneert GRPO echter vaak, omdat rollouts binnen een groep veelal identieke beloningen ontvangen, wat leidt tot het ineenstorten van relatieve voordelen en het verdwijnen van updates. Wij stellen zelf-hint afgestemd GRPO met geprivilegieerde supervisie (SAGE) voor, een on-policy reinforcement learning raamwerk dat geprivilegieerde hints injecteert tijdens de training om de rollout-verdeling te hervormen onder dezelfde terminale verifieerderbeloning. Voor elke prompt x bemonstert het model een compacte hint h (bijvoorbeeld een plan of decompositie) en genereert vervolgens een oplossing τ conditioneel op (x,h). Cruciaal is dat de taakbeloning R(x,τ) onveranderd blijft; hints vergroten alleen de uitkomstdiversiteit binnen de groep bij eindige bemonstering, waardoor wordt voorkomen dat GRPO-voordelen ineenstorten onder schaarse beloningen. Tijdens de testfase stellen we h=varnothing in en zetten we het no-hint-beleid in zonder enige geprivilegieerde informatie. Bovendien fungeert het bemonsteren van diverse zelf-hints als een adaptief curriculum dat de knelpunten van de leerling effectiever volgt dan vaste hints van een initieel beleid of een sterker extern model. Experimenten over 6 benchmarks met 3 LLM's tonen aan dat SAGE consistent beter presteert dan GRPO, gemiddeld +2.0 op Llama-3.2-3B-Instruct, +1.2 op Qwen2.5-7B-Instruct en +1.3 op Qwen3-4B-Instruct. De code is beschikbaar op https://github.com/BaohaoLiao/SAGE.
Huidige taalmodel(len) (TM's) blinken uit in redeneren over prompts met behulp van vooraf getrainde kennis. Echter, taken in de praktijk zijn veel complexer en contextafhankelijk: modellen moeten leren uit taakspecifieke context en nieuwe kennis benutten die verder gaat dan wat tijdens de pre-training is geleerd om te kunnen redeneren en taken op te lossen. Wij noemen dit vermogen **contextleren**, een cruciaal vermogen dat mensen van nature bezitten maar grotendeels over het hoofd is gezien. Daartoe introduceren wij CL-bench, een real-world benchmark bestaande uit 500 complexe contexten, 1.899 taken en 31.607 beoordelingsrubrics, allemaal vervaardigd door ervaren domeinexperts. Elke taak is zo ontworpen dat de nieuwe inhoud die nodig is om deze op te lossen, vervat zit in de bijbehorende context. Het oplossen van taken in CL-bench vereist dat modellen leren uit de context, variërend van nieuwe domeinspecifieke kennis, regelsystemen en complexe procedures tot wetten afgeleid van empirische gegevens, die allemaal afwezig zijn tijdens de pre-training. Dit gaat ver voorbij taken met lange contexten die vooral retrieval of leesbegrip testen, en *in-context learning* taken, waarbij modellen eenvoudige taakpatronen leren via instructies en demonstraties. Onze evaluaties van tien toonaangevende TM's tonen aan dat modellen gemiddeld slechts 17,2% van de taken oplossen. Zelfs het best presterende model, GPT-5.1, lost slechts 23,7% op, wat aantoont dat TM's effectief contextleren nog niet beheersen. Dit vormt een kritieke bottleneck voor het aanpakken van real-world, complexe contextafhankelijke taken. CL-bench vertegenwoordigt een stap naar het bouwen van TM's met dit fundamentele vermogen, om ze intelligenter te maken en hun inzet in real-world scenario's te bevorderen.
Gedurende het afgelopen decennium werd de ontwikkeling van generatieve kunstmatige intelligentie (AI) gedomineerd door een model-centrisch paradigma, aangedreven door schaalwetten. Ondanks aanzienlijke sprongen in visuele kwaliteit, stuitte deze aanpak op een "bruikbaarheidsplafond" dat zich manifesteert als de Intentie-Uitvoeringskloof (d.w.z. het fundamentele verschil tussen de hoogwaardige intentie van een maker en de stochastische, black-box aard van huidige single-shot modellen). In dit artikel introduceren we, geïnspireerd door Vibe Coding, de Vibe AIGC, een nieuw paradigma voor contentgeneratie via agent-gebaseerde orkestratie, dat de autonome synthese van hiërarchische multi-agent workflows vertegenwoordigt. Binnen dit paradigma overstijgt de rol van de gebruiker de traditionele promptengineering en evolueert deze naar die van een Commandant die een Vibe verstrekt – een hoogwaardige representatie die esthetische voorkeuren, functionele logica, enz. omvat. Een gecentraliseerde Meta-Planner fungeert vervolgens als een systeemarchitect, die deze "Vibe" deconstrueert in uitvoerbare, verifieerbare en adaptieve agent-pipelines. Door de overgang van stochastische inferentie naar logische orkestratie, overbrugt Vibe AIGC de kloof tussen menselijke verbeeldingskracht en machine-uitvoering. Wij stellen dat deze verschuiving de mens-AI-samenwerkingseconomie zal herdefiniëren en AI zal transformeren van een kwetsbare inferentie-engine naar een robuuste, systeemniveau engineeringpartner die de creatie van complexe, langetermijn digitale assets democratiseert.
Waarom falen vooraf getrainde diffusie- of flow-matching-beleidsmodellen wanneer dezelfde taak wordt uitgevoerd nabij een obstakel, op een verschoven ondersteuningsvlak of te midden van lichte rommel? Dergelijke fouten weerspiegelen zelden ontbrekende motorische vaardigheden; in plaats daarvan tonen ze een beperking aan van imitation learning onder train-test shifts, waarbij actiegeneratie sterk gekoppeld is aan trainingsspecifieke ruimtelijke configuraties en taakspecificaties. Her trainen of fine-tunen om deze fouten aan te pakken is kostbaar en conceptueel niet in lijn, omdat de vereiste gedragingen al bestaan maar niet selectief kunnen worden aangepast tijdens de testfase. Wij stellen Vision-Language Steering (VLS) voor, een trainingsvrij raamwerk voor aanpassing tijdens de inferentie van bevroren generatieve robotbeleidsmodellen. VLS behandelt aanpassing als een controleprobleem tijdens de inferentie, waarbij het het bemonsteringsproces van een vooraf getraind diffusie- of flow-matching-beleid stuurt als reactie op out-of-distribution observatie-taalinputs zonder de beleidsparameters aan te passen. Door gebruik te maken van vision-language modellen om traject-differentieerbare beloningsfuncties te synthetiseren, leidt VLS de denoisering naar actietrajecten die voldoen aan ruimtelijke en taakvereisten tijdens de testfase. In zowel simulatie- als evaluaties in de echte wereld presteert VLS consistent beter dan eerdere stuurmethoden, met een verbetering van 31% op CALVIN en een winst van 13% op LIBERO-PRO. Implementatie in de echte wereld op een Franka-robot toont verder robuuste aanpassing tijdens de inferentie aan onder ruimtelijke en semantische verschuivingen tijdens de testfase. Projectpagina: https://vision-language-steering.github.io/webpage/
Frontier-taalmodellen hebben sterke redeneer- en tool-use-vaardigheden voor lange-termijn taken aangetoond. Echter, bestaande RAG-systemen slagen er niet in deze capaciteiten te benutten. Zij blijven vertrouwen op twee paradigma's: (1) het ontwerpen van een algoritme dat passages in één keer ophaalt en deze aaneenschakelt in de invoer van het model, of (2) het vooraf definiëren van een workflow en het model stap-voor-stap aansturen om deze uit te voeren. Geen van beide paradigma's stelt het model in staat deel te nemen aan retrieval-beslissingen, wat een efficiënte schaalbaarheid met modelverbeteringen verhindert. In dit artikel introduceren we A-RAG, een Agentic RAG-framework dat hiërarchische retrieval-interfaces rechtstreeks aan het model blootstelt. A-RAG biedt drie retrieval-tools: zoeken op trefwoord, semantisch zoeken en het lezen van chunks, waardoor de agent adaptief informatie kan zoeken en ophalen over meerdere granulariteiten heen. Experimenten op meerdere open-domein QA-benchmarks tonen aan dat A-RAG consequent beter presteert dan bestaande benaderingen met vergelijkbare of minder opgehaalde tokens, wat aantoont dat A-RAG modelcapaciteiten effectief benut en zich dynamisch aanpast aan verschillende RAG-taken. Verder bestuderen we systematisch hoe A-RAG schaalt met modelgrootte en rekentijd tijdens testen. Wij zullen onze code en evaluatiesuite vrijgeven om toekomstig onderzoek te vergemakkelijken. Code en evaluatiesuite zijn beschikbaar op https://github.com/Ayanami0730/arag.
Zoekagents zijn taalmodelen (LM's) die redeneren en kennisbanken (of het web) doorzoeken om vragen te beantwoorden; recente methodes sturen alleen de uiteindelijke antwoordnauwkeurigheid aan met reinforcement learning met verifieerbare beloningen (RLVR). De meeste RLVR-zoekagents richten zich op vraag-antwoordtaken in algemene domeinen, wat hun relevantie beperkt voor technische AI-systemen in wetenschap, techniek en geneeskunde. In dit werk stellen we voor om agents te trainen om wetenschappelijke artikelen te doorzoeken en erover te redeneren – dit test technische vraag-antwoordvaardigheden, het is direct relevant voor echte wetenschappers, en de capaciteiten zullen cruciaal zijn voor toekomstige AI Wetenschapper-systemen. Concreet brengen we een zoekcorpus uit met 16 miljoen biomedische artikelabstracts en construeren we een uitdagende feitelijke vraag-antwoorddataset genaamd PaperSearchQA met 60.000 voorbeelden die uit het corpus kunnen worden beantwoord, samen met benchmarks. We trainen zoekagents in deze omgeving om niet-RL-retrieval-baselines te overtreffen; we voeren ook verdere kwantitatieve analyse uit en observeren interessante agentgedragingen zoals plannen, redeneren en zelfverificatie. Ons corpus, datasets en benchmarks zijn bruikbaar met de populaire Search-R1-codebase voor RLVR-training en vrijgegeven op https://huggingface.co/collections/jmhb/papersearchqa. Ten slotte zijn onze methoden voor datacreatie schaalbaar en eenvoudig uitbreidbaar naar andere wetenschappelijke domeinen.
De snelle groei van grote taalmmodellen (LLM's) heeft de evolutie van hardware met enkele GPU's overtroffen, waardoor de modelschaal steeds meer beperkt wordt door geheugencapaciteit in plaats van rekenkracht. Hoewel moderne trainingsystemen het GPU-geheugen uitbreiden via gedistribueerde parallellisatie en offloading over CPU- en opslaglagen, behouden ze fundamenteel een GPU-centraal uitvoeringsparadigma waarin GPU's persistente modelreplica's en volledige autograd-grafieken hosten. Hierdoor blijft het schalen van grote modellen nauw gekoppeld aan multi-GPU-clusters, complexe gedistribueerde runtime-omgevingen en onvoorspelbaar hostgeheugengebruik, wat aanzienlijke barrières opwerpt voor node-schaal workloads na de training, zoals instructie-afstemming, alignment en domeinaanpassing. Wij presenteren Horizon-LM, een geheugengericht trainingssysteem dat de rollen van CPU en GPU voor optimalisatie van grote modellen herdefinieert. Horizon-LM behandelt hostgeheugen als de autoritaire parameteropslag en gebruikt GPU's uitsluitend als tijdelijke rekenengines via een CPU-master, GPU-template uitvoeringsmodel. Door persistente GPU-gereflecteerde modules en autograd-grafieken te elimineren, expliciete herberekening met handmatige gradientpropagatie toe te passen en een gepipelineerde dubbelgebufferde uitvoeringsengine te introduceren, ontkoppelt Horizon-LM modelschaal van het aantal GPU's en begrenst het geheugengebruik tot de theoretische parameterfootprint. Op een enkele H200 GPU met 1,5 TB host-RAM traint Horizon-LM betrouwbaar modellen tot 120B parameters. Op een standaard single A100-machine behaalt Horizon-LM tot 12,2 keer hogere trainingsdoorvoer dan DeepSpeed ZeRO-3 met CPU-offloading, terwijl numerieke correctheid behouden blijft. Over platformen en schalen heen handhaaft Horizon-LM een hoog apparaatgebruik en voorspelbare geheugengroei, wat aantoont dat hostgeheugen, niet GPU-geheugen, de ware haalbaarheidsgrens definieert voor node-schaal training van grote modellen.
De evolutie van Large Language Model (LLM)-agenten voor software engineering (SWE) wordt beperkt door de schaarste aan verifieerbare datasets, een knelpunt dat voortvloeit uit de complexiteit van het opzetten van uitvoerbare omgevingen voor diverse programmeertalen. Om dit aan te pakken, introduceren we MEnvAgent, een multi-language raamwerk voor geautomatiseerde omgevingsconstructie dat de schaalbare generatie van verifieerbare taakinstanties vergemakkelijkt. MEnvAgent gebruikt een multi-agent Planning-Uitvoering-Verificatie-architectuur om constructiefouten autonoom op te lossen en integreert een nieuwe Environment Reuse Mechanism dat de rekenkosten verlaagt door historische omgevingen incrementeel aan te passen. Evaluaties op MEnvBench, een nieuwe benchmark met 1.000 taken in 10 talen, tonen aan dat MEnvAgent de baseline-methoden overtreft, met een verbetering van de Fail-to-Pass (F2P) ratio van 8,6% en een verlaging van de tijdskosten met 43%. Daarnaast tonen we de bruikbaarheid van MEnvAgent aan door de constructie van MEnvData-SWE, de grootste open-source polyglot dataset tot nu toe van realistische, verifieerbare Docker-omgevingen, inclusief oplossingstrajecten die consistente prestatieverbeteringen mogelijk maken voor SWE-taken bij een breed scala aan modellen. Onze code, benchmark en dataset zijn beschikbaar op https://github.com/ernie-research/MEnvAgent.
Grote Taalmodellen (LLM's) kunnen onbedoelde vooroordelen verwerven uit ogenschijnlijk onschuldige trainingsgegevens, zelfs zonder expliciete aanwijzingen of kwaadaardige inhoud. Bestaande methoden slagen er niet in om dergelijke risico's vóór fine-tuning op te sporen, waardoor post-hoc-evaluatie kostbaar en inefficiënt is. Om deze uitdaging aan te pakken, introduceren we Data2Behavior, een nieuwe taak voor het voorspellen van onbedoeld modelgedrag vóór de training. We stellen ook Manipulating Data Features (MDF) voor, een lichtgewicht benadering die kandidaatdata samenvat via hun gemiddelde representaties en deze injecteert in de forward pass van een basismodel. Hierdoor kunnen latente statistische signalen in de data modelactivaties vormen en potentiële vooroordelen en veiligheidsrisico's onthullen zonder dat parameters worden bijgewerkt. MDF bereikt betrouwbare voorspellingen terwijl het slechts ongeveer 20% van de GPU-bronnen verbruikt die nodig zijn voor fine-tuning. Experimenten met Qwen3-14B, Qwen2.5-32B-Instruct en Gemma-3-12b-it bevestigen dat MDF onbedoeld gedrag kan anticiperen en inzicht kan geven in kwetsbaarheden tijdens pre-training.
Het beheren van agentgedachten en observaties tijdens meerzijdige agent-omgeving interacties is een opkomende strategie om agentefficiëntie te verbeteren. Bestaande studies behandelen echter volledige interactietrajectoriaal als gelijkwaardig, waarbij wordt voorbijgegaan aan de variërende noodzaak van gedachten en het nut van observaties per interactieronde. Daartoe voeren we eerst kwantitatief onderzoek uit naar hoe gedachten en observaties agenteffectiviteit en -efficiëntie beïnvloeden. Op basis van onze bevindingen stellen we Agent-Omit voor, een uniform trainingsraamwerk dat LLM-agenten in staat stelt om redundante gedachten en observaties adaptief weg te laten. Specifiek synthetiseren we eerst een kleine hoeveelheid koude-startdata, inclusief zowel eenzijdige als meerzijdige weglatingsscenario's, om de agent af te stemmen op weglatingsgedrag. Verder introduceren we een weglatingsbewuste agentieve versterkingsleermethode, waarbij een duale steekproefmechanisme en een op maat gemaakte weglatingsbeloning worden geïntegreerd om het adaptieve weglatingsvermogen van de agent te stimuleren. Theoretisch bewijzen we dat de afwijking van ons weglatingsbeleid een bovengrens heeft in de vorm van KL-divergentie. Experimentele resultaten op vijf agentbenchmarks tonen aan dat onze geconstrueerde Agent-Omit-8B prestaties kan bereiken die vergelijkbaar zijn met zeven frontier LLM-agenten, en de beste effectiviteit-efficiëntie balans behaalt in vergelijking met zeven efficiënte LLM-agentmethoden. Onze code en data zijn beschikbaar op https://github.com/usail-hkust/Agent-Omit.
Effectief gebruik van tools en redeneervaardigheid zijn essentiële capaciteiten voor grote redeneermodellen (LRM's) om complexe problemen uit de praktijk aan te pakken. Via empirische analyse identificeren we dat huidige LRM's niet in staat zijn tot subtask-decompositie in complexe tool-use-scenario's, wat leidt tot Lui Redeneren (Lazy Reasoning). Om dit aan te pakken, stellen we een tweefasen-trainingsraamwerk voor, D-CORE (\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes), dat eerst de taakdecompositie-redeneervaardigheid van LRM's aanwakkert via zelfdistillatie, gevolgd door diversiteitsbewuste reinforcement learning (RL) om het reflectieve redeneervermogen van LRM's te herstellen. D-CORE bereikt robuuste verbeteringen in tool-use op uiteenlopende benchmarks en modelschalen. Experimenten op BFCLv3 tonen de superioriteit van onze methode aan: D-CORE-8B bereikt een nauwkeurigheid van 77,7% en overtreft daarmee het best presterende 8B-model met 5,7%. Tegelijkertijd vestigt D-CORE-14B een nieuwe state-of-the-art op 79,3%, en presteert het beter dan 70B-modellen ondanks een 5 keer kleinere omvang. De broncode is beschikbaar op https://github.com/alibaba/EfficientAI.
Recente vooruitgang in verenigde multimodale modellen (UMM) heeft opmerkelijke vorderingen getoond in zowel begrips- als generatietaken. Of deze twee capaciteiten echter daadwerkelijk op één lijn zitten en geïntegreerd zijn binnen een enkel model, blijft onduidelijk. Om deze vraag te onderzoeken, introduceren we GapEval, een bidirectionele benchmark die is ontworpen om de kloof tussen begrips- en generatiecapaciteiten te kwantificeren en de cognitieve coherentie van de twee "verenigde" richtingen kwantitatief te meten. Elke vraag kan in beide modaliteiten (beeld en tekst) worden beantwoord, wat een symmetrische evaluatie mogelijk maakt van het bidirectionele inferentievermogen en de cross-modale consistentie van een model. Experimenten tonen een hardnekkige kloof aan tussen de twee richtingen bij een breed scala aan UMM's met verschillende architecturen, wat suggereert dat huidige modellen slechts een oppervlakkige unificatie bereiken in plaats van een diepe cognitieve convergentie van de twee. Om het onderliggende mechanisme verder te verkennen, voeren we een empirische studie uit vanuit het perspectief van kennismanipulatie om de onderliggende beperkingen te illustreren. Onze bevindingen geven aan dat kennis binnen UMM's vaak gefragmenteerd blijft. De emergentie van capaciteiten en kennis tussen modaliteiten zijn niet gesynchroniseerd, wat de weg vrijmaakt voor verder onderzoek.
Ruimtelijk redeneren is een fundamenteel aspect van het menselijk cognitief vermogen, maar vormt nog steeds een grote uitdaging voor hedendaagse vision-language modellen (VLM's). Eerder onderzoek baseerde zich voornamelijk op synthetische of door LLM's gegenereerde omgevingen met beperkte taakontwerpen en puzzelachtige opzetten, waardoor de complexiteit, visuele ruis en diverse ruimtelijke relaties uit de echte wereld die VLM's tegenkomen, niet werden weergegeven. Om dit aan te pakken, introduceren we SpatiaLab, een uitgebreide benchmark voor het evalueren van het ruimtelijk redeneervermogen van VLM's in realistische, onbeperkte contexten. SpatiaLab omvat 1.400 visuele vraag-antwoordparen verdeeld over zes hoofdcategorieën: Relatieve Positionering, Diepte & Occlusie, Oriëntatie, Grootte & Schaal, Ruimtelijke Navigatie en 3D-meetkunde, elk met vijf subcategorieën, wat resulteert in 30 verschillende taaktypen. Elke subcategorie bevat minimaal 25 vragen en elke hoofdcategorie omvat minimaal 200 vragen, waardoor zowel meerkeuze- als open-einde-evaluatie mogelijk is. Experimenten met diverse state-of-the-art VLM's, waaronder open-source en closed-source modellen, modellen gericht op redeneren, en gespecialiseerde modellen voor ruimtelijk redeneren, onthullen een aanzienlijke kloof in ruimtelijke redeneervaardigheden vergeleken met mensen. In de meerkeuze-opzet behaalt InternVL3.5-72B een nauwkeurigheid van 54,93% tegenover 87,57% voor mensen. In de open-einde-instelling laten alle modellen een prestatieverlies zien van ongeveer 10-25%, waarbij GPT-5-mini het hoogst scoort met 40,93% tegenover 64,93% voor mensen. Deze resultaten benadrukken cruciale beperkingen in het omgaan met complexe ruimtelijke relaties, dieptewaarneming, navigatie en 3D-meetkunde. Door een divers, op de echte wereld gebaseerd evaluatieraamwerk te bieden, legt SpatiaLab kritieke uitdagingen en kansen bloot voor de verbetering van het ruimtelijk redeneervermogen van VLM's, en biedt het een benchmark om toekomstig onderzoek te leiden naar robuust, op mensen afgestemd ruimtelijk begrip. SpatiaLab is beschikbaar op: https://spatialab-reasoning.github.io/.
Het trainen van LLM's voor code-gerelateerde taken is doorgaans afhankelijk van hoogwaardige code-documentatieparen, die kostbaar zijn om samen te stellen en vaak schaars voor nicheprogrammeertalen. Wij introduceren BatCoder, een zelfgesuperviseerd reinforcement learning-raamwerk dat is ontworpen om codegeneratie en documentatieproductie gezamenlijk te optimaliseren. BatCoder gebruikt een back-translationstrategie: eerst wordt documentatie gegenereerd uit code, waarna de gegenereerde documentatie wordt gebruikt om de oorspronkelijke code te reconstrueren. De semantische gelijkenis tussen de oorspronkelijke en gereconstrueerde code dient als een impliciete beloning, waardoor reinforcement learning de prestaties van het model kan verbeteren, zowel bij het genereren van code uit documentatie als omgekeerd. Deze aanpak maakt het mogelijk modellen uitsluitend met code te trainen, waardoor het aantal beschikbare trainingsvoorbeelden aanzienlijk toeneemt. Geëvalueerd op HumanEval en MBPP met een 7B-model behaalde BatCoder 83,5% en 81,0% pass@1, waarmee het sterke open-source-baselines overtreft. Bovendien toont het raamwerk consistente schaalbaarheid met betrekking tot zowel de omvang van de traincorpus als de modelcapaciteit.
Het finetunen van grote taalmodellen (LLM's) op redeneerbenchmarks via reinforcement learning vereist een specifieke beloningsfunctie, vaak binair, voor elke benchmark. Dit brengt twee potentiële beperkingen met zich mee: de noodzaak om de beloning te ontwerpen, en de mogelijk schaarse aard van binaire beloningen. Hier onderzoeken we systematisch beloningen afgeleid van de waarschijnlijkheid of log-waarschijnlijkheid van het produceren van het referentieantwoord (of een andere promptvervolg aanwezig in de data), welke als voordeel hebben dat ze niet afhankelijk zijn van specifieke verifiers en op grote schaal beschikbaar zijn. Verschillende recente werken pleiten voor het gebruik van vergelijkbare beloningen (bv. VeriFree, JEPO, RLPR, NOVER). We vergelijken systematisch varianten van waarschijnlijkheidsgebaseerde beloningen met standaard baseline-methoden, waarbij we de prestaties testen op zowel standaard wiskundige redeneerbenchmarks als op lange-antwoordvragen waar geen externe verifier beschikbaar is. We constateren dat het gebruik van de log-waarschijnlijkheid van het referentieantwoord als beloning voor 'chain-of-thought' (CoT) leren de enige optie is die in alle opstellingen goed presteert. Deze beloning is ook consistent met het 'next-token' log-waarschijnlijkheidsverlies dat wordt gebruikt tijdens de pretraining. In verifieerbare settings leveren log-waarschijnlijkheidsbeloningen vergelijkbare of betere slagingspercentages op dan versterking met standaard binaire beloningen, en resulteren ze in een veel betere perplexiteit. In niet-verifieerbare settings presteren ze even goed als SFT. Aan de andere kant falen methodes gebaseerd op waarschijnlijkheid, zoals VeriFree, in niet-verifieerbare settings vanwege verdwijnende kansen om het correcte antwoord te krijgen. Over het geheel genomen vestigt dit log-waarschijnlijkheidsbeloningen als een levensvatbare methode voor CoT-finetuning, waardoor een brug wordt geslagen tussen de korte, verifieerbare en lange, niet-verifieerbare antwoordsettings.
De huidige evaluatie van belichaamde VLM's steunt op statische, door experts gedefinieerde, handmatig geannoteerde benchmarks die ernstige redundantie en een onevenwichtige dekking vertonen. Dit arbeidsintensieve paradigma put computationele en annotatiebronnen uit, drijft de kosten op en verstoort modelrangschikkingen, wat uiteindelijk de iteratieve ontwikkeling belemmert. Om dit aan te pakken, stellen wij Agentic Automatic Evaluation (A2Eval) voor, het eerste agent-gebaseerde raamwerk dat de benchmarkcuratie en -evaluatie automatiseert via twee samenwerkende agents. De Data Agent induceert autonoom capaciteitsdimensies en stelt een gebalanceerde, compacte evaluatieset samen, terwijl de Eval Agent uitvoerbare evaluatiepijplijnen synthetiseert en valideert, waardoor een volledig autonome, hoogwaardige beoordeling mogelijk wordt. Geëvalueerd over 10 benchmarks en 13 modellen, comprimeert A2Eval evaluatiesets met 85%, vermindert de totale computationele kosten met 77% en levert een 4,6x versnelling op, waarbij de evaluatiekwaliteit behouden blijft. Cruciaal is dat A2Eval systematische rangschikkingsvooroordelen corrigeert, de menselijke afstemming verbetert tot Spearman's rho=0,85 en een hoge rangschikkingsbetrouwbaarheid handhaaft (Kendall's tau=0,81), waarmee een nieuwe standaard wordt gevestigd voor hoogwaardige, low-cost belichaamde evaluatie. Onze code en data zullen binnenkort openbaar worden.
Gegronde Multimodale Herkenning van Genoemde Entiteiten (GMNER) heeft tot doel op tekst gebaseerde entiteiten te extraheren, hun semantische categorieën toe te wijzen en ze te verankeren aan overeenkomstige visuele regio's. In dit werk onderzoeken we het potentieel van Multimodale Grote Taalmodellen (MLLM's) om GMNER op een end-to-end manier uit te voeren, verdergaand dan hun gebruikelijke rol als hulpmiddelen binnen gecascadeerde pijplijnen. Cruciaal is dat ons onderzoek een fundamentele uitdaging aan het licht brengt: MLLM's vertonen modaliteitsbias, waaronder visuele bias en tekstuele bias, die voortkomt uit hun neiging om unimodale snelkoppelingen te nemen in plaats van rigoureuze cross-modale verificatie. Om dit aan te pakken, stellen we Modaliteitsbewuste Consistentieredenering (MCR) voor, die gestructureerde cross-modale redenering afdwingt door Multi-stijl Redeneerschema-injectie (MRSI) en Begeleide Verifieerbare Optimalisatie (BVO). MRSI transformeert abstracte beperkingen in uitvoerbare redeneerketens, terwijl BVO het model in staat stelt om zijn redeneertrajecten dynamisch af te stemmen met Groepsrelatief Beleidsoptimalisatie (GRPO). Experimenten met GMNER en visuele verankeringstaken tonen aan dat MCR modaliteitsbias effectief vermindert en superieure prestaties bereikt in vergelijking met bestaande baseline-methoden.
Het autoregressieve videodiffusiemodel heeft recentelijk aanzienlijke onderzoeksinteresse gegenereerd vanwege zijn causale modellering en iteratieve denoisering. In dit werk constateren wij dat de multi-head self-attention in deze modellen historische frames onderbenut: ongeveer 25% van de heads richt zich vrijwel uitsluitend op het huidige frame, en het verwijderen van hun KV-caches leidt slechts tot minimale prestatievermindering. Hierop voortbouwend presenteren wij Dummy Forcing, een eenvoudige maar effectieve methode om de toegankelijkheid van context over verschillende heads te controleren. Concreet reduceert de voorgestelde heterogene geheugentoewijzing de redundantie van context per head, gepaard gaand met dynamische headprogrammering om headtypen adaptief te classificeren. Voorts ontwikkelen wij een context packing-techniek om een agressievere cachecompressie te bereiken. Zonder aanvullende training levert onze Dummy Forcing een versnelling tot 2.0x ten opzichte van de baseline, waarbij videogeneratie met 24.3 FPS wordt ondersteund met een kwaliteitsverlies van minder dan 0.5%. De projectpagina is beschikbaar op https://csguoh.github.io/project/DummyForcing/.
Wij onderzoeken machinaal vertalen voor vijf Turkse taalparen: Russisch-Basjkiers, Russisch-Kazachs, Russisch-Kirgizisch, Engels-Tataars, Engels-Tsjoevasjisch. Het fine-tunen van nllb-200-distilled-600M met LoRA op synthetische data behaalde een chrF++ van 49,71 voor Kazachs en 46,94 voor Basjkiers. Het aansturen van DeepSeek-V3.2 met opgehaalde vergelijkbare voorbeelden resulteerde in een chrF++ van 39,47 voor Tsjoevasjisch. Voor Tataars behaalden zero-shot of op retrieval gebaseerde benaderingen een chrF++ van 41,6, terwijl voor Kirgizisch de zero-shot aanpak 45,6 bereikte. Wij publiceren de dataset en de verkregen gewichten.
Multi-Agent Discussion (MAD) heeft recentelijk sterk aan aandacht gewonnen. Hierbij werken meerdere LLM-instanties samen om problemen op te lossen via gestructureerde discussie. Wij constateren echter dat huidige MAD-methoden gemakkelijk lijden onder discussie-inconsistentie, waarbij de LLM's er niet in slagen een coherente oplossing te bereiken door een gebrek aan afstemming tussen hun individuele contexten. In dit artikel introduceren we een multi-LLM contextleermethode (M2CL) die een contextgenerator voor elke agent leert. Deze generator is in staat om per discussieronde dynamisch contextinstructies te genereren via automatische informatie-organisatie en -verfijning. Specifiek, geïnspireerd door onze theoretische inzichten in contextinstructie, traint M2CL de generators om contextcoherentie en outputdiscrepanties te beheersen via een zorgvuldig ontworpen zelfadaptief mechanisme. Hierdoor kunnen LLM's voortijdige convergentie op meerderheidsruis vermijden en geleidelijk het juiste consensus bereiken. We evalueren M2CL op uitdagende taken, waaronder academisch redeneren, belichaamde taken en mobiele besturing. De resultaten tonen aan dat de prestaties van M2CL bestaande methoden met 20% tot 50% significant overtreffen, terwijl het ook gunstige overdraagbaarheid en computationele efficiëntie biedt.
De snelle opkomst van generatieve 3D-modellen heeft een kritieke flessenhals in animatiepijplijnen gecreëerd: rigging. Bestaande geautomatiseerde methoden worden fundamenteel beperkt door hun benadering van skinning, waarbij het wordt behandeld als een slecht-gesteld, hoogdimensionaal regressieprobleem dat inefficiënt is om te optimaliseren en doorgaans wordt ontkoppeld van skeletgeneratie. Wij stellen dat dit een representatieprobleem is en introduceren SkinTokens: een aangeleerde, compacte en discrete representatie voor skinning-gewichten. Door gebruik te maken van een FSQ-CVAE om de intrinsieke sparseheid van skinning vast te leggen, herformuleren we de taak van continue regressie naar een beter hanteerbaar probleem van tokenreeksvoorspelling. Deze representatie maakt TokenRig mogelijk, een uniform autoregressief framework dat de volledige rig modelleert als een enkele reeks van skeletparameters en SkinTokens, waarbij de complexe afhankelijkheden tussen skeletten en huidvervormingen worden aangeleerd. Het uniforme model is vervolgens geschikt voor een reinforcement learning-fase, waar op maat gemaakte geometrische en semantieke beloningen de generalisatie naar complexe, buiten-de-verdeling liggende assets verbeteren. Kwantitatief leidt de SkinTokens-representatie tot een verbetering van 98%-133% in skinning-nauwkeurigheid ten opzichte van state-of-the-art methoden, terwijl het volledige TokenRig-framework, verfijnd met RL, de botvoorspelling met 17%-22% verbetert. Ons werk presenteert een uniforme, generatieve benadering voor rigging die resulteert in hogere kwaliteit en robuustheid, en biedt een schaalbare oplossing voor een lang bestaande uitdaging in 3D-contentcreatie.
Dit werk presenteert self-rewarding sequential Monte Carlo (SMC), een schaalalgoritme voor inferentietijd dat effectieve sampling van gemaskeerde diffusie-taalmodellen (MDLM's) mogelijk maakt. Ons algoritme vindt zijn oorsprong in de observatie dat de meeste bestaande MDLM's vertrouwen op een op vertrouwen gebaseerde samplingstrategie, waarbij bij elke stap alleen tokens met de hoogste voorspellingszekerheid worden behouden. Dit beperkt de generatie tot een ruisgevoelig, gretig decodeerparadigma, wat leidt tot een onvermijdelijke ineenstorting van de diversiteit aan mogelijke paden. Wij pakken dit probleem aan door meerdere interacterende diffusieprocessen, deeltjes genaamd, parallel te lanceren voor trajectverkenning. Cruciaal is dat we het trajectniveau-vertrouwen introduceren als een zelfbelonend signaal voor het toekennen van belangrijkheidsgewichten aan deeltjes. Tijdens het sampling worden deeltjes iteratief gewogen en hermonsterd om de generatie systematisch te sturen naar globaal zelfverzekerde, hoogwaardige samples. Onze self-rewarding SMC wordt geverifieerd op diverse gemaskeerde diffusie-taalmodellen en benchmarks, waarbij aanzienlijke verbetering wordt bereikt zonder extra training of beloningsrichtlijnen, terwijl parallelle inferentiecapaciteit effectief wordt omgezet in verbeterde samplingkwaliteit. Onze code is beschikbaar op https://github.com/Algolzw/self-rewarding-smc.
Wij presenteren protein autoregressive modeling (PAR), het eerste multi-scale autoregressieve raamwerk voor de generatie van proteïne-backbones via coarse-to-fine voorspelling op de volgende schaal. PAR maakt gebruik van de hiërarchische aard van proteïnen om structuren te genereren die lijken op het beeldhouwen van een standbeeld: eerst wordt een grove topologie gevormd, waarna structurele details over verschillende schalen worden verfijnd. Om dit te bereiken bestaat PAR uit drie belangrijke componenten: (i) multi-scale downsampling-operaties die proteïnestructuren tijdens de training op meerdere schalen representeren; (ii) een autoregressieve transformer die multi-scale informatie codeert en conditionele embeddings produceert om de structuurgeneratie te sturen; (iii) een op flows gebaseerde backbone-decoder die backbone-atomen genereert, geconditioneerd op deze embeddings. Bovendien lijden autoregressieve modellen onder exposure bias, veroorzaakt door een mismatch tussen de trainings- en generatieprocedure, wat de kwaliteit van de structuurgeneratie aanzienlijk aantast. Wij verlichten dit probleem effectief door de invoering van *noisy context learning* en *scheduled sampling*, wat een robuuste backbone-generatie mogelijk maakt. Opmerkelijk is dat PAR sterke zero-shot-generalizatie vertoont, waarbij het flexibele, door de gebruiker geprompte conditionele generatie en *motif scaffolding* ondersteunt zonder *fine-tuning* te vereisen. Op de benchmark voor onvoorwaardelijke generatie leert PAR effectief proteïnedistributies, produceert het backbones van hoge ontwerpkwaliteit en vertoont het gunstige schaalgedrag. Gezamenlijk vestigen deze eigenschappen PAR als een veelbelovend raamwerk voor proteïnestructuurgeneratie.
Radiologische analyse profiteert in toenemende mate van vooraf getrainde visuele representaties die heterogene downstreamtaken kunnen ondersteunen across beeldvormingsmodaliteiten. In dit werk introduceren we OmniRad, een zelf-superviserend radiologisch foundationmodel, vooraf getraind op 1,2 miljoen medische beelden, dat is ontworpen volgens radiologisch geïnspireerde principes die representatiehergebruik en overdraagbaarheid tussen taken benadrukken. We evalueren de vooraf getrainde encoder onder meerdere downstream-aanpassingsregimes, waaronder lichtgewicht taakspecifieke adapters met een bevroren backbone, evenals volledige end-to-end fine-tuning voor classificatie, waardoor we zowel de representatiekwaliteit als de taakspecifieke prestaties kunnen beoordelen. OmniRad wordt geëvalueerd op een breed scala aan publieke benchmarks voor classificatie en segmentatie across meerdere modaliteiten. Op de MedMNISTv2-collectie verbetert OmniRad de classificatie-F1 met tot 2,05% ten opzichte van concurrerende foundationmodellen. Voor dense prediction behaalt OmniRad gemiddelde Dice-scoreverbeteringen across zes MedSegBench-datasets bij gebruik van bevroren representaties. Kwalitatieve analyses en latentieruimtevisualisaties duiden op verbeterde featureclustering en modaliteitsgerelateerde scheiding.
Optimalisatie (PPO) wordt in recente literatuur gepositioneerd als de canonieke methode voor het RL-gedeelte van RLHF. PPO presteert empirisch goed, maar heeft een heuristische motivatie, behandelt de KL-divergentiebeperking die in LM-RLHF wordt gebruikt op een ad-hoc-manier, en lijdt onder beloningsoscillaties, entropie-instorting, waardefunctiedrift en plotseling beleidsdivergentie, wat frequente herstarten en uitgebreide hyperparameterafstemming vereist. In dit artikel ontwikkelen we een nieuwe pure on-policy actor-critic RL-methode voor de LM-RLHF-setting. We presenteren SAFE (Stable Alignment Finetuning with Entropy-aware control), een nieuw RLHF-algoritme dat een Double Soft-Min Critic voor pessimistische waardeschatting combineert met een nieuw meerlaags stabilisatiekader dat entropie-gereguleerde KL-regulering en PID-gestuurde adaptieve drempels combineert. In tegenstelling tot de symmetrische KL-straffen van standaard PPO, onderscheidt SAFE exploratie met hoge entropie van mode-instorting met lage entropie en past het straffen dynamisch aan op basis van beloningssnelheid. Experimenten op een model met 3B parameters tonen aan dat SAFE een +5,15% hogere gemiddelde trainingsbeloning behaalt dan PPO (0,725 vs 0,689), verwaarloosbare beloningscrashes en superieure KL-regulering. Onze methode voegt minimale computationele overhead toe en biedt een interpreteerbaar, crashbestendig RLHF-kader dat agressieve leersnelheid handhaaft terwijl het stabiele optimalisatie op lange termijn garandeert, geschikt voor productie-implementatie. Code is beschikbaar op https://github.com/ryyzn9/SAFE.
Moderne taalmodellen worden vrijwel uitsluitend getraind op tokenreeksen geproduceerd door een vaste tokenizer, een externe verliesloze compressor die vaak werkt op UTF-8-bytereeksen, waardoor het model gekoppeld wordt aan die compressor. Dit werk introduceert proxy-compressie, een alternatief trainingsschema dat de efficiëntievoordelen van gecomprimeerde invoer behoudt, terwijl het een end-to-end, raw-byte-interface biedt tijdens inferentie. Tijdens de training wordt één taalmodel gezamenlijk getraind op raw-bytereeksen en gecomprimeerde weergaven gegenereerd door externe compressors; hierdoor leert het model gecomprimeerde reeksen en raw bytes intern op elkaar af te stemmen. Deze afstemming maakt een sterke transfer tussen de twee formaten mogelijk, zelfs wanneer voornamelijk wordt getraind op gecomprimeerde invoer die tijdens inferentie wordt weggegooid. Uitgebreide experimenten met code-taalmodellering tonen aan dat proxy-compressie de trainingsefficiëntie aanzienlijk verbetert en de pure byte-level-baselines significant overtreft bij vaste rekenbudgetten. Naarmate de modelschaal toeneemt, worden deze winsten duidelijker, en uiteindelijk evenaren of overtreffen proxy-getrainde modellen tokenizer-benaderingen, terwijl ze uitsluitend op raw bytes werken en de inherente robuustheid van byte-level-modellering behouden.
4D-generatie heeft opmerkelijke vooruitgang geboekt bij het synthetiseren van dynamische 3D-objecten vanuit invoer zoals tekst, afbeeldingen of video's. Bestaande methoden representeren beweging echter vaak als een impliciet vervormingsveld, wat de directe controle en bewerkbaarheid beperkt. Om dit probleem aan te pakken, stellen wij SkeletonGaussian voor, een nieuw raamwerk voor het genereren van bewerkbare dynamische 3D Gaussians vanuit monocular video-invoer. Onze aanpak introduceert een hiërarchische gearticuleerde representatie die beweging expliciet decomposeert in een schaarse rigide beweging, aangestuurd door een skelet, en fijnmazige niet-rigide beweging. Concreet extraheren we een robuust skelet en sturen de rigide beweging aan via linear blend skinning, gevolgd door een op hexplaten gebaseerde verfijning voor niet-rigide vervormingen, wat de interpreteerbaarheid en bewerkbaarheid verbetert. Experimentele resultaten tonen aan dat SkeletonGaussian de bestaande methoden overtreft in generatiekwaliteit, terwijl het intuïtieve bewegingsbewerking mogelijk maakt, waarmee een nieuw paradigma voor bewerkbare 4D-generatie wordt gevestigd. Projectpagina: https://wusar.github.io/projects/skeletongaussian/
Hoewel multi-agentsystemen met grote taalmodellen (LLM's) superieure redeneerprestaties bereiken via iteratief debat, wordt praktische implementatie beperkt door hun hoge computationele kosten en foutpropagatie. Dit artikel stelt AgentArk voor, een nieuw raamwerk om de dynamiek van meerdere agenten te distilleren in de gewichten van een enkel model, waardoor expliciete interacties tijdens het testen effectief worden omgezet in impliciete modelcapaciteiten. Hierdoor wordt een enkele agent uitgerust met de intelligentie van multi-agentsystemen, terwijl deze computationeel efficiënt blijft. Specifiek onderzoeken we drie hiërarchische distillatiestrategieën across verschillende modellen, taken, schaalvergroting en scenario's: *reasoning-enhanced fine-tuning*; trajectgebaseerde augmentatie; en procesbewuste distillatie. Door de rekencapaciteit van inferentie naar training te verplaatsen, behouden de gedistilleerde modellen de efficiëntie van één agent en vertonen ze tegelijkertijd de sterke redeneer- en zelfcorrectieprestaties van meerdere agenten. Ze tonen verder verbeterde robuustheid en generalisatie aan bij diverse redeneertaken. Wij hopen dat dit werk toekomstig onderzoek naar efficiënte en robuuste multi-agentontwikkeling kan verduidelijken. Onze code staat op https://github.com/AIFrontierLab/AgentArk.
Redeneerfouten in grote taalmodellen (LLM's) worden doorgaans alleen aan het einde van een generatie gemeten, maar veel fouten manifesteren zich als een procesmatige breuk: het model verliest 'de draad' halverwege het redeneren. Wij onderzoeken of dergelijke breuken detecteerbaar zijn aan de hand van waarneembare grootheden tijdens de inferentie (tokenlogkansen) die beschikbaar zijn in standaard API's, zonder enige training of fine-tuning. We definiëren een eenvoudig instabiliteitssignaal dat opeenvolgende distributionele verschuiving (JSD) en onzekerheid (entropie) combineert, vatten elke trace samen door de pieksterkte van de instabiliteit, en tonen aan dat dit signaal betrouwbaar falen voorspelt. Over GSM8K en HotpotQA voorspelt de instabiliteitssterkte foute antwoorden met een boven-kans AUC en resulteert het in een monotone daling van de nauwkeurigheid op buckelniveau op grote schaal over verschillende modelgroottes. Cruciaal is dat we aantonen dat instabiliteit niet uniform schadelijk is: vroege instabiliteit kan wijzen op een daaropvolgende stabilisatie en een correct eindantwoord (corrigerende instabiliteit), terwijl late instabiliteit vaker wordt gevolgd door falen (destructieve instabiliteit), zelfs bij vergelijkbare piekmagnitudes. Dit geeft aan dat herstelbaarheid niet alleen afhangt van hoe sterk de verdeling verandert, maar ook van wanneer dergelijke veranderingen optreden ten opzichte van de resterende decodeerhorizon. De methode is model-agnostisch, vereist geen training en is reproduceerbaar, en wordt gepresenteerd als een diagnostische lens in plaats van een corrigerend of controlemechanisme.
Directe alignatiemethoden worden in toenemende mate gebruikt om grote taalmmodellen (LLM's) af te stemmen op menselijke voorkeuren. Echter, veel alignmentproblemen in de praktijk omvatten meerdere conflicterende doelstellingen, waarbij een naïeve aggregatie van voorkeuren kan leiden tot instabiele training en suboptimale compromissen. Met name gewogen verliesmethoden kunnen falen in het identificeren van update-richtingen die alle doelstellingen simultaan verbeteren, en bestaande multi-objectieve benaderingen zijn vaak afhankelijk van expliciete beloningsmodellen, wat extra complexiteit introduceert en door de gebruiker gespecificeerde voorkeuren kan vertekenen. De bijdragen van dit artikel zijn tweeledig. Ten eerste stellen we een Reward-free Alignment Framework for Conflicted Objectives (RACO) voor dat rechtstreeks gebruikmaakt van paarsgewijze voorkeursdata en gradientconflicten oplost via een nieuwe geknipte variant van conflict-averse gradient descent. Wij geven convergentiegaranties naar Pareto-kritieke punten die de door de gebruiker gespecificeerde doelgewichten respecteren, en tonen verder aan dat knippen de convergentiesnelheid in de twee-doelstellingensetting strikt kan verbeteren. Ten tweede verbeteren we onze methode met behulp van enkele heuristieken en voeren we experimenten uit om de compatibiliteit van het voorgestelde framework voor LLM-alignment aan te tonen. Zowel kwalitatieve als kwantitatieve evaluaties op multi-objectieve samenvattings- en veiligheidsalignmenttaken, uitgevoerd over meerdere LLM-families (Qwen 3, Llama 3, Gemma 3), tonen aan dat onze methode consistent betere Pareto-compromissen bereikt in vergelijking met bestaande multi-objectieve alignment-baselines.
Wij presenteren LongVPO, een nieuw tweestaps raamwerk voor Direct Preference Optimization dat kort-context visie-taalmodellen in staat stelt om robuust ultra-lange video's te begrijpen zonder enige annotaties van lange video's. In Fase 1 synthetiseren we voorkeurs-triples door vragen te verankeren aan individuele korte clips, deze te interleaven met afleiders, en visuele-gelijkvormigheids- en vraag-specificiteitsfiltering toe te passen om positionele bias te mitigeren en eenduidige supervisie te waarborgen. Wij benaderen tevens de scoring van het referentiemodel over lange contexten door alleen de ankerclip te evalueren, wat de computationele overhead vermindert. In Fase 2 gebruiken we een recursief captioning-proces op lange video's om scene-level metadata te genereren, waarna we een groot taalmodel inzetten om multi-segment redeneervragen en niet-voorkeursreacties te vervaardigen, waardoor de voorkeuren van het model worden afgestemd via multi-segment redeneertaken. Met slechts 16K synthetische voorbeelden en zonder kostbare menselijke labels, presteert LongVPO beter dan de state-of-the-art open-source modellen op meerdere lange-video benchmarks, terwijl het sterke prestaties op korte video's behoudt (bijvoorbeeld op MVBench). Dit biedt een schaalbaar paradigma voor efficiënt lang-vorm video-begrip.
Wij introduceren FOTBCD, een grootschalige dataset voor de detectie van gebouwveranderingen, afgeleid van autoritatieve Franse orthofoto's en topografische gebouwendata van IGN France. In tegenstelling tot bestaande benchmarks die geografisch beperkt zijn tot individuele steden of kleine regio's, beslaat FOTBCD 28 departementen in heel Frankrijk, waarbij 25 worden gebruikt voor training en drie geografisch gescheiden departementen worden gereserveerd voor evaluatie. De dataset bestrijkt diverse stedelijke, voorstedelijke en landelijke omgevingen met een resolutie van 0,2 m/pixel. Wij maken FOTBCD-Binary openbaar toegankelijk, een dataset bestaande uit ongeveer 28.000 voor/na-beeldparen met pixelgewijze binaire maskers voor gebouwveranderingen, elk voorzien van patch-level ruimtelijke metadata. De dataset is ontworpen voor grootschalige benchmarking en evaluatie onder geografische domeinverschuiving, waarbij validatie- en testmonsters afkomstig zijn uit de gereserveerde departementen en handmatig zijn geverifieerd om de labelkwaliteit te waarborgen. Daarnaast maken wij FOTBCD-Instances openbaar toegankelijk, een openbaar beschikbare subset met annotaties op instanceniveau die enkele duizenden beeldparen omvat. Deze subset illustreert het volledige annotatieschema dat wordt gebruikt in de volledige versie van FOTBCD op instanceniveau. Met behulp van een vaste referentiebasis benchmarken wij FOTBCD-Binary tegen LEVIR-CD+ en WHU-CD, en leveren sterk empirisch bewijs dat geografische diversiteit op dataniveau samenhangt met verbeterde cross-domein generalisatie bij de detectie van gebouwveranderingen.
Encoder-only transformers blijven onmisbaar in retrievalsystemen, classificatie- en rankingsystemen waar latentie, stabiliteit en kosten cruciaal zijn. De meeste algemene encoders worden echter getraind op generieke corpora met beperkte dekking van gespecialiseerde domeinen. Wij introduceren RexBERT, een familie van BERT-stijl encoders die specifiek zijn ontworpen voor e-commercesemantiek. Wij leveren drie bijdragen. Ten eerste geven wij Ecom-niverse vrij, een corpus van 350 miljard tokens samengesteld uit diverse retail- en winkelsbronnen. Wij beschrijven een modulaire pijplijn die e-commerce-inhoud isoleert en extraheert uit FineFineWeb en andere open webresources, en karakteriseren de resulterende domeinverdeling. Ten tweede presenteren wij een reproduceerbaar recept voor vooraf trainen, voortbouwend op de architectuurverbeteringen van ModernBERT. Het recept bestaat uit drie fasen: algemene voorafgaande training, contextuitbreiding en afgekoelde domeinspecialisatie. Ten derde trainen wij RexBERT-modellen variërend van 17M tot 400M parameters en evalueren deze op tokenclassificatie, semantische gelijkenis en algemene natuurlijke-taaluitwerkingstaken met behulp van e-commerce-datasets. Ondanks 2-3x minder parameters presteert RexBERT beter dan grotere algemene encoders en evenaart of overtreft het moderne lang-contextmodellen op domeinspecifieke benchmarks. Onze resultaten tonen aan dat hoogwaardige in-domein data gecombineerd met een principiële trainingsaanpak een sterkere basis biedt voor e-commerce-toepassingen dan ongericht schalen alleen.
Grote taalmodellen (LLM's) produceren nog steeds plausibel klinkende maar ongefundeerde feitelijke beweringen, een probleem dat verergert in meerdaagse dialoog naarmate de context groeit en vroege fouten zich opstapelen. Wij introduceren HalluHard, een uitdagende meerdaagse hallucinatiebenchmark met 950 startvragen verdeeld over vier hoog-risicodomeinen: juridische zaken, onderzoeksvragen, medische richtlijnen en programmeren. Wij operationaliseren gefundeerdheid door het vereisen van inline citaten voor feitelijke beweringen. Om betrouwbare evaluatie in open-ended settings te ondersteunen, stellen wij een beoordelingspijplijn voor die iteratief bewijs ophaalt via webzoekopdrachten. Deze kan volledige tekstbronnen (inclusief PDF's) ophalen, filteren en parseren om te beoordelen of het geciteerde materiaal daadwerkelijk de gegenereerde inhoud ondersteunt. Over een diverse set van vooraanstaande propriëtaire en open-weight modellen heen, blijven hallucinaties aanzienlijk, zelfs met webzoekopdrachten (ongeveer 30% voor de sterkste configuratie, Opus-4.5 met webzoeken), waarbij fouten in de koppeling tussen inhoud en bronnen in hoge mate aanhouden. Ten slotte tonen wij aan dat hallucinatiegedrag wordt gevormd door modelcapaciteit, positie in de dialoog, effectief redeneren en het type vereiste kennis.