Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wetenschappelijke figuren behoren tot de meest effectieve middelen om complexe onderzoeksideeën over te brengen, maar het produceren van publicatiekwaliteit illustraties blijft een van de meest arbeidsintensieve onderdelen van het voorbereiden van een artikel. Bestaande geautomatiseerde systemen richten zich elk op één enkel figuurtype met alleen tekstinvoer, waardoor de diversiteit aan typen en omstandigheden die onderzoekers daadwerkelijk gebruiken onbehandeld blijft; hun rasteruitvoer kan bovendien niet lokaal worden herzien. Omdat wetenschappelijke figuren gestructureerde composities zijn van discrete semantische componenten, vereisen de gelokaliseerde fouten die generatoren op dergelijke lay-outs produceren niet een sterker raamwerk, maar een harnas. Wij implementeren dit harnas in twee complementaire systemen: Crafter, een multi-agent harnas voor figuurproductie dat generaliseert over figuurtypen en invoeromstandigheden zonder architecturale wijzigingen, en CraftEditor, dat hetzelfde patroon toepast om rasteruitvoer om te zetten in bewerkbare SVG's. Daarnaast introduceren we CraftBench, een benchmark die drie figuurtypen en vier invoeromstandigheden bestrijkt met menselijke kwaliteitsannotatie. Experimenten tonen aan dat Crafter aanzienlijk beter presteert dan zowel standalone generatoren als het agentische baseline op PaperBanana-Bench en CraftBench, waarbij ablatiestudies de onafhankelijke bijdrage van elke component bevestigen; CraftEditor zet uitvoer getrouw om in bewerkbare SVG's die alle baselines overtreffen. Onze code en benchmark zijn beschikbaar op https://github.com/HaozheZhao/Crafter.
Parameter-efficiënte fine-tuning (PEFT) wordt gewoonlijk beschouwd als een goedkoper alternatief voor volledige fine-tuning. Wij onderzoeken een bredere rol: kleine trainbare adapters als persistente lokale toestand bovenop sterke gedeelde funderingsmodellen. In deze benadering biedt het basismodel gedeelde competentie, terwijl adapters instantiespecifiek gedrag dragen, zoals voorkeuren, vaardigheden, gereedschapsgewoonten en geheugenachtige updates. We organiseren het probleem rond drie schaalassen: 'Scale Up', waarbij sterkere gedeelde prioria kleine lokale aanpassingen nuttiger maken; 'Scale Down', waarin we bestuderen hoe klein adapters kunnen zijn terwijl ze betrouwbaar blijven; en 'Scale Out', waarbij veel persistente aangepaste instanties naast elkaar bestaan. MinT biedt een voorbeeldinfrastructuur voor het beheren van adapter-identiteit, -revisie, -herkomst, -evaluatie en -serving-residentie. Samen suggereren de resultaten dat PEFT een compacte ondergrond kan zijn voor persistente persoonlijke modellen, in plaats van slechts een budgetvriendelijke vervanger voor volledige fine-tuning.
Naarmate de mogelijkheden van agenten toenemen, raken bestaande benchmarks, zoals τ²-Bench, steeds meer verzadigd. Toch blijft het construeren van nieuwe benchmarktaken complex, kostbaar en arbeidsintensief. Bovendien legt de standaardaanpak, waarbij scenario's eerst in natuurlijke taal worden beschreven en vervolgens worden omgezet in toolsequenties, slechts een beperkte subset vast van de toolgebruikpatronen die agenten toepassen. In dit artikel pakken we deze problemen aan door het taakconstructieproces om te keren. We stellen TASTE voor: Task Synthesis from Tool Sequence Evolution, een automatische methode die uitdagende taken genereert met een bredere tooldekkingsgraad. TASTE maakt gebruik van een Adaptief Contrastief n-grammodel dat is getraind op door LLM beoordeelde validiteitssignalen. Dit maakt het mogelijk om geldige toolsequenties te bemonsteren die een breed scala aan toolcombinaties bestrijken. Vervolgens selecteert TASTE representatieve sequenties uit de pool via clustering, zet ze om in volledige benchmarktaken en verfijnt ze door middel van iteratieve moeilijkheidsevolutie. Met behulp van TASTE construeren we τᶜ-Bench, een uitdagende uitbreiding van de drie domeinen van τ²-Bench. We evalueren 11 agent/gebruiker LLM-paren en vinden dat modellen die τ²-Bench bijna verzadigen, ernstige prestatieverlies lijden op onze taken (bijv. Gemini-3-Flash daalt van 0,82–0,94 naar 0,28–0,61). Naast de verhoogde moeilijkheidsgraad verdubbelen onze gegenereerde taken het aantal unieke toolcombinaties dat agenten moeten uitvoeren. Onze resultaten suggereren dat hoge scores op bestaande benchmarks vaak verzadiging weerspiegelen in plaats van robuust taakoplossend vermogen. Door de automatische generatie van moeilijke, hoogdekkende benchmarks maakt TASTE continue, schaalbare evaluatie van toekomstige agenten mogelijk.
De evaluaties van grensverleggende modellen verschuiven van fundamentele capaciteiten (zoals instructievolging en redeneren) naar compositorische, agentische capaciteiten, maar Koreaanse agentische benchmarks blijven schaars. We introduceren K-BrowseComp, een web-browsing agent benchmark die is verankerd in de Koreaanse context, bestaande uit 400 problemen. De 300-problemen tellende subset K-BrowseComp-Verified is handmatig geconstrueerd en gevalideerd door moedertaalsprekers van het Koreaans. Op deze subset behalen grensverleggende LLM's, waaronder GPT-5.5, DeepSeek-V4-Pro en GLM-5.1, slechts 30,00–45,67%, een aanzienlijke daling ten opzichte van BrowseComp, terwijl Koreaanse LLM's die zijn uitgebracht via het eigen AI-stichtingsmodelprogramma van Korea slechts 0,00–10,33% behalen. We construeren verder een synthetische split van 100 problemen met behulp van harde few-shot voorbeelden en op faalmodi gerichte generatie om de asymmetrie tussen het oplossen en creëren van web-browsing problemen te benutten. Op de adversariaal gefilterde synthetische diagnostische split bereikt het sterkste model slechts 26,00%, en we rapporteren deze split apart als een gerichte stresstest. We geven onze data en code publiekelijk vrij.
Zoekagenten worden vaak getraind als beleidsregels over groeiende transcripten: het model moet beslissen hoe te zoeken terwijl het ook onthoudt wat het heeft gezien, welk bewijs nuttig is, welke beperkingen nog open staan en welke beweringen daadwerkelijk zijn gecontroleerd. Wij stellen dat deze formulering te veel routinematig statusbeheer bij het beleid legt: reinforcement learning wordt gedwongen om zowel semantische zoekbeslissingen als herstelbaar boekhoudwerk te optimaliseren, terwijl de omgeving dit betrouwbaarder kan onderhouden. We introduceren Harness-1, een 20B zoekagent (retrieval-subagent) getraind met reinforcement learning in een statusvol zoekharnas. Het harnas onderhoudt een werkgeheugen aan de omgevingszijde, met onder andere een kandidatenpool, een met belangrijkheid getagde samengestelde set, compacte bewijskoppelingen, verificatieregisters, gecomprimeerde en gedupliceerde observaties, en budgetbewuste contextweergave. Het beleid behoudt de semantische beslissingen: wat te zoeken, welke documenten te behouden of weg te gooien, wat te verifiëren en wanneer te stoppen. Over acht retrieval-benchmarks, variërend van web, financiën, patenten en multi-hop QA, behaalt Harness-1 een gemiddelde samengestelde recall van 0,730, waarmee het de op een na sterkste open zoek-subagent met +11,4 punten overtreft en concurrerend blijft met veel grotere frontier-model-zoekers. De winst is vooral groot op vasthoudtransfersbenchmarks, wat suggereert dat reinforcement learning over expliciete zoekstatus retrieval-gedrag kan opleveren dat generaliseert buiten de trainingsdomeinen. Onze code is beschikbaar op https://github.com/pat-jj/harness-1.
Speculatieve decodering versnelt de inferentie van grote taalmodellen door een doelmodel te combineren met een lichtgewicht conceptmodel waarvan de voorgestelde tokens parallel worden geverifieerd. Een gebruikelijke manier om conceptmodellen zoals EAGLE3 of DFlash te bouwen, is supervised fine-tuning (SFT) op door het doelmodel gegenereerde trajecten. We merken echter dat SFT snel een plateau bereikt: de acceptatielengte van het conceptmodel op testdata stopt met verbeteren. De reden is een mismatch tussen offline en inferentie: bij SFT leert het conceptmodel van vaste, door het doelmodel gegenereerde trajecten, terwijl het tijdens speculatieve decodering wordt geëvalueerd op blokken die onder zijn eigen beleid worden voorgesteld. Dit motiveert on-policy distillatie (OPD), waarbij het doelmodel het conceptmodel begeleidt op door het concept geïnduceerde toestanden. Toch blijft OPD moeilijk voor conceptmodellen, omdat ze niet betrouwbaar volledige reeksen zelfstandig kunnen uitrollen, terwijl doelondersteunde generatie ervoor zorgt dat de verzamelde reeksen de doelverdeling volgen en daarmee het on-policy signaal elimineert. Daarom stellen we Draft-OPD voor, dat gebruikmaakt van doelondersteunde uitrol voor stabiele voortzettingen en het concept opnieuw afspeelt vanuit de verificatie-blootgestelde foutposities. Hierdoor kan het conceptmodel leren van feedback van het doelmodel op zowel geaccepteerde als afgewezen voorstellen, waarbij de training zich richt op de door het concept veroorzaakte fouten die de speculatieve acceptatie beperken. Experimenten tonen aan dat Draft-OPD een meer dan vijfvoudige verliesvrije versnelling realiseert voor denkmodellen bij diverse taken, met een verbetering van 23% ten opzichte van EAGLE-3 en 13% ten opzichte van DFlash.
Speculatieve decodering versnelt LLM-inferentie door meerdere tokens te genereren en deze parallel te verifiëren met het doelmodel. De praktische snelheidswinst wordt echter beperkt door de afweging tussen conceptkwaliteit en conceptkosten: autoregressieve conceptgeneratoren modelleren causale afhankelijkheden tussen concepttokens, maar introduceren sequentiële overhead, terwijl parallelle conceptgeneratoren de conceptkosten verlagen maar de modellering van intra-blokafhankelijkheden verzwakken. In dit artikel introduceren we Domino, een speculatief decodeerframework dat causale afhankelijkheidsmodellering ontkoppelt van dure autoregressieve conceptuitvoering. Domino gebruikt eerst een parallelle conceptbackbone om voorlopige conceptdistributies voor het gehele blok te produceren, en past vervolgens een lichtgewicht Domino-kop toe om deze te verfijnen met prefix-afhankelijke causale informatie. Om teacher-forced causale codering te stabiliseren, introduceren we verder een basisverankerd trainingscurriculum dat eerst de parallelle backbone versterkt en vervolgens de optimalisatie geleidelijk verschuift naar de causaal gecorrigeerde uiteindelijke distributie. Experimenten met Qwen3-modellen tonen aan dat Domino tot \(5.49\times\) eind-tot-eindsnelheidswinst behaalt onder de Transformers-backend en tot \(5.8\times\) doorvoersnelheidswinst onder SGLang-serving.
Watermerken voegt statistische handtekeningen toe aan door AI gegenereerde tekst voor detectie en toeschrijving. Wij onthullen een fundamentele kwetsbaarheid: wanneer gebruikers toegang hebben tot meerdere modellen (de huidige realiteit), falen watermerken triviaal. Watermerken verstoren de uitvoerverdelingen ten opzichte van het origineel, en in concurrerende markten zijn deze verstoringen doorgaans onafhankelijk over aanbieders heen. Wij bewijzen theoretisch dat het middelen van de kansverdelingen van de uitvoer de niet-gemerkt distributie herstelt, met een foutterm van maximaal de tweede orde. Empirisch gezien neutraliseert eenvoudig middelen van 3-5 modellen deze verstoringen. Wij introduceren WASH (Watermark Attenuatie via Statistische Hybridisatie), dat praktische uitdagingen bij het genereren van ensembles oplost: vocabulaire-misalignering en tokenisatieverschillen tussen heterogene modellen. Experimenten met zes watermerkschema's en drie LLM's tonen aan dat middelen over 3 modellen detectie-z-scores van 5-300 onderdrukt tot onder 2 (onder de detectiedrempel van 4) en de TPR bij 5% FPR reduceert tot onder 50%, terwijl de kwaliteit met 27,5% verbetert en de verwerking 6 keer sneller verloopt dan de beste baseline bij het genereren van lange sequenties. Onze resultaten suggereren dat robuuste AI-tekstdetectie via watermerken óf het accepteren van deze fundamentele kwetsbaarheid vereist, óf een ongekende coördinatie tussen modelaanbieders.
Standaard volgende-tokenpredictie (NTP) superviseert taalmodellen uitsluitend via discrete labels in de output logit-ruimte. Wij stellen dat deze schaarse one-hot supervisie de latente representatieruimte onderbeperkt laat, waardoor verborgen toestanden kunnen afdrijven naar ontaarde en anisotrope configuraties die generalisatie kunnen beperken. Om dit probleem aan te pakken, stellen wij Next Implicit Token Prediction (NITP) voor, die discrete predictie uitbreidt met dichte continue supervisie direct in de representatieruimte. NITP traint het model om de impliciete semantische inhoud van het volgende token te voorspellen, waarbij gebruik wordt gemaakt van ondiepe-laag representaties uit hetzelfde model als stabiele zelf-gesuperviseerde doelen. Wij leveren theoretische analyse die aantoont dat NITP het optimalisatielandschap regulariseert door het verminderen van onderbeperkte vrijheidsgraden en het aanmoedigen van een compacte, gestructureerde representatiegeometrie. Empirisch gezien, over dichte en MoE-modellen variërend van 0,5B tot 9B parameters, verbetert NITP consistent de downstream-prestaties met verwaarloosbare computationele overhead. Op een 9B MoE-model bereikt NITP een absolute verbetering van 5,7% op MMLU-Pro, samen met winsten van 6,4% op C3 en 4,3% op CommonsenseQA, met ongeveer 2% extra trainings-FLOPs en geen extra inferentiekosten. Onze implementatie is beschikbaar op https://github.com/aHapBean/NITP.
Het recente "Redeneren met Video"-paradigma maakt gebruik van Video Generatie Modellen (VGM's) om temporeel coherente visuele trajecten te genereren voor het voltooien van redeneertaken. Hoewel state-of-the-art VGM's uitblinken in visuele kwaliteit, hebben ze vaak moeite om taakspecifieke regels te begrijpen en op te volgen, wat leidt tot logische mislukkingen in diverse redeneerscenario's. Bestaande pogingen maken gebruik van Visie-Taal Modellen (VTM's) als probleemoplossers vooraf om tekstuele aanwijzingen voor de VGM te produceren of te verfijnen. Tekstuele beschrijvingen slagen er echter niet in om complexe ruimtelijk-temporele details vast te leggen, en VGM's hebben vaak moeite om fijnmazige of langstaartinstructies getrouw uit te voeren, zelfs met een geldig plan. Hoewel VTM's moeite hebben als oplossers, beschikken ze over sterke perceptiemogelijkheden om de naleving van procesbeperkingen en het bereiken van einddoelen te evalueren. Door gebruik te maken van deze kracht introduceren we een paradigmaverschuiving die de rol van VTM's verandert naar "docenten". Specifiek haalt een VTM-docent taakspecifieke regels uit om differentieerbare beloningen te formuleren, die een VGM-redeneerder begeleiden via testtijd online optimalisatie van een lichtgewicht LoRA-module. Deze strategie maakt adaptieve testtijdoptimalisatie mogelijk en breidt de redeneermogelijkheden uit voorbij de intrinsieke grenzen van de VGM. Evaluaties op symbolische (VBVR-Bench) en algemene (RULER-Bench) video-redeneerbenchmarks tonen aan dat de voorgestelde methode een gemiddelde prestatieverbetering van 16,7 punten oplevert, waarmee het VTM-als-Oplosser-paradigma (+0,4 punten) en Best-of-N-schaling (+2,2 punten) met een ruime marge overtreft bij vergelijkbare testtijdkosten. Deze bevindingen onthullen dat het integreren van VTM's als testtijd-docenten een veelbelovend paradigma biedt voor het bereiken van generaliseerbaar video-redeneren. Projectpagina: https://VLM-as-Teacher.github.io/
Hoewel het begrip van videostreams aanzienlijke vooruitgang heeft geboekt, vereisen praktijktoepassingen zoals live sportuitzendingen, autonoom rijden en samenwerking op meerdere schermen inherent continue interacties met meerdere stromen. Bestaande benchmarks zijn echter beperkt tot enkelstroomparadigma's, waardoor er een cruciale leemte ontstaat in de evaluatie van online redeneren over stromen heen. Om dit te overbruggen introduceren we X-Stream, de eerste benchmark die zich richt op het begrip van meerdere stromen. X-Stream bestaat uit 4.220 zorgvuldig samengestelde QA-paren verspreid over 932 video's en evalueert 11 deeltaken in scenario's met meerdere vensters, meerdere aanzichten en meerdere apparaten. Cruciaal is dat onze dataset is geconstrueerd met behulp van een nieuwe duale verificatiepijplijn die overmatige afhankelijkheid van een enkele stroom voorkomt. Verder pionieren we met het conceptualiseren van multimodale grote taalmodellen (MLLM's) als naïeve multiplexers, waarbij we hun prestatie systematisch evalueren door de lens van de Signaalmultiplexingtheorie. Onze uitgebreide online inferentie-experimenten onthullen een harde realiteit: state-of-the-art MLLM's worstelen aanzienlijk met gelijktijdige stromen, behalen slechts ongeveer 50% score en vertonen een slecht proactief vermogen. Uiteindelijk legt X-Stream de afweging van huidige multiplexingschema's bloot, en biedt het zowel een praktisch evaluatieprotocol als empirische richtlijnen voor volgende generatie multi-stroomagenten.
Causale videodiffusie met lange uitrol is geconvergeerd naar een KV-cache met vast formaat en schuivend venster, waarbij recente vooruitgang binnen deze opzet innoveert door te veranderen welke tokens het venster bezetten of hoe hun posities worden gecodeerd. De KV-indeling per kop zelf, een dominante bijdrager aan streaminggeheugen en latentie, is grotendeels onveranderd gebleven. In dit artikel presenteren we de eerste studie van Multi-Head Latent Attention (MLA) in videodiffusie. VideoMLA vervangt per-kop sleutels en waarden door een gedeelde lage-rank inhoudslatent en een gedeelde ontkoppelde 3D-RoPE positie-sleutel, waardoor het KV-geheugen per token met 92,7% wordt verminderd in elke gecachte laag. We onderzoeken verder waarom MLA slaagt in videodiffusie, ondanks dat de spectrale aanname die vaak wordt gebruikt om het in taalmodellen te motiveren niet opgaat: voorgetrainde video-aandacht is niet lage-rank, met een effectieve rank op 99% energie ver boven elke praktische latente dimensie. VideoMLA behoudt kwaliteit bij compressieverhoudingen waar directe spectrale benadering een grote reconstructiefout zou voorspellen. We tonen aan dat het MLA-knelpunt, in plaats van het voorgetrainde spectrum, de effectieve rank bepaalt: zowel spectrale als willekeurige initialisatie bezetten vrijwel het volledige rankbudget vanaf initialisatie, en training behoudt dit budget terwijl het zich daarbinnen aanpast. Op VBench evenaart VideoMLA de baselines voor streaming videodiffusie met korte horizon, behaalt het de beste algemene score bij lange horizon onder de geëvalueerde methoden, en verbetert het de doorvoer met 1,23x op een enkele B200.
Agenten van grote taalmodellen (LLM) vertrouwen steeds vaker op herbruikbare externe vaardigheden om langdurige interactieve taken op te lossen. Bestaande trainingsvrije vaardigheidsaanpassingspijplijnen werken vaardigheden doorgaans bij op basis van volledige trajecten of feedback op sessieniveau, wat leidt tot grove fouttoewijzing en vaak instabiele of te brede herzieningen oplevert. We stellen SkillAdaptor voor, een trainingsvrij raamwerk voor vaardigheidsaanpassing op stapniveau met expliciete fouttoewijzing, dat kan worden ingepast in agentharnassen van de OpenClaw-klasse. Bij een mislukt traject identificeert SkillAdaptor een eerste bruikbare foutstap, koppelt verantwoordelijkheid aan kandidaatvaardigheden en past gerichte updates toe onder expliciete acceptatiecontroles, terwijl het basismodel bevroren blijft. We evalueren op WebShop, PinchBench en Claw-Eval met Kimi-K2.5, GLM-5 en GPT-5.2. SkillAdaptor presteert beter dan de baselines zonder vaardigheden en met vaardigheidsaanpassing op alle drie de suites, met de grootste afzonderlijke metrische verbeteringen van +1,5 punten op PinchBench Gem. Score%, +1,8 op Claw-Eval Gem. Score en +1,7 op WebShop succespercentage. Deze resultaten geven aan dat toewijzing op stapniveau een stabieler en controleerbaar trainingsvrij vaardigheidsonderhoud ondersteunt. De code zal worden vrijgegeven op https://github.com/zjunlp/SkillAdaptor.
Mensen kunnen het gezichtspunt dat gespecificeerd wordt door een doelbeeld reproduceren via actieve hoofdbeweging en lichaamsbeweging, maar ruimtelijke intelligentie in fundamentmodellen is grotendeels bestudeerd als passief begrip van vooraf verzamelde waarnemingen. Wij introduceren Target Viewpoint Reproduction (TVR) — een actieve taak waarbij een agent zijn gezichtspunt aanpast in een 3D-omgeving totdat zijn waarneming overeenkomt met een gegeven doelbeeld — en TVRBench, een indoor-simulatiebenchmark die zowel de schaal van de scène als de visuele rijkdom van het doelgezichtspunt omvat. TVR is verre van opgelost: op de evaluatiedataset behalen de sterkste open-source- en closed-source-modellen slechts 7,8% en 12,0% succes. Een gedetailleerde analyse identificeert twee consistente knelpunten: kant-en-klare modellen worstelen met multi-turn visuele geschiedenis, en de prestaties dalen scherp wanneer reproductie van het gezichtspunt lichaamstranslatie vereist in plaats van rotatie ter plaatse, wat een kloof blootlegt in het in kaart brengen van ruimtelijke discrepanties naar belichaamde beweging. Om deze kloof te verkleinen, bouwen we een verenigd TVR-natrainkader dat expert-traject SFT, rationale-gesuperviseerde CoT-SFT, offline Single-turn GRPO en on-policy Multi-turn GRPO via live simulator-uitrollen omvat. Visueel-actie SFT levert de grootste winst, waardoor een 9B open-sourcemodel 50,8% succes behaalt; Multi-turn GRPO biedt gerichte multi-kamer verfijning en bereikt 51,4% totaal, terwijl CoT-supervisie en Single-turn GRPO de gesloten-lusprestaties verslechteren. Deze resultaten vestigen TVRBench als een testbed voor het meten en trainen van fundamentmodellen die actief waarnemen en handelen in 3D-omgevingen. Onze code, data en modellen zijn beschikbaar op https://github.com/aim-uofa/TVRBench.
Ruimtelijke intelligentie vereist visuele representaties die zowel semantische objecten als geometrische structuur in de fysieke wereld vastleggen. Om dit te ondersteunen, worden nu twee belangrijke pre-trainingsschema's veelvuldig gebruikt als funderende backbones: Visie-Taalmodellen (VLM's), die taalsupervisie gebruiken om visuele waarnemingen af te stemmen op semantische concepten, en Videogeneratiemodellen (VGM's), die leren van in de tijd evoluerende visuele werelden. Het blijft echter onduidelijk welk pre-trainingsschema een beter representatiesubstraat biedt voor ruimtelijke intelligentie. In dit artikel presenteren we de eerste systematische frozen-feature probing-studie van VLM's en VGM's langs drie representatieve assen van ruimtelijke intelligentie: semantische tagging, instantiegroepering en 3D-geometrievoorspelling. Met behulp van een lichte probe maakt ons raamwerk een gecontroleerde vergelijking mogelijk van welke informatie al is gecodeerd in bevroren representaties uit twee modelfamilies. Experimentele resultaten tonen een duidelijke complementariteit: VLM's zijn sterker in semantische tagging en instantiegroepering, terwijl VGM's beter toegankelijke signalen bieden voor dichte geometrie en camerabeweging. Bovendien levert een naïeve fusie van beide al een representatie op die uitblinkt in zowel geometrie als semantiek, wat een veelbelovende richting aangeeft voor het bouwen van sterkere backbones voor ruimtelijke intelligentie door effectieve integratie van kenmerken uit beide modelfamilies. Onze code is beschikbaar op https://github.com/om-ai-lab/Probing-VLM-VGM.
Langetermijnzoekagenten verzamelen grote hoeveelheden opgehaalde inhoud tijdens vele tool-aanroepen, waardoor de efficiëntie van het contextbudget steeds belangrijker wordt. Een minimale interventie is het maskeren van verouderde observaties uit de context naarmate het traject vordert, maar het blijft onduidelijk wanneer deze vorm van contextbeheer helpt en waarom. We bestuderen observatiemaskeren door middel van een systematische sweep over verschillende agent-basismodellen (4B tot 284B parameters) en drie retrievers op offline en live-web agentische zoekbenchmarks. We vinden dat de nauwkeurigheidswinst van maskeren een asymmetrische omgekeerde U-vorm volgt wanneer uitgezet tegen de nauwkeurigheid van het model zonder contextbeheer: een plateau bij zwakke retrievers, een piek wanneer een sterke retriever wordt gecombineerd met een model met gemiddelde capaciteit, en een scherpe ineenstorting wanneer het model verzadigd is. Dit patroon weerspiegelt de interactie tussen de terugroep van de retriever en de impliciete filtercapaciteit van het model, niet een van beide factoren afzonderlijk. Mechanistisch gezien implementeert maskeren een token-voor-beurt afweging: het verwijdert observaties waar het model grotendeels is gestopt met opletten en pagina's die de agent zelden heropent. De toegevoegde beurten helpen wanneer ze mislukkingen in successen omzetten, maar falen wanneer maskeren bewijs verwijdert dat het model anders zou hebben gebruikt. Daarom herformuleren we contextbeheer als een regimeafhankelijke interventie en bieden we een holistisch perspectief voor het analyseren van contextgebruik in agentisch diep zoeken. We stellen ons scaffold en trajecten beschikbaar op https://github.com/i-DeepSearch/observation-masking om toekomstig onderzoek te ondersteunen.
Wanneer een groot taalmodel onder reinforcement learning een foutieve redeneerstap zet vroeg in een traject, dwingen standaardalgoritmen het om door te gaan met genereren tot de maximale horizon, waarbij ze rekenkracht besteden aan tokens die nooit een positieve beloning ontvangen en de voordeelschattingen (advantage estimates) vervuilen met ruis na falen. Wij stellen ESPO (Early-Stopping Proximal Policy Optimization) voor, dat trajectfalen tijdens de uitvoering detecteert en rollouts vroegtijdig beëindigt. Bij elke generatiestap berekent ESPO een surrogaat-regret met alleen de logits die al tijdens het samplen zijn berekend, en stopt wanneer de afgevlakte cumulatieve regret de geschatte waarden aanzienlijk overschrijdt. Afgekapte trajecten worden behandeld als absorberende faaltoestanden met een terminale beloning, waardoor negatieve temporal-difference (TD)-fouten worden geconcentreerd rond de gedetecteerde faalstap, zonder enig extra beloningsmodel of menselijke annotatie. Op DeepSeek-R1-Distill-Qwen-7B getraind voor wiskundig redeneren overtreft ESPO PPO op AIME 2024 (46,28% vs. 45,25%), AMC 2023 (85,83% vs. 82,94%) en MATH-500 (87,42% vs. 85,43%), terwijl er cumulatief meer dan 20% rollout-tokens worden bespaard.
Multi-agent LLM-workflows leiden inferentie via gespecialiseerde rollen om de nauwkeurigheid van eindtaken te verbeteren, maar het gezamenlijk trainen van die rollen met reinforcement learning is instabiel op manieren die slecht worden begrepen. We bestuderen wanneer end-to-end RL-training van multi-agent LLM-workflows verbetert ten opzichte van hun basismodellen, door Shared-Policy-training, waarbij alle rollen één beleid bijwerken, te vergelijken met Isolated-Policy-training, waarbij elke rol zijn eigen parameters heeft. Onze experimentele matrix omvat Eval-Opt-, Voting- en Orch-Workers-workflows, wiskunde- en codetaken, en drie modelschalen (0,6B, 1,7B, 4B). We vinden dat multi-agent RL gewoonlijk verbetert ten opzichte van basismodellen, maar de winst hangt gezamenlijk af van workflow, taak en schaal, niet alleen van het delen van beleid. Isolated-Policy heeft de neiging een hogere pieknauwkeurigheid te bereiken, maar valt vaker van een terminale nauwkeurigheidsklif, terwijl Shared-Policy-training falen niet elimineert; het herverdeelt falen in kwalitatief verschillende patronen. We verklaren vervolgens de sterkste van deze patronen door rol-level gradiëntdynamica die wordt geïnduceerd door workflowtopologie en policy-routering: onder Isolated-Policy versterken parallelle agenten met dezelfde rol op gedeelde prompts de per-rol gradiënten en drijven ze terminale degradatie in Voting- en Orch-Workers-workflows; onder Shared-Policy veroorzaakt asymmetrische per-stap gradiëntmassa dat het gedeelde beleid wordt ingenomen door de dominante rol, wat verschillende faalsignaturen oplevert per taak en workflow. Samen tonen de empirische kaart en de onderliggende mechanismen aan dat het delen van beleid de trainingsdruk via verschillende kanalen leidt in plaats van uniforme stabiliteit te bieden, waardoor het een ontwerpkeuze is met workflow- en taakconditionele afwegingen.
Het Model Context Protocol (MCP) is uitgegroeid tot een transformerende standaard voor het verbinden van grote taalmodellen (LLM's) met externe gegevensbronnen en tools, en wordt snel overgenomen in zowel persoonlijke toepassingen als ontwikkelplatforms. Bestaande benchmarks richten zich echter voornamelijk op algemene informatiezoekende tools en slagen er niet in de praktische uitdagingen van persoonlijke sociale toepassingen te vangen, waar tools interageren met individuele accounts of lokale databases. Om deze cruciale kloof te overbruggen, introduceren wij MCP-Persona, de eerste benchmark die specifiek is ontworpen voor het evalueren van agentprestaties op realistische, gepersonaliseerde MCP-tools. MCP-Persona omvat een diverse set van veelgebruikte toepassingen, variërend van socialemediaplatforms zoals Reddit en Xiaohongshu (Rednote) tot enterprise collaboratiesuites zoals Lark (Feishu) en Slack. Onze uitgebreide experimenten met verschillende state-of-the-art (SOTA) agenten tonen aan dat zij aanzienlijk worstelen met gepersonaliseerd toolgebruik, wat het cruciale belang van de benchmark benadrukt bij het identificeren en aanpakken van deze beperkingen. MCP-Persona is openbaar beschikbaar op https://github.com/wwh0411/MCP-Persona.
Dichte zelfaandacht is de reken- en kwaliteitsknelpunt van lange-videodiffusie-inferentie: de kosten groeien kwadratisch met de sequentielengte, en voorbij de trainingshorizon convergeert het model naar bijna-statische uitvoer, dat wil zeggen, 'bevroren' repetitieve video. De state-of-the-art-benaderingen zijn of te duur, bijvoorbeeld ze vereisen hertraining, of slagen er niet in om zowel prestatie- als kwaliteitsdoelen op een schaalbare manier te vervullen. Daartoe introduceren we Long Video Sparse Attention (LVSA), een trainingsvrije model-agnostische blok-spaarzame aandacht voor videodiffusietransformatoren die een gestructureerd vensterpatroon combineert met roterende globale ankers, waardoor de vaste-roostervertekening die langdurige temporele artefacten veroorzaakt, wordt verwijderd. LVSA, gecombineerd met een FlashInfer-kernel, vermindert de rekentijd met tot 3,17× op Wan 2.1 1.3B bij een 6×-horizon, 2,98× op Wan 2.1 14B bij een 6×-horizon en 3,33× op HunyuanVideo 1.5 bij een 1,5×-horizon, vergeleken met dichte aandacht. Naast het verminderen van rekenkracht, maakt LVSA generatie van HunyuanVideo 1.5 mogelijk bij een 2×-horizon, wat anders niet in het geheugen past op een enkele GPU. Bovendien biedt LVSA versnellingen tot 2,41× vergeleken met RIFLEx en 3,27× vergeleken met UltraViCo op Wan 2.1 1.3B. Om de toepasbaarheid op diverse platforms aan te tonen, passen we LVSA toe op NPU's en behalen we versnellingen tot 2,71× op Wan 2.2 A14B en 3,24× op Wan 2.1 1.3B vergeleken met dichte aandacht. Om de kwaliteit op een eerlijke manier te evalueren, introduceren we VQeval, een tool dat lusvormige videofouten correct scoort, die in state-of-the-art-evaluatoren zoals VBench-Long juist worden beloond. LVSA is kwaliteitsneutraal voor generatie op trainingshorizonlengte en kwaliteitspositief bij verlengde lengtes.
In open omgevingen is exploratie fundamenteel voor autonome agenten, maar huidige taalmodellen hebben hier moeite mee. Effectieve exploratie vereist geheugen, maar het bewaren van ruwe interactiegeschiedenissen is rekenkundig duur over lange trajecten. Hoewel latent geheugen een oplossing biedt om interactiegeschiedenissen te comprimeren, ontbreekt het de training ervan aan betrouwbare supervisiesignalen. Wij introduceren Joint Agent Memory and Exploration Learning (JAMEL), een raamwerk dat agentgeheugen en exploratiebeleid samen traint via nieuwheidsgedreven interactie. We observeren dat geheugen en exploratie een wederzijds afhankelijke lus vormen: aanhoudende exploratie vereist geheugen om uitgeputte gedragingen te onderscheiden van onbekende, terwijl nieuwheidszoekende interactie de supervisie biedt die nodig is om geheugen bruikbaar te maken voor toekomstige exploratie. Door gebruik te maken van deterministische en persistente nieuwheidssignalen zoals code-dekking in het GUI-domein, bieden we natuurlijke, annotatievrije supervisie voor de geheugenmodule. Empirische evaluaties tonen aan dat \ours succesvol generaliseert naar onbekende omgevingen. Zijn exploratievermogen overtreft open-gewicht-baselines en evenaart de exploratiediepte van een closed-source model, terwijl het tokenverbruik wordt verminderd. Onze code en model zijn open-source beschikbaar op https://github.com/MobileLLM/JAMEL.
Autoregressieve (AR) videodiffusie maakt synthese van variabele lengte mogelijk, maar generatie over lange horizon lijdt vaak onder opgestapelde fouten en identiteitsdrift. Omwille van de efficiëntie passen bestaande methoden tijdens de generatie doorgaans een schuifvenster-aandachtsmechanisme toe. Dit creëert een onomkeerbaar generatietraject: zodra het actieve venster verschijningsfouten accumuleert, kan volgende generatie alleen op dit gedegradeerde traject voortbouwen en verder afdrijven. We pakken deze beperking aan door lange videogeneratie te formuleren als een retrieval-augmented generation (RAG)-probleem. In plaats van uitsluitend op het recente venster te vertrouwen, behandelen we eerder gegenereerde latenten als een dynamische, doorzoekbare geschiedenis. We stellen LongLive-RAG voor, een algemeen retrievalraamwerk voor AR-videogeneratie. Bij elk nieuw blok gebruikt LongLive-RAG een query-embedding om relevante historische latenten op te halen. Deze lichtgewicht retrievalslag voegt slechts een kleine overhead toe ten opzichte van de generatie en stelt de generator in staat om te conditioneren op niet-lokale context in plaats van alleen op het recente venster. Om retrieval beter onderscheidend te maken, introduceren we de Window Temporal Delta Loss, die redundante lokale gelijkenis onderdrukt en aanmoedigt dat embeddings betekenisvolle temporele veranderingen vastleggen. Samen helpen deze componenten de foutenaccumulatie door schuifvenster-aandacht te verminderen. Experimenten met meerdere AR-backbones en generatielengtes tonen een verbeterde kwaliteit van lange video's en de beste gemiddelde VBench-Long-rang. Voor zover wij weten, is LongLive-RAG onder de open-ended AR lange videogeneratiemethoden de eerste die zelf gegenereerde latentengeschiedenis formuleert als inhoudsadresseerbaar ophaalgeheugen. Code is beschikbaar op https://github.com/qixinhu11/LongLive-RAG.
Het decoderen van visuele inhoud uit fMRI-signalen die worden opgenomen terwijl een persoon afbeeldingen bekijkt, en specifiek het beantwoorden van vragen over de geziene afbeeldingen, is een al lang bestaande uitdaging. Hoewel er de afgelopen jaren aanzienlijke vooruitgang is geboekt op het gebied van visuele vraagbeantwoording (VQA) op basis van fMRI, blijft de prestatie beperkt. Bovendien worden recente modellen, hoewel ze steeds nauwkeurigere voorspellingen kunnen doen, zelden gebruikt als hulpmiddelen om de structuur van visuele representaties in de hersenen te begrijpen. We presenteren Brain-IT-VQA, een raamwerk voor visuele vraagbeantwoording op basis van fMRI. Voortbouwend op de Brain Interaction Transformer (Brain-IT) decodeert onze methode taaltekens uit hersenactiviteit en integreert deze met een taalmodel om visuele vragen te beantwoorden. Ons model presteert aanzienlijk beter dan eerdere op fMRI gebaseerde methoden voor bijschrijving en VQA. We introduceren verder NSD-VQA, een nieuwe dataset en benchmark voor visuele vraagbeantwoording op basis van fMRI. In tegenstelling tot bestaande beeld-fMRI VQA-datasets, die doorgaans slechts enkele brede en zwak gecontroleerde vragen per afbeelding bieden, levert NSD-VQA gemiddeld 20 vraag-antwoordparen per afbeelding in 20 gecontroleerde vraagcategorieën die meerdere niveaus van visueel begrip ontwarren. Dit maakt een betrouwbaardere en interpreteerbaardere evaluatie mogelijk, ondanks beperkte fMRI-testgegevens. Samen bieden Brain-IT-VQA en NSD-VQA zowel een krachtig voorspellend raamwerk als een hulpmiddel voor het bestuderen van hersenrepresentaties. Met behulp van deze benchmark kwantificeren we welke vormen van visuele en semantische informatie betrouwbaar kunnen worden gedecodeerd uit fMRI-reacties op natuurlijke afbeeldingen. We analyseren verder de bijdragen van verschillende hersengebieden per vraagtype.
Real-time streaming van gezamenlijke audio-videogeneratie voor personage-animatie vereist een generator die het gevraagde transcript uitspreekt, de visuele identiteit over chunks behoudt en binnen een strikt afspeelbudget werkt. Deze vereisten zijn moeilijk gelijktijdig te vervullen: chunkgewijze autoregressieve generatie kan transcript-audio-misalignering en visuele drift accumuleren, terwijl de paarstappendistillatie die nodig is voor lage latentie vaak de ruimtelijke diversiteit en temporele kwaliteit aantast. Wij presenteren StreamChar, een streamingframework dat orkestratie over lange horizon scheidt van audio-video-ontruising over korte vensters. Een op LLM gebaseerde orkestrator gebruikt het transcript en historische context om frame-uitgelijnde audio-condities te produceren, en een gezamenlijke audio-video-DiT voert lokale bidirectionele ontruising uit met referentie- en bewegingsframe-conditionering. Voor efficiënte inzet gebruiken we een tweefasige distillatiepijplijn die eerst de sampler comprimeert en vervolgens de student fine-tuned tijdens online chunk rollouts. Een voortgangsbewuste pointer lijnt gedeeltelijke transcripts uit met gegenereerde audio tijdens rollout-training, en een sink-chunk-geheugen biedt een aanhoudend visueel anker om drift over lange horizon te verminderen. Experimenten op korte-clip- en lange-horizon-protocollen tonen aan dat StreamChar real-time draait op een enkele H100 GPU en een gunstige systeemniveau-afweging biedt qua transcriptgetrouwheid, audio-visuele synchronisatie, visuele kwaliteit en streamingstabiliteit vergeleken met recente gezamenlijke en audio-gestuurde baselines.
LLM-agenten maken steeds vaker gebruik van extern samengestelde vaardigheids-procedurele instructies die op beslissingsmomenten worden opgehaald om hun prestaties bij langdurige interactieve taken te verbeteren. Bestaande vaardigheidsbibliotheken worden doorgaans als model-agnostisch behandeld, waarbij dezelfde vaardigheidsformuleringen worden hergebruikt over backbones met aanzienlijk verschillende capaciteiten en gedragingen. Onze gecontroleerde experimenten over meerdere modelschalen tonen echter aan dat de effectiviteit van vaardigheden sterk modelafhankelijk is: een vaardigheid die de ene backbone ten goede komt, kan een andere schaden. Naar aanleiding van deze observatie stellen we MASA (Model-Aware Skill Alignment) voor, een raamwerk dat vaardigheden aanpast aan elke doel-backbone zonder de agentgewichten te wijzigen. MASA werkt in twee fasen: (1) een hiërarchische vaardigheidsevolutiepijplijn die iteratief algemene en taakspecifieke vaardigheden herschrijft met behulp van hill climbing en UCB-gestuurd boom zoeken, geleid door omgevingsfeedback en modelcapaciteitsprofielen; en (2) een lichtgewicht model-afhankelijke vaardigheid-herschrijver, getraind op evolutietrajecten, om de aanpassing in een enkele forward-pass te reproduceren. Experimenten in drie interactieve omgevingen en met vier backbones laten zien dat MASA consistent de beste algehele prestaties behaalt, met winsten tot 25,8 punten ten opzichte van de sterkste baseline. De getrainde herschrijver generaliseert bovendien naar ongeziene taken en omgevingen zonder extra zoekopdrachten, en presteert consistent beter dan een veel grotere leraar-LLM tegen een fractie van de inferentiekosten.
Het bouwen van capabele visuele webagenten vereist redeneren over lange termijn, precieze verankering en robuuste interactie met dynamische, realistische websites. Ondanks snelle vooruitgang blijven de sterkste systemen grotendeels eigendom, terwijl open agenten nog sterk afhankelijk zijn van gesuperviseerde nabehandeling over grote verzamelingen samengestelde web trajecten. Deze afhankelijkheid creëert een belangrijk schaalbaarheidsknelpunt: hoogwaardige demonstraties zijn duur om te verzamelen, en statische datasets bieden beperkte dekking van het diverse, steeds veranderende open web. Hoewel online RL veelbelovend is gebleken voor tekstgebaseerde agenten, blijft het potentieel voor het direct trainen van visuele webagenten op live websites grotendeels onderbelicht. In dit artikel introduceren we OpenWebRL, een open framework voor het trainen van visuele webagenten met online multi-turn RL op echte websites. OpenWebRL dekt de volledige trainingspijplijn, inclusief schaalbare live-browserinfrastructuur, gesuperviseerde initialisatie, multimodaal contextbeheer, succesbeoordeling op trajectniveau en efficiënte multi-turn beleidsoptimalisatie. Met behulp van dit framework trainen we OpenWebRL-4B, dat een nieuwe open-source state-of-the-art vestigt op uitdagende live-web benchmarks. Met slechts 0,4K initialisatietrajecten en 2,2K open-ended RL-trainings taken behaalt OpenWebRL-4B een succespercentage van 67,0% op Online-Mind2Web en 64,0% op DeepShop, waarmee het eerdere open agenten van vergelijkbare of grotere schaal overtreft en concurrerend blijft met propriëtaire systemen, waaronder OpenAI CUA en Gemini CUA. Naast sterke benchmarkprestaties bestuderen we systematisch de belangrijkste ontwerpkeuzes die online RL effectief maken voor visuele webagenten, en analyseren we hoe RL het agentisch redeneren verbetert. Over het geheel genomen biedt ons werk een praktisch pad naar het bouwen van capabelere, reproduceerbare en kostenefficiëntere open webagenten. We zullen onze trainingsdata, modellen en code vrijgeven om toekomstig onderzoek te ondersteunen.
Speculatieve decodering (SD) versnelt LLM-inferentie bij lage concurrency door gebruik te maken van een ontwerp-en-verifieerparadigma. Echter, mainstream methoden vertrouwen doorgaans op multi-tokenvoorspelling, wat leidt tot escalerende voorspellingsmoeilijkheid en seriële ontwerplateniteit. Om deze problemen aan te pakken, stellen wij Speculatieve Pijplijn Decodering (SPD) voor, een baanbrekend raamwerk dat het ware potentieel van pijplijnparallelisme ontsluit. Door het doel-LLM op te delen in n pijplijnstadia, stelt SPD het LLM in staat om n tokens parallel te verwerken en zo de decodering te versnellen. Om de pijplijn continu te vullen bij het decoderen van een enkele sequentie, aggregeert een speculatiemodule tussenliggende kenmerken over verschillende pijplijndieptes om het volgende token te voorspellen, strikt parallel uitgevoerd met de pijplijnstap van het doelmodel, wat resulteert in begrensde moeilijkheid, hogere acceptatiepercentages en nul latentiebubbels. Onze experimenten tonen aan dat SPD een aanzienlijk hogere theoretische versnelling behaalt in vergelijking met gangbare basislijnen, en biedt een zeer schaalbare oplossing voor versnelling van LLM-decodering. Onze code is beschikbaar op https://github.com/yuyijiong/speculative_pipeline_decoding.
Reinforcement learning (RL) verbetert grote taalmodellen (large language models, LLMs) als agenten door hen te leren welke acties tot hoge beloningen leiden, maar biedt weinig toezicht op wat die acties met de omgeving doen. Wereldmodellering (world modeling, WM) kan deze leemte opvullen, maar bestaande benaderingen vereisen vaak aparte simulatoren, extra trainingsfasen of extra rekenwerk tijdens de inferentie. We merken op dat on-policy RL-rollouts reeds het benodigde signaal bevatten: elke transitie koppelt een actie aan de resulterende volgende waarneming. Op basis van deze waarneming introduceren we PaW, een gezamenlijk trainingsraamwerk voor policy- en wereldmodellering (Policy and World modeling co-training) dat tijdens RL extra WM-supervisie toevoegt aan hetzelfde beleid, zonder het inferentieparadigma te veranderen. Om deze extra WM-supervisie informatief en stabiel te maken, bevat PaW drie componenten: actie-entropiegebaseerde WM-dataselectie, een ruistolerante WM-verliesfunctie en een beloning-adaptieve verliesbalancering. Experimenten op drie agentische taakbenchmarks laten consistente verbeteringen zien ten opzichte van sterke RL-baselines, zowel voor verschillende modellen als RL-algoritmen. Deze resultaten suggereren dat standaard RL-rollouts een praktische bron van WM-supervisie vormen voor de training van taalagenten.
Affordantiebegrip overbrugt visuele perceptie en fysieke actie, en dient als een uitlegbare interface voor robotmanipulatie in open en ongestructureerde echte omgevingen. Het bouwen van een funderingsmodel voor affordantie dat niet alleen begrijpt waar en hoe de interactie zou moeten plaatsvinden, maar ook generaliseert over diverse omgevingen, objecten en taken, blijft echter een langdurige onderzoeksuitdaging. Bestaande methoden pakken doorgaans slechts een deel van deze uitdaging aan: ofwel het lokaliseren van taakrelevante regio's zonder uitvoerbare beweging te specificeren, ofwel het voorspellen van beweging maar met beperkte schaalbaarheid. In dit artikel presenteren we ons model, een stap in de richting van een funderingsmodel voor affordantie voor functionaliteitsbegrip. Vanuit een enkele RGB-D observatie en een taal-taakbeschrijving voorspelt ons model een taakconditioneel functioneel masker (waar te interageren) en een 3D bewegingcurve na contact (hoe te interageren). Om open-wereld generalisatie te ondersteunen, bouwen we een grootschalige gestandaardiseerde datapijplijn die heterogene robot-, mens-, simulatie- en echte scandata omzet in een gedeeld affordantieschema met taal, maskers en objectgecentreerde 3D bewegingslabels. We evalueren ons model vanuit drie aspecten: voor affordantiesegmentatie presteert ons model aanzienlijk beter dan alle basislijnen over 8 testreeksen uit 4 benchmarks, met een verbetering van de gemiddelde gIoU/cIoU met +23,9/+26,3; voor voorspelling van contactpunten voorspelt het aanzienlijk nauwkeurigere punten, met een trefferpercentagetoename van 12,7–61,3% ten opzichte van de beste basislijn; en voor 3D beweging behaalt het de beste prestaties op alle drie testreeksen. Ons model kan worden ingezet voor robotmanipulatie in de echte wereld zonder fijnafstemming voor robotlichaam of het gebruik van taakspecifieke heuristieken, wat het vermogen aantoont om zich aan te passen aan open-wereld affordantietaken. Projectpagina: https://www.zhaoningwang.com/AFUN
Herbruikbare vaardigheden zijn een belangrijk mechanisme voor het uitbreiden van agentmogelijkheden, waardoor agenten ervaring kunnen opbouwen en steeds complexere taken kunnen oplossen. Toch slaan de meeste bestaande vaardigheidsleermethoden herbruikbare ervaring op als alleen-tekst-bronnen, zoals instructies, redeneersporen of samengevatte trajecten. Wij stellen dat dit alleen-tekst-paradigma een fundamentele bottleneck creëert voor visueel-gecentreerde taken, waarbij herbruikbare kennis vaak afhangt van ruimtelijke lay-out, visuele verankering, fijnmazig uiterlijk en gelokaliseerde toestandsveranderingen. Om deze beperking aan te pakken, stellen wij \NAME voor, een multimodaal vaardigheidsparadigma dat declaratieve tekstuele logica combineert met expliciete visuele ondersteuning. We onderscheiden drie herbruikbare vormen: statische priori voor stabiele ruimtelijke conventies, dynamische priori voor ter plaatse visueel werkgeheugen, en interleaved visuele vaardigheden die geordende tekststappen binden aan de bronframes, schermafbeeldingen of paginaregio's die deze rechtvaardigen. In plaats van alleen te beschrijven wat te doen, coderen visuele vaardigheden ook waar te kijken, hoe te inspecteren en hoe visuele resultaten te verifiëren. Om de constructie van visuele vaardigheden te schalen, introduceren we \SYSTEM, een automatisch systeem dat agentervaring omzet in herbruikbare multimodale vaardigheden door tekstuele redenering, ruimtelijke verwijzingen, visuele grenzen en interactiepatronen uit taaktrajecten te behouden. Experimenten op GUI en andere visueel-gecentreerde taken tonen aan dat visuele vaardigheden consequent beter presteren dan alleen-tekst-vaardigheden, vooral wanneer succes ruimtelijke overeenkomst, visueel bewijs en toestandsbewuste interactie vereist. Deze resultaten ondersteunen ons centrale standpunt: herbruikbare agentvaardigheden moeten verder gaan dan tekst en multimodale bronnen worden voor toekomstige multimodale agenten.
Visie-Taalmodellen (VLMs) hebben een sterk visueel begrip getoond en worden steeds vaker ingezet in belichaamde AI-systemen, waar betrouwbare waarneming onder reële omstandigheden essentieel is. Echter, bestaande benchmarks beoordelen VLMs met behulp van schone afbeeldingen of geïsoleerde verstoringen in plaats van stressfactoren veroorzaakt door fysieke scènevorming. Dit ontwerp heeft twee beperkingen: het bestrijkt slechts een smalle subset van alledaagse visuele stressfactoren, en sommige verstoringen komen zelden voor in realistische belichaamde scènes. Deze kloof roept een fundamentele vraag op: hoe kunnen we visuele stress op een principiële manier definiëren die de diverse factoren in fysieke omgevingen omvat? Om deze vraag te beantwoorden, formuleren we visuele perceptie vanuit een invers grafisch perspectief en introduceren we RoboStressBench, een benchmark voor het evalueren van VLM-robustheid tegen fysieke visuele stress in belichaamde scènes. Geïnspireerd door de fysische rendervergelijking, ontleedt RoboStressBench visuele stress in vier fysiek gefundeerde dimensies: Materiaal (M), Gezichtspunt (V), Verlichting (L) en Geometrie (G). Dit ontwerp stelt RoboStressBench in staat een breed scala aan visuele stressfactoren in realistische omgevingen te bestrijken, terwijl het gecontroleerde analyse mogelijk maakt van hun effecten op VLM-capaciteiten zoals visuele herkenning, redeneren en plannen. Door middel van uitgebreide evaluaties van state-of-the-art VLMs identificeren we stress-specifieke faalwijzen en onthullen we dat verschillende fysieke factoren verschillende belichaamde capaciteiten aantasten, die vaak worden verborgen door geaggregeerde nauwkeurigheid. We introduceren verder een stressbewuste agentische oplosser die visuele stressoren detecteert en visuele bewerkingsvaardigheden oproept vóór het redeneren, waardoor de robuustheid in hoogstress-scenario's wordt verbeterd. Over het algemeen biedt RoboStressBench een principieel evaluatiekader voor het diagnosticeren en verbeteren van VLM-waarneming onder fysieke stress in de echte wereld, ter ondersteuning van de ontwikkeling van betrouwbaardere belichaamde AI-systemen.
Grote Visie-Taalmodellen (GVTM's) zetten visuele inputs om in dichte tokenreeksen, wat een kwadratische computationele bottleneck oplevert voor inferentie. Elastische visuele-tokencompressie pakt dit aan door een enkel model te trainen dat op meerdere visuele-tokenbudgetten kan draaien. Bestaande benaderingen hebben echter moeite met agressieve compressie. Ruimtelijke-only compressie, zoals bij geneste pooling, gedraagt zich als een imperfect laagdoorlaatfilter en veroorzaakt spectrale aliasing die fijnkorrelige details verbergt. Query-only compressie, zoals bij geneste query-hersampling, vervangt expliciete grid-uitgelijnde tokens door niet-lokale samenvattingen en verslechtert de ruimtelijke verankering aanzienlijk. Om dit representatieconflict op te lossen, introduceren we PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), een visuele tokenisatiearchitectuur die het werk van kenmerkextractie dynamisch verdeelt. PARCEL stelt ruimtelijke pooltokens in als laagfrequente lay-outankers en conditioneert elastische querytokens op deze ankers door middel van Pool-Geadconditioneerde Query-Hersampling. Dit moedigt querytokens aan om zich te richten op complementaire visuele kenmerken in plaats van redundante ruimtelijke mapping. Uitgebreide evaluaties over 27 benchmarks tonen aan dat PARCEL de Pareto-grens van prestatie-efficiëntie verbetert, consequent beter presteert dan bestaande matryoshka-baselines over visuele-tokenbudgetten, terwijl het 'train once, deploy anywhere'-paradigma behouden blijft.
Multimodale grote taalmodellen (MLLM's) hebben sterke capaciteiten getoond op het gebied van perceptie, redeneren en actiegeneratie. Het blijft echter onduidelijk of zij verkenning in dynamische open werelden kunnen volhouden. Bestaande belichaamde en spelgebaseerde benchmarks persen interactie vaak samen in kortetermijntaken of koppelen succes aan domeinspecifieke spelmechanismen. In dit artikel introduceren we de MineExplorer-benchmark voor het evalueren van de open-wereldverkenningscapaciteiten van MLLM-agenten in Minecraft. Eerst filteren we atomaire taken waarvan de oplossingen sterk afhankelijk zijn van Minecraft-specifieke kennis, om beter de algemene open-wereldredenering te weerspiegelen. Vervolgens organiseren we de benchmark rond een ReAct-stijl capaciteitsformulering en stellen we atomaire taken samen tot impliciete multi-hop taken. Om verdere betrouwbare instanties te construeren, gebruikt MineExplorer een multi-agent syntheseworkflow die gezamenlijk taakgrafieken, sandbox-scènes en op regels gebaseerde mijlpaalevaluatoren ontwerpt. Menselijke evaluatie toont aan dat de multi-agent syntheseworkflow significant betrouwbaardere instanties oplevert dan een single-agent baseline. Experimenten met geavanceerde MLLM-agenten laten zien dat open-wereldverkenning uitdagend blijft; sterke modellen kunnen veel single-hop taken aan, maar gaan sterk achteruit wanneer verborgen vereisten over langere trajecten moeten worden gecoördineerd. Verdere analyse toont aan dat taakmoeilijkheid de voltooiing door agenten volgt, en dat grotere modellen of denkmodi niet consistent leiden tot betere prestaties. Code en dataset zijn beschikbaar op https://github.com/Jometeorie/MineExplorer.
Beeld-taal-actie (BTA) modellen zijn gebouwd op de veronderstelling dat semantisch begrip uit voorgetrainde taal- of beeld-taal-backbones de robotactievoorspelling moet sturen. Toch wordt robot-fijnafstemming geoptimaliseerd als imitatie over taakspecifieke actieverdelingen, en veel evaluaties kunnen worden opgelost via visuele of instructie-actie shortcuts. We introduceren RoboSemanticBench (RSB), een belichaamde benchmark voor het diagnosticeren van semantische verankering in actievoorspelling: of post-getrainde BTA-modellen complexe instructiesemantiek kunnen gebruiken om het juiste fysieke doel te selecteren en te manipuleren. In elke aflevering ontvangt een robot een meerkeuzevraag over wiskunde of algemene kennis, observeert kandidaat-antwoordblokken, en moet het blok grijpen dat overeenkomt met het juiste antwoord. RSB omvat gecontroleerde rekenkunde, wiskundig begrip op basisschoolniveau, en gezond verstand of feitelijk begrip in vierkeuze- en tienkeuzesets. Bij representatieve BTA-modellen vinden we dat veel strategieën leren om kandidaat-blokken te grijpen, maar het semantisch correcte blok selecteren met bijna-willekeurige of onder-willekeurige percentages na correctie voor grijpsucces, wat een aanhoudende kloof onthult tussen semantische competentie op backbone-niveau en actievoorspelling.
Het selecteren van de beste respons uit meerdere samples van een klein model met behulp van een sterke scorer is een eenvoudige inferentiestrategie, maar faalt wanneer het kleine model al op foutieve redeneerpaden is beland. PRM-gestuurd zoeken vermijdt dit door kandidaat-voortzettingen tijdens de generatie te beoordelen, maar vereist een beloningsmodel dat is getraind met stapsgewijze labels. Wij stellen Chunk-Level Guided Generation voor, een trainingvrij alternatief dat een bestaand groot taalmodel als processcorer gebruikt. Bij elke stap samplet een klein model k vaste-lengte chunks, terwijl het grotere model de kandidaten scoort met behulp van waarschijnlijkheden zonder enige tekst te genereren. De geselecteerde chunk wordt vóór de volgende stap vastgelegd, waardoor de generatie wordt gestuurd voordat fouten zich kunnen verspreiden. We implementeren dit raamwerk met twee selectieregels: Likelihood-Guided Selection (LGS), die de chunk met de hoogste lengte-genormaliseerde log-waarschijnlijkheid van het grote model selecteert, en Contrastive-Guided Selection (CGS), die de log-waarschijnlijkheid van het kleine model aftrekt om chunks te begunstigen waar de voorkeur van het grote model afwijkt van die van het kleine model. We tonen aan dat het scoren van variabele-lengte redeneerstappen met grote-modelwaarschijnlijkheden onbetrouwbaar is vanwege een systematisch lengtevooroordeel dat aanhoudt, zelfs na lengtenormalisatie, en dat vaste-lengte chunks deze verstorende factor vermijden. Op GSM8K, MATH, Minerva Math, AMC23 en AIME24 met Qwen2.5-1.5B gestuurd door Qwen2.5-32B en Llama-3.2-1B gestuurd door Llama-3.1-70B, overtreft CGS meerderheidsstemming met tot 28 procentpunten en, onder gelijke sturingsbudgetten, evenaart of overtreft het Qwen2.5-Math-PRM-72B-gestuurd zoeken op de meeste benchmarks zonder beloningsmodeltraining. Met Qwen2.5-7B gestuurd door Qwen2.5-72B bereikt CGS 81,8% op MATH en 63,6% op Minerva Math bij k=16, waarmee het meerderheidsstemming met 4–6 procentpunten overtreft. Tot slot produceert Chunk-Level Guided Generation aanzienlijk kortere redeneertrajecten dan PRM-gestuurd zoeken.
Huidige computergebruikagenten (CUA's) worden voornamelijk ingezet als enkele seriële agenten. Deze opzet is suboptimaal voor complexe langetermijn taken die baat hebben bij taakdecompositie, parallelle uitvoering en consistente herplanning op basis van nieuwe informatie. In dit artikel beargumenteren wij dat we in plaats daarvan moeten overgaan naar het evalueren en bouwen van multi-agent computergebruik (MACU) systemen. Deze systemen, die de nadruk leggen op planning en parallelle uitvoering, verhelpen veel van de tekortkomingen van single-agent CUA's. Wij stellen een algemene multi-agent opzet voor waarin een managermodel computergebruiktaken ontleedt als een gerichte acyclische graaf (DAG), met daarin de relevante afhankelijkheden en doelen voor subagenten. Bij elke iteratie stuurt de manager parallelle CUA-subagenten aan om knooppunten op de gereedheidsgrens van de DAG uit te voeren, en herziet continu de DAG (knooppunten toevoegen, annuleren of herschrijven) naarmate er nieuwe bevindingen van subagenten binnenkomen. Dit ontwerp behandelt de gedeeltelijk waarneembare omgeving van computergebruik als een fundamentele uitdaging: informatie die stroomafwaartse agenten mogelijk niet opnieuw kunnen waarnemen, wordt bewaard en doorgegeven via de manager en de DAG-structuur. Wij tonen aan dat MACU consistent beter presteert dan sterke single-agent baselines met 3,4-25,5% op desktop (OSWorld) en webnavigatie (Online-Mind2Web, WebTailBench, Odysseys) benchmarks, gunstigere testtijdschaling vertoont, en complexe langetermijn taken oplost waar single-agent CUA's vastlopen. Op Odysseys, een langetermijn webnavigatiebenchmark, verbetert MACU de gemiddelde kloktijd voor taakvoltooiing met {ongeveer} 1,5 keer, wat de doeltreffendheid ervan aantoont bij het versnellen van traditioneel trage CUA-pijplijnen. Onze bevindingen benadrukken dat multi-agent coördinatie een veelbelovende as is om computergebruikagenten te schalen zodat ze langer productief en effectiever kunnen werken. Wij publiceren alle code en interactieve visualisaties op https://jykoh.com/multi-agent-computer-use.
Het meten van gestructureerd objectbegrip in visuele funderingsmodellen blijft een uitdaging door inconsistente evaluatieprotocollen en beperkte supervisie op onderdeelniveau. Semantische correspondentie (SC) evalueert dit vermogen door te testen of objectonderdelen kunnen worden gematcht tussen instanties en categorieën, onder grote variaties in uiterlijk, gezichtspunt en geometrie. Om een systematische SC-evaluatie mogelijk te maken, introduceren we SOCO, een nieuwe benchmark voor Semantische Objectcorrespondentie die een taxonomie van correspondentie typen introduceert en consistente, functioneel betekenisvolle sleutelpuntannotaties biedt over 100 categorieën en meer dan 1M correspondentieparen. Bovendien bevat SOCO taalbeschrijvingen van sleutelpunten, wat de evaluatie van grote visie-taalmodelen (LVLM's) en hun fijnmazige begrip op onderdeelniveau mogelijk maakt. Uitgebreide experimenten tonen aan dat (i) visuele funderingsbackbones sterke semantische structuur coderen, maar correspondentie slecht overdragen over verwante categorieën en slechts gedeeltelijk de positie van objectonderdelen vastleggen, (ii) LVLM's sterker zijn in tekstgestuurde onderdeellokalisatie dan in visuele referentie-gebaseerde cross-image matching, wat een kloof blootlegt tussen taalgestuurde lokalisatie en fijnmazige visuele correspondentie, en (iii) correspondentieprestaties sterker voorspellend zijn voor prestaties op dichte downstream taken, waaronder segmentatie, tracking, 3D-poseschatting en 3D-detectie, dan ImageNet-classificatie. Gezamenlijk positioneren deze bevindingen SOCO als een benchmark voor gestructureerde, onderdeelrepresentatiekwaliteit in visuele en multimodale funderingsmodellen.
Het verleren van grote taalmodellen (large language model unlearning) is uitgegroeid tot een cruciale mechanisme voor privacybescherming en AI-veiligheid, maar het blijft uitdagend om te controleren of doelkennis daadwerkelijk is gewist. Bestaande metrieken op outputniveau slagen er niet in te detecteren wanneer deze kennis nog te herstellen is uit interne representaties. Recente white-boxstudies onthullen dergelijke residuele kennis, maar zijn vaak afhankelijk van aanvullende training of datasetspecifieke aanpassingen, waardoor er geen generaliseerbare metriek overblijft. Om deze beperkingen aan te pakken, stellen we de Unlearning Depth Score (UDS) voor, een metriek die de mechanistische diepte van het verleren kwantificeert via activatie-patching. UDS identificeert eerst de lagen die de doelkennis coderen met behulp van een baseline-model (retain model), en meet vervolgens in welke mate deze kennis is gewist in het verleerde model op een schaal van 0 tot 1. In een meta-evaluatie over 20 metrieken op 150 verleerde modellen, afkomstig van 8 methoden, behaalt UDS de hoogste betrouwbaarheid en robuustheid, wat bevestigt dat onze causale benadering de meest betrouwbare is voor de evaluatie van verleren. Casestudies tonen verder aan dat white-boxmetrieken op laagniveau kunnen verschillen en dat de wisdiepte varieert per voorbeeld. We bieden richtlijnen voor het integreren van UDS in bestaande benchmarkframeworks en het stroomlijnen van de evaluatiepijplijn. Code en data zijn beschikbaar op https://github.com/gnueaj/unlearning-depth-score.
Het begrijpen van afbeeldingen van grafieken en tabellen is essentieel voor het toepassen van visie-taalmodellen (VLMs) op het begrijpen van echte documenten. Hoewel Engelstalige benchmarks snel zijn gevorderd, blijven niet-Engelstalige tegenhangers schaars, waardoor onduidelijk is of deze vooruitgang generaliseert over talen heen. Een belangrijk obstakel is de moeilijkheid om realistische en diverse niet-Engelstalige grafiek- en tabelafbeeldingen op schaal te verzamelen. Om dit aan te pakken, benutten we overheidsdocumenten (white papers) als een schaalbare bron voor benchmarkconstructie buiten het Engels, omdat ze natuurlijk voorkomende grafieken en tabellen bevatten in diverse formaten en domeinen en in veel landen vrij toegankelijk zijn. Als eerste realisatie introduceren we HakushoBench, een uitdagende Japanse grafiek- en tabel-VQA-benchmark opgebouwd uit 33 overheidsdocumenten. HakushoBench bevat 2.053 afbeeldingen, verdeeld over meer dan 10 afbeeldingstypen, met handmatig geannoteerde vraag-antwoordparen, ontworpen om diep en holistisch begrip van grafieken en tabellen te beoordelen, in plaats van alleen lokale visuele aanwijzingen. Experimenten met een breed scala aan VLMs tonen aan dat HakushoBench uitdagend blijft voor open-weight modellen: het beste open-weight model behaalt slechts 58,6% nauwkeurigheid, en een verschil van 34,9 punten tussen open-weight en propriëtaire modellen benadrukt aanzienlijke ruimte voor verbetering in complex grafiek- en tabelbegrip. We geven onze dataset en code vrij.
Echte video-intelligentie vereist meer dan alleen herkennen wat zichtbaar is: het vraagt om redeneren over waarom gebeurtenissen zich ontvouwen, voorspellen wat er zou veranderen onder verschillende omstandigheden, en beslissen wat er vervolgens moet gebeuren. We verwijzen naar deze progressie, van perceptie via causaal redeneren en simulatie naar strategische planning, als Strategische Video-Intelligentie (SVI). Geen enkele bestaande benchmark evalueert deze stapel van capaciteiten: video's uit de praktijk missen verifieerbare grondwaarheid voor causale en strategische vragen, terwijl synthetische omgevingen de complexiteit van echte multi-agent systemen opofferen. Om deze kloof te overbruggen introduceren we SVI-Bench, een grootschalige benchmark die gebruikmaakt van teamsporten als een dynamische microwereld, waarbij de complexiteit van echte multi-agent interactie (10-22 agenten die gecoördineerde beslissingen nemen onder tegenstandersdruk) wordt gecombineerd met de verifieerbaarheid van expliciete regels en definitieve uitkomsten. SVI-Bench omvat ongeveer 35.000 uur aan uitzendvideo's, 15 miljoen geannoteerde acties, 15.000 uur aan expertcommentaar, 23.000 wedstrijdverslagen en 103.000 gestructureerde statistische gegevens voor basketbal, voetbal en hockey, allemaal geconstrueerd via een data-engine die ruwe wedstrijdgegevens omzet in een dicht, cross-referentieel corpus. We organiseren de evaluatie in 9 taken die een progressieve vierpijlerhiërarchie omspannen: Dynamisch Scènebegrip, Causal Redeneren, Strategische Simulatie en Agentische Synthese. Bij het evalueren van sterke multimodale en agentische baselines vinden we een capaciteitenklif: modellen presteren competent op perceptuele taken, met ongeveer 73% nauwkeurigheid bij fijnmazige actie-vragen, maar dalen scherp bij elk opeenvolgend cognitief niveau. Agentische taken blijken het moeilijkst: het sterkste model behaalt slechts 5% nauwkeurigheid wanneer het autonoom bewijs moet verzamelen en integreren uit een corpus van 1,8 miljoen clips.
Agentisch zoeken vereist dat taalmodellen agenten inzetten om talloze bronnen te verkennen en complexe informatiezoekende vragen te beantwoorden. Het opschalen van testtijdberekening is een veelbelovende manier om deze agenten te verbeteren, maar huidige benaderingen kunnen falen omdat correcte antwoorden vaak schaars zijn en scoregebaseerde selectie afhankelijk is van modelkalibratie. Wij stellen FineVerify voor, een fijnmazig zelfverificatiekader dat elke vraag opsplitst in controleerbare subvragen, bemonsterde kandidaten tegen elke subvraag verifieert en de kandidaat met de hoogste geaggregeerde score selecteert. Deze per-controle-structuur maakt van selectie eenvoudigere lokale beoordelingen en genereert scores onder dezelfde expliciete criteria. Over vier agentische zoekbenchmarks en twee modellen heen presteert FineVerify consistent beter dan standaard opschalingsbaselines. Met slechts vier bemonsterde trajecten verbetert het GPT-5-mini met 8,2 nauwkeurigheidspunten en Gemini-3-flash gemiddeld met 5,6%. Met 12 monsters stelt FineVerify GPT-5-mini in staat om frontier GPT-5 te overtreffen op BrowseComp-Plus. Naast nauwkeurigheid produceert FineVerify interpreteerbare verificatiesporen die helpen bij het auditen van benchmarkfouten, wat wijst op bredere toepassingen voor het inspecteren van agentische zoeksystemen. Code en gegevens zijn beschikbaar op https://github.com/XuZhao0/fineverify.
Physical AI-systemen brengen steeds vaker multimodale observaties, taalopdrachten en aangeleerde wereldrepresentaties in kaart in fysiek consequente acties. Robotica-fundamentmodellen, visie-taal-actiemodellen en op wereldmodellen gebaseerde autonome systemen kunnen beslissingen sturen die voertuigen, robots, drones en industriële machines verplaatsen. Deze transitie brengt een veiligheidsprobleem aan het licht dat niet volledig wordt gedekt door conventionele AI-contentmoderatie of door klassieke robotveiligheid alleen: een black-boxmodel kan een fysiek consequente actie uitvoeren terwijl het zelfverzekerd, plausibel en semantisch afgestemd lijkt. De resulterende faling kan stil zijn, voortkomend uit sensordrift, occlusie, schattingsfouten in de toestand, distributieverschuiving, gehallucineerde affordances of ongeldige fysieke aannames voordat stroomafwaartse hardwarecontrollers een overtreding detecteren. Bij belichaamde fundamentmodellen, wereldmodellen, robotica-simulatie, veiligheidsbenchmarks voor belichaamde systemen, veilige controle, runtime-zekerheid, onzekerheidsschatting, verificatie en evaluatie van guardrails, zijn modelcapaciteit en veiligheidsmechanismen grotendeels langs afzonderlijke technische sporen gevorderd. Een terugkerend hiaat dat hier wordt samengevat, is dat geen enkele stroom die in dit overzicht is onderzocht, een volledige runtime-autorisatiegrens biedt tussen black-box Physical AI-modellen en fysieke uitvoering. De resulterende analyse ontwikkelt een begrensde probleemformulering, een definitie van stille fysieke-actiefout, een taxonomie van runtime-guardrailfuncties en evaluatievereisten voor het vergelijken van guardrails als Physical AI-zekerheidsmechanismen.
Reinforcement learning met verifieerbare beloningen (RLVR) is een kerntechniek geworden voor de post-training van grote taalmodellen (LLMs). Hoewel beleidsoptimalisatie wordt aangedreven door alle gesamplede tokens onder een globaal uitgezonden scalaire beloning, wordt het heterogene beleidsgedrag dat langs trajecten wordt vertoond grotendeels over het hoofd gezien zonder differentiatie. Bestaande onderzoeken pakken dit aan door krediettoewijzing, waaronder herweging van voordelen op tokenniveau en selectieve tokenoptimalisatie, maar de toewijzingscriteria zijn in principe statisch gedurende de training, wat de veerkrachtige beleidsevolutie beperkt. In dit werk stellen we dat wanneer leersignalen worden gepland net zo belangrijk kan zijn als waar ze over tokens worden toegewezen, en introduceren we de temporele dimensie van het plannen van de krediettoewijzingscriteria gedurende het RLVR-optimalisatieproces. We ontdekken dat het prioriteren van gerichte tokens die worden benadrukt met specifiek beleidsgedrag, en geleidelijk afzwakken naar algemene optimalisatie, leidt tot stabielere en efficiëntere leerdynamieken. Bovendien tonen we aan dat eenvoudige percentielen van trajecten een natuurlijk perspectief bieden voor het onderscheiden van beleidsgedragingen en effectief werken met temporele planning. Onze analyse onthult dat standaardoptimalisatie aanzienlijk beleidsentropie opoffert bij het gelijktijdig accommoderen van heterogeen gedrag, terwijl temporele planning gezondere beleidsevolutiedynamieken oplevert. Experimenten op het gebied van wiskundige en algemene redeneerbenchmarks tonen consistente verbeteringen aan, wat suggereert dat temporele planning een veelbelovende optimalisatiedimensie vormt.
Zinsinbeddingen vormen een fundamenteel onderdeel voor semantisch zoeken, clusteren, classificatie en retrieval-augmented generatie. Dit artikel presenteert embeddingmagibu-200m, een op Turks gericht zinsinbeddingsmodel dat 768-dimensionale L2-genormaliseerde vectoren produceert en een contextvenster van 8.192 tokens ondersteunt, ver boven de limiet van 512 tokens van eerdere op BERT gebaseerde Turkse encoders. In plaats van volledige pretraining wordt een efficiënte drietrapsaanpassingspijplijn geïntroduceerd: (1) het construeren van een voor Turks geoptimaliseerde meertalige tokenizer met een vocabulaire van 131.072 door redundante tokens uit het vocabulaire van de leraar te verwijderen en meertalige tokens op te nemen via frequentieanalyse op een corpus van 40 talen, (2) het klonen van een lerarinbeddingsmodel met behoud van de gewichten van de transformator-backbone en het initialiseren van een compatibele inbeddingstabel voor het nieuwe vocabulaire via tokenmapping op basis van gemiddelde samenstelling, en (3) het offline uitvoeren van inbeddingsdistillatie van vooraf berekende leraarvectoren met behulp van een cosinusovereenkomstdoelstelling over een gebalanceerd Wikipedia-corpus van 40 talen. Het resulterende studentmodel bevat ongeveer 200M parameters en traint in ongeveer vier uur op een enkele GPU door het vermijden van online lerarinferentie tijdens de training, tegen een totale kostprijs van 5–20. Empirisch worden Pearson/Spearman-correlaties van 77,55%/77,45% behaald op STSbTR, waarmee het 300M-parameter lerarmodel (73,84%/72,92%) wordt overtroffen. Op TR-MTEB (26 taken) wordt een gemiddelde score van 63,9% behaald (7e van de 26 modellen), wat een concurrerende kosten-kwaliteitsafweging biedt met 33% minder parameters dan de leraar. Om reproduceerbaarheid en downstreamgebruik te faciliteren, worden alle artefacten vrijgegeven, waaronder modelgewichten, tokenizerbestanden, vooraf berekende inbeddingsdatasets en open-source kloon- en distillatietools.
Procedureel 3D-modelleren via code komt naar voren als een veelzijdig paradigma dat deterministische, engine-klare en nauwkeurig bewerkbare assets biedt, wat inherent ontbreekt bij neurale 3D-generatoren. Het creëren van dergelijke procedurele inhoud vereist echter diepgaande expertise in 3D-software-API’s, parametrisch ontwerp en code-niveau geometrische redenering. In dit artikel introduceren we 3DCodeBench, een systematische benchmark voor het evalueren van visie-taalmodel (VLM)-agenten voor procedurele 3D-generatie in 3D-modelleringssoftware. Specifiek evalueert 3DCodeBench hoe effectief 12 geavanceerde VLM’s kunnen fungeren als procedurele 3D-modelleurs door tekst- en beeldreferenties te vertalen naar procedurele code voor 3D-modelleringssoftware. Omdat geautomatiseerde metrieken de perceptuele kwaliteit van 3D-vormen mogelijk niet volledig vatten, bouwen we 3DCodeArena, een rangschikkingsplatform gebaseerd op paarsgewijze menselijke voorkeuren voor gegenereerde 3D-outputs. Uit uitgebreide evaluaties en resultaten observeren we dat: (1) fouten meestal voortkomen uit API-mismatches, terwijl succesvolle renders nog steeds lijden onder losgekoppelde of zwevende 3D-geometrische componenten. (2) Testtijdsschaling, zoals hogere denkbudgetten en meerstapsverfijning, verbetert de algehele prestaties. Onze bevindingen benadrukken een kritieke behoefte aan hoogwaardige procedurele codedata om commerciële VLM’s vooruit te helpen. Bovendien vereist effectief procedureel 3D-modelleren een robuuste uitvoeringsomgeving die feedback van hoge betrouwbaarheid biedt voor iteratieve verfijning. We geven 3DCodeBench vrij, inclusief de samengestelde grootschalige dataset van multimodale (tekst/beeld) prompts, procedurele code, 3D-objecttripletten, evaluatieprotocol en het publieke 3DCodeArena-platform als een fundamentele toolkit voor het verkennen van VLM-gebaseerde procedurele 3D-modelleurs.
Aangezien toepassingen in de praktijk steeds vaker de verwerking vereisen van invoer met 100k+ tokens, is de kloof tussen contextlengte en inferentie-efficiëntie een kritiek knelpunt geworden. Contextcompressie biedt een manier om prefill-kosten te verlagen terwijl de taaknauwkeurigheid behouden blijft. Bestaande trainingsvrije, op aandacht gebaseerde methoden laten echter aanzienlijke hiaten ontstaan bij veeleisende lang-context-taken zoals coderedeneren. Wij presenteren LongAttnComp, een aanpassing voor lange contexten van AttnComp die een lichte kruisaandachtsscorelaag finetunet en token-niveau chunking, een tokenbudget top-p algoritme, positionele herordening en een formaat-agnostische query-parser introduceert. Daarnaast ontwerpen we een tweefasige finetuning-methode voor de compressor: Fase 1 bouwt een algemene retrievalbasis op uit NIAH-achtige gegevens, en Fase 2 breidt deze uit met multihop- en redeneergegevens voor een bredere dekking van taken met lange contexten. Op InfiniteBench Code-Debug evenaart of overtreft LongAttnComp de volledige-contextnauwkeurigheid, presteert het aanzienlijk beter dan trainingsvrije baselines, en is het overdraagbaar over vier doelmodellen uit drie families. Op LongBench v2 sluit het tweefasige recept grotendeels de kloof van Fase 1 bij redeneren over meerdere documenten, terwijl de prestaties op Code-Debug behouden blijven.
Dit artikel behandelt de uitdaging van het integreren van 3D-meshes als een native modaliteit binnen Multimodale Grote Taalmodellen (MLLM's). Diffusie-gebaseerde grote reconstructiemodellen ontkoppelen semantisch begrip van geometrische redenering en functioneren als toestandloze reconstructoren die worden geconditioneerd door dichte 2D-pixelpriors. Recent op MLLM gebaseerde methoden behandelen de 3D-modaliteit als een externe output in plaats van een native component van de multimodale sequentie, en maken incrementele aanpassingen zonder een systematische analyse van hoe geometrische manifolds zich uitlijnen met MLLM-kenmerkruimten. We introduceren EVA01, een uniform raamwerk dat de modaliteitsgrens van MLLM's uitbreidt om native 3D-mesh begrip, generatie en contextbewuste bewerking te integreren. Gebouwd op een Mixture-of-Transformers (MoT)-architectuur, ontkoppelt EVA01 het model in een voorgetrainde Begripsexpert (E_{und}) en een structureel gespiegelde Generatie-expert (E_{gen}), gekoppeld via gedeelde globale self-attention met harde modaliteitsroutering. Dit ontwerp lijnt de semantische latente ruimte van de MLLM-backbone uit met het geometrische manifold, wat directe overdracht van multimodale priors mogelijk maakt zonder tussenliggende 2D-representaties. Resultaten tonen aan dat EVA01 state-of-the-art native tekst-naar-3D generatiefideliteit bereikt en robuuste lange-context multi-beurt geometrische bewerking met identiteitsbehoud mogelijk maakt, een capaciteit die fundamenteel ontoegankelijk is voor toestandloze reconstructiepijplijnen. Onze bevindingen bieden verder architectonische inzichten voor het integreren van 2D-fundamentmodellen met 3D-taken, en informeren het ontwerp van 3D-native multimodale systemen. Projectpagina: https://www.seeles.ai/research/pages/EVA01
Academische onderzoekers hebben behoefte aan efficiënte en betrouwbare methoden voor het verzamelen van hoogwaardige informatie uit betrouwbare bronnen, maar moderne hulpmiddelen voor AI-ondersteund onderzoek hebben nog steeds te lijden onder de neiging van Large Language Models (LLM's) om feitelijk onjuiste of onsamenhangende output te produceren, algemeen aangeduid als hallucinaties. We passen het extractieve vraag-antwoordsysteem VerbatimRAG toe op onderzoeksartikelen in de ACL Anthology, waarbij gebruikersquery's rechtstreeks worden gekoppeld aan woordelijk getrouwe tekstfragmenten in opgehaalde documenten. We leveren een nieuwe grondwaarheidsdataset voor de taak van het koppelen van gebruikersquery's aan relevante tekstfragmenten in onderzoeksartikelen, en gebruiken deze om een verscheidenheid aan extractieve modellen te trainen en te evalueren. Menselijke annotatie wordt uitgevoerd door NLP-onderzoekers en is gebaseerd op synthetische gebruikersquery's die zijn gegenereerd met behulp van een aangepaste pijplijn op basis van de ScIRGen-methodologie, gekoppeld aan fragmenten van onderzoeksartikelen die zijn opgehaald door VerbatimRAG. Op deze benchmark behaalt een 150M-parameter ModernBERT-tokenclassifier, getraind op zilversupervisie van onze pijplijn, de beste woordniveau-F1 (53,6), voor de sterkst geëvalueerde LLM-extractor (48,7).
SwiGLU is een standaard gated-activatiefunctie geworden in moderne Transformer MLP's, maar de scherpte van de poortfunctie – de soepelheid en selectiviteit van de poortfunctie – blijft doorgaans vast tijdens de training. In dit werk stellen we Confidence-Aware SwiGLU (κ-SwiGLU) voor, een variant van SwiGLU voor Mixture-of-Experts (MoE)-modellen die de scherpte van de expertpoort aanpast op basis van het token-level routeringsvertrouwen. Specifiek parametriseert κ-SwiGLU de SiLU-poortscherptecoëfficiënt als een leerbare functie van de router-logit, waardoor elke expertpoorteenheid kan interpoleren tussen soepele, breed actieve poortwerking en scherpe, selectieve poortwerking. We evalueren κ-SwiGLU op de FineWeb-Edu-dataset over MoE Transformer-modellen variërend van 8 tot 28 lagen. In deze settings verbetert κ-SwiGLU de gemiddelde CORE-prestaties, terwijl het verwaarloosbare parameters toevoegt en slechts een kleine rekenkundige overhead met zich meebrengt, wat aantoont dat vertrouwensbewuste poortscherpte een veelbelovend mechanisme is voor het verbeteren van MoE MLP's. De code is beschikbaar op https://github.com/askerlee/kappa-swiglu.
Diepe onderzoeksagenten hebben een sterke capaciteit getoond in meerstaps informatieopvraging, redeneren en het genereren van lange rapporten, maar bestaande benchmarks en systemen blijven overwegend tekstgericht, met beperkte evaluatie van of visuele elementen feitelijk betrouwbaar zijn en goed afgestemd zijn op de omringende analyse. Om deze leemte aan te pakken, introduceren we TVIR (Tekst–Visueel afgewisselde Rapportgeneratie), dat TVIR-Bench omvat, een benchmark van 100 door experts samengestelde multimodale diepe onderzoekstaken die visuele elementen vereisen om specifieke analytische subdoelen te dienen, en TVIR-Agent, een hiërarchisch multi-agent raamwerk dat dient als een sterke basislijn voor het opstellen van overzichten, het ophalen van afbeeldingen, het genereren van grafieken met traceerbare bronnen, en het samenstellen van rapporten door contextbewust sequentieel schrijven. We ontwikkelen verder een tweesporig evaluatiekader dat Tekstuele Beoordeling en Visuele Beoordeling combineert. Experimenten met negen diepe onderzoekssystemen tonen aan dat TVIR-Agent een sterke algehele prestatie behaalt, wat het belang benadrukt van expliciet multimodaal ontwerp en evaluatie voor bewijsgestuurde rapportgeneratie.
Effectieve ondersteuning in de echte wereld vereist AI-agenten met een robuuste Theory of Mind (ToM): het afleiden van menselijke mentale toestanden uit hun gedrag. Ondanks recente vooruitgang blijven er verschillende belangrijke uitdagingen, waaronder (1) online inferentie met robuuste onzekerheidsupdates over meerdere hypothesen; (2) efficiënt redeneren geschikt voor realtime ondersteuning; en (3) het gebrek aan grondwaarheidsannotaties van mentale toestanden in domeinen in de echte wereld. We pakken deze uitdagingen aan door MindZero te introduceren, een zelfgestuurd versterkend leerkader dat multimodale grote taalmodellen (MLLM's) traint voor efficiënt en robuust online mentaal redeneren. Tijdens de training wordt het model beloond voor het genereren van hypothesen over mentale toestanden die de waarschijnlijkheid maximaliseren van waargenomen acties zoals geschat door een planner, vergelijkbaar met modelgebaseerd ToM-redeneren. Deze methode elimineert daarmee de noodzaak voor expliciete annotaties van mentale toestanden. Na training internaliseert MindZero modelgebaseerd redeneren in snelle inferentie in één enkele doorgang. We evalueren MindZero tegen basislijnen over uitdagende mentale redeneertaken en AI-ondersteuningstaken in gridworld- en huishoudelijke domeinen. We ontdekten dat LLM's alleen onvoldoende zijn; modelgebaseerde methoden verbeteren de nauwkeurigheid, maar zijn traag, duur en beperkt door de capaciteit van het onderliggende MLLM. Daarentegen verbetert MindZero de intrinsieke ToM-vaardigheid van MLLM's en presteert het significant beter dan modelgebaseerde methoden in zowel nauwkeurigheid als efficiëntie, wat aantoont dat mentaal redeneren effectief kan worden aangeleerd als een zelfgestuurde vaardigheid.
Ondanks de snelle vooruitgang van tekst-naar-beeld (T2I) modellen, blijft het genereren van afbeeldingen die complexe compositorische prompts (met inbegrip van attribuutbindingen, objectrelaties en tellen) nauwkeurig weergeven een uitdaging. Om dit aan te pakken introduceren wij BiDPO, een raamwerk om het vermogen van T2I-modellen voor compositorische tekst-naar-beeld generatie te verbeteren. We beginnen met het presenteren van een zorgvuldig ontworpen pijplijn om een grootschalige voorkeursdataset, BiComp, te construeren met strikte kwaliteitscontrole. Vervolgens breiden we Diffusion DPO uit om gezamenlijk afbeeldings- en tekstvoorkeuren te optimaliseren, wat zeer effectief blijkt te zijn in het verbeteren van de modellen om complexe tekstprompts te volgen bij generatie. Om de modellen verder te verbeteren voor fijnmazige afstemming, passen we een methode voor sturing op regioniveau toe om te focussen op regio's die relevant zijn voor compositorische concepten. Experimentele resultaten tonen aan dat onze BiDPO de compositorische getrouwheid aanzienlijk verbetert, en consequent beter presteert dan eerdere methoden over meerdere benchmarks. Onze aanpak benadrukt het potentieel van voorkeursgebaseerde fine-tuning voor complexe tekst-naar-beeld taken, en biedt een flexibel en schaalbaar alternatief voor bestaande technieken.
Videowereldmodellen (WM's) hebben potentie getoond voor beleidsevaluatie en -verbetering door realistische toekomstige observaties te verbeelden, geconditioneerd op ego-robotacties. Hoewel WM's verdelingen over toekomsten kunnen modelleren, vertrouwen beleidsevaluatie en -verbetering doorgaans op nominale verbeeldingen, die gevolgen van robotacties met grote impact kunnen missen tenzij er onbetaalbaar veel steekproeven worden getrokken. Om robuuste beleidsevaluatie en -verbetering over WM-verbeeldingen mogelijk te maken, stellen we StressDream voor, dat verbeeldingen stuurt naar impactvolle maar plausibele uitkomsten die tijdens inferentie worden gespecificeerd door de beginruis van diffusiegebaseerde WM's te optimaliseren. Het optimaliseren van hoogdimensionale ruis is echter een uitdaging: de optimalisatie moet rekening houden met genuanceerde, scèneafhankelijke doelgebeurtenissen in gegenereerde video's, terwijl buiten-distributie (OOD) ruis die leidt tot onwaarschijnlijke verbeeldingen wordt vermeden. We pakken dit aan met twee complementaire doelstellingen: een semantische doelstelling met een Visie-Taalmodel dat informatieve gradiënten levert door de gegenereerde video te beredeneren, en een plausibiliteitsdoelstelling die voorkomt dat de geoptimaliseerde ruis naar OOD afdrijft. Met state-of-the-art videowereldmodellen voor autonoom rijden en robotmanipulatie laten we zien dat StressDream verbeeldingen effectief stuurt naar impactvolle maar plausibele uitkomsten, gespecificeerd door tekst tijdens inferentie, zoals taakfalen, wat robuuste beleidsevaluatie en -verbetering mogelijk maakt door acties te identificeren waarvan de plausibele toekomsten ongewenste uitkomsten bevatten. Videoresultaten zijn beschikbaar op https://junwon.me/StressDream/.
We presenteren een functionele vorm (die we aanduiden als Unified Neural Scaling Law (UNSL)) die het schaalgedrag van diepe neurale netwerken nauwkeurig modelleert en extrapoleert wanneer meerdere dimensies tegelijkertijd variëren (d.w.z. hoe de evaluatiemetriek van interesse varieert wanneer men tegelijkertijd het aantal modelparameters, de omvang van de trainingsdataset, het aantal trainingsstappen, het aantal inferentiestappen, de hoeveelheid rekenkracht en diverse hyperparameters varieert) voor diverse architecturen en voor elk van diverse taken binnen een gevarieerde set van upstream- en downstream-taken. Deze set omvat grootschalige visie, taal, wiskunde en reinforcement learning. Vergeleken met andere functionele vormen voor neurale schaling levert deze functionele vorm extrapolaties van schaalgedrag die op deze set aanzienlijk nauwkeuriger zijn.
Voorspellende fysieke AI-systemen leveren toestandsuitrollen, actiebrokken en latente plannen, maar een lage root-mean-square-fout (RMSE) impliceert niet dat een bepaald voorstel fysiek uitvoerbaar is. We formuleren fysieke toelaatbaarheid als een voorspelling-regelinterface: vóór uitvoering wordt een gedecodeerd voorstel behandeld als kandidaatdynamica en geëvalueerd met behulp van kinematische, dynamische en direct-naar-samengestelde horizonvoorwaarden. Het doorstaan is geen certificaat van taaksucces; verwerping identificeert schending van de gespecificeerde fysieke omhullende en geeft een reden op componentniveau. Op Hugging Face LeRobot PushT toont gecontroleerde falsificatie aan dat eenstapsvoorspelling-RMSE en gestandaardiseerde dynamicaresiduen een oppervlakte onder de receiver operating characteristic-curve (AUC) bereiken van respectievelijk 0,982 en 0,972, alleen kinematische voorwaarden een AUC van 0,592, en de volledige poort een AUC van 0,957 met attributie op conditieniveau. In replay-gebaseerde interventie-experimenten voorkomen residugebaseerde filters en de volledige fysieke-toelaatbaarheidspoort 87–89% van de ongeldige voorstellen, met behoud van een gemiddelde voortgang nabij 0,998.
Grote taalmodellen lossen complexe problemen op door lange ketens van expliciete redeneertokens te genereren. Hoewel dit effectief is, maakt het redeneren duur, lengtegevoelig en beperkt tot (discrete) natuurlijke taal. Latente redenering biedt een continu alternatief, maar het bepalen van nuttige structuren voor tussentijdse latente toestanden is een open uitdaging. In dit artikel formuleren we latente redenering als een geometrisch pad-benaderingsprobleem binnen de voorgetrainde token-inbeddingsruimte van het model. We introduceren Geometrische Latente Redenering (GLR), die een lichtgewicht overgangskop gebruikt om iteratieve richtingsupdates in de inbeddingsruimte te voorspellen. Door gebruik te maken van tekstuele keten-van-gedachte-sporen als ankers, leert GLR discrete redeneertrajecten te benaderen, terwijl continue afwijkingen van exacte token-inbeddingen worden toegestaan. Evaluaties op wiskundige redeneerbenchmarks met Qwen3-modellen onthullen een opkomend fenomeen: geometrische latente redenering induceert aanzienlijk kortere generaties zonder een expliciete lengtedoelstelling. Door vroege expliciete redenering te vervangen door continue latente stappen, bereiken modellen vaak correcte antwoorden met aanzienlijk minder totale generatiestappen. Deze bevindingen suggereren dat continue trajecten fungeren als compacte tussentijdse redeneertoestanden, wat een nieuwe afweging blootlegt tussen latent rekenbudget, uitvoerlengte en nauwkeurigheid.
Grafieken zijn een primair medium voor het overbrengen van kwantitatieve en relationele informatie, maar het systematisch evalueren van grafiekparsemodellen blijft moeilijk. Bestaande benchmarks richten zich op smalle grafiektypen en laten diagramstructuren zoals stroomdiagrammen en mindmaps grotendeels onbehandeld, terwijl modellen output genereren in incompatibele formaten en datasets zelden de in de praktijk voorkomende afgedrukte of handgetekende afbeeldingen bevatten. Om deze problemen aan te pakken, introduceren we ChartArena, een uitgebreide tweetalige benchmark die acht grafiekfamilies omvat, zowel numerieke grafieken als diagramstructuren, elk geëvalueerd over drie visuele scenario's: digitale weergaven, afgedrukte foto's en handgetekende foto's. De dataset is opgebouwd via een mens-agent samenwerkingspijplijn voor annotatie met meerfasige menselijke verificatie om de betrouwbaarheid van annotaties te waarborgen. Om eerlijke cross-model vergelijking mogelijk te maken, ontwerpen we verder een formaat-agnostisch evaluatieprotocol dat heterogene outputs omzet in twee canonieke semantische ruimtes, een genormaliseerd tripleview en een gerichte graafweergave, en deze scoort met structuurbewuste metrieken. Door uitgebreide evaluatie van 26 toonaangevende MLLM's observeren we drie consistente bevindingen: (i) state-of-the-art propriëtaire modellen zoals Gemini 3.1 Pro leiden over het geheel genomen, maar de sterkste open-source systemen sluiten de kloof snel; (ii) documentparsemodellen verwerken numerieke grafieken redelijk, maar blijven sterk achter op diagramstructuren; en (iii) expertgrafiekparsers blijven beperkt tot smalle grafiekfamilies. Bij alle modellen blijven radargrafieken en handgetekende scenario's bijzonder uitdagend. Deze bevindingen tonen aan dat ChartArena duidelijke capaciteitskloven blootlegt en een uniforme basis biedt voor toekomstige vooruitgang. ChartArena is openbaar beschikbaar op https://github.com/pspdada/ChartArena.
Inverse graphics is een al lang bestaand en sterk onderbepaald probleem dat streeft naar het reconstrueren van afbeeldingen als bewerkbare 3D-scènes die kunnen worden weergegeven, opnieuw belicht en gemanipuleerd. In dit werk onderzoeken we of voorgetrainde visie-taalmodellen (VLMs) direct vanuit een enkel beeld uitvoerbare inverse graphics kunnen uitvoeren door een scène te reconstrueren als een bewerkbaar Blender-programma, zonder gebruik te maken van gespecialiseerde 2D- of 3D-fundamentmodellen, differentieerbare weergave of multi-view supervisie. We introduceren Staged Executable Inverse Graphics (SEIG), een agentisch raamwerk dat een 3D-scène reconstrueert uit een enkel beeld door progressief scènefactoren zoals geometrie, materialen, compositie en belichting te verfijnen, direct in de uitvoerbare Blender-code-ruimte. We evalueren ons raamwerk over diverse scènes met behulp van een reeks reconstructiemetrieken die pixelniveau, perceptuele en semantische getrouwheid omvatten. Onze experimenten tonen aan dat stapsgewijze reconstructie de reconstructiegetrouwheid aanzienlijk verbetert, wat het belang van taakdecompositie voor uitvoerbare inverse graphics met algemene visie-taalmodellen benadrukt. Tot slot presenteren we diverse stroomafwaartse toepassingen die mogelijk worden gemaakt door de gereconstrueerde bewerkbare Blender-scènes.
Grootschalige meertalige bitekst kent vaak twee afzonderlijke problemen: niet-parallele zinsparen en vertalingen van lage kwaliteit. We ontleden modelgebaseerde beoordeling van dergelijke gegevens in twee onafhankelijke componenten: parallelliteitsbeoordeling met meertalige inbeddingen en referentievrije kwaliteitsschatting (QE). Voor parallelliteit vergelijken we vier inbeddingsmodellen op de FLORES-200- en BOUQuET-retrievaltaken, die 6.654 bron-doelrichtingen in onze doel-taalpaarinventaris bestrijken. Voor QE evalueren we negen referentievrije evaluatoren op professionele FLORES-200-vertalingen over 41.412 geordende bron-doelrichtingen. De resultaten tonen aan dat geen enkel model universeel betrouwbaar is over alle vertaalrichtingen heen. Naïeve QE-ensembles verzwakken sterke modelsignalen, terwijl gedocumenteerde dekkingsgraad van de doeltaal sterk samenhangt met hogere QE-scores. Over het algemeen suggereren deze bevindingen dat meertalige parallelle data-beoordeling het beste kan worden benaderd als een richtingbewust routerings- en kalibratieprobleem, waarbij niet verwacht kan worden dat één enkele universele metriek voor alle talen volstaat.
Wij beschrijven een bibliotheek voor wiskundige financiën, gebouwd in de Lean 4-bewijsassistent, bovenop Mathlib en het BrownianMotion-pakket. Deze bibliotheek is breed: meer dan tweehonderd sorry-vrije stellingen in elf deelgebieden, van de maattheoretische grondslagen van de continue-tijd stochastische calculus via afgeleide prijsbepaling tot toegepaste risico-, portefeuille- en vastrentende theorie, en naar onze kennis de meest omvattende machine-gecontroleerde ontwikkeling van wiskundige financiën tot nu toe. Breedte vormt de context, niet het doel. Twee zaken maken het meer dan een catalogus. Het reikt ver genoeg in de continue theorie om de L2 Itô-integraal te construeren als een begrensde lineaire isometrie en om de risiconeutrale prijsmaat af te leiden in plaats van aan te nemen. En het controleert zijn eigen getrouwheid: elk resultaat wordt geclassificeerd naar hoe de Lean-formulering zich verhoudt tot de wiskunde die het beweert te zijn; een bouw-afgedwongen poort pint de axioma's vast die elk bewijs werkelijk gebruikt, zodat een lezer precies kan zien wat is bewezen en wat alleen is bewezen onder toegevoegde hypothesen. Wij sluiten af met een eerlijke constatering: een formele basis bovenop klassieke financiële wiskunde levert gecertificeerde unificatie van bekende resultaten op, geen nieuwe financiële theorie. De bijdrage is daarom methodologisch en infrastructureel: herbruikbare geverifieerde grondslagen voor wiskundige financiën, samen met de getrouwheidscontrole.
Wij presenteren een nieuwe formulering voor meshvrije, gereduceerde-orde simulatie van vervormbare hyperelastische objecten. Bestaand werk in gereduceerde-orde elastodynamische simulatie representeert de ingevoerde geometrie door middel van meshes, die moeilijk te verkrijgen kunnen zijn vanwege uitdagingen bij het scannen en trianguleren van complexe vormen, of door neurale velden die per vorm optimalisatie vereisen. Wij stellen voor om een Reproducerende Kernel Deeltjesmethode (RKPM)-representatie te hanteren, die de constructie van gereduceerde-orde huidgewichten mogelijk maakt door een gegeneraliseerd eigenstelsel op te lossen op de Hessiaanmatrix van de elastische energie. Wij tonen aan dat deze formulering niet alleen leidt tot een 40-voudige trainingsversnelling vergeleken met de per-vorm optimalisatie van neurale velden, maar ook een lagere simulatiefout behaalt wanneer geëvalueerd tegen de geconvergeerde resultaten van de eindige-elementenmethode. Wij presenteren onze simulateresultaten op een breed scala aan objecten in verschillende representaties, waaronder meshes en Gaussische splats, evenals de toepassing van onze methode in de downstream-taak van robotsimulatie.
Redeneringsmodellen worden geëvalueerd op beoordelingen met één gespreksbeurt, maar ingezet in meerbeurtse dialogen waarin gebruikers terugkomen op correcte antwoorden. Bij aanhoudende vijandige druk ontdekken we een voorheen niet-gedocumenteerde foutmodus: de denkketen blijft feitelijk correct van de eerste tot de laatste beurt, terwijl het gegeven antwoord foutief omslaat. Dit noemen we ontrouwe capitulatie (UC) en isoleren we met een 2x2 latent- versus gedragskader dat zowel omkeerratiometrieken als éénbeurtse getrouwheidssondes missen. Over drie datasets (MT-Consistency, MMLU-Pro, GSM8K) clustert het latente correctheidspercentage bij de gedragsmatige omkering rond 50% in de denkmodus en stort het in tot 11-15% onder no_think – gepaard, binnenmodel causaal bewijs dat redeneren de kloof creëert. Over modellen heen volgt het effect het redeneerkanaal (hoog in Qwen3-32B en GPT-OSS-20B, laag in inline-CoT Gemma-4-31B-it). Een onafhankelijke GPT-4o-beoordelaar bevestigt 86% van de UC-labels; een token-niveau sonde toont aan dat het argmax van de antwoordsleuf in 84% van de UC-cellen correct is; en een naïef spoorverankerd verweer keert zich tegen de gebruiker. We geven alle trajecten, sporen en beoordelaarslabels vrij.
Een retrieval-augmented generation (RAG)-systeem dat wordt ingezet op een institutioneel corpus met meerdere auteurs kan een verschillend antwoord geven op dezelfde vraag, afhankelijk van welke bron het ophaalt – een faalmodus die het dominante paradigma van één enkel gouden antwoord niet kan diagnosticeren. Wij stellen dat bronafhankelijkheid een ontbrekende as is van NLP-evaluatie, en dat het auditen ervan betekent dat de evaluatie-eenheid verschuift van antwoordcorrectheid naar de inter-bronrelatie. We maken dit concreet in voorlichting aan transplantatiepatiënten, waar institutionele bronnen aantoonbaar van mening verschillen, en brengen drie artefacten uit: TransplantQA, een benchmark van echte patiëntvragen, elk beantwoord door generatie te baseren op meerdere institutionele handboeken als kandidaatbronnen; HERO-QA, een hiërarchische opzoekingsstrategie die elk antwoord onderbouwt en auditt; en een gestructureerde-output-beoordelaar die inter-bronrelaties scoort op een gevalideerde taxonomie van 5 labels. Op grote schaal laat beter opzoeken veel meer onenigheid zien dan eerdere schattingen suggereerden – het onderschat de prevalentie ervan, niet de intensiteit. Het raamwerk is domeinagnostisch en overdraagbaar naar juridische en educatieve RAG: het meten van bronafhankelijkheid is een verantwoordelijkheid voor ingezette multi-bron NLP in het algemeen.
Door LLM gegenereerde beoordelingen voor wetenschappelijke artikelen winnen aanzienlijk aan populariteit en worden zelfs officieel getest door grote conferenties. We moeten aannemen dat niet alleen beoordelaars gebruikmaken van LLM-ondersteuning, maar ook dat auteurs LLM's gebruiken om hun artikelen te herzien vóór indiening. In dit werk voeren we empirische experimenten uit op artikelen van de 2025 ACL Rolling Review (ARR) om LLM-beoordelingen te evalueren vanuit zowel het perspectief van de auteur als dat van de beoordelaar. Ten eerste identificeren we een beperkte overeenstemming tussen LLM-beoordelingen en menselijke beoordelingen. In het beste scenario is de overeenstemming redelijk. Echter vinden we ook dat de overeenstemming tussen LLM en mens aanzienlijk varieert per prompt en model. Tot slot onderzoeken we het scenario waarin de auteur een iteratieve werkwijze van concept en revisie gebruikt om de inzending te verbeteren op basis van de LLM-beoordeling. We vinden dat dit 'gamen' van LLM-beoordelingen effectief kan zijn in specifieke scenario's, wat leidt tot een statistisch significante stijging van de totale scores voor maximaal 35% van de artikelen. We publiceren onze code: https://github.com/uhh-hcds/reviewarcade.
AI-systemen zijn feilbaar, en mensen kunnen fouten maken bij het beslissen of ze meer op AI dan op hun eigen oordeel vertrouwen. Het verbeteren van mens-AI-samenwerking vereist daarom inzicht in wanneer, waarom en hoe mensen besluiten om op AI te vertrouwen. We bestuderen twee afzonderlijke vertrouwensbeslissingen: de delegatiekeuze – beslissen wanneer AI autonoom mag handelen zonder de uitkomst te kennen – en de adoptiekeuze – het evalueren van AI-suggesties en beslissen hoe deze te gebruiken. Beide ontkoppelde vertrouwenspatronen bepalen de samenwerking, maar eerder onderzoek bestudeert ze zelden samen in realistische settings met dezelfde gebruikers. We vullen deze leemte door samenwerkende mens-AI-teams te bestuderen die concurreren in een vraag-en-antwoordspel waarin mensen kunnen kiezen wanneer en hoe ze met AI-agenten samenwerken om te winnen. Onze 24 wedstrijden koppelen 23 expert-mensen aan 16 AI-agenten, waarbij 387 delegatie- en 1440 adoptiebeslissingen worden vastgelegd. Hoewel mens-AI-samenwerking beter presteert dan AI of mensen alleen, nemen mensen suboptimale samenwerkingsbeslissingen: zowel ondervertrouwen in correcte AI-suggesties (3,9% van gemiste kansen) als oververtrouwen wanneer AI hen misleidt (1,7%). Beide partijen leveren foute antwoorden: de gerapporteerde modelzekerheid is bijna kansniveau wanneer mens en AI het oneens zijn, terwijl bevestigingsbias leidt tot hoger ondervertrouwen (64,5%) wanneer een AI-suggestie overeenkomt met het initiële foute antwoord van de mens. Om deze kloof te dichten, bevelen we gekalibreerd vertrouwen, op bewijs gebaseerde uitleg en mechanismen aan die gebruikers helpen hun vertrouwen te verfijnen.
In dit artikel wordt training van een neuraal netwerk exact geïdentificeerd als een zoektocht door beginwaardeproblemen van Hamilton–Jacobi: elke gradiëntstap selecteert de beginvoorwaarden van een viskeuze Hamilton–Jacobi-vergelijking waarvan de Hopf–Cole-voortplanter het beste past bij de waarnemingen; bij inferentie is de invoer het ruimtelijke punt waarop die oplossing wordt geëvalueerd en de beginconditie is reeds gecodeerd in de gewichten. De correspondentie is exact voor log-som-exp-lagen en structureel voor bredere architecturen: residunetwerken, transformatoren en recurrente architecturen (RNN's, LSTM's, SSM's) discretiseren elk dezelfde klasse van Hamilton–Jacobi-vergelijkingen, met architectuurafhankelijke Hamiltoniaan en viscositeit. Een enkele vervormingsparameter ε verenigt alle vier perspectieven (netwerk, tropische algebra, viskeuze PDV, convexe optimalisatie) in een commutatief diagram dat gesloten is onder Lipschitz-condities. Kwantitatieve consequenties omvatten: de minimax optimale generalisatiesnelheid O(n^{-1/(d+2)}) voor vaste t; adversariële robuustheid gecontroleerd door ε; backpropagatie als de co-toestandsvergelijking van het Hamiltoniaanse systeem voor residunetwerken (Pontryagin-maximumprincipe); schalingsexponenten consistent met de intrinsieke dimensie van data via PDV-kwadratuur; en een gesloten-vorm O(N) invloedsfunctie (softmax-attributiegewichten π_j) waarvan het entropielandschap vouwvertakkingen ondergaat naarmate ε toeneemt, waarbij telkens attributiebekkens samensmelten.
De diachrone evolutie van het Latijn naar de Romaanse talen omvatte een herstructurering van het grammaticale geslachtssysteem van een driedelige configuratie (mannelijk, vrouwelijk, onzijdig) naar een tweedelige (mannelijk, vrouwelijk) in de meeste Romaanse talen. In dit werk introduceren we een interpreteerbaar deep learning-raamwerk om dit fenomeen zowel op lexicaal als op contextueel niveau te onderzoeken. Eerst tonen we aan dat conventionele tokenisatiestrategieën onvoldoende robuust zijn voor deze laag-resource historische setting, en dat onze voorgestelde tokenizer beter presteert dan deze baselines. Op lexicaal niveau evalueren we de bijdrage van morfologische kenmerken aan geslachtsvoorspelling. Op contextueel niveau kwantificeren we de bijdragen van verschillende woordsoortcategorieën aan de voorspelling van het grammaticale geslacht. Samen kenmerken deze analyses de verdeling van geslachtsinformatie tussen het lemma en de zinscontext. We maken onze codebase, datasets en resultaten openbaar beschikbaar op https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.
De schaalvergroting van Grote Taalmodellen (Large Language Models, LLM's) heeft aanzienlijke prestatieverbeteringen opgeleverd, maar heeft ook substantiële uitdagingen gecreëerd op het gebied van inferentie-efficiëntie. Hoewel Mengsel van Experts (Mixture of Experts, MoE)-architecturen dit aanpakken door de modelgrootte los te koppelen van de inferentiekosten, is het trainen van MoE's vanaf nul vaak instabiel en rekenintensief. Conversie van voorgetrainde dichte modellen naar schaarse MoE's is naar voren gekomen als een alternatieve oplossing; echter, bestaande methoden vertrouwen doorgaans op heuristische neuronclustering of willekeurig splitsen om het Feed-Forward Netwerk (FFN) in experts te verdelen. In dit werk stellen wij DOT-MoE voor, een nieuw raamwerk dat de decompositie van dichte lagen formuleert als een Differentieerbaar Optimaal Transport (Differentiable Optimal Transport, DOT)-probleem. In plaats van statische heuristieken modelleren we neuron-toewijzing als een gebalanceerd transportprobleem, waarbij we differentieerbare Sinkhorn-Knopp-iteraties gebruiken om strikte expertcapaciteitsbeperkingen af te dwingen. Verder maken we gebruik van Straight-Through Schatters (Straight-Through Estimators, STE) om zowel de discrete neuron-naar-expert toewijzing als het token-naar-expert routeringsbeleid end-to-end gezamenlijk te leren. Uitgebreide experimenten met meerdere architecturen en benchmarks tonen aan dat DOT-MoE aanzienlijk beter presteert dan gestructureerde pruning, heuristische clustering en willekeurige splitsing als basislijnen, waarbij 90% van de oorspronkelijke dichte modelprestaties behouden blijft terwijl het aantal actieve parameters met 50% wordt verminderd.
Het leren van een gedeelde representatie tussen gesproken tekst en gebaar staat centraal in de retrieval, synthese en het begrip van co-speech gebaren, maar blijft uitdagend voor semantisch betekenisvolle gebaren waarvan de communicatieve intentie niet alleen door beweging wordt vastgelegd. Directe contrastieve uitlijning tussen transcripten en continue bewegingsinbeddingen benadrukt vaak te veel de laag-niveau kinematica en mist de symbolische inhoud van semantische gebaren. Wij stellen semantische bewegingsankers voor, natuurlijke-taalabstracties van gebaarbeweging die zowel fysieke vorm als communicatieve intentie vastleggen. Onze methode discretiseert 3D-gebaren in lichaam-hand bewegingsprimitieven, verbaliseert deze in gestructureerde beschrijvingen en grondt ze in het transcript om auxiliaire contrastieve supervisie te bieden. Op BEAT2 verbetert onze methode de text-naar-gebaar R@1 met 8,2% ten opzichte van een directe tekst-beweging baseline en overtreft het eerdere retrieval-benaderingen op de retrievalrichtingen tekst naar gebaar en gebaar naar tekst. Naast geaggregeerde retrieval-metrics helpt supervisie met semantische bewegingsankers om gebaren te retrieven die semantisch betekenisvol zijn voor de gesproken query, in plaats van terug te vallen op generieke bewegingspatronen. Een stroomafwaartse retrieval-versterkte gebaar generatiestudie toonde aan dat gebruikers significant de voorkeur gaven aan gebaren die door onze aanpak waren opgehaald boven een retrieval-versterkte generatie baseline, wat aantoont dat semantisch gegronde retrieval leidt tot gebaren die de communicatieve intentie beter overbrengen in stroomafwaartse generatie.
Menselijke annotatie vormt de empirische basis van veel NLP-onderzoek, van datasetconstructie tot modelevaluatie, maar in papers blijft vaak onduidelijk wie de annotaties heeft geproduceerd en hoe het annotatieproces werd gecontroleerd. Wij presenteren de eerste grootschalige audit op taakniveau van rapportage over menselijke annotatie in toonaangevende NLP-venues, waarbij we nagaan welke annotatiedetails worden gedocumenteerd, welke ontbreken en hoe de rapportage varieert over tijd, onderwerp, venue en beoogd gebruik van menselijke oordelen. We introduceren een uniforme taxonomie van annotatierapportagepraktijken en valideren een LLM-ondersteunde extractiepijplijn tegen Annotated-gold, een door mensen geadjudiceerde gouden standaard van 41 papers en 72 annotatietaken, waarbij het beste model een menselijk vergelijkbare overeenstemming bereikt met de geadjudiceerde labels, met Krippendorffs alpha van 0,606 versus 0,585 voor mens-mensovereenstemming. Met behulp van deze pijplijn construeren we Annotated-llm, een dataset die ACL-venue papers uit 2018-2025 omvat, met 2.667 geëxtraheerde annotatietaken uit 1.603 papers. We vinden dat papers vaak operationele details rapporteren, zoals wervingsstrategieën, expertise van annotatoren en annotatievolume, maar vaak details weglaten die nodig zijn om de validiteit van annotaties te beoordelen, waaronder training, taalvaardigheid, compensatie, sociaaldemografische gegevens, adjudicatie en overeenstemmingswaarden, vooral in modelevaluatiestudies. Onze resultaten tonen aan dat annotatierapportage in NLP in de loop der tijd is verbeterd, maar ongelijkmatig blijft, en ze leggen een schaalbaar raamwerk en minimale rapportageaanbevelingen vast om menselijke annotatie betrouwbaarder, reproduceerbaarder en interpreteerbaarder te maken.
Robotmanipulatie vereist modellen die uitvoerbare acties genereren terwijl ze hun toekomstige gevolgen anticiperen en evalueren voordat fysieke uitvoering plaatsvindt. Wij presenteren τ₀-World Model (τ₀-WM), een verenigd video-actie wereldmodel dat beleidsleren, videovoorspelling en actie-evaluatie integreert binnen één toekomstvoorspellend raamwerk. Gebouwd op een gedeelde videodiffusie-backbone biedt τ₀-WM twee complementaire interfaces. Ten eerste een video-actiemodel dat gezamenlijk toekomstige visuele latenten en continue actiebrokken voorspelt op basis van multi-view observaties, taalinstructies en robottoestand. Ten tweede een actie-geconditioneerde videosimulator die kandidaat-actiebrokken uitrolt naar multi-view toekomsten en dichte taakvoortgangsscores voorspelt. Het model wordt getraind op ongeveer 27.300 uur aan echte robotteleoperatie, UMI-stijl interactie, egocentrische menselijke video's en uitrol- of faaltrajecten, gebruikmakend van modaliteit-specifieke supervisiemaskers. Tijdens inferentie gebruikt τ₀-WM testtijdberekening om actiekandidaten te samplen, deze te rangschikken op basis van herontruisconsistentie, en simulator-gebaseerde rectificatie in te roepen voor kandidaten van lage kwaliteit. Bij uitdagende robotmanipulatietaken met een lange horizon en fijnmazige eisen toont τ₀-WM superieure prestaties ten opzichte van andere relevante baselines.
Onderzoek naar detectie van AI-gegenereerde tekst heeft een aantal benaderingen opgeleverd om menselijk van AI-proza te onderscheiden, waarvan sommige hoge prestaties binnen de distributie behalen. De toepasbaarheid in de praktijk stagneert echter omdat de outputs niet zijn afgestemd op de behoeften van gebruikers, zoals docenten, die een numerieke score krijgen zonder bijgevoegde uitleg. Wij pakken dit probleem aan met een nieuwe architectuur, TELL, die uitlegbaarheid vanaf de basis integreert. Hoewel ons systeem, net als andere detectoren, nog steeds een numerieke score biedt voor vergelijkbaarheid, hanteert TELL een fundamenteel andere benadering waarbij we de gebruiker de 'tells' willen tonen op basis waarvan het model denkt dat een tekst door AI of een mens is geschreven, om de gebruiker in staat te stellen zelf te beslissen wie een tekst heeft geschreven, gebruikmakend van hun eigen oordeel en begrip van de context van het schrijfwerk en de vermeende auteur. We trainen TELL op een custom SFT-dataset van domeinspecifieke auteurschapsannotaties en verfijnen het systeem verder met GRPO en curriculumleren om de prestaties te verbeteren. We behalen concurrerende prestaties met state-of-the-art detectoren (AUROC 0,927) terwijl we native annotaties bieden die de basis van de detectorbeslissing uitleggen. We evalueren verder de kwaliteit van onze uitleg met behulp van een dataset van menselijke annotaties en rapporteren een hoog (gemiddeld 72,3%) winstpercentage op annotatieconcreetheid, falsifieerbaarheid, coherentie, plausibiliteit en onderbouwing, waardoor gebruikers kritisch kunnen nadenken en zelf beslissen. Ons werk herkadert daarmee het probleem van detectie van AI-gegenereerde tekst vanuit een mensgericht perspectief en baant de weg voor een nieuwe familie van detectoren die zich richten op native uitlegbaarheid.