Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Seedance 2.0 is een nieuw native multimodaal audio-videogeneratiemodel, dat begin februari 2026 officieel in China is vrijgegeven. In vergelijking met zijn voorgangers, Seedance 1.0 en 1.5 Pro, hanteert Seedance 2.0 een uniforme, uiterst efficiënte en grootschalige architectuur voor gezamenlijke multimodale audio-videogeneratie. Hierdoor ondersteunt het vier invoermodaliteiten: tekst, afbeelding, audio en video, door integratie van een van de meest uitgebreide suites voor multimodale inhoudsreferentie en -bewerking die tot nu toe in de industrie beschikbaar zijn. Het model biedt aanzienlijke, alomvattende verbeteringen op alle belangrijke subdomeinen van video- en audiogeneratie. Zowel in expertevaluaties als in openbare gebruikertests heeft het model prestaties geleverd die gelijkwaardig zijn aan de toonaangevende niveaus in het vakgebied. Seedance 2.0 ondersteunt de directe generatie van audio-video-inhoud met een duur van 4 tot 15 seconden, met native uitvoerresoluties van 480p en 720p. Voor multimodale invoer als referentie ondersteunt het huidige open platform maximaal 3 videofragmenten, 9 afbeeldingen en 3 audiofragmenten. Daarnaast bieden wij Seedance 2.0 Fast aan, een versnelde variant van Seedance 2.0 die is ontworpen om de generatiesnelheid te verhogen voor scenario's met lage latentie. Seedance 2.0 heeft aanzienlijke verbeteringen gebracht in zijn fundamentele generatiecapaciteiten en multimodale generatieprestaties, wat een verbeterde creatieve ervaring voor eindgebruikers oplevert.
Op weg naar een belichaamde generalist voor real-world interactie kampen Multimodale Taalmodellen (MLLM) als agenten nog steeds met uitdagende latentie, schaarse feedback en onomkeerbare fouten. Videogames bieden een ideale testomgeving met rijke visuele observaties en gesloten-lus interactie, die fijnmazige perceptie, planning op lange termijn en precieze controle vereisen. Het systematisch evalueren van deze capaciteiten wordt echter momenteel belemmerd door heterogene actie-interfaces en heuristische verificatie. Daartoe introduceren wij GameWorld, een benchmark ontworpen voor gestandaardiseerde en verifieerbare evaluatie van MLLM's als generalistische game-agenten in browseromgevingen. Twee game-agentinterfaces worden bestudeerd: (i) computergebruik-agenten die direct toetsenbord- en muisbedieningen uitzenden, en (ii) generalistische multimodale agenten die handelen in een semantische actieruimte via deterministische Semantische Actieparsing. GameWorld bevat 34 diverse games en 170 taken, elk gekoppeld aan staat-verifieerbare metrieken voor resultaatgerichte evaluatie. De resultaten over 18 model-interfaceparen suggereren dat zelfs de best presterende agent ver verwijderd is van het bereiken van menselijke capaciteiten in videogames. Uitgebreide experimenten met herhaalde volledige benchmark-herhalingen tonen de robuustheid van de benchmark aan, terwijl verdere studies naar real-time interactie, context-geheugengevoeligheid en actiegeldigheid meer uitdagingen blootleggen voor game-agenten. Samen, door het bieden van een gestandaardiseerd, verifieerbaar en reproduceerbaar evaluatieraamwerk, legt GameWorld een robuuste basis voor het bevorderen van onderzoek naar multimodale game-agenten en daarbuiten. De projectpagina is te vinden op https://gameworld-bench.github.io.
De meeste beloningsmodellen voor visuele generatie reduceren rijke menselijke oordelen tot een enkele onverklaarde score, waarbij de redenering die ten grondslag ligt aan de voorkeur wordt weggegooid. Wij tonen aan dat het aanleren van beloningsmodellen om expliciete, multidimensionale kritieken te produceren alvorens te scoren, ze transformeert van passieve beoordelaars naar actieve optimalisatie-instrumenten, wat generatoren op twee complementaire manieren verbetert: tijdens de training bieden gestructureerde rechtvaardigingen interpreteerbare, fijnmazige beloningen voor reinforcement learning; tijdens de testfase verandert een Generate-Critique-Refine-lus kritieken in gerichte promptrevisies die outputs verbeteren zonder parameterupdates. Om zo'n beloningsmodel te trainen zonder kostbare rechtvaardigingsannotaties, introduceren wij Preference-Anchored Rationalization (PARROT), een principieel raamwerk dat hoogwaardige rechtvaardigingen terugwint uit direct beschikbare voorkeursdata via verankerde generatie, consistentiefiltering en distillatie. Het resulterende model, RationalRewards (8B), behaalt state-of-the-art voorkeursvoorspelling onder open-source beloningsmodellen, vergelijkbaar met Gemini-2.5-Pro, terwijl het 10-20x minder trainingsdata gebruikt dan vergelijkbare baseline-modellen. Als RL-beloning verbetert het consistent tekst-naar-beeld- en beeldbewerkingsgeneratoren voorbij scalaire alternatieven. Het meest opvallend is dat zijn testtijd-kritiek-en-verfijn-lus evenaart of overtreft op RL gebaseerde fine-tuning op verschillende benchmarks, wat suggereert dat gestructureerd redeneren latente capaciteiten in bestaande generatoren kan ontsluiten die suboptimale prompts niet weten op te roepen.
Er wordt verwacht dat AI-agenten professioneel werk zullen verrichten in honderden beroepsdomeinen (van triage op spoedeisende hulp tot bewaking van kernreactorveiligheid en douane-importafhandeling), maar bestaande benchmarks kunnen agenten alleen evalueren in de weinige domeinen waar openbare omgevingen bestaan. Wij introduceren OccuBench, een benchmark die 100 real-world professionele taakscenario's beslaat, verspreid over 10 bedrijfstakcategorieën en 65 gespecialiseerde domeinen. Dit wordt mogelijk gemaakt door Language World Models (LWM's) die domeinspecifieke omgevingen simuleren via LLM-gestuurde toolresponsgeneratie. Onze multi-agent synthesepijplijn produceert automatisch evaluatie-instanties met gegarandeerde oplosbaarheid, gekalibreerde moeilijkheidsgraad en op documenten gebaseerde diversiteit. OccuBench evalueert agenten langs twee complementaire dimensies: taakvoltooiing over professionele domeinen heen en omgevingsrobuustheid onder gecontroleerde fault injection (expliciete fouten, impliciete datadegradatie en gemengde fouten). Wij evalueren 15 frontier modellen uit 8 modelfamilies en constateren dat: (1) geen enkel model alle bedrijfstakken domineert, aangezien elk een onderscheidend beroepsbekwaamheidsprofiel heeft; (2) impliciete fouten (afgeknotte data, ontbrekende velden) moeilijker zijn dan zowel expliciete fouten (time-outs, 500-fouten) als gemengde fouten, omdat ze duidelijke foutsignalen missen en vereisen dat de agent datadegradatie zelfstandig detecteert; (3) grotere modellen, nieuwere generaties en een hogere redeneerinspanning de prestaties consistent verbeteren. GPT-5.2 verbetert met 27,5 punten van minimale naar maximale redeneerinspanning; en (4) sterke agenten niet noodzakelijk sterke omgevingssimulators zijn. De kwaliteit van de simulator is cruciaal voor de betrouwbaarheid van LWM-gebaseerde evaluatie. OccuBench biedt de eerste systematische cross-industry evaluatie van AI-agenten voor professionele beroepstaken.
Ruimtelijk redeneren over driedimensionale scènes is een kernvaardigheid voor belichaamde intelligentie, maar continue modelverbetering wordt nog steeds beperkt door de kosten van geometrische annotatie. Het zelf-evoluerende paradigma biedt een veelbelovend pad, maar de afhankelijkheid van modelconsensus om pseudo-labels te construeren, zorgt ervoor dat training de eigen geometrische fouten van het model versterkt in plaats van corrigeert. Wij identificeren een unieke eigenschap van 3D-ruimtelijk redeneren die deze beperking omzeilt: de grondwaarheid is een deterministisch gevolg van de onderliggende geometrie en kan exact worden berekend uit puntenwolken en cameraposities zonder enige modelbetrokkenheid. Voortbouwend op dit inzicht presenteren we SpatialEvo, een zelf-evoluerend kader voor 3D-ruimtelijk redeneren, gecentreerd rond de Deterministische Geometrische Omgeving (DGE). De DGE formaliseert 16 categorieën van ruimtelijke redeneertaken onder expliciete geometrische validatieregels en zet niet-geannoteerde 3D-scènes om in interactieve orakels zonder ruis, waarbij modelconsensus wordt vervangen door objectieve fysieke feedback. Een enkel gedeeld-parameterbeleid co-evolueert over vraagsteller- en oplosserrollen heen binnen DGE-beperkingen: de vraagsteller genereert fysiek geldige ruimtelijke vragen gebaseerd op scènewaarnemingen, terwijl de oplosser precieze antwoorden afleidt tegenover door DGE-geverifieerde grondwaarheid. Een taakadaptieve planner concentreert de training endogeen op de zwakste categorieën van het model, wat een dynamisch curriculum oplevert zonder handmatig ontwerp. Experimenten over negen benchmarks tonen aan dat SpatialEvo de hoogste gemiddelde score behaalt op zowel 3B- als 7B-schaal, met consistente winst op ruimtelijke redeneerbenchmarks en geen achteruitgang op algemeen visueel begrip.
Geheugengestuurde zelfontwikkeling is naar voren gekomen als een veelbelovend paradigma voor codeeragents. Bestaande benaderingen beperken het geheugengebruik echter typisch tot homogene taakdomeinen, waarbij geen gebruik wordt gemaakt van gedeelde infrastructurele fundamenten, zoals runtime-omgevingen en programmeertalen, die bestaan bij uiteenlopende codeerproblemen uit de praktijk. Om deze beperking aan te pakken, onderzoeken we Memory Transfer Learning (MTL) door een verenigde geheugenpool uit heterogene domeinen te benutten. We evalueren de prestaties op 6 codeerbenchmarks met vier geheugenrepresentaties, variërend van concrete traces tot abstracte inzichten. Onze experimenten tonen aan dat cross-domein geheugen de gemiddelde prestatie met 3,7% verbetert, voornamelijk door de overdracht van meta-kennis, zoals validatieroutines, in plaats van taakspecifieke code. Belangrijk is dat we vaststellen dat abstractie de overdraagbaarheid bepaalt; hoogwaardige inzichten generaliseren goed, terwijl laagwaardige traces vaak negatieve transfer veroorzaken door overmatige specificiteit. Verder tonen we aan dat de effectiviteit van transfer schaalt met de grootte van de geheugenpool, en dat geheugen zelfs tussen verschillende modellen kan worden overgedragen. Ons werk legt empirische ontwerpprincipes vast voor het uitbreiden van geheugengebruik beyond single-domain silo's. Projectpagina: https://memorytransfer.github.io/
Hoewel reinforcement learning met verifieerbare beloningen (RLVR) de redeneercapaciteit van LLM's aanzienlijk verbetert door de conditionele verdeling P(y|x) te optimaliseren, wordt het potentieel ervan fundamenteel begrensd door de bestaande uitvoerverdeling van het basismodel. Het optimaliseren van de marginale verdeling P(y) in de Pre-train-ruimte lost dit knelpunt op door redeneervermogen te coderen en een brede verkenningcapaciteit te behouden. Toch vertrouwt conventionele pre-training op statische corpora voor passief leren, wat leidt tot een verdelingverschuiving die gerichte verbetering van het redeneren belemmert. In dit artikel introduceren we PreRL (Pre-train Space RL), dat beloning-gestuurde online-updates rechtstreeks toepast op P(y). We valideren theoretisch en empirisch de sterke gradiëntafstemming tussen log P(y) en log P(y|x), waarmee we PreRL vestigen als een levensvatbare surrogaat voor standaard RL. Verder ontdekken we een cruciaal mechanisme: Negative Sample Reinforcement (NSR) binnen PreRL fungeert als een uitzonderlijk effectieve aanjager voor redeneren. NSR-PreRL snoeit snel incorrecte redeneerruimtes terug terwijl het endogeen reflectief gedrag stimuleert, wat transitie- en reflectiegedachten respectievelijk met 14,89x en 6,54x verhoogt. Gebruikmakend van deze inzichten stellen we Dual Space RL (DSRL) voor, een Policy Reincarnation-strategie die modellen initialiseert met NSR-PreRL om de redeneerhorizon te verbreden alvorens over te schakelen naar standaard RL voor fijnmazige optimalisatie. Uitgebreide experimenten tonen aan dat DSRL consistent sterke baseline-methoden overtreft, wat bewijst dat het terugdringen van de pre-train-ruimte het beleid effectief stuurt naar een verfijnde correcte redeneersubruimte.
Taalmodel (LM) agenten worden steeds vaker ingezet voor complexe, open-einde besluitvormingstaken, van AI-codering tot fysieke AI. Een kernvereiste in deze contexten is het vermogen om zowel de probleemruimte te verkennen als verworven kennis effectief te benutten. Het blijft echter een uitdaging om exploratie en exploitatie systematisch te onderscheiden en te kwantificeren op basis van waargenomen acties, zonder inzage in het interne beleid van de agent. Om dit aan te pakken, ontwerpen we controleerbare omgevingen geïnspireerd op praktische scenarios van belichaamde AI. Elke omgeving bestaat uit een gedeeltelijk waarneembare 2D-rasterkaart en een onbekende Directed Acyclic Graph (DAG) voor de taak. De kaartgeneratie kan programmatisch worden aangepast om de moeilijkheidsgraad van exploratie of exploitatie te benadrukken. Om beleidonafhankelijke evaluatie mogelijk te maken, ontwerpen we een maatstaf om exploratie- en exploitatiefouten te kwantificeren op basis van de acties van de agent. We evalueren diverse vooruitstrevende LM-agenten en constateren dat zelfs state-of-the-art modellen moeite hebben met onze taak, waarbij verschillende modellen distincte faalmodi vertonen. We observeren verder dat redenerende modellen de taak effectiever oplossen en laten zien dat zowel exploratie als exploitatie aanzienlijk kunnen worden verbeterd door minimale harness-engineering. We geven onze code vrij op https://github.com/jjj-madison/measurable-explore-exploit.
AI-codeeragents zijn centraal komen te staan in ontwikkelaarsworkflows, maar elke bestaande oplossing sluit zijn redeneercapaciteiten op in een specifieke leveringsvorm, zoals een CLI, IDE-plugin of webapplicatie. Deze beperking creëert systemische barrières wanneer ondernemingen deze capaciteiten proberen te hergebruiken in heterogene engineeringomgevingen. Om deze uitdaging aan te pakken, presenteren wij Sema Code, een open AI-coderingsframework gebouwd op het principe van embedbaarheid, pluggabiliteit en een framework-first benadering. Sema Code ontkoppelt de kernagent-engine volledig van alle clientlagen en publiceert deze als een standalone npm-bibliotheek die elke runtime programmatisch kan aansturen. Rond deze architectuur hebben wij acht kernmechanismen ontworpen: multi-tenant engine-isolatie, FIFO-inputqueueing met veilige sessiereconstructie, adaptieve contextcompressie, multi-agent collaboratieve planning, intelligente Todo-gebaseerde procesmanagement, vierlaags asynchroon rechtenbeheer, drievoudige ecosysteemintegratie (omvattend MCP, Skills en Plugins), en een framework voor achtergrondtaken met gescheiden uitvoerings- en observatierechten. Deze mechanismen pakken gezamenlijk de technische uitdagingen aan van het transformeren van een complexe agent-engine naar een gedeelde, programmeerbare kern. De architectuurflexibiliteit wordt gedemonstreerd doordat dezelfde Sema Core-engine gelijktijdig een VSCode-extensie en een multi-kanaal messaging-gateway (genaamd SemaClaw) aanstuurt, om agentinteracties te unificeren over platformen zoals Telegram en Feishu. Deze vertegenwoordigen twee fundamenteel verschillende productvormen die een identieke redeneerkern delen, en enkel verschillen op de clientlaag.
Bij RL nemen we, gegeven een prompt, een groep voltooiingen van een model en scoren deze. Twee vragen volgen: welke voltooiingen moeten kansmassa krijgen, en hoe moeten de parameters verschuiven om die verandering te realiseren? Standaard policy-gradient methoden beantwoorden beide vragen tegelijk, waardoor de update kan overschieten of tekortschieten afhankelijk van de leerrate, clipping en andere optimizerkeuzes. Wij introduceren Target Policy Optimization (TPO), dat de twee vragen scheidt. Gegeven gescoorde voltooiingen construeert TPO een doeldistributie q_i ∝ p_i^{,oud} exp(u_i) en past het beleid hierop aan via kruisentropie. De verliesgradiënt op de logits van de bemonsterde voltooiingen is p^θ - q, die verdwijnt zodra het beleid overeenkomt met het doel. Op tabulaire bandieten, transformersequentietaken en RLVR voor LLM's met miljarden parameters, evenaart TPO PG, PPO, GRPO en DG op eenvoudige taken en overtreft het hen aanzienlijk bij schaarse beloning. Code is beschikbaar op https://github.com/JeanKaddour/tpo.
De opkomst van OpenClaw begin 2026 markeert het moment waarop miljoenen gebruikers persoonlijke AI-agenten begonnen in te zetten in hun dagelijks leven, waarbij ze taken delegeerden variërend van reisplanning tot meerstaps onderzoek. Deze schaal van adoptie geeft aan dat twee parallelle ontwikkelingslijnen een kantelpunt hebben bereikt. Ten eerste is er een paradigmaverschuiving in AI-engineering, die evolueert van prompt- en contextengineering naar 'harness'-engineering: het ontwerpen van de complete infrastructuur die nodig is om onbeperkte agenten om te vormen tot beheersbare, controleerbare en productiebetrouwbare systemen. Naarmate modelcapaciteiten convergeren, wordt deze 'harness'-laag de primaire plaats voor architectonische differentiatie. Ten tweede is er de evolutie van mens-agentinteractie van losse taken naar een persistente, contextbewuste collaboratieve relatie, die open, betrouwbare en uitbreidbare 'harness'-infrastructuur vereist. Wij presenteren SemaClaw, een open-source multi-agent applicatieframework dat op deze verschuivingen inspeelt door een stap te zetten richting algemene persoonlijke AI-agenten via 'harness'-engineering. Onze primaire bijdragen omvatten een op een Directed Acyclic Graph (DAG) gebaseerde tweefasen hybride orchestratiemethode voor agententeams, een PermissionBridge-gedragsveiligheidssysteem, een drielaagse contextmanagementarchitectuur en een 'agentic wiki'-vaardigheid voor geautomatiseerde constructie van persoonlijke kennisbanken.
Streaming 3D-reconstructie heeft als doel 3D-informatie, zoals cameraposes en puntenwolken, te herstellen uit een videostream, wat geometrische nauwkeurigheid, temporele consistentie en computationele efficiëntie vereist. Geïnspireerd door de principes van Simultaneous Localization and Mapping (SLAM), introduceren wij LingBot-Map, een feedforward 3D-foundationmodel voor het reconstrueren van scènes uit streaminggegevens, gebouwd op een geometrische contexttransformer (GCT)-architectuur. Een onderscheidend aspect van LingBot-Map schuilt in het zorgvuldig ontworwen aandachtmechanisme, dat een ankercontext, een pose-referentievenster en een trajectgeheugen integreert om respectievelijk coördinaatverankering, dichte geometrische aanwijzingen en correctie van drift op lange termijn aan te pakken. Dit ontwerp houdt de streamingstatus compact terwijl een rijke geometrische context behouden blijft, waardoor stabiele, efficiënte inferentie mogelijk wordt met ongeveer 20 FPS bij invoer met een resolutie van 518 x 378 gedurende lange sequenties van meer dan 10.000 frames. Uitgebreide evaluaties op diverse benchmarks tonen aan dat onze aanpak superieure prestaties bereikt in vergelijking met zowel bestaande streaming- als op iteratieve optimalisatie gebaseerde benaderingen.
Feed-forward 3D-reconstructiemodellen zijn efficiënt maar rigide: eenmaal getraind voeren ze inferentie uit op een zero-shot-manier en kunnen ze zich niet aanpassen aan de testscene. Hierdoor bevatten visueel plausibele reconstructies vaak fouten, vooral bij occlusies, reflecties en ambigue aanwijzingen. Om dit aan te pakken, introduceren we Free Geometry, een raamwerk dat feed-forward 3D-reconstructiemodellen in staat stelt om zichzelf tijdens de testfase te ontwikkelen zonder enige 3D-groundtruth. Onze belangrijkste inzicht is dat wanneer het model meer aanzichten ontvangt, het betrouwbaardere en consistentere reconstructies produceert. Gebruikmakend van deze eigenschap, maskeren we bij een testsequentie een subset van frames om een zelfgesuperviseerde taak te construeren. Free Geometry handhaaft kruisbeeld-functieconsistentie tussen representaties van volledige en gedeeltelijke observaties, terwijl de paarsgewijze relaties die worden gesuggereerd door de weggelaten frames behouden blijven. Deze zelfsupervisie maakt een snelle herkalibratie mogelijk via lichtgewicht LoRA-updates, wat minder dan 2 minuten per dataset op een enkele GPU kost. Onze aanpak verbetert consistent state-of-the-art foundationmodellen, waaronder Depth Anything 3 en VGGT, over 4 benchmarkdatasets, wat resulteert in een gemiddelde verbetering van 3,73% in camerapositienauwkeurigheid en 2,88% in puntenkaartvoorspelling. Code is beschikbaar op https://github.com/hiteacherIamhumble/Free-Geometry.
Continue diffusie vormt de basis geweest voor hoogwaardige, controleerbare en stapsgewijze generatie van vele datamodaliteiten zoals afbeeldingen. Bij taalmodellering blijven bestaande continue diffusie-taalmodellen (DLM's) echter achter bij discrete tegenhangers vanwege de sparse data-ruimte en de onderbelichte ontwerpruimte. In dit werk overbruggen we deze kloof met LangFlow, de eerste continue DLM die kan wedijveren met discrete diffusie, door embeddingruimte-DLM's te verbinden met Flow Matching via Bregman-divergentie, samen met drie belangrijke innovaties: (1) we leiden een nieuwe ODE-gebaseerde NLL-grens af voor principerijke evaluatie van continue op stroming gebaseerde taalmodellen; (2) we stellen een informatie-uniform principe voor voor het instellen van het ruisschema, wat een leerbaar ruisschema op basis van een Gumbel-verdeling motiveert; en (3) we herzien eerdere trainingsprotocollen door zelfconditionering op te nemen, omdat we ontdekken dat het zowel de likelihood als de samplekwaliteit van embeddingruimte-DLM's verbetert met aanzienlijk andere effecten dan bij discrete diffusie. Alles samengenomen wedijvert LangFlow met top discrete DLM's op zowel perplexiteit (PPL) als generatieve perplexiteit (Gen. PPL), met een PPL van 30,0 op LM1B en 24,6 op OpenWebText. Het overtreft zelfs autoregressieve basislijnen in zero-shot transfer op 4 van de 7 benchmarks. LangFlow levert het eerste duidelijke bewijs dat continue diffusie een veelbelovend paradigma is voor taalmodellering. Homepage: https://github.com/nealchen2003/LangFlow
Hoewel Large Language Models (LLM's) AI-onderzoeksagenten in staat hebben gesteld om geïsoleerde wetenschappelijke taken uit te voeren, blijft het automatiseren van complexe, real-world workflows, zoals LLM-training, een aanzienlijke uitdaging. In dit artikel introduceren we TREX, een multi-agent systeem dat de volledige levenscyclus van LLM-training automatiseert. Door de samenwerking tussen twee kernmodules – de Onderzoeker en de Uitvoerder – te orkestreren, voert het systeem naadloos vereiste-analyse, open-domein literatuur- en data-onderzoek, formulering van trainingsstrategieën, voorbereiding van data-recepten, en modeltraining en -evaluatie uit. Het multi-round experimentele proces wordt gemodelleerd als een zoekboom, waardoor het systeem efficiënt verkenningstrajecten kan plannen, historische resultaten kan hergebruiken en hoogwaardige inzichten kan destilleren uit iteratieve trials. Om de capaciteit van geautomatiseerde LLM-training te evalueren, construeren we FT-Bench, een benchmark bestaande uit 10 taken afgeleid van real-world scenario's, variërend van het optimaliseren van fundamentele modelcapaciteiten tot het verbeteren van prestaties op domeinspecifieke taken. Experimentele resultaten tonen aan dat de TREX-agent consequent de modelprestaties op doeltaken optimaliseert.
Hoewel het vakgebied van vision-language (VL) opmerkelijke successen heeft geboekt in het integreren van visuele en tekstuele informatie over meerdere talen en domeinen, ontbreekt het nog steeds aan een specifiek kader voor het beoordelen van mensgerichte afstemming in vision-language systemen. Wij leveren twee bijdragen om deze leemte op te vullen. Ten eerste introduceren we Antropogene Regionale Adaptatie: een nieuw paradigma dat tot doel heeft de modelrelevantie voor specifieke regionale contexten te optimaliseren, met behoud van globale generalisatiecapaciteiten. Ten tweede presenteren we een eenvoudige maar effectieve aanpassingsmethode genaamd Geographical-generalization-made-easy (GG-EZ), die gebruikmaakt van regionale datafiltering en modelmerging. Door middel van uitgebreide experimenten met 3 VL-architecturen – grote vision-language modellen, text-to-image diffusiemodellen en vision-language embeddingmodellen – en een casestudy in regionale aanpassing voor Zuidoost-Azië (SEA), tonen we het belang aan van Antropogene Regionale Adaptatie en de effectiviteit van GG-EZ. Dit resulteert in winsten van 5-15% op culturele relevantiemetrieken in de SEA-regio, terwijl meer dan 98% van de globale prestaties behouden blijft en deze soms zelfs wordt overtroffen. Onze bevindingen vestigen Antropogene Regionale Afstemming als een fundamenteel paradigma voor de toepasbaarheid van multimodale vision-language modellen in diverse regio's en demonstreren een eenvoudige maar effectieve basismethode die regionale waarde-afstemming optimaliseert met behoud van globale generalisatie.
Bij on-policy knowledge distillation (OPD) wordt een studentmodel getraind op basis van zijn eigen rollouts onder token-level supervisie van een leraarmodel. Niet alle tokenposities zijn even belangrijk, maar bestaande opvattingen over tokenimportantie zijn onvolledig. Wij stellen een directe vraag: welke tokens dragen het meest nuttige leersignaal in OPD? Ons antwoord is dat informatieve tokens uit twee regio's komen: posities met hoge entropie van het studentmodel, en posities met lage entropie van het studentmodel plus hoge divergentie tussen leraar en student, waar de student overmoedig en fout is. Empirisch gezien is studententropie een sterke eerstegraadsbenadering: het behouden van 50% van de tokens op basis van entropiegestuurde sampling evenaart of overtreft training met alle tokens, terwijl het piekgeheugengebruik met tot 47% wordt gereduceerd. Maar entropie alleen mist een tweede belangrijke regio. Wanneer we tokens met lage entropie en hoge divergentie isoleren, benadert training op minder dan 10% van alle tokens de prestaties van de volledige token-baselines, wat aantoont dat overmoedige tokens een dicht correctief signaal dragen ondanks dat ze vrijwel onzichtbaar zijn voor uitsluitend op entropie gebaseerde regels. We ordenen deze bevindingen met TIP (Token Importance in on-Policy distillation), een taxonomie met twee assen voor studententropie en divergentie tussen leraar en student, en geven een theoretische verklaring voor waarom entropie nuttig is maar structureel onvolledig. Dit perspectief motiveert typebewuste tokenselectieregels die onzekerheid en meningsverschil combineren. We valideren dit beeld over drie leraar-studentparen, variërend van Qwen3, Llama en Qwen2.5 op MATH-500 en AIME 2024/2025, en op de DeepPlanning-benchmark voor langetermijn-agentplanning, waar training op uitsluitend Q3-tokens (<20% van alle tokens) de volledige token-OPD overtreft. Onze experimenten zijn geïmplementeerd door uitbreiding van de OPD-repository https://github.com/HJSang/OPSD_OnPolicyDistillation, die geheugenefficiënte distillatie van grotere modellen onder beperkte GPU-budgetten ondersteunt.
Execution Accuracy (EX), de veelgebruikte maatstaf voor het evalueren van de effectiviteit van Natural Language to SQL (NL2SQL)-oplossingen, wordt steeds onbetrouwbaarder. De meting is gevoelig voor syntactische variatie, negeert dat vragen meerdere interpretaties kunnen toelaten, en wordt gemakkelijk misleid door foutieve ground-truth SQL. Om dit aan te pakken, introduceren we ROSE, een intentiegerichte maatstaf die zich richt op de vraag of de voorspelde SQL de vraag beantwoordt, in plaats van op consistentie met de ground-truth SQL onder het referentie-afhankelijke paradigma. ROSE gebruikt een adversariaal Prover-Refuter-cascade: SQL Prover beoordeelt de semantische correctheid van een voorspelde SQL onafhankelijk tegenover de intentie van de gebruiker, terwijl Adversarial Refuter de ground-truth SQL als bewijs gebruikt om dit oordeel uit te dagen en te verfijnen. Op onze door experts gealigneerde validatieset ROSE-VEC bereikt ROSE de beste overeenstemming met menselijke experts en presteert daarbij bijna 24% beter in Cohen's Kappa dan de op een na beste meting. We voeren ook een grootschalige herevaluatie uit van 19 NL2SQL-methoden, wat vier waardevolle inzichten oplevert. We maken ROSE en ROSE-VEC vrij beschikbaar om betrouwbaarder NL2SQL-onderzoek te faciliteren.
GUI-gronding, het lokaliseren van interface-elementen uit schermafbeeldingen op basis van natuurlijke-taaluitdrukkingen, blijft een uitdaging voor kleine pictogrammen en dichte lay-outs. Testtijd-zoommethoden verbeteren de lokalisatie door bijsnijden en herhaalde inferentie op hogere resolutie, maar passen bijsnijden uniform toe op alle instanties met vaste afmetingen, zonder rekening te houden met de onzekerheid van het model per geval. Wij stellen UI-Zoomer voor, een trainingsvrij adaptief zoom-in raamwerk dat zowel de trigger als de schaal van het inzoomen behandelt als een probleem van kwantificering van voorspellingsonzekerheid. Een vertrouwensbewuste poort fuseert ruimtelijke consensus tussen stochastische kandidaten met token-niveau generatievertrouwen om selectief inzoomen alleen te triggeren wanneer lokalisatie onzeker is. Wanneer getriggerd, decomposeert een onzekerheidsgedreven bijsnijdmodule de voorspellingsvariantie in inter-sample positieverspreiding en intra-sample boundingbox-omvang, en leidt een per-instantie bijsnijstraal af via de wet van de totale variantie. Uitgebreide experimenten op ScreenSpot-Pro, UI-Vision en ScreenSpot-v2 tonen consistente verbeteringen ten opzichte van sterke basislijnen over meerdere modelarchitecturen, met winsten tot respectievelijk +13,4%, +10,3% en +4,2%, zonder extra training vereist.
Huidige methoden voor post-training in verificeerbare omgevingen vallen uiteen in twee categorieën. Reinforcement learning (RLVR) maakt gebruik van binaire beloningen, die breed toepasbaar en krachtig zijn, maar slechts spaarzame supervisie bieden tijdens de training. Distillatie biedt dense supervisie op tokenniveau, die typisch verkregen wordt van een externe teacher of met behulp van hoogwaardige demonstraties. Het verzamelen van dergelijke supervisie kan kostbaar zijn of niet beschikbaar. Wij stellen Self-Distillation Zero (SD-Zero) voor, een methode die aanzienlijk trainingssample-efficiënter is dan RL en geen externe teacher of hoogwaardige demonstraties vereist. SD-Zero traint één enkel model om twee rollen te vervullen: een Generator, die een initieel antwoord produceert, en een Reviser, die conditioneert op dat antwoord en de binaire beloning om een verbeterd antwoord te produceren. Vervolgens voeren we on-policy zelfdistillatie uit om de reviser in de generator te distilleren, waarbij we de tokenverdelingen van de reviser, geconditioneerd op het antwoord van de generator en diens beloning, als supervisie gebruiken. In feite traint SD-Zero het model om binaire beloningen om te zetten in dense zelfsupervisie op tokenniveau. Op wiskunde- en codeerredeneerbenchmarks met Qwen3-4B-Instruct en Olmo-3-7B-Instruct verbetert SD-Zero de prestaties met ten minste 10% ten opzichte van de basismodellen en presteert het beter dan sterke baseline-methoden, waaronder Rejection Fine-Tuning (RFT), GRPO en Self-Distillation Fine-Tuning (SDFT), onder dezelfde vragenverzameling en trainingssample-begroting. Uitgebreide ablatiestudies tonen twee nieuwe kenmerken van ons voorgestelde algoritme aan: (a) zelflokalisatie op tokenniveau, waarbij de reviser de sleuteltokens kan identificeren die moeten worden herzien in het antwoord van de generator op basis van de beloning, en (b) iteratieve zelftoe-eigening, waarbij de verbeterde vaardigheid om antwoorden te reviseren terug gedistilleerd kan worden in de generatieprestatie met regelmatige synchronisatie van de teacher.
Het reconstrueren van niet-rigide objecten met fysieke plausibiliteit blijft een aanzienlijke uitdaging. Bestaande methodes benutten differentieerbaar renderen voor optimalisatie per scène, waarbij geometrie en dynamiek worden hersteld, maar ze vereisen dure afstemming of handmatige annotatie, wat de praktische toepasbaarheid en generaliseerbaarheid beperkt. Om dit aan te pakken, stellen we ReconPhys voor: het eerste feedforward-raamwerk dat gezamenlijk fysieke attribuutschatting en 3D Gaussian Splatting-reconstructie leert uit een enkele monocular video. Onze methode gebruikt een dual-branch-architectuur die wordt getraind via een zelfgesuperviseerde strategie, waardoor de noodzaak van grondwaarheid-fysica-labels wordt geëlimineerd. Gegeven een videosequentie inferreert ReconPhys gelijktijdig geometrie, uiterlijk en fysieke attributen. Experimenten op een grootschalige synthetische dataset tonen superieure prestaties: onze methode behaalt 21.64 PSNR in toekomstvoorspelling vergeleken met 13.27 van state-of-the-art optimalisatie-baselines, terwijl de Chamfer-afstand wordt gereduceerd van 0.349 naar 0.004. Cruciaal is dat ReconPhys snelle inferentie (<1 seconde) mogelijk maakt tegenover de uren die bestaande methodes vereisen, wat de snelle generatie van simulatieklare assets voor robotica en graphics vergemakkelijkt.
LLM-agenten nemen steeds vaker skills aan als herbruikbare compositie-eenheden. Hoewel skills worden gedeeld over diverse agentplatforms, behandelen huidige systemen ze als ruwe context, waardoor dezelfde skill zich inconsistenterwijs gedraagt voor verschillende agenten. Deze kwetsbaarheid ondermijnt de draagbaarheid en uitvoeringsefficiëntie van skills. Om deze uitdaging aan te pakken, analyseren we 118.000 skills en putten we inspiratie uit traditioneel compilerontwerp. We behandelen skills als code en LLM's als heterogene processors. Om draagbaarheid praktisch te maken, ontleden we de vereisten van een skill in een set primitieve capaciteiten, en meten we hoe goed elk model-harness-paar deze ondersteunt. Gebaseerd op deze capaciteitsprofielen stellen we SkVM voor, een compilatie- en runtime-systeem ontworpen voor draagbare en efficiënte skill-uitvoering. Tijdens compilatie voert SkVM capaciteitsgebaseerde compilatie, omgevingsbinding en gelijktijdigheidsextractie uit. Tijdens runtime past SkVM JIT-code-solidificatie en adaptieve recompilatie toe voor prestatie-optimalisatie. We evalueren SkVM over acht LLM's van uiteenlopende schaal en drie agent-harnesses, waarbij SkillsBench en representatieve skill-taken worden bestreken. Resultaten tonen aan dat SkVM de taakvoltooiingspercentages aanzienlijk verbetert over verschillende modellen en omgevingen, terwijl het tokenverbruik met tot 40% wordt verminderd. Qua prestaties behaalt SkVM een versnelling tot 3,2x met verbeterde parallellisatie, en een latentievermindering van 19-50x door code-solidificatie.
Beelden met een hoog dynamisch bereik (HDR) bieden een rijke en getrouwe weergave van de radiantie in een scène, maar blijven een uitdaging voor generatieve modellen vanwege de mismatch met de begrensde, perceptueel gecomprimeerde data waarop deze modellen zijn getraind. Een natuurlijke oplossing is het aanleren van nieuwe representaties voor HDR, wat extra complexiteit en datavereisten met zich meebrengt. In dit werk tonen we aan dat HDR-generatie op een veel eenvoudigere manier kan worden bereikt door gebruik te maken van de sterke visuele voorkennis die reeds is vastgelegd door voorgetrainde generatieve modellen. Wij observeren dat een logaritmische codering, die veelvuldig wordt gebruikt in cinematische pipelines, HDR-beelden afbeeldt op een distributie die van nature is afgestemd op de latente ruimte van deze modellen. Dit maakt directe adaptatie mogelijk via lichtgewicht fine-tuning zonder een encoder opnieuw te trainen. Om details die niet direct waarneembaar zijn in de input te herstellen, introduceren we verder een trainstrategie gebaseerd op camera-nabootsendde degradaties, die het model aanmoedigt om ontbrekende HDR-inhoud af te leiden uit zijn aangeleerde voorkennis. Door deze inzichten te combineren, demonstreren we hoogwaardige HDR-videogeneratie met een voorgetraind videomodel met minimale aanpassing, waarbij sterke resultaten worden behaald in uiteenlopende scènes en uitdagende belichtingsomstandigheden. Onze resultaten geven aan dat HDR, ondanks het vertegenwoordigen van een fundamenteel ander beeldvormingsregime, effectief kan worden verwerkt zonder generatieve modellen te herontwerpen, mits de representatie wordt gekozen om aan te sluiten bij hun aangeleerde voorkennis.
Wij introduceren ArcDeck, een multi-agent raamwerk dat het genereren van presentaties vanuit wetenschappelijke artikelen formuleert als een gestructureerde narratieve reconstructietaak. In tegenstelling tot bestaande methoden die ruwe tekst direct samenvatten tot slides, modelleert ArcDeck expliciet de logische flow van het bronartikel. Het parseert eerst de input om een discoursboom te construeren en een globaal commitment-document vast te stellen, zodat de hoogwaardige intentie behouden blijft. Deze structurele prioriteiten sturen vervolgens een iteratief multi-agent verfijningsproces, waarbij gespecialiseerde agents iteratief de presentatie-outline beoordelen en reviseren voordat de uiteindelijke visuele lay-outs en ontwerpen worden gegenereerd. Om onze aanpak te evalueren, introduceren wij ook ArcBench, een nieuw samengestelde benchmark van academische paper-slide paren. Experimentele resultaten tonen aan dat expliciete discoursmodellering, gecombineerd met rol-specifieke agentcoördinatie, de narratieve flow en logische samenhang van de gegenereerde presentaties significant verbetert.
Gemotiveerd door de ondergespecificeerde, multi-hop aard van zoekopdrachten en de multimodale, heterogene en vaak tegenstrijdige aard van real-world webresultaten, introduceren we MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), een door mensen geannoteerde benchmark voor het evalueren van zoekversterkte agents. MERRIN meet het vermogen van AI-agents om relevante modaliteiten te identificeren, multimodale bewijsstukken op te halen en multi-hop redenering uit te voeren over ruwe webbronnen. Het wijkt op drie belangrijke punten af van eerder werk: (1) het gebruik van natuurlijke taalquery's zonder expliciete modaliteitsaanwijzingen, (2) de integratie van onderbelichte modaliteiten zoals video en audio, en (3) de vereiste om complexe, vaak ruwe of tegenstrijdige multimodale bewijsstukken op te halen tijdens het zoeken op het web. We evalueren diverse zoekagentschappen aangedreven door tien modellen, waaronder sterke closed-source modellen (bijv. GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) en open-weight modellen (Qwen3-4B/30B/235B), in drie zoekomgevingen (geen zoeken, native zoeken en agentic zoeken). Onze resultaten tonen aan dat MERRIN zeer uitdagend is: de gemiddelde nauwkeurigheid over alle agents heen is 22,3%, waarbij de best presterende agent slechts 40,1% bereikt. We observeren verder dat hoewel sterkere agents zoals Gemini Deep Research betere prestaties leveren, de winst bescheiden is door over-exploratie; ze nemen meer stappen en gebruiken meer tools, maar worden vaak afgeleid door tegenstrijdige of gedeeltelijk relevante webinhoud, wat leidt tot incorrecte antwoorden. Vergeleken met mensen verbruiken deze agents meer middelen maar behalen ze een lagere nauwkeurigheid, grotendeels door inefficiënte bronselectie en een overmatige afhankelijkheid van tekstmodaliteiten. Deze bevindingen benadrukken de noodzaak voor zoekagentschappen die in staat zijn tot robuust zoeken en redeneren over diverse modaliteiten in ruwe webomgevingen, waardoor MERRIN een waardevolle testomgeving is voor het evalueren van dergelijke capaciteiten.
MLLM-gebaseerde GUI-agenten hebben sterke capaciteiten getoond in complexe gebruikersinterface-interactietaken. Lange-termijnscenario's blijven echter uitdagend, omdat deze agenten worden belast met taken die hun intrinsieke mogelijkheden te boven gaan, wat leidt tot geheugendegradatie, voortgangsverwarring en wiskundige hallucinaties. Om deze uitdagingen aan te pakken, presenteren wij UI-Copilot, een collaboratief raamwerk waarin de GUI-agent zich richt op taakuitvoering, terwijl een lichtgewicht copilot on-demand ondersteuning biedt voor geheugenretrieval en numerieke berekeningen. We introduceren geheugenontkoppeling om persistente observaties te scheiden van het vluchtige uitvoeringscontext, en trainen het beleidsagent om selectief de copilot aan te roepen als Retriever of Calculator op basis van taakeisen. Om effectief gereedschapsaanroepleren mogelijk te maken, stellen we Tool-Integrated Policy Optimization (TIPO) voor, dat gereedschapsselectie afzonderlijk optimaliseert via eenmalige voorspelling en taakuitvoering via on-policy multi-turn rollouts. Experimentele resultaten tonen aan dat UI-Copilot-7B state-of-the-art prestaties bereikt op de uitdagende MemGUI-Bench, en sterke 7B-schaal GUI-agenten zoals GUI-Owl-7B en UI-TARS-1.5-7B overtreft. Bovendien behaalt UI-Copilot-7B een absolute verbetering van 17,1% op AndroidWorld ten opzichte van het basismodel Qwen, wat de sterke generalisatie van UI-Copilot naar real-world GUI-taken benadrukt.
Wij onderzoeken het opkomende vooruitzicht van zelfsoevereine agenten -- AI-systemen die hun eigen werking economisch kunnen onderhouden en uitbreiden zonder menselijke tussenkomst. Recente vooruitgang in grote taalmodel(len) en agentframeworks heeft de praktische mogelijkheden van agenten aanzienlijk vergroot, wat wijst op een mogelijke verschuiving van door ontwikkelaars gecontroleerde tools naar meer autonome digitale actoren. Wij analyseren de resterende technische barrières voor dergelijke implementaties en bespreken de veiligheids-, maatschappelijke en bestuurlijke uitdagingen die kunnen ontstaan als dergelijke systemen praktisch haalbaar worden. Een projectpagina is beschikbaar op: https://self-sovereign-agent.github.io.
Software logging is essentieel voor het onderhoud en debuggen van complexe systemen, maar het blijft onduidelijk hoe AI-codeeragenten omgaan met deze niet-functionele vereiste. Hoewel eerder onderzoek de loggingpraktijken van mensen karakteriseert, zijn het gedrag van AI-codeeragenten en de effectiviteit van natuurlijke-taalinstructies om deze te sturen nog onontgonnen terrein. Om deze leemte op te vullen, voeren we een empirische studie uit van 4.550 agent-gegenereerde pull-aanvragen verspreid over 81 open-source repositories. We vergelijken de loggingpatronen van agenten met menselijke basislijningen en analyseren de impact van expliciete logginginstructies. We constateren dat agenten logging minder vaak wijzigen dan mensen in 58,4% van de repositories, hoewel ze een hogere logdichtheid vertonen wanneer ze dit wel doen. Verder zijn expliciete logginginstructies zeldzaam (4,7%) en ineffectief, aangezien agenten in 67% van de gevallen niet voldoen aan constructieve verzoeken. Ten slotte observeren we dat mensen 72,5% van de logreparaties na generatie uitvoeren; zij fungeren als "stille conciërges" die logging- en observeerbaarheidsproblemen verhelpen zonder expliciete reviewfeedback. Deze bevindingen duiden op een dubbele mislukking van natuurlijke-taalinstructies (namelijk schaarste aan logginginstructies en lage naleving door agenten), wat suggereert dat deterministische beveiligingsmaatregelen nodig zouden kunnen zijn om consistente loggingpraktijken te waarborgen.
Grootschalige taalmodelen (LLM's) kunnen opmerkelijk complexe taken uitvoeren, maar de fijnmazige details over hoe deze vaardigheden ontstaan tijdens de voorafgaande training blijven slecht begrepen. Schaalwetten voor validatieverlies laten zien hoeveel een model verbetert met extra rekenkracht, maar niet welke vaardigheden het in welke volgorde verwerft. Om dit te verhelpen, stellen we de Hypothese van het Impliciete Curriculum voor: voorafgaande training volgt een compositioneel en voorspelbaar curriculum dat consistent is over verschillende modellen en datamengsels. We testen dit door een reeks eenvoudige, composeerbare taken te ontwerpen die zich uitstrekken over retrieval, morfologische transformaties, coreferentie, logisch redeneren en wiskunde. Met behulp van deze taken volgen we de opkomstpunten in vier modelfamilies, variërend in grootte van 410 miljoen tot 13 miljard parameters. We ontdekken dat de volgorde waarin modellen vaste nauwkeurigheidsdrempels bereiken opvallend consistent is (ρ = 0,81 over 45 modelparen), en dat samengestelde taken meestal pas ontstaan na hun componenttaken. Verder stellen we vast dat deze structuur is gecodeerd in de modelrepresentaties: taken met vergelijkbare 'function vector'-representaties volgen ook vaak vergelijkbare trajecten tijdens de training. Door gebruik te maken van de ruimte van representaties die zijn afgeleid van onze taakset, kunnen we de trainingstrajecten van eenvoudige, buiten beschouwing gelaten compositionele taken effectief voorspellen gedurende de hele voorafgaande training (R² = 0,68-0,84 over de modellen) zonder ze vooraf te evalueren. Samen suggereren deze resultaten dat voorafgaande training meer gestructureerd is dan verliescurves doen vermoeden: vaardigheden ontstaan in een compositionele volgorde die consistent is over modellen en die afleesbaar is uit hun interne toestand.
De afgelopen jaren is er een snelle ontwikkeling gaande van mobiele GUI-agents, aangedreven door grote taalmodellen (LLM's), die autonoom diverse apparaatbesturingstaken kunnen uitvoeren op basis van natuurlijke taal instructies. De toenemende nauwkeurigheid van deze agents op standaard benchmarks heeft de verwachtingen voor grootschalige implementatie in de praktijk doen stijgen, en er zijn reeds verschillende commerciële agents vrijgegeven en in gebruik door early adopters. Maar zijn we werkelijk klaar voor GUI-agents die zijn geïntegreerd in onze dagelijkse apparaten als systeembouwstenen? Wij beargumenteren dat een belangrijke validatie vóór implementatie ontbreekt, namelijk het onderzoeken of de agents hun prestaties kunnen handhaven onder reële bedreigingen. Concreet verschillen bestaande gangbare benchmarks, die gebaseerd zijn op eenvoudige statische app-inhoud (wat nodig is om de omgevingsconsistentie tussen verschillende tests te garanderen), van de praktijk: apps in de echte wereld zitten vol met inhoud van onbetrouwbare derden, zoals reclame-e-mails, door gebruikers gegenereerde berichten en media, enz. ... Hiertoe introduceren we een schaalbaar raamwerk voor app-inhoud instrumentatie om flexibele en gerichte inhoudswijzigingen binnen bestaande applicaties mogelijk te maken. Gebruikmakend van dit raamwerk, creëren we een testsuite bestaande uit zowel een dynamische taakuitvoeringsomgeving als een statische dataset van uitdagende GUI-toestanden. De dynamische omgeving omvat 122 reproduceerbare taken, en de statische dataset bestaat uit meer dan 3.000 scenario's opgebouwd uit commerciële apps. We voeren experimenten uit op zowel open-source als commerciële GUI-agents. Onze bevindingen onthullen dat alle onderzochte agents significant kunnen verslechteren door inhoud van derden, met een gemiddelde misleidingsgraad van respectievelijk 42,0% en 36,1% in de dynamische en statische omgevingen. Het raamwerk en de benchmark zijn vrijgegeven op https://agenthazard.github.io.
Bestaande segmentatiemodellen op basis van multimodale grote taalmodellen (MLLM's), zoals LISA, hebben vaak moeite met nieuwe of opkomende entiteiten vanwege hun onvermogen om actuele kennis te integreren. Om deze uitdaging aan te pakken, introduceren we de Novel Emerging Segmentation Task (NEST), die zich richt op het segmenteren van (i) nieuwe entiteiten die MLLM's niet herkennen omdat ze ontbreken in de trainingsdata, en (ii) opkomende entiteiten die wel binnen de kennis van het model vallen, maar actuele externe informatie vereisen voor accurate herkenning. Om onderzoek naar NEST te ondersteunen, bouwen we een NEST-benchmark met een geautomatiseerde pijplijn die nieuwsgerelateerde datamonsters genereert voor uitgebreide evaluatie. Daarnaast stellen we ROSE voor: Retrieval-Oriented Segmentation Enhancement, een plug-and-play raamwerk ontworpen om op MLLM gebaseerde segmentatiemodellen te versterken. ROSE bestaat uit vier kerncomponenten. Ten eerste wordt een Internet Retrieval-Augmented Generation-module geïntroduceerd die gebruikmaakt van door de gebruiker aangeleverde multimodale invoer om realtime webinformatie op te halen. Vervolgens verrijkt een Textual Prompt Enhancer het model met actuele informatie en rijke achtergrondkennis, wat het waarnemingsvermogen van het model voor opkomende entiteiten verbetert. Verder wordt een Visual Prompt Enhancer voorgesteld om het gebrek aan blootstelling van MLLM's aan nieuwe entiteiten te compenseren door gebruik te maken van via internet verkregen afbeeldingen. Om de efficiëntie te behouden, wordt een WebSense-module geïntroduceerd die intelligent beslist wanneer retrieval-mechanismen moeten worden geactiveerd op basis van gebruikersinvoer. Experimentele resultaten tonen aan dat ROSE de prestaties op de NEST-benchmark aanzienlijk verbetert en een sterke op Gemini-2.0 Flash gebaseerde retrieval-baseline met 19.2 gIoU overtreft.
Grote taalmodellen doen hun intrede als wetenschappelijke assistenten, maar het evalueren van hun vermogen om te redeneren op basis van empirische gegevens blijft een uitdaging. Benchmarks die zijn afgeleid van gepubliceerde studies en menselijke annotaties erven publicatiebias, bekend-kennis-bias, labelruis en aanzienlijke opslagvereisten over. Wij presenteren InfiniteScienceGym, een procedureel gegenereerde benchmark van wetenschappelijke repositories gekoppeld aan een verifieerbare vraag-antwoordtaak. Vanuit een startpunt genereert de simulator deterministisch een zelfstandige repository met een realistische mappenstructuur, bestanden en tabelgegevens, en een geprivilegieerde QA-generator produceert zowel beantwoordbare als onbeantwoordbare vragen met exacte grondtruth. Dit maakt het mogelijk om op bewijzen gebaseerd redeneren, abstinentie en tool-gemedieerde analyse te evalueren in een gecontroleerde omgeving zonder een grote statische corpus te distribueren. InfiniteScienceGym complementeert echte wetenschappelijke benchmarks door zich te richten op blinde vlekken en faalmodi die moeilijk te evalueren zijn met alleen gepubliceerde datasets. Door zowel propriëtaire als open-weight modellen te evalueren, constateren we dat geen enkel model meer dan 45% nauwkeurigheid behaalt overall, dat het herkennen van onbeantwoordbare vragen een grote zwakte blijft, en dat sterkere modellen de neiging hebben tools effectiever te gebruiken in plaats van simpelweg meer tokens te verbruiken.
Graph Attention Networks (GAT's) bieden een van de beste kaders voor het leren van knooppuntsrepresentaties in relationele gegevens; bestaande varianten zoals de Graph Attention Network (GAT) werken echter voornamelijk op statische grafen en vertrouwen op impliciete temporele aggregatie wanneer ze worden toegepast op sequentiële gegevens. In dit artikel introduceren we het Electro-encephalografie-temporele Graph Attention Network (EEG-tGAT), een temporeel uitgebreide formulering van GATv2 die is toegesneden op affordantieclassificatie vanuit interactiesequenties. Het voorgestelde model integreert temporele aandacht om de bijdrage van verschillende tijdsegmenten te moduleren en temporele dropout om het leren over temporeel gecorreleerde observaties te regulariseren. Het ontwerp weerspiegelt de veronderstelling dat temporele dimensies in affordantiegegevens niet semantisch uniform zijn en dat discriminerende informatie ongelijk verdeeld kan zijn in de tijd. Experimentele resultaten op affordantiedatasets tonen aan dat EEG-tGAT een verbeterde classificatieprestatie bereikt in vergelijking met GATv2. De waargenomen winst helpt te concluderen dat het expliciet coderen van temporeel belang en het afdwingen van temporele robuustheid inductieve vooroordelen introduceren die veel beter zijn afgestemd op de structuur van affordantie-gedreven interactiegegevens. Deze bevindingen tonen aan dat bescheiden architecturale wijzigingen aan graph attention-modellen consistente voordelen kunnen opleveren wanneer temporele relaties een significante rol spelen in de taak.