Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Mensen schilderen afbeeldingen incrementeel: ze plannen een globale lay-out, schetsen een grove opzet, inspecteren en verfijnen details, en cruciaal is dat elke stap verankerd is in de evoluerende visuele toestanden. Maar kunnen uniforme multimodale modellen, getraind op door elkaar gevlochten tekst-beelddatasets, ook de keten van tussenliggende toestanden verbeelden? In dit artikel introduceren we procesgestuurde beeldgeneratie, een paradigmavoor meerdere stappen dat de synthese ontleedt in een door elkaar gevlochten redeneertraject van gedachten en handelingen. In plaats van beelden in één stap te genereren, ontvouwt onze aanpak zich over meerdere iteraties, elk bestaande uit 4 fasen: tekstuele planning, visuele schets, tekstuele reflectie en visuele verfijning. De tekstuele redenering conditioneert expliciet hoe de visuele toestand zou moeten evolueren, terwijl het gegenereerde visuele tussenproduct op zijn beurt de volgende ronde van tekstuele redenering begrenst en verankert. Een kernuitdaging van procesgestuurde generatie vloeit voort uit de ambiguïteit van tussenliggende toestanden: hoe kunnen modellen elk gedeeltelijk voltooid beeld evalueren? Wij pakken dit aan door middel van gedetailleerde, stapsgewijze supervisie die twee complementaire beperkingen handhaaft: voor de visuele tussenliggende toestanden handhaven we de ruimtelijke en semantische consistentie; voor de tekstuele tussenliggende toestanden behouden we de eerdere visuele kennis terwijl we het model in staat stellen prompt-schendende elementen te identificeren en te corrigeren. Dit maakt het generatieproces expliciet, interpreteerbaar en direct superviseerbaar. Om de voorgestelde methode te valideren, voeren we experimenten uit binnen diverse benchmarks voor tekst-naar-beeldgeneratie.
De RL-training van multi-turn LLM-agenten is inherent instabiel, en de redeneerkwaliteit bepaalt rechtstreeks de taakprestatie. Entropie wordt veel gebruikt om de redeneerstabiliteit te volgen. Entropie meet echter alleen de diversiteit binnen dezelfde invoer en kan niet vaststellen of de redenering daadwerkelijk reageert op verschillende invoeren. In RAGEN-2 zien we dat zelfs bij stabiele entropie, modellen kunnen vertrouwen op vaste sjablonen die er divers uitzien maar invoeronafhankelijk zijn. Wij noemen dit *template collapse* (sjablooninstorting), een faalmodus die onzichtbaar is voor entropie en alle bestaande metrieken. Om deze fout te diagnosticeren, ontleden we de redeneerkwaliteit in diversiteit binnen invoer (Entropie) en onderscheidbaarheid tussen invoeren (Wederzijdse Informatie, MI), en introduceren we een familie van wederzijdse-informatie-benaderingen voor online diagnose. Over diverse taken heen correleert wederzijdse informatie veel sterker met de uiteindelijke prestatie dan entropie, wat het een betrouwbaarder benadering maakt voor redeneerkwaliteit. We verklaren *template collapse* verder met een signaal-ruisverhouding (SNR)-mechanisme. Lage beloningsvariantie verzwakt taakgradiënten, waardoor regularisatietermen domineren en redeneerverschillen tussen invoeren uitwissen. Om dit aan te pakken, stellen we *SNR-Aware Filtering* voor om per iteratie prompts met een hoog signaal te selecteren met behulp van beloningsvariantie als lichtgewicht benadering. Over planning, wiskundig redeneren, webnavigatie en code-uitvoering heen verbetert de methode consistent zowel de invoerafhankelijkheid als de taakprestatie.
Autoregressieve (AR) taalmodellen genereren tekst token voor token, zelfs wanneer opeenvolgende tokens zeer voorspelbaar zijn gegeven de eerdere context. Wij introduceren MARS (Mask AutoRegreSsion), een lichtgewicht *fine-tuning* methode die een instructie-afgestemd AR-model leert om meerdere tokens per *forward pass* te voorspellen. MARS voegt geen architectuurwijzigingen of extra parameters toe en produceert een enkel model dat nog steeds exact zoals het originele AR-model kan worden aangeroepen zonder prestatieverlies. In tegenstelling tot *speculative decoding*, dat een apart *draft*-model naast het doelmodel aanhoudt, of multi-head benaderingen zoals Medusa, die extra voorspellingskoppen toevoegen, vereist MARS enkel voortgezette training op bestaande instructiedata. Bij het genereren van één token per *forward pass* evenaart of overtreft MARS de AR-basislijn op zes standaardbenchmarks. Wanneer het meerdere tokens per stap mag accepteren, behoudt het basislijnnauwkeurigheid en behaalt het een doorvoersnelheid van 1.5-1.7x. Wij ontwikkelden verder een *block-level* KV-cachingstrategie voor *batch inference*, wat een *wall-clock* versnelling tot 1.71x oplevert ten opzichte van AR met KV-cache op Qwen2.5-7B. Ten slotte ondersteunt MARS real-time snelheidsaanpassing via *confidence thresholding*: bij hoge aanvraagbelasting kan het *serving*-systeem de doorvoer on-the-fly verhogen zonder modellen te wisselen of opnieuw op te starten, wat een praktische *latency-quality* knop biedt voor implementatie.
Het ontwikkelen van wereldmodellen met ruimtelijke consistentie en realtime interactiviteit blijft een fundamentele uitdaging in de computer vision. Huidige videogeneratieparadigma's kampen vaak met een gebrek aan ruimtelijke persistentie en onvoldoende visuele realisme, wat naadloze navigatie in complexe omgevingen bemoeilijkt. Om deze problemen aan te pakken, presenteren wij INSPATIO-WORLD, een nieuw realtime framework dat hoogwaardige, dynamische interactieve scènes kan reconstrueren en genereren vanuit een enkele referentievideo. De kern van onze aanpak wordt gevormd door een Spatiotemporeel Autoregressief (STAR) architectuur, die consistente en controleerbare scène-evolutie mogelijk maakt via twee nauw gekoppelde componenten: een Impliciete Spatiotemporele Cache aggregeert referentie- en historische observaties tot een latente wereldrepresentatie, wat globale consistentie tijdens navigatie over lange trajecten waarborgt; een Expliciete Ruimtelijke Beperkingsmodule handhaaft de geometrische structuur en vertaalt gebruikersinteracties naar precieze en fysisch plausibele cameratrajecten. Verder introduceren wij Joint Distribution Matching Distillation (JDMD). Door real-world datadistributies als regulerende gids te gebruiken, overbrugt JDMD effectief de kwaliteitsachteruitgang die typisch ontstaat door overmatige afhankelijkheid van synthetische data. Uitgebreide experimenten tonen aan dat INSPATIO-WORLD bestaande state-of-the-art (SOTA) modellen significant overtreft in ruimtelijke consistentie en interactieprecisie, een eerste positie behaalt onder realtime interactieve methoden op de WorldScore-Dynamic benchmark, en een praktische pijplijn vestigt voor het navigeren in 4D-omgevingen gereconstrueerd vanuit monocular video's.
Op reinforcement learning gebaseerde nafundering is recent naar voren gekomen als een veelbelovend paradigma voor het afstemmen van tekst-naar-beeld diffusiemodellen op menselijke voorkeuren. Uit recente studies blijkt dat het vergroten van de rollout-groepsgrootte aanzienlijke prestatieverbeteringen oplevert, wat duidt op een substantiële ruimte voor verdere afstemmingswinst. Het opschalen van rollouts op grootschalige fundamentele diffusiemodellen (zoals FLUX.1-12B) legt echter een zware computationele last op. Om dit knelpunt te verlichten, onderzoeken we de integratie van FP4-kwantisatie in Diffusion RL-rollouts. We constateren echter dat naïeve gekwantiseerde pijplijnen inherent risico's op prestatieverlies met zich meebrengen. Om dit dilemma tussen efficiëntie en trainingsintegriteit te overwinnen, stellen we Sol-RL (Speed-of-light RL) voor, een nieuw FP4-gestuurd Two-stage Reinforcement Learning-framework. Ten eerste gebruiken we high-throughput NVFP4-rollouts om een enorme kandidaatpool te genereren en hieruit een sterk contrastieve subset te extraheren. Ten tweede regenereren we deze geselecteerde samples in BF16-precisie en optimaliseren we het beleid uitsluitend hierop. Door kandidaatverkenning te ontkoppelen van beleidsoptimalisatie, integreert Sol-RL de algoritmische mechanismen van rollout-schaling met de systeemniveau doorvoerwinsten van NVFP4. Dit synergetische algoritme-hardware-ontwerp versnelt de rollout-fase effectief en reserveert tegelijkertijd hoogwaardige samples voor optimalisatie. We tonen empirisch aan dat ons framework de trainingsintegriteit van de BF16-precisiepijplijn behoudt, terwijl het de door FP4-rekenkunde mogelijk gemaakte doorvoerwinsten volledig benut. Uitgebreide experimenten met SANA, FLUX.1 en SD3.5-L bevestigen dat onze aanpak superieure afstemmingsprestaties levert op meerdere metrieken, terwijl de trainingsconvergentie tot 4,64 keer wordt versneld, waardoor de kracht van massale rollout-schaling tegen een fractie van de kosten wordt ontsloten.
Recente vooruitgang heeft de effectiviteit van zelf-evoluerende LLM-agenten aangetoond bij taken zoals programmareparatie en wetenschappelijke ontdekking. In dit paradigma synthetiseert een planner-LLM een agentprogramma dat parametrische modellen aanroept, inclusief LLM's, die vervolgens per taak worden afgesteld om de prestaties te verbeteren. Bestaande kaders voor zelf-evoluerende agenten bieden echter geen formele garanties voor veiligheid of correctheid. Omdat dergelijke programma's vaak autonoom worden uitgevoerd op onbekende invoer, wekt dit gebrek aan garanties zorgen op over betrouwbaarheid en veiligheid. Wij formuleren de generatie van agentcode als een beperkt leerprobleem, waarbij harde formele specificaties worden gecombineerd met zachte doelstellingen die de taaknut bepalen. Wij introduceren Formeel Bewaakte Generatieve Modellen (FGGM), die de planner-LLM in staat stellen een formeel uitvoercontract voor elke generatieve modelaanroep te specificeren met behulp van logica van de eerste orde. Elke FGGM-aanroep verpakt het onderliggende model in een rejection sampler met een geverifieerde fallback, waardoor gegarandeerd wordt dat elke teruggegeven uitvoer voldoet aan het contract voor elke invoer en parameterinstelling. Voortbouwend op FGGM presenteren wij SEVerA (Self-Evolving Verified Agents), een raamwerk met drie fasen: Search synthetiseert kandidaat parametrische programma's die FGGM-aanroepen bevatten; Verificatie bewijst correctheid met betrekking tot harde beperkingen voor alle parameterwaarden, wat het probleem reduceert tot onbeperkt leren; en Learning past schaalbare, op gradienten gebaseerde optimalisatie toe, inclusief GRPO-stijl fine-tuning, om het zachte doel te verbeteren terwijl de correctheid behouden blijft. Wij evalueren SEVerA op Dafny-programmaverificatie, symbolische wiskundesynthese en beleidsconform instrumentgebruik door agenten (τ^2-bench). Over alle taken heen behaalt SEVerA nul schendingen van de beperkingen en verbetert het de prestaties ten opzichte van onbeperkte en state-of-the-art baseline-methoden. Dit toont aan dat formele gedragsbeperkingen niet alleen correctheid garanderen, maar ook de synthese sturen naar agenten van hogere kwaliteit.
Recente vooruitgang in promptlearning stelt taalmodelagenten in staat om taakrelevante kennis te verwerven uit de context tijdens inferentie, zonder parameterwijzigingen. Bestaande methoden (zoals ACE of GEPA) kunnen bijvoorbeeld systeemprompts leren om de nauwkeurigheid te verbeteren op basis van eerdere agentruns. Deze methoden richten zich echter voornamelijk op settings met één agent of een lage parallelisatiegraad. Dit beperkt fundamenteel hun vermogen om efficiënt te leren van een grote verzameling verzamelde agenttraces. Het zou efficiënt en voordelig zijn om promptlearning parallel uit te voeren, om tegemoet te komen aan de groeiende trend van leren uit vele agenttraces of parallelle agentuitvoeringen. Zonder een principiële strategie voor schaalvergroting lijden huidige methoden echter onder kwaliteitsverlies bij hoge parallelisatie. Om zowel de efficiëntie als de kwaliteit van promptlearning te verbeteren, stellen wij Combee voor, een nieuw raamwerk om parallelle promptlearning voor zelfverbeterende agents op te schalen. Combee versnelt het leerproces en maakt het mogelijk om veel agents parallel uit te voeren en tegelijkertijd te leren van hun geaggregeerde traces zonder kwaliteitsverlies. Om dit te bereiken, benut Combee parallelle scans en gebruikt het een augmented shuffle-mechanisme; Combee introduceert ook een dynamische batchgrootte-controller om kwaliteit en vertraging in evenwicht te brengen. Evaluaties op AppWorld, Terminal-Bench, Formula en FiNER tonen aan dat Combee een versnelling tot 17x bereikt ten opzichte van eerdere methoden, met vergelijkbare of betere nauwkeurigheid en gelijke kosten.
Wij introduceren een nieuw onderzoeksfront: Neurale Computers (NC's) – een opkomende machinevorm die rekenkracht, geheugen en in-/uitvoer verenigt in een aangeleerde runtime-toestand. In tegenstelling tot conventionele computers, die expliciete programma's uitvoeren, agents, die handelen in externe uitvoeringsomgevingen, en wereldmodellen, die omgevingsdynamica aanleren, streven NC's ernaar het model zelf de werkende computer te laten zijn. Ons langetermijndoel is de Volledig Neurale Computer (CNC): de volwassen, algemene realisatie van deze opkomende machinevorm, met stabiele uitvoering, expliciet herprogrammeren en duurzaam hergebruik van capaciteiten. Als eerste stap onderzoeken we of vroege NC-primitieven uitsluitend kunnen worden aangeleerd vanuit verzamelde I/O-sporen, zonder geïnstrumenteerde programmatoestand. Concreet implementeren wij NC's als videomodellen die beeldschermframes genereren vanuit instructies, pixels en gebruikersacties (indien beschikbaar) in CLI- en GUI-omgevingen. Deze implementaties tonen aan dat aangeleerde runtimes vroege interfaceprimitieven kunnen verwerven, met name I/O-afstemming en kortetermijncontrole, terwijl routinematig hergebruik, gecontroleerde updates en symbolische stabiliteit open vraagstukken blijven. Wij schetsen een routekaart naar CNC's rond deze uitdagingen. Indien overwonnen, zouden CNC's een nieuw computerparadigma kunnen vestigen voorbij de hedendaagse agents, wereldmodellen en conventionele computers.
Wij stellen TC-AE voor, een op ViT gebaseerde architectuur voor deep compression auto-encoders. Bestaande methoden vergroten doorgaans het aantal kanalen in de latente representaties om de reconstructiekwaliteit bij hoge compressieverhoudingen te behouden. Deze strategie leidt echter vaak tot ineenstorting van de latente representatie, wat de generatieve prestaties verslechtert. In plaats van te vertrouwen op steeds complexere architecturen of meerfasige trainingsschema's, pakt TC-AE deze uitdaging aan vanuit het perspectief van de tokenruimte – de cruciale brug tussen pixels en beeldlatents – door middel van twee complementaire innovaties: Ten eerste bestuderen we de schaling van het aantal tokens door de patchgrootte in ViT aan te passen binnen een vast latent budget, en identificeren we agressieve token-naar-latent compressie als de belangrijkste factor die effectieve schaling beperkt. Om dit probleem aan te pakken, splitsen we token-naar-latent compressie op in twee fasen, waardoor structureel informatieverlies wordt verminderd en effectieve tokenaalschaling voor generatie mogelijk wordt. Ten tweede, om de ineenstorting van de latente representatie verder te beperken, verbeteren we de semantische structuur van beeldtokens via gezamenlijke zelf-gesuperviseerde training, wat leidt tot latenten die beter geschikt zijn voor generatie. Met deze ontwerpen behaalt TC-AE aanzienlijk verbeterde reconstructie- en generatieve prestaties onder diepe compressie. Wij hopen dat ons onderzoek de op ViT gebaseerde tokenizer voor visuele generatie zal bevorderen.
Wij presenteren Qualixar OS, het eerste besturingssysteem op applicatielaag voor universele AI-agentorchestratie. In tegenstelling tot kernel-level benaderingen (AIOS) of tools voor één specifiek framework (AutoGen, CrewAI), biedt Qualixar OS een complete runtime voor heterogene multi-agent systemen, geschikt voor 10 LLM-providers, 8+ agentframeworks en 7 transportprotocollen. Onze bijdragen omvatten: (1) uitvoeringssemantiek voor 12 multi-agent topologieën, waaronder grid-, forest-, mesh- en makerpatronen; (2) Forge, een LLM-gestuurde teamontwerpengine met historische strategiegeheugen; (3) drielaags modelroutering die Q-learning, vijf strategieën en Bayesiaanse POMDP combineert met dynamische multi-providerdetectie; (4) een op consensus gebaseerd beoordelingspijplijn met Goodhart-detectie, JSD-driftmonitoring en navigatie van het alignmentdriemanschap; (5) vierlaagse contentattributie met HMAC-signering en steganografische watermerken; (6) universele compatibiliteit via de Claw Bridge met ondersteuning voor MCP- en A2A-protocollen en een 25-commando Universeel Commando Protocol; (7) een productiedashboard met 24 tabbladen, inclusief visuele workflowbuilder en skillmarktplaats. Qualixar OS is gevalideerd door 2.821 testgevallen verdeeld over 217 gebeurtenistypes en 8 kwaliteitsmodules. Op een aangepaste evaluatieset van 20 taken behaalt het systeem 100% nauwkeurigheid tegen een gemiddelde kostprijs van $0,000039 per taak. De broncode is beschikbaar onder de Elastic License 2.0.
Het uitbreiden van Chain-of-Thought (CoT) met Reinforcement Learning (RL) wordt veelvuldig toegepast om de redeneervaardigheden van grote taalmodellen (LLM's) te verbeteren. Echter, door de schaarste van beloningssignalen kan dit ook ongewenste denkpatronen induceren, zoals 'overthinking' - het genereren van overbodige tussenliggende redeneerstappen. In dit werk stellen wij dat een belangrijke bron van dergelijke redundantie inefficiënte reflectie is, die zich vaak manifesteert in twee problematische patronen: Ongefundeerde Reflectie, waarbij het model brede, weinig impactvolle controles uitvoert tijdens het redeneren, en Repetitieve Reflectie, waarbij het herhaaldelijk een reeds bereikte conclusie opnieuw verifieert. Om dit aan te pakken, introduceren wij een op grafen gebaseerd CoT-optimalisatiekader. Concreet zetten wij elke lineaire CoT om in een gerichte acyclische graaf (DAG) met expliciete afhankelijkheidsedges, en ontwerpen wij een dubbele pruningstrategie: pruning op takniveau verwijdert zwak bijdragende reflectietakken, terwijl pruning op diepteniveau late herverificatie elimineert. Wij destilleren dit gedrag via een pijplijn van drie fasen: (1) Supervised Fine-Tuning (SFT) om het beleid te initialiseren op beknopte, geprunede sporen, (2) Direct Preference Optimization (DPO) om correcte maar minder redundante trajectorieën te prefereren, en (3) Group Relative Policy Optimization (GRPO) met een lengtestraf om zowel antwoordnauwkeurigheid als efficiëntie gezamenlijk te optimaliseren. Experimenten tonen aan dat onze aanpak het gemiddelde aantal redeneertokens met 42% vermindert, terwijl de nauwkeurigheid behouden blijft of verbetert.
Pluralistische afstemming is naar voren gekomen als een cruciaal onderzoeksfront in de ontwikkeling van grootschalige taalmmodellen (LLM's), waarbij beloningsmodellen (RM's) fungeren als een centraal mechanisme om diverse menselijke waarden vast te leggen. Hoewel benchmarks voor algemene antwoordkwaliteit veelvoorkomend zijn, blijft het evalueren van hoe goed beloningsmodellen rekening houden met individuele gebruikersvoorkeuren een open uitdaging. Om deze kloof te overbruggen, introduceren wij Personalized RewardBench, een nieuwe benchmark die ontworpen is om het vermogen van beloningsmodellen om gepersonaliseerde voorkeuren te modelleren rigoureus te beoordelen. Wij construeren gekozen en verworpen antwoordparen op basis van strikte naleving (of overtreding) van gebruikersspecifieke rubrics, waardoor wordt gegarandeerd dat de voorkeursonderscheiden uniek zijn afgestemd op het individu. Met name menselijke evaluaties bevestigen dat de primaire onderscheidende factor tussen de paren strikt persoonlijke voorkeur is, waarbij beide antwoorden een hoge algemene kwaliteit behouden (bijvoorbeeld juistheid, relevantie en behulpzaamheid). Uitgebreide tests tonen aan dat bestaande state-of-the-art beloningsmodellen aanzienlijk moeite hebben met personalisatie, met een maximale nauwkeurigheid van slechts 75,94%. Cruciaal is dat, omdat een effectieve benchmark voor beloningsmodellen de prestaties van een beloningsmodel op downstreamtaken moet voorspellen, wij experimenten uitvoeren die aantonen dat onze benchmark een significant hogere correlatie vertoont met downstreamprestaties in zowel Best-of-N (BoN) sampling als Proximale Beleidsoptimalisatie (PPO) in vergelijking met bestaande basislijnen. Deze bevindingen vestigen Personalized RewardBench als een robuuste en nauwkeurige proxy voor het evalueren van de prestaties van beloningsmodellen in downstreamtoepassingen.
Het overdragen van kennis van een cross-encoder leraar via Knowledge Distillation (KD) is een standaardparadigma geworden voor het trainen van retrievalsystemen. Hoewel bestaande onderzoeken zich grotendeels hebben gericht op het delven van harde negatieven om de discriminatie te verbeteren, hebben de systematische samenstelling van de trainingsdata en de resulterende scoreverdeling van de leraar relatief minder aandacht gekregen. In dit werk benadrukken wij dat een focus uitsluitend op harde negatieven de student verhindert de uitgebreide preferentiestructuur van de leraar te leren, wat de generalisatie kan belemmeren. Om de scoreverdeling van de leraar effectief na te bootsen, stellen wij een Gestratificeerde Steekproefstrategie voor die het volledige scorespectrum uniform afdekt. Experimenten op in-domein en out-of-domein benchmarks bevestigen dat Gestratificeerde Steekproeven, die de variantie en entropie van de leraarscores behouden, fungeert als een robuuste basislijn en significant beter presteert dan top-K en aselecte steekproeven in uiteenlopende settings. Deze bevindingen suggereren dat de essentie van distillatie ligt in het behouden van het diverse bereik aan relatieve scores zoals waargenomen door de leraar.
De haalbaarheid van chain-of-thought (CoT) monitoring is afhankelijk van het onvermogen van modellen om effectief te redeneren in hun latente representaties. Toch is er weinig bekend over de grenzen van dergelijk latent redeneren in LLM's. Wij testen deze grenzen door te bestuderen of modellen zonder supervisie op tussenstappen multi-stap planningsstrategieën kunnen ontdekken en deze latent kunnen uitvoeren, binnen een enkele voorwaartse pass. Met behulp van grafiek-padzoektaken die het aantal benodigde latente planningsstappen precies controleren, leggen we een opvallende beperking bloot die niet wordt opgelost door massale schaalvergroting: kleine transformers die vanaf nul worden getraind, ontdekken strategieën die tot drie latente stappen vereisen, gefinetunede GPT-4o en Qwen3-32B halen er vijf, en GPT-5.4 bereikt er zeven onder few-shot prompting. Hoewel de maximale latente planningsdiepte die modellen tijdens training kunnen leren vijf is, generaliseert de ontdekte strategie tijdens de testfase tot acht latente stappen. Dit onthult een dissociatie tussen het vermogen om een latente strategie te ontdekken met uitsluitend supervisie op het eindantwoord, en het vermogen om deze uit te voeren eenmaal ontdekt. Als vergelijkbare limieten breder gelden, moeten strategieën die meerdere gecoördineerde latente planningsstappen vereisen mogelijk expliciet worden aangeleerd of geëxternaliseerd, wat geloofwaardigheid verleent aan CoT monitoring.
Multimodale generatie wordt al lang gedomineerd door tekstgestuurde pijplijnen, waarbij taal de visuele inhoud dicteert maar niet binnen het visuele domein kan redeneren of creëren. Wij dagen dit paradigma uit door ons af te vragen of alle modaliteiten, inclusief tekstuele beschrijvingen, ruimtelijke lay-outs en bewerkingsinstructies, kunnen worden verenigd in een enkele visuele representatie. Wij presenteren FlowInOne, een raamwerk dat multimodale generatie herformuleert als een puur visuele stroom, waarbij alle invoer wordt omgezet in visuele prompts en een schone beeld-in, beeld-uit pijplijn mogelijk maakt, bestuurd door een enkel 'flow matching'-model. Deze visie-centrische formulering elimineert natuurlijk knelpunten in cross-modale alignering, ruisplanning en taakspecifieke architecturale vertakkingen, en verenigt tekst-naar-beeld generatie, lay-out-gestuurd bewerken en het volgen van visuele instructies onder één coherent paradigma. Om dit te ondersteunen, introduceren wij VisPrompt-5M, een grootschalige dataset van 5 miljoen visuele prompt-paren die diverse taken omvat, zoals fysica-bewuste krachtdynamiek en trajectvoorspelling, naast VP-Bench, een streng samengestelde benchmark die de trouw aan instructies, ruimtelijke precisie, visuele realisme en inhoudelijke consistentie beoordeelt. Uitgebreide experimenten tonen aan dat FlowInOne state-of-the-art prestaties bereikt voor alle verenigde generatietaken, waarbij het zowel open-source modellen als concurrerende commerciële systemen overtreft, en zo een nieuwe basis vestigt voor volledig visie-centrische generatieve modellering, waar waarneming en creatie naast elkaar bestaan binnen een enkele doorlopende visuele ruimte.
Grote Taalmodellen (LLM's) vertrouwen in toenemende mate op agent-mogelijkheden – iteratief ophalen van informatie, gereedschapsgebruik en besluitvorming – om de grenzen van statische, parametrische kennis te overstijgen. Toch behandelen bestaande agent-frameworks externe informatie als ongestructureerde tekst en benutten ze de topologische afhankelijkheden die inherent zijn aan real-world data niet. Om deze kloof te overbruggen, introduceren wij Agentic Graph Learning (AGL), een paradigma dat grafisch leren herformuleert als een vervlochten proces van topologiebewuste navigatie en op LLM gebaseerde inferentie. Concreet stellen wij AgentGL voor, het eerste op reinforcement learning (RL) gebaseerde framework voor AGL. AgentGL rust een LLM-agent uit met grafisch-inherente gereedschappen voor multi-schaalverkenning, reguleert het gereedschapsgebruik via zoekbeperkt denken om nauwkeurigheid en efficiëntie in balans te brengen, en hanteert een grafisch-geconditioneerde curriculum RL-strategie om langetermijnbeleidsleren te stabiliseren zonder stap-voor-stap supervisie. Op diverse Text-Attributed Graph (TAG)-benchmarks en met meerdere LLM-backbones presteert AgentGL aanzienlijk beter dan sterke GraphLLM- en GraphRAG-basislijnen, met absolute verbeteringen tot 17,5% bij knooppuntclassificatie en 28,4% bij linkvoorspelling. Deze resultaten tonen aan dat AGL een veelbelovend onderzoeksgebied is om LLM's in staat te stellen autonoom te navigeren en te redeneren over complexe relationele omgevingen. De code is openbaar beschikbaar op https://github.com/sunyuanfu/AgentGL.
Het anticiperen op diverse toekomstige toestanden is een centrale uitdaging in videowereldmodellering. Discriminatieve wereldmodellen produceren een deterministische voorspelling die impliciet gemiddelde over mogelijke toekomsten, terwijl bestaande generatieve wereldmodellen computationeel duur blijven. Recent onderzoek toont aan dat het voorspellen van de toekomst in de kenmerkruimte van een visie-foundationmodel (VFM), in plaats van een latente ruimte geoptimaliseerd voor pixelreconstructie, aanzienlijk minder wereldmodelparameters vereist. De meeste van dergelijke benaderingen blijven echter discriminatief. In dit werk introduceren we DeltaTok, een tokenizer die het VFM-kenmerkverschil tussen opeenvolgende frames codeert in een enkel continu "delta"-token, en DeltaWorld, een generatief wereldmodel dat op deze tokens werkt om efficiënt diverse plausibele toekomsten te genereren. Delta-tokens reduceren video van een driedimensionale ruimtelijk-temporele representatie naar een eendimensionale temporele reeks, wat bijvoorbeeld een 1.024x tokenreductie oplevert bij 512x512 frames. Deze compacte representatie maakt hanteerbare multi-hypothese-training mogelijk, waarbij vele toekomsten parallel worden gegenereerd en alleen de beste wordt gesuperviseerd. Tijdens inferentie leidt dit tot diverse voorspellingen in een enkele voorwaartse pass. Experimenten met dichte voorspellingstaken tonen aan dat DeltaWorld toekomsten voorspelt die beter overeenkomen met real-world uitkomsten, terwijl het meer dan 35x minder parameters heeft en 2.000x minder FLOPs gebruikt dan bestaande generatieve wereldmodellen. Code en gewichten: https://deltatok.github.io.
Groep Relatief Beleidsoptimalisatie (GRPO) wordt veel gebruikt voor reinforcement learning met verifieerbare beloningen, maar lijdt vaak onder voordeelcollaps: wanneer alle rollouts in een groep dezelfde beloning ontvangen, levert de groep een nul relatief voordeel op en dus geen leersignaal. Als een vraag bijvoorbeeld te moeilijk is voor de redenaar, kunnen alle bemonsterde rollouts incorrect zijn en nul beloning ontvangen. Recent werk lost dit op door hints of hulpscaffolds toe te voegen aan zulke moeilijke vragen, zodat de redenaar gemengde resultaten produceert en een niet-nul update herstelt. Bestaande hints zijn echter meestal vaststaand in plaats van aangepast aan de huidige redenaar, en een hint die een leersignaal creëert onder de gehinte invoer verbetert niet noodzakelijkerwijs het geen-hint-beleid dat tijdens de testfase wordt gebruikt. Daarom stellen wij Hint Leren voor Reinforcement Learning (HiLL) voor, een raamwerk dat gelijktijdig een hintbeleid en een redenaarbeleid traint tijdens RL. Voor elke moeilijke vraag genereert de hintgever online hints, afgestemd op de incorrecte rollout van de huidige redenaar, waardoor hintgeneratie kan worden aangepast aan de evoluerende fouten van de redenaar. We introduceren verder hintafhankelijkheid, die meet in hoeverre correcte gehinte trajecten afhangen van de hint. We leiden een overdraagbaarheidsresultaat af dat aantoont dat een lagere hintafhankelijkheid sterkere overdracht van gehint succes naar geen-hint succes impliceert, en we gebruiken dit resultaat om een overdraagbaarheidsgewogen beloning te definiëren voor het trainen van de hintgever. HiLL geeft daarom de voorkeur aan hints die niet alleen informatieve GRPO-groepen herstellen, maar ook signalen produceren die de oorspronkelijke geen-hint policy waarschijnlijker verbeteren. Experimenten over meerdere benchmarks tonen aan dat HiLL consistent beter presteert dan GRPO en eerdere hint-gebaseerde baseline-methoden, wat de waarde aantoont van adaptief en overdrachtbewust hintleren voor RL. De code is beschikbaar op https://github.com/Andree-9/HiLL.
Met de toenemende toegankelijkheid en het gebruik van meertalige documenten is Cross-Lingual Information Retrieval (CLIR) een belangrijk onderzoeksgebied geworden. Traditioneel worden CLIR-taken uitgevoerd onder omstandigheden waarbij de taal van de documenten verschilt van die van de zoekvragen, en doorgaans zijn de documenten geschreven in één samenhangende taal. In dit artikel benadrukken we dat in een dergelijke setting het vermogen tot cross-linguale alignatie mogelijk niet voldoende wordt geëvalueerd. We observeren specifiek dat, in een documentenverzameling waar Engelstalige documenten naast documenten in een andere taal voorkomen, de meeste meertalige retrievers de neiging hebben om niet-gerelateerde Engelstalige documenten voor te trekken boven het gerelateerde document dat in dezelfde taal als de zoekvraag is geschreven. Om dit fenomeen rigoureus te analyseren en te kwantificeren, introduceren we diverse scenario's en metrieken die zijn ontworpen om de cross-linguale alignatieprestatie van meertalige retrievalmodellen te evalueren. Verder stellen we, om de cross-linguale prestaties onder deze uitdagende omstandigheden te verbeteren, een nieuwe trainingsstrategie voor die gericht is op het versterken van cross-linguale alignatie. Met slechts een kleine dataset van 2,8k voorbeelden verbetert onze methode de cross-linguale retrievalprestaties aanzienlijk en vermindert tegelijkertijd het probleem van de Engelse voorkeur. Uitgebreide analyses tonen aan dat de voorgestelde methode de cross-linguale alignatiecapaciteiten van de meeste meertalige embeddingmodellen substantieel versterkt.
Redeneren met complexe, context-specifieke regels blijft een uitdaging voor grote taalmodellen (LLM's). In juridische en beleidscontexten uit zich dit als deontisch redeneren: redeneren over verplichtingen, toestemmingen en verboden volgens expliciete regels. Terwijl veel recente benchmarks de nadruk leggen op wiskundig redeneren met korte context, richten minder zich op deontisch redeneren met lange context en grote gevolgen. Om deze leemte op te vullen, introduceren we DEONTICBENCH, een benchmark met 6.232 taken op het gebied van de Amerikaanse federale belastingen, bagagebeleid van luchtvaartmaatschappijen, Amerikaans immigratiebeleid en huisvestingsrecht van Amerikaanse staten. Deze taken kunnen op meerdere manieren worden benaderd, waaronder direct redeneren in natuurlijke taal of met behulp van symbolische berekening. Naast vrij-vorm 'chain-of-thought'-redeneren maakt DEONTICBENCH een optionele, op een solver gebaseerde werkstroom mogelijk, waarbij modellen wetten en feiten uit casussen vertalen naar uitvoerbaar Prolog, wat leidt tot formele probleeminterpretaties en een expliciet programmaspoor. We publiceren referentie-Prologprogramma's voor alle instanties. Onder de beste LLM's en codeermodellen bereikt de beste prestatie op de moeilijkste subset slechts 44,4% op SARA Numeric en 46,6 macro-F1 op Housing. We onderzoeken verder training met supervised fine-tuning en reinforcement learning voor het genereren van symbolische programma's. Hoewel training de kwaliteit van Prolog-generatie verbetert, slagen huidige RL-methoden er nog niet in deze taken betrouwbaar op te lossen. Over het geheel genomen biedt DEONTICBENCH een benchmark voor het bestuderen van contextgebonden regelredenering in real-world domeinen, zowel onder symbolische als niet-symbolische omstandigheden.
MLLM's vereisen hoogresolutie visuele invoer voor fijnmijnerige taken zoals documentbegrip en dichte scèneperceptie. Huidige paradigma's voor globale resolutieschaling overspoelen echter het kwadratische self-attention-mechanisme ongericht met visueel redundante tokens, wat de inferentiesnelheid ernstig beperkt terwijl ruimtelijke schaarste en query-intentie worden genegeerd. Om dit te overwinnen, stellen we Q-Zoom voor, een query-bewust adaptief hoogresolutieperceptiekader dat efficiënt werkt volgens een coarse-to-fine aanpak. Ten eerste omzeilt een lichtgewicht Dynamic Gating Network veilig de hoogresolutieverwerking wanneer grove globale kenmerken volstaan. Ten tweede lokaliseert een Self-Distilled Region Proposal Network (SD-RPN) voor queries die fijnmijnerige perceptie vereisen, de taakrelevante Region-of-Interest (RoI) nauwkeurig rechtstreeks vanuit intermediare kenmerkruimten. Om deze modules efficiënt te optimaliseren, gebruikt het gating-netwerk een consistentiebewuste generatiestrategie om deterministische routeringslabels af te leiden, terwijl de SD-RPN een volledig zelfgesuperviseerd distillatieparadigma hanteert. Een continu spatio-temporeel aligneringsschema en gerichte fine-tuning versmelten vervolgens de dichte lokale RoI naadloos met de grove globale lay-out. Uitgebreide experimenten tonen aan dat Q-Zoom een dominante Pareto-frontier vestigt. Met Qwen2.5-VL-7B als primaire testomgeving versnelt Q-Zoom de inferentie met 2,52 keer op Document & OCR benchmarks en 4,39 keer in hoogresolutie-scenario's, terwijl de pieknauwkeurigheid van de baseline wordt geëvenaard. Bovendien overschrijdt Q-Zoom, wanneer geconfigureerd voor maximale perceptuele nauwkeurigheid, de piekprestaties van de baseline met respectievelijk 1,1% en 8,1% op deze benchmarks. Deze robuuste verbeteringen zetten zich naadloos voort naar Qwen3-VL, LLaVA en opkomende RL-gebaseerde denken-met-beelden-modellen. De projectpagina is beschikbaar op https://yuhengsss.github.io/Q-Zoom/.
Large Chunk Test-Time Training (LaCT) heeft sterke prestaties getoond bij 3D-reconstructie met lange context, maar de volledig plastische updates tijdens inferentie blijven kwetsbaar voor catastrofale vergetelheid en overfitting. Als gevolg daarvan wordt LaCT doorgaans geïnstantieerd met een enkel grote chunk die de volledige invoerreeks beslaat, wat tekortschiet voor het bredere doel om willekeurig lange sequenties in één keer te verwerken. Wij stellen Elastic Test-Time Training voor, geïnspireerd op elastische gewichtsconsolidatie, dat de LaCT-snelgewichtupdates stabiliseert met een Fisher-gewisse elastische prior rond een aangehouden ankerstatus. Het anker evolueert als een exponentieel voortschrijdend gemiddelde van vorige snelgewichten om stabiliteit en plasticiteit in evenwicht te brengen. Gebaseerd op deze geüpdatete architectuur introduceren we Fast Spatial Memory (FSM), een efficiënt en schaalbaar model voor 4D-reconstructie dat spatiotemporele representaties leert uit lange observatiereeksen en nieuwe view-tijdcombinaties rendert. We pre-trainden FSM op grootschalige gecureerde 3D/4D-data om de dynamiek en semantiek van complexe ruimtelijke omgevingen vast te leggen. Uitgebreide experimenten tonen aan dat FSM snelle aanpassing over lange sequenties ondersteunt en hoogwaardige 3D/4D-reconstructie levert met kleinere chunks, waarbij de camera-interpolatieshortcut wordt gemitigeerd. Al met al hopen we LaCT voorbij de begrensde single-chunk instelling te brengen naar robuuste multi-chunk aanpassing, een noodzakelijke stap voor generalisatie naar werkelijk langere sequenties, terwijl de activeringsgeheugenflessenhals aanzienlijk wordt verlicht.
Het genereren van beweging-gestuurde video's - waarbij door gebruikers gespecificeerde acties fysiek plausibele scènedynamiek sturen onder vrij gekozen cameraperspectieven - vereist twee capaciteiten: (1) ontvlochten bewegingcontrole, waardoor gebruikers afzonderlijk de objectbeweging kunnen aansturen en het camerapunt kunnen aanpassen; en (2) bewegingcausaliteit, die ervoor zorgt dat door gebruikers gestuurde acties coherente reacties van andere objecten veroorzaken in plaats van slechts pixels te verplaatsen. Bestaande methoden schieten tekort op beide fronten: zij verstrengelen camera- en objectbeweging tot één volgsignaal en behandelen beweging als kinematische verplaatsing zonder causale relaties tussen objectbeweging te modelleren. Wij introduceren MoRight, een uniform raamwerk dat beide beperkingen aanpakt via ontvlochten bewegingmodellering. Objectbeweging wordt gespecificeerd in een canoniek statisch perspectief en overgebracht naar een willekeurig doel-camerapunt via temporele cross-view aandacht, waardoor ontvlochten camera- en objectcontrole mogelijk wordt. Wij ontbinden beweging verder in actieve (door gebruikers gestuurde) en passieve (gevolg) componenten, waarbij we het model trainen om bewegingcausaliteit uit data te leren. Tijdens inferentie kunnen gebruikers ofwel actieve beweging aanleveren en MoRight voorspelt de gevolgen (voorwaarts redeneren), of gewenste passieve uitkomsten specificeren en MoRight herstelt plausibele sturende acties (invers redeneren), allemaal terwijl vrij het camerapunt wordt aangepast. Experimenten op drie benchmarks tonen state-of-the-art prestaties in generatiekwaliteit, bewegingbestuurbaarheid en interactiebewustzijn.
Nauwkeurige puntenwolkregistratie (PCR) is een belangrijke taak in 3D-gegevensverwerking, waarbij een starre transformatie tussen twee puntenwolken wordt geschat. Hoewel deep-learning-methoden belangrijke beperkingen van traditionele niet-leerbenaderingen hebben aangepakt, zoals gevoeligheid voor ruis, uitschieters, occlusie en initialisatie, worden ze ontwikkeld en geëvalueerd op schone, dichte, synthetische datasets (wat hun generaliseerbaarheid naar realistische industriële scenario's beperkt). Dit artikel introduceert R3PM-Net, een lichtgewicht, globaal-bewust, objectniveau puntenmatchingsnetwerk ontworpen om deze kloof te overbruggen door zowel generaliseerbaarheid als realtime-efficiëntie te prioriteren. Om deze transitie te ondersteunen, worden twee datasets, Sioux-Cranfield en Sioux-Scans, voorgesteld. Deze bieden een evaluatieomgeving voor het registreren van imperfecte fotogrammetrische en event-camera-scans naar digitale CAD-modellen, en zijn openbaar beschikbaar gemaakt. Uitgebreide experimenten tonen aan dat R3PM-Net een competitieve nauwkeurigheid bereikt met ongeëvenaarde snelheid. Op ModelNet40 behaalt het een perfecte fitness-score van 1 en een inlier-RMSE van 0,029 cm in slechts 0,007s, ongeveer 7 keer sneller dan de state-of-the-art methode RegTR. Deze prestaties zetten zich voort op de Sioux-Cranfield dataset, met een fitness van 1 en een inlier-RMSE van 0,030 cm bij een vergelijkbaar lage latentie. Bovendien lost R3PM-Net op de zeer uitdagende Sioux-Scans dataset succesvol edge cases op in minder dan 50 ms. Deze resultaten bevestigen dat R3PM-Net een robuuste, hoogwaardige oplossing biedt voor kritieke industriële toepassingen, waar precisie en realtime-prestaties onmisbaar zijn. De code en datasets zijn beschikbaar op https://github.com/YasiiKB/R3PM-Net.
Grote redeneermodellen hebben recentelijk sterke prestaties getoond op complexe taken die lange ketens van redenering vereisen, door middel van gesuperviseerde fine-tuning op grootschalige en hoogwaardige datasets. Om dergelijke datasets te construeren, genereren bestaande pijplijnen lange redeneergegevens van krachtigere Large Language Models (LLM's) en passen ze handmatige heuristische of op natuurlijkheid gebaseerde selectiemethoden toe om hoogwaardige samples te filteren. Ondanks de bewezen effectiviteit van op natuurlijkheid gebaseerde dataselectie – waarbij data wordt gerangschikt op basis van de gemiddelde log-waarschijnlijkheid toegekend door LLM's – toont onze analyse aan dat deze methode, wanneer toegepast op LLM-redeneerdatasets, systematisch de voorkeur geeft aan samples met langere redeneerstappen (d.w.z. meer tokens per stap) in plaats van aan samples van hogere kwaliteit, een fenomeen dat we *stap-lengte-verwarring* noemen. Via kwantitatieve analyse schrijven we dit fenomeen toe aan lage waarschijnlijkheid van eerste tokens in redeneerstappen; langere stappen verdunnen hun invloed, waardoor de gemiddelde log-waarschijnlijkheden kunstmatig worden opgeblazen. Om dit probleem aan te pakken, stellen we twee variantmethoden voor: ASLEC-DROP, die eerste-token-waarschijnlijkheden negeert bij het berekenen van de gemiddelde log-waarschijnlijkheid, en ASLEC-CASL, die een causale debiasing-regressie toepast om het verstorende effect van eerste tokens te verwijderen. Experimenten met vier LLM's en vijf evaluatiebenchmarks demonstreren de effectiviteit van onze aanpak bij het mitigeren van het stap-lengte-verwarringsprobleem.
Equivariantie is een fundamentele eigenschap in computervisie-modellen, maar strikte equivariantie wordt zelden bereikt in real-world data, wat de prestaties van een model kan beperken. Het controleren van de mate van equivariantie is daarom wenselijk. Wij stellen een algemeen raamwerk voor voor het construeren van zachte equivariante modellen door de modelgewichten te projecteren in een ontworpen deelruimte. De methode is van toepassing op elke voorgetrainde architectuur en biedt theoretische grenzen voor de geïnduceerde equivariantiefout. Empirisch demonstreren we de effectiviteit van onze methode op meerdere voorgetrainde backbones, waaronder ViT en ResNet, voor taken zoals beeldclassificatie, semantische segmentatie en voorspelling van menselijke trajecten. Opmerkelijk is dat onze aanpak de prestaties verbetert en tegelijkertijd de equivariantiefout vermindert op de competitieve ImageNet-benchmark.
Wij presenteren GenLCA, een op diffusie gebaseerd generatief model voor het genereren en bewerken van fotorealistische volledige lichaamsavatars op basis van tekst- en beeldinvoer. De gegenereerde avatars zijn getrouw aan de invoer, terwijl ze hoogwaardige gelaats- en lichaamsanimaties ondersteunen. De kernidee is een nieuw paradigma dat het mogelijk maakt een 3D-diffusiemodel voor het volledige lichaam te trainen met gedeeltelijk observeerbare 2D-gegevens, waardoor de trainingsdataset kan worden opgeschaald naar miljoenen real-world video's. Deze schaalbaarheid draagt bij aan de superieure fotorealistische kwaliteit en generaliseerbaarheid van GenLCA. Concreet schalen we de dataset op door een vooraf getraind feed-forward avatarreconstructiemodel te hergebruiken als een animeerbare 3D-tokenizer, die ongestructureerde videoframes codeert in gestructureerde 3D-tokens. Echter, de meeste real-world video's bieden slechts gedeeltelijke observaties van lichaamsdelen, wat resulteert in overmatige vervaging of transparantie-artefacten in de 3D-tokens. Om dit aan te pakken, stellen we een nieuwe zichtbaarheidsbewuste diffusietrainingsstrategie voor die ongeldige regio's vervangt door leerbare tokens en verliezen alleen berekent over geldige regio's. Vervolgens trainen we een op stroming gebaseerd diffusiemodel op de tokendataset, waarbij de fotorealistische kwaliteit en animeerbaarheid van het vooraf getrainde avatarreconstructiemodel inherent behouden blijven. Onze aanpak maakt het effectief mogelijk grootschalige real-world videogegevens te gebruiken om een diffusiemodel native in 3D te trainen. Wij demonstreren de doeltreffendheid van onze methode door middel van diverse en hoogwaardige generatie- en bewerkingsresultaten, die bestaande oplossingen met een grote marge overtreffen. De projectpagina is beschikbaar op https://onethousandwu.com/GenLCA-Page.
Aangezien audiovisuele multimodale grote taalmodellen (MLLM's) steeds vaker worden ingezet in veiligheidskritieke toepassingen, is het cruciaal om hun kwetsbaarheden te begrijpen. Hiertoe introduceren we Multimodale Typografie, een systematische studie die onderzoekt hoe typografische aanvallen over meerdere modaliteiten MLLM's nadelig beïnvloeden. Waar eerder werk zich beperkt tot unimodale aanvallen, leggen wij de kruismodale kwetsbaarheid van MLLM's bloot. Wij analyseren de interacties tussen audio-, visuele- en tekstperturbaties en tonen aan dat een gecoördineerde multimodale aanval een aanzienlijk potentere dreiging vormt dan aanvallen in één modaliteit (aanvalsuccespercentage = 83,43% versus 34,93%). Onze bevindingen over meerdere voorhoede-MLLM's, taken, en benchmarks voor gezond verstand en contentmoderatie vestigen multimodale typografie als een kritieke en onderbelichte aanvalsstrategie in multimodaal redeneren. Code en data zullen openbaar beschikbaar worden gesteld.
Bestaande online benchmarks voor mobiele GUI-agents blijven grotendeels app-gericht en taakhomogeen, waardoor ze de diversiteit en instabiliteit van real-world mobiel gebruik niet weerspiegelen. Daarom introduceren wij VenusBench-Mobile, een uitdagende online benchmark voor het evalueren van algemene mobiele GUI-agents onder realistische, gebruikersgerichte omstandigheden. VenusBench-Mobile bouwt twee kernpijlers voor evaluatie: het definiëren van wat te evalueren via gebruikersintentie-gedreven taakontwerp dat realistisch mobiel gebruik reflecteert, en hoe te evalueren via een capaciteitsgericht annotatieschema voor fijnmazige gedragsanalyse van agents. Uitgebreide evaluatie van state-of-the-art mobiele GUI-agents toont grote prestatiekloffen ten opzichte van eerdere benchmarks, wat aangeeft dat VenusBench-Mobile aanzienlijk uitdagendere en realistischer taken stelt en dat huidige agents ver verwijderd zijn van betrouwbare inzet in de praktijk. Diagnostische analyse toont verder aan dat falen vooral wordt gedomineerd door tekortkomingen in perceptie en geheugen, die grotendeels verhuld blijven door grofmazige evaluaties. Bovendien vertonen zelfs de sterkste agents een succespercentage van bijna nul onder omgevingsvariatie, wat hun broosheid in realistische settings benadrukt. Gebaseerd op deze inzichten menen wij dat VenusBench-Mobile een belangrijke stap vormt richting robuuste praktijkimplementatie van mobiele GUI-agents. Code en data zijn beschikbaar op https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.