HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

34 papers found

MinerU-Diffusion: Het herzien van document-OCR als inverse rendering via diffusie-decodering
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Mar 23

ByHejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He

110

Optical Character Recognition (OCR) is geëvolueerd van transcriptie op regelniveau naar het parseren van gestructureerde documenten, wat vereist dat modellen lange sequenties kunnen reconstrueren met lay-out, tabellen en formules. Ondanks recente vooruitgang in vision-language modellen, zijn de meeste bestaande systemen afhankelijk van autoregressieve decodering, wat sequentiële latentie introduceert en foutpropagatie in lange documenten versterkt. In dit werk benaderen we document-OCR opnieuw vanuit een inverse rendering-perspectief, waarbij we stellen dat causale generatie van links naar rechts een artefact van serialisatie is, in plaats van een intrinsieke eigenschap van de taak. Gemotiveerd door dit inzicht presenteren we MinerU-Diffusion, een unified diffusion-gebaseerd raamwerk dat autoregressieve sequentiële decodering vervangt door parallelle diffusion-denoising onder visuele conditionering. MinerU-Diffusion maakt gebruik van een block-wise diffusion-decoder en een onzekerheidsgedreven curriculum learning-strategie om stabiele training en efficiënte inferentie van lange sequenties mogelijk te maken. Uitgebreide experimenten tonen aan dat MinerU-Diffusion consistent de robuustheid verbetert, terwijl het tot 3,2 keer sneller decodeert in vergelijking met autoregressieve baseline-methoden. Evaluaties op de voorgestelde Semantic Shuffle-benchmark bevestigen verder de verminderde afhankelijkheid van linguïstische prior kennis en de sterkere visuele OCR-capaciteit.

WildWorld: Een grootschalige dataset voor dynamische wereldmodellering met acties en expliciete toestanden ter ondersteuning van generatieve ARPG
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Mar 24

ByZhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang

Dynamische-systeemtheorie en reinforcement learning beschouwen wereldevolutie als latent-toestandsdynamica aangedreven door acties, waarbij visuele observaties gedeeltelijke informatie over de toestand verschaffen. Recente videowereldmodellen proberen deze actie-geconditioneerde dynamica uit data te leren. Bestaande datasets voldoen echter zelden aan de vereiste: ze missen typisch diverse en semantisch betekenisvolle actieruimtes, en acties zijn direct gekoppeld aan visuele observaties in plaats van gemedieerd door onderliggende toestanden. Hierdoor zijn acties vaak verstrengeld met pixelveranderingen, wat het moeilijk maakt voor modellen om gestructureerde werelddynamica te leren en consistente evolutie over lange tijdshorizons te behouden. In dit artikel presenteren we WildWorld, een grootschalige actie-geconditioneerde wereldmodelleerdataset met expliciete toestandsannotaties, automatisch verzameld vanuit een fotorealistische AAA actie-rollenspelserie (Monster Hunter: Wilds). WildWorld bevat meer dan 108 miljoen frames en biedt meer dan 450 acties, inclusief beweging, aanvallen en vaardigheidsuitvoering, samen met gesynchroniseerde per-frame annotaties van karakter-skeletten, wereldtoestanden, cameraposities en dieptekaarten. We leiden verder WildBench af om modellen te evalueren via Actievolging en Toestandsuitlijning. Uitgebreide experimenten onthullen hardnekkige uitdagingen in het modelleren van semantisch rijke acties en het behouden van lange-termijn toestandsconsistentie, wat de noodzaak van toestandsbewuste videogeneratie benadrukt. De projectpagina is https://shandaai.github.io/wildworld-project/.

SpecEyes: Versnelling van Agentische Multimodale LLM's via Speculatieve Waarneming en Planning
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Mar 24

ByHaoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo

Agentische multimodale grote taalmodellen (MLLM's) (bijvoorbeeld OpenAI o3 en Gemini Agentic Vision) bereiken opmerkelijke redeneercapaciteiten door iteratieve aanroeping van visuele tools. De gecascadeerde lussen van perceptie, redenering en tool-aanroeping introduceren echter aanzienlijke sequentiële overhead. Deze overhead, agentische diepte genoemd, veroorzaakt onaanvaardbare latentie en beperkt de systeemgelijktijdigheid ernstig. Daartoe stellen wij SpecEyes voor, een raamwerk voor agentische speculatieve versnelling dat deze sequentiële bottleneck doorbreekt. Onze belangrijkste inzicht is dat een lichtgewicht, toolvrij MLLM kan dienen als een speculatieve planner om de uitvoeringstrajectorie te voorspellen, waardoor vroegtijdige beëindiging van dure toolketens mogelijk wordt zonder de nauwkeurigheid op te offeren. Om deze speculatieve planning te reguleren, introduceren we een cognitief gatingmechanisme gebaseerd op antwoordscheidbaarheid, dat het vertrouwen van het model kwantificeert voor zelfverificatie zonder gebruik te maken van oracle-labels. Verder ontwerpen we een heterogene parallelle trechter die de toestandsloze gelijktijdigheid van het kleine model benut om de toestandsgebonden seriële uitvoering van het grote model te maskeren, waardoor de systeemdoorvoer wordt gemaximaliseerd. Uitgebreide experimenten op V* Bench, HR-Bench en POPE tonen aan dat SpecEyes een versnelling van 1.1-3.35x bereikt ten opzichte van de agentische baseline, terwijl de nauwkeurigheid behouden blijft of zelfs verbetert (tot +6.7%), waardoor de servicedoorvoer onder gelijktijdige workloads wordt verhoogd.

Van statische sjablonen naar dynamische runtime-grafieken: een overzicht van workflowoptimalisatie voor LLM-agenten
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Mar 23

ByLing Yue, Kushal Raj Bhandari, Ching-Yun Ko, Dhaval Patel, Shuxin Lin, Nianjun Zhou, Jianxi Gao, Pin-Yu Chen, Shaowu Pan

Op grote taalmodellen (LLM's) gebaseerde systemen worden steeds populairder voor het oplossen van taken door het construeren van uitvoerbare workflows die LLM-aanroepen, informatie-ontsluiting, toolgebruik, code-uitvoering, geheugenupdates en verificatie verweven. Dit overzichtsartikel bespreekt recente methoden voor het ontwerpen en optimaliseren van dergelijke workflows, die wij behandelen als agent-gebaseerde rekenkundige grafen (ACG's). Wij ordenen de literatuur op basis van het tijdstip waarop de workflowstructuur wordt bepaald, waarbij structuur verwijst naar welke componenten of agenten aanwezig zijn, hoe zij van elkaar afhankelijk zijn en hoe informatie tussen hen stroomt. Deze lens onderscheidt statische methoden, die een herbruikbare workflowsjabloon vastleggen vóór implementatie, van dynamische methoden, die de workflow voor een specifieke uitvoering selecteren, genereren of reviseren vóór of tijdens de executie. Wij ordenen eerder werk verder langs drie dimensies: wanneer de structuur wordt bepaald, welk deel van de workflow wordt geoptimaliseerd, en welke evaluatiesignalen de optimalisatie sturen (bijv. taakmetrieken, verificatiesignalen, voorkeuren of feedback uit executietrajecten). Wij maken ook onderscheid tussen herbruikbare workflowsjablonen, runspecifieke gerealiseerde grafen en executietrajecten, waarbij herbruikbare ontwerpkeuzes worden gescheiden van de structuren die daadwerkelijk in een gegeven run worden ingezet en van het gerealiseerde runtime-gedrag. Ten slotte schetsen wij een structuurbewust evaluatieperspectief dat downstream taakmetrieken aanvult met graf-niveau eigenschappen, uitvoeringskosten, robuustheid en structurele variatie tussen inputs. Ons doel is het bieden van een duidelijke vocabulaire, een uniform kader voor het positioneren van nieuwe methoden, een meer vergelijkbaar beeld van de bestaande literatuur en een meer reproduceerbare evaluatiestandaard voor toekomstig werk op het gebied van workflowoptimalisaties voor LLM-agenten.

PEARL: Gepersonaliseerd model voor het begrijpen van streamende video's
PEARL: Personalized Streaming Video Understanding Model

Mar 20

ByYuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang

De menselijke cognitie van nieuwe concepten is van nature een streamingproces: we herkennen continu nieuwe objecten of identiteiten en werken onze herinneringen in de loop van de tijd bij. Huidige multimodale personalisatiemethoden zijn echter grotendeels beperkt tot statische beelden of offline video's. Dit verbrekt de continue visuele input van directe feedback uit de echte wereld, wat hun vermogen beperkt om de real-time, interactieve gepersonaliseerde reacties te bieden die essentieel zijn voor toekomstige AI-assistenten. Om deze kloof te overbruggen, stellen we eerst de nieuwe taak van Gepersonaliseerd Streaming Video Begrip (PSVU) voor en definiëren deze formeel. Om onderzoek in deze nieuwe richting te vergemakkelijken, introduceren we PEARL-Bench, de eerste uitgebreide benchmark die specifiek is ontworpen om deze uitdagende setting te evalueren. Het beoordeelt het vermogen van een model om te reageren op gepersonaliseerde concepten op exacte tijdstempels in twee modi: (1) Frame-niveau, gericht op een specifieke persoon of object in discrete frames, en (2) een nieuw Video-niveau, gericht op gepersonaliseerde acties die zich ontvouwen over continue frames. PEARL-Bench omvat 132 unieke video's en 2.173 fijnmazige annotaties met precieze tijdstempels. Conceptdiversiteit en annotatiekwaliteit worden strikt gewaarborgd door een gecombineerde pijplijn van automatische generatie en menselijke verificatie. Om deze uitdagende nieuwe setting aan te pakken, stellen we verder PEARL voor, een plug-and-play, trainingsvrije strategie die dient als een sterke basislijn. Uitgebreide evaluaties over 8 offline en online modellen tonen aan dat PEARL state-of-the-art prestaties bereikt. Opmerkelijk is dat het consistente PSVU-verbeteringen oplevert wanneer toegepast op 3 verschillende architecturen, wat bewijst dat het een zeer effectieve en robuuste strategie is. We hopen dat dit werk de personalisatie van vision-language modellen (VLM) bevordert en verder onderzoek naar streaming gepersonaliseerde AI-assistenten inspireert. Code is beschikbaar op https://github.com/Yuanhong-Zheng/PEARL.

DA-Flow: Degradatiebewuste optische stroomschatting met diffusiemodellen
DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

Mar 24

ByJaewon Min, Jaeeun Lee, Yeji Choi, Paul Hyunbin Cho, Jin Hyeon Kim, Tae-Young Lee, Jongsik Ahn, Hwayeong Lee, Seonghyun Park, Seungryong Kim

Optical flow-modellen die zijn getraind op hoogwaardige data, vertonen vaak een sterke prestatievermindering wanneer ze worden geconfronteerd met real-world corrupties zoals vervaging, ruis en compressie-artefacten. Om deze beperking te overwinnen, formuleren wij Degradation-Aware Optical Flow, een nieuwe taak die gericht is op nauwkeurige schatting van dichte correspondentie vanuit real-world gecorrumpeerde video's. Onze belangrijkste bevinding is dat de tussenliggende representaties van diffusiemodellen voor beeldrestauratie inherent corruptie-bewust zijn, maar tijdsbewustzijn ontbreekt. Om deze beperking aan te pakken, breiden we het model uit om aandacht te besteden aan aangrenzende frames via volledige spatio-temporele aandacht, en tonen we empirisch aan dat de resulterende features zero-shot correspondentiecapaciteiten vertonen. Gebaseerd op deze bevinding presenteren we DA-Flow, een hybride architectuur die deze diffusie-features fuseert met convolutionele features binnen een iteratief verfijningsraamwerk. DA-Flow presteert aanzienlijk beter dan bestaande optical flow-methoden onder ernstige degradatie in meerdere benchmarks.

SIMART: Het Opsplitsen van Monolithische MESHES in Simulatieklare Gearticuleerde Middelen via MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Mar 24

ByChuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang

Hoogwaardige gearticuleerde 3D-assets zijn onmisbaar voor embodied AI en fysieke simulatie, maar 3D-generatie richt zich nog steeds op statische meshes, wat een kloof laat in 'simulatie-klare' interactieve objecten. De meeste recente methoden voor het creëren van gearticuleerde objecten vertrouwen op meerfasige pijplijnen die fouten accumuleren over ontkoppelde modules. Alternatief bieden unified MLLM's een enkelfasig pad naar gezamenlijk begrip van statische assets en generatie van simulatie-klare assets. Dichte op voxels gebaseerde 3D-tokenisatie resulteert echter in lange 3D-tokenreeksen en een hoge geheugenoverhead, wat de schaalbaarheid voor complexe gearticuleerde objecten beperkt. Om dit aan te pakken, stellen we SIMART voor, een unified MLLM-framework dat gezamenlijk decompositie op onderdeelniveau en kinematische voorspelling uitvoert. Door de introductie van een Sparse 3D VQ-VAE reduceert SIMART het aantal tokens met 70% ten opzichte van dichte voxel-tokens, wat hoogwaardige multi-part assemblages mogelijk maakt. SIMART behaalt state-of-the-art prestaties op PartNet-Mobility en in-the-wild AIGC-datasets, en maakt op fysica gebaseerde robotica-simulatie mogelijk.

UniGRPO: Uniforme Beleidsoptimalisatie voor Redeneringsgestuurde Visuele Generatie
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Mar 24

ByJie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang

Universele modellen die in staat zijn tot intergeweven generatie zijn naar voren gekomen als een veelbelovend paradigma, waarbij de onderzoeksgemeenschap in toenemende mate convergeert naar autoregressieve modellering voor tekst en flow matching voor beeldgeneratie. Om deze richting te bevorderen, stellen we een verenigd reinforcement learning-raamwerk voor dat is toegesneden op intergeweven generatie. We valideren onze aanpak op de fundamentele eenheid ervan: een enkele ronde van redenering-gestuurde beeldgeneratie, waarbij het model eerst de gebruikersprompt uitbreidt via redenering, gevolgd door beeldsynthese. Door dit multimodale generatieproces te formuleren als een Markov-beslissingsproces met schaarse terminale beloningen, introduceren we UniGRPO om tekst- en beeldgeneratiebeleid gezamenlijk te optimaliseren met GRPO. Met een minimalistieke methodologie om over-ontwerp te vermijden, benutten we gevestigde trainingstechnieken voor beide modaliteiten door naadloos standaard GRPO voor redenering en FlowGRPO voor visuele synthese te integreren. Om schaalbaarheid naar multi-ronde intergeweven generatie te garanderen, introduceren we twee cruciale aanpassingen aan de oorspronkelijke FlowGRPO: (1) het elimineren van classifier-free guidance om lineaire, onvertakte rollouts te behouden, wat essentieel is voor schaalbaarheid naar complexe scenario's met multi-turn interacties en multi-condition generatie (bijvoorbeeld bewerking); en (2) het vervangen van de standaard latente KL-straf door een MSE-straf direct op de snelheidsvelden, wat een robuuster en directer regularisatiesignaal biedt om reward hacking effectief te mitigeren. Onze experimenten tonen aan dat deze verenigde trainingstechniek de beeldgeneratiekwaliteit significant verbetert door redenering, en een robuuste en schaalbare basislijn biedt voor de toekomstige post-training van volledig intergeweven modellen.

RealMaster: Het omzetten van gerenderde scènes naar fotorealistische video's
RealMaster: Lifting Rendered Scenes into Photorealistic Video

Mar 24

ByDana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar

State-of-the-art videogeneratiemodellen produceren opmerkelijke foto-realistische resultaten, maar ze missen de precieze controle die nodig is om gegenereerde inhoud af te stemmen op specifieke scène-eisen. Bovendien kunnen deze modellen, zonder een onderliggende expliciete geometrie, geen 3D-consistentie garanderen. Omgekeerd bieden 3D-engines gedetailleerde controle over elk scène-element en bieden ze van nature 3D-consistentie, maar hun output blijft vaak steken in de "uncanny valley". Het overbruggen van deze kloof tussen simulatie en realiteit vereist zowel structurele precisie, waarbij de output de geometrie en dynamiek van de input exact moet behouden, als een globale semantische transformatie, waarbij materialen, belichting en texturen holistisch moeten worden getransformeerd om foto-realisme te bereiken. Wij presenteren RealMaster, een methode die videodiffusiemodellen benut om gerenderde video op te waarderen naar foto-realistische video, waarbij volledige afstemming met de output van de 3D-engine behouden blijft. Om dit model te trainen, genereren we een gepaard dataset via een ankergebaseerde propagatiestrategie, waarbij het eerste en laatste frame worden verbeterd voor realisme en worden verspreid over de tussenliggende frames met behulp van geometrische conditioneringssignalen. Vervolgens trainen we een IC-LoRA op deze gepaarde video's om de hoogwaardige output van de pijplijn te distilleren in een model dat generaliseert voorbij de beperkingen van de pijplijn, waardoor het objecten en personages die halverwege de sequentie verschijnen kan verwerken en inferentie mogelijk maakt zonder ankerframes. Geëvalueerd op complexe GTA-V sequenties, presteert RealMaster aanzienlijk beter dan bestaande videobewerkingsbaselines, verbetert het het foto-realisme en behoudt het de geometrie, dynamiek en identiteit gespecificeerd door de originele 3D-controle.

2Xplat: Twee specialisten zijn beter dan één generalist
2Xplat: Two Experts Are Better Than One Generalist

Mar 22

ByHwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park

Pose-vrije feed-forward 3D Gaussian Splatting (3DGS) heeft een nieuw tijdperk ingeluid voor snelle 3D-modellering, waardoor hoogwaardige Gauss-representaties gegenereerd kunnen worden uit ongekalibreerde multi-view beelden in een enkele voorwaartse passage. De dominante aanpak in dit veld maakt gebruik van uniforme monolithische architecturen, vaak gebaseerd op geometrie-gerichte 3D-foundationmodellen, om gezamenlijk cameraposes te schatten en 3DGS-representaties te synthetiseren binnen één enkel netwerk. Hoewel architecturaal gestroomlijnd, kunnen dergelijke 'alles-in-één'-ontwerpen suboptimaal zijn voor hoogfideliteit 3DGS-generatie, omdat ze geometrische redenering en uiterlijkmodellering verstrengelen binnen een gedeelde representatie. In dit werk introduceren we 2Xplat, een pose-vrij feed-forward 3DGS-raamwerk gebaseerd op een two-expert-ontwerp dat geometrieschatting expliciet scheidt van Gauss-generatie. Een toegewijde geometrie-expert voorspelt eerst de cameraposes, die vervolgens expliciet worden doorgegeven aan een krachtige uiterlijk-expert die de 3D Gaussians synthetiseert. Ondanks zijn conceptuele eenvoud, en grotendeels onontgonnen in eerdere werken, blijkt de voorgestelde aanpak zeer effectief. In minder dan 5K trainingsiteraties overtreft de voorgestelde two-experts-pijplijn substantieel eerdere pose-vrije feed-forward 3DGS-benaderingen en bereikt het prestaties die vergelijkbaar zijn met state-of-the-art pose-methoden. Deze resultaten tarten het heersende uniforme paradigma en suggereren de potentiële voordelen van modulaire ontwerpprincipes voor complexe 3D geometrische schattings- en uiterlijk synthetisatietaken.

Opnieuw nadenken over tokenniveau-beleidsoptimalisatie voor multimodale keten-van-gedachten
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Mar 24

ByYunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng

Multimodale Chain-of-Thought (CoT) redenering vereist dat grote visueel-taalkundige modellen redeneertrajecten construeren die perceptuele verankering afwisselen met meerstapsinferentie. Bestaande methoden voor Reinforcement Learning met Verifieerbare Beloningen (RLVR) optimaliseren de redenering echter typisch op een grove granulariteit, waarbij CoT uniform wordt behandeld zonder onderscheid te maken tussen hun variërende gradaties van visuele verankering. In dit werk voeren we een token-level analyse uit van multimodale redeneertrajecten en tonen we aan dat succesvol redeneren wordt gekenmerkt door gestructureerde token-dynamiek die zowel perceptuele verankering als exploratieve inferentie weerspiegelt. Voortbouwend op deze analyse stellen we Perception-Exploration Policy Optimization (PEPO) voor, dat een perceptieprior afleidt uit de gelijkenis van verborgen toestanden en deze integreert met token-entropie via een soepele gatingmechanisme om token-level voordelen te produceren. PEPO integreert naadloos met bestaande RLVR-kaders zoals GRPO en DAPO, zonder extra supervisie of hulptakken te vereisen. Uitgebreide experimenten op diverse multimodale benchmarks demonstreren consistente en robuuste verbeteringen ten opzichte van sterke RL-basislijnen, variërend van geometrisch redeneren, visuele verankering, het oplossen van visuele puzzels tot few-shot classificatie, waarbij stabiele trainingsdynamiek behouden blijft. Code: https://github.com/xzxxntxdy/PEPO

Aandacht voor Aandacht: Efficiënt en Schaalbaar Videobegrip via Autoregressief Kijken
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Mar 12

ByBaifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

Multimodale grote taalmodellen (MLLM's) hebben algemene videobegrip verbeterd, maar worstelen met lange video's van hoge resolutie. Ze verwerken elke pixel op dezelfde manier in hun vision transformers (ViT's) of LLM's, ondanks aanzienlijke spatiotemporele redundantie. Wij introduceren AutoGaze, een lichtgewicht module die overbodige patches verwijdert voordat ze door een ViT of MLLM worden verwerkt. Getraind met next-token-predictie en reinforcement learning, selecteert AutoGaze autoregressief een minimale set multi-schaal patches die de video kunnen reconstrueren binnen een door de gebruiker gespecificeerde foutmarge, waardoor redundantie wordt geëlimineerd terwijl informatie behouden blijft. Empirisch gezien reduceert AutoGaze visuele tokens met 4x-100x en versnelt het ViT's en MLLM's met tot 19x, waardoor MLLM's kunnen worden opgeschaald naar video's van 1K frames en 4K-resolutie, en superieure resultaten behalen op videobenchmarks (bijv. 67,0% op VideoMME). Verder introduceren we HLVid: de eerste benchmark voor vraag-antwoordtaken met video's van hoge resolutie en lange duur, bestaande uit 5-minuten durende 4K-video's, waarbij een MLLM opgeschaald met AutoGaze 10,1% beter presteert dan de baseline en de vorige beste MLLM met 4,5% overtreft. Projectpagina: https://autogaze.github.io/.

VP-VLA: Visuele Prompting als Interface voor Vision-Language-Action Modellen
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Mar 23

ByZixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia

Vision-Language-Action (VLA)-modellen vertalen visuele observaties en taalinstructies doorgaans direct naar robotbesturingssignalen. Deze "black-box"-benadering dwingt een enkele voorwaartse doorloop om tegelijkertijd instructie-interpretatie, ruimtelijke verankering en laag-niveau besturing af te handelen, wat vaak leidt tot slechte ruimtelijke precisie en beperkte robuustheid in out-of-distribution scenario's. Om deze beperkingen aan te pakken, stellen we VP-VLA voor, een dual-system raamwerk dat hoog-niveau redeneren en laag-niveau uitvoering ontkoppelt via een gestructureerde visuele prompt-interface. Concreet deconstrueert een "Systeem 2 Planner" complexe instructies in sub-taken en identificeert relevante doelobjecten en eindposities. Deze ruimtelijke ankers worden vervolgens direct over de visuele observaties heen gelegd als gestructureerde visuele prompts, zoals richtkruizen en selectiekaders. Geleid door deze prompts en versterkt door een nieuwe aanvullende visuele verankeringsdoelstelling tijdens de training, genereert een "Systeem 1 Controller" betrouwbaar precieze laag-niveau uitvoeringsbewegingen. Experimenten op de Robocasa-GR1-Tabletop benchmark en SimplerEnv-simulatie tonen aan dat VP-VLA de slagingspercentages met respectievelijk 5% en 8,3% verbetert, waarmee het competitieve baseline-modellen zoals QwenOFT en GR00T-N1.6 overtreft.

ThinkJEPA: Het Versterken van Latente Wereldmodellen met een Groot Visueel-Taal Redeneermodel
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Mar 23

ByHaichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu

Recente vooruitgang in latente wereldmodellen (zoals V-JEPA2) heeft veelbelovende capaciteit getoond om toekomstige wereldtoestanden te voorspellen uit videoobservaties. Toch beperkt dichte voorspelling vanuit een kort observatievenster de temporele context en kan het voorspellers bevooroordelen richting lokale, laag-niveau extrapolatie, waardoor het moeilijk wordt om semantiek op lange termijn vast te leggen en de bruikbaarheid voor downstreamtaken afneemt. Vision-language modellen (VLMs) daarentegen bieden een sterke semantische verankering en algemene kennis door te redeneren over uniform bemonsterde frames, maar zij zijn niet ideaal als zelfstandige dichte voorspellers vanwege compute-gedreven sparse sampling, een taal-output bottleneck die fijnmazige interactietoestanden comprimeert tot tekstgerichte representaties, en een data-regime mismatch bij aanpassing aan kleine actie-geconditioneerde datasets. Wij stellen een VLM-gestuurd JEPA-stijl latent wereldmodel voor dat dichte-frame dynamiekmodellering combineert met semantische begeleiding op lange termijn via een dubbel temporeel pad: een dichte JEPA-tak voor fijnmazige beweging en interactie-signalen, en een uniform bemonsterde VLM-denkerstak met een grotere temporele stap voor kennisrijke begeleiding. Om de progressieve redeneersignalen van de VLM effectief over te dragen, introduceren we een hiërarchische piramide-representatie-extractiemodule die multi-layer VLM-representaties aggregeert tot begeleidingsfeatures die compatibel zijn met latente voorspelling. Experimenten met voorspelling van handmanipulatietrajectorieën tonen aan dat onze methode zowel een sterke VLM-only baseline als een JEPA-voorspellerbaseline overtreft, en robuuster uitrolgedrag op lange termijn oplevert.

AgentSLR: Automatisering van Systematische Literatuuronderzoeken in Epidemiologie met Agent-gebaseerde AI
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Mar 20

ByShreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi

Systematische literatuurreviews zijn essentieel voor het samenbrengen van wetenschappelijk bewijs, maar zijn kostbaar, moeilijk op te schalen en tijdrovend, wat knelpunten veroorzaakt voor evidence-based beleid. Wij onderzoeken of grote taalmodelen de volledige workflow van een systematische review kunnen automatiseren, van artikelretrieval en screeningsfase tot gegevensextractie en rapportsynthese. Toegepast op epidemiologische reviews van negen door de WHO aangemerkte prioritaire pathogenen en gevalideerd tegen door experts samengestelde referentiedata, behaalt onze open-source agent-gebaseerde pijplijn (AgentSLR) een prestatieniveau vergelijkbaar met dat van menselijke onderzoekers, terwijl de reviewtijd wordt teruggebracht van ongeveer 7 weken naar 20 uur (een 58-voudige versnelling). Onze vergelijking van vijf grensverleggende modellen toont aan dat de prestaties bij systematische reviews minder worden bepaald door modelgrootte of inferentiekosten dan door de onderscheidende capaciteiten van elk model. Via validatie met een mens-in-de-lus identificeren we belangrijke faalmodi. Onze resultaten tonen aan dat agent-gebaseerde kunstmatige intelligentie de synthese van wetenschappelijk bewijs in gespecialiseerde domeinen aanzienlijk kan versnellen.

CanViT: Op weg naar foundation-modellen voor actief zien
CanViT: Toward Active-Vision Foundation Models

Mar 23

ByYohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna

Actieve computer vision belooft efficiënte, biologisch plausibele perceptie door middel van sequentiële, gelokaliseerde blikken, maar kampt met een gebrek aan schaalbare algemene architecturen en vooraf getrainde pijplijnen. Hierdoor zijn Active-Vision Foundation Models (AVFM's) onontgonnen gebleven. Wij introduceren CanViT, het eerste taak- en beleidsagnostische AVFM. CanViT gebruikt scene-relative RoPE om een retinotopische Vision Transformer-backbone te verbinden met een spatiotopische, scène-brede latente werkruimte, het 'canvas'. Efficiënte interactie met dit werkgeheugen met hoge capaciteit wordt ondersteund door Canvas Attention, een nieuw asymmetrisch cross-attention-mechanisme. We ontkoppelen denken (backbone-niveau) en geheugen (canvas-niveau), waarbij we self-attention en volledig verbonden lagen aan de canvas-kant elimineren om sequentiële inferentie met lage latentie en schaalbaarheid naar grote scènes te bereiken. Wij stellen een labelvrij actief vision voor-trainingsschema voor, beleidsagnostische passieve-naar-actieve dense latent distillation: het reconstrueren van scène-brede DINOv3-embeddingen uit sequenties van laagresolutie blikken met willekeurige locaties, zoomniveaus en lengtes. We trainen CanViT-B voor vanaf een willekeurige initialisatie op 13,2 miljoen ImageNet-21k-scènes – een orde van grootte meer dan vorige actieve modellen – en 1 miljard willekeurige blikken, in 166 uur op een enkele H100. Op ADE20K-segmentatie behaalt een bevroren CanViT-B 38,5% mIoU in een enkele laagresolutie blik, wat beter is dan de 27,6% van het beste actieve model met 19,5x minder inferentie-FLOPs en geen fine-tuning, evenals zijn FLOP- of input-gematchte DINOv3-leraar. Met extra blikken bereikt CanViT-B 45,9% ADE20K mIoU. Op ImageNet-1k-classificatie bereikt CanViT-B 81,2% top-1-nauwkeurigheid met bevroren teacher probes. CanViT generaliseert naar langere rollouts, grotere scènes en nieuwe beleidsregels. Ons werk dicht de kloof tussen passieve en actieve vision voor semantische segmentatie en toont het potentieel van AVFM's als een nieuwe onderzoeksas.

Eerlijke verdeling keert het klassement om: CHANRG toont beperkte generalisatie in RNA-secundairestructuurvoorspelling
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Mar 20

ByZhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu

Accurate voorspelling van de RNA-secundaire structuur vormt de basis voor transcriptoomanannotatie, mechanistische analyse van niet-coderende RNA's en het ontwerp van RNA-therapieën. Recente vooruitgang door deep learning en RNA-foundationmodellen is moeilijk te interpreteren omdat huidige benchmarks de generalisatie over RNA-families heen mogelijk overschatten. Wij presenteren de Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG), een benchmark van 170.083 structureel niet-redundante RNA's, samengesteld uit meer dan 10 miljoen sequenties in Rfam 15.0 met behulp van structuurbewuste deduplicatie, genoombewuste splitsingsopzet en multischaal structurele evaluatie. Over 29 voorspellingsmethoden heen behaalden foundationmodel-methoden de hoogste nauwkeurigheid op de testset, maar verloren het grootste deel van dat voordeel buiten de trainingsdistributie, terwijl gestructureerde decoders en directe neurale voorspellers aanzienlijk robuuster bleven. Deze kloof bleef bestaan na correctie voor sequentielengte en weerspiegelde zowel verlies van structurele dekking als incorrecte hogere-orde-verbindingen. Samen bieden CHANRG en een evaluatiestack zonder opvulling en met symmetriebewustzijn een strenger en batch-invariant raamwerk voor de ontwikkeling van RNA-structuurvoorspellers met aantoonbare robuustheid buiten de trainingsdistributie.

MultiBind: Een benchmark voor attribuutverwisseling bij generatie van meerdere objecten
MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Mar 23

ByWenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang

Onderwerpgestuurde beeldgeneratie wordt steeds meer verwacht fijnmuntige controle over meerdere entiteiten binnen één afbeelding te ondersteunen. In multi-referentieworkflows kunnen gebruikers verschillende onderwerpafbeeldingen, een achtergrondreferentie en lange, geïndexeerde prompts voor entiteiten aanleveren om meerdere personen in één scène te besturen. In deze setting is cross-subject attribute misbinding een belangrijke faalmodus: attributen worden behouden, bewerkt of overgedragen naar het verkeerde onderwerp. Bestaande benchmarks en metrieken leggen grotendeels de nadruk op holistische trouw of zelfgelijkenis per onderwerp, waardoor dergelijke fouten moeilijk te diagnosticeren zijn. Wij introduceren MultiBind, een benchmark opgebouwd uit echte foto's van meerdere personen. Elke instantie biedt subjectafbeeldingen geordend in slots met maskers en begrenzingskaders, gestandaardiseerde onderwerpreferenties, een ingevulde achtergrondreferentie en een dense, op entiteiten geïndexeerde prompt afgeleid van gestructureerde annotaties. Wij stellen ook een dimension-wise confusion evaluatieprotocol voor dat gegenereerde onderwerpen matcht met grond-waarheidsslots en slot-naar-slot gelijkenis meet met behulp van specialisten voor gezichtsidentiteit, uiterlijk, houding en expressie. Door de corresponderende grond-waarheidsgelijkenismatrices af te trekken, scheidt onze methode zelfdegradatie van echte cross-subject interferentie en legt het interpreteerbare faalpatronen bloot zoals drift, verwisseling, dominantie en vermenging. Experimenten met moderne multi-referentiegeneratoren tonen aan dat MultiBind bindingsfouten onthult die conventionele reconstructiemetrieken missen.

VTAM: Video-Tactiele-Actie-Modellen voor Complexe Fysieke Interactie Voorbij VLA's
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Mar 24

ByHaoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou

Video-Action Models (VAMs) zijn naar voren gekomen als een veelbelovend raamwerk voor belichaamde intelligentie, waarbij ze impliciete werelddynamica leren uit onbewerkte videostreams om temporeel consistente actievoorspellingen te genereren. Hoewel dergelijke modellen sterke prestaties vertonen bij langetermijntaken dankzij visuele redenering, blijven ze beperkt in contactrijke scenario's waarin kritieke interactietoestanden slechts gedeeltelijk waarneembaar zijn via visie alleen. Met name fijnmazige krachtmodulatie en contactovergangen zijn niet betrouwbaar gecodeerd in visuele tokens, wat leidt tot instabiel of onnauwkeurig gedrag. Om deze kloof te overbruggen, introduceren we het Video-Tactile Action Model (VTAM), een multimodaal wereldmodelleerraamwerk dat tactiele waarneming integreert als een complementair grondsignaal. VTAM breidt een vooraf getrainde videotransformer uit met tactiele streams via lichtgewicht modale transfer-finetuning, waardoor efficiënte cross-modale representatielearning mogelijk wordt zonder gekoppelde tactiel-taalgegevens of onafhankelijke tactiele voorpretraining. Om multimodale fusie te stabiliseren, introduceren we een tactiel regularisatieverlies dat gebalanceerde cross-modale aandacht afdwingt en visuele latentiedominantie in het actiemodel voorkomt. VTAM demonstreert superieure prestaties bij contactrijke manipulatie, met een robuust slagingspercentage van gemiddeld 90 procent. In uitdagende scenario's, zoals het oppakken en plaatsen van chips die hoogfidelijke krachtbewustzijn vereisen, presteert VTAM 80 procent beter dan de π 0,5-basislijn. Onze bevindingen tonen aan dat de integratie van tactiele feedback essentieel is voor het corrigeren van visuele schattingsfouten in wereldactiemodellen, en biedt een schaalbare aanpak voor fysiek gegronde belichaamde foundationmodellen.

Schaars maar Cruciaal: Een Token-Level Analyse van Distributionele Verschuivingen bij RLVR-Finetuning van LLM's
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Mar 23

ByHaoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou

Versterkt leren met verifieerbare beloningen (RLVR) heeft het redeneervermogen van grote taalmodellen (LLM's) aanzienlijk verbeterd, maar de onderliggende token-level mechanismen van deze verbeteringen blijven onduidelijk. Wij presenteren een systematische empirische studie naar de distributionele effecten van RLVR, georganiseerd rond drie hoofdanalyses: (1) token-level karakterisering van distributionele verschuivingen tussen basis- en RL-modellen, (2) de impact van token-level distributionele verschuivingen op sequence-level redeneerprestaties via kruisbemonsteringsinterventies, en (3) fijnmazige mechanica van deze verschuivingen op tokenniveau. Wij constateren dat RL-finetuning zeer gedoseerde en gerichte veranderingen induceert, waarbij slechts een kleine fractie van de tokenverdelingen een betekenisvolle divergentie vertoont tussen het basis- en het RL-beleid. Wij karakteriseren verder de structuur en evolutie van deze verschuivingen door analyses van token-entropie, positionele concentratie en herallocatie van waarschijnlijkheidsmassa. Om de functionele belangrijkheid van deze gedoseerde veranderingen te beoordelen, voeren wij kruisbemonsteringsexperimenten uit waarbij tokenkeuzes selectief worden uitgewisseld tussen de basis- en RL-modellen met variërende interventiebudgetten. Wij tonen aan dat het invoegen van slechts een kleine fractie RL-bemonsterde tokens in basisgeneraties de RL-prestatiewinst geleidelijk herstelt, terwijl het injecteren van een even klein aantal basis-tokenkeuzes in verder door RL gegenereerde sequenties de prestaties doet instorten naar het basisniveau. Dit isoleert een kleine set token-level beslissingen die direct verantwoordelijk zijn voor de prestatieverbetering door RLVR. Ten slotte exploreren wij divergentie-gewogen varianten van het voordelensignaal als diagnostische interventie, en constateren dat deze verbeteringen kunnen opleveren ten opzichte van de basislijnen. Samen werpen onze resultaten licht op de door RLVR geïnduceerde distributionele veranderingen en bieden zij een fijnmazige, token-level lens om RLVR-finetuning te begrijpen als een gericht verfijningsproces.

TrajLoom: Dichte Toekomstige Trajectoriegeneratie vanuit Video
TrajLoom: Dense Future Trajectory Generation from Video

Mar 23

ByZewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao

Het voorspellen van toekomstige beweging is cruciaal voor videobegrip en controleerbare videogeneratie. Dichte puntentrajecten zijn een compacte, expressieve bewegingsrepresentatie, maar het modelleren van hun toekomstige evolutie op basis van waargenomen video blijft een uitdaging. Wij stellen een raamwerk voor dat toekomstige trajecten en zichtbaarheid voorspelt uit eerdere trajecten en videocontext. Onze methode heeft drie componenten: (1) Grid-Anchor Offset Encoding, dat locatieafhankelijke bias vermindert door elk punt weer te geven als een offset van zijn pixelcentrum-anker; (2) TrajLoom-VAE, dat een compacte ruimtelijk-temporele latente ruimte aanleert voor dichte trajecten met gemaskeerde reconstructie en een ruimtelijk-temporele consistentieregulariseerder; en (3) TrajLoom-Flow, dat toekomstige trajecten genereert in de latente ruimte via flow matching, met grensaanduidingen en on-policy K-staps finetuning voor stabiele sampling. We introduceren ook TrajLoomBench, een uniforme benchmark die realistische en synthetische video's omvat met een gestandaardiseerde opzet die is afgestemd op videogeneratiebenchmarks. Vergeleken met state-of-the-art methodes verlengt onze aanpak de voorspellingshorizon van 24 naar 81 frames, terwijl tegelijkertijd de bewegingsrealiteit en stabiliteit over datasets wordt verbeterd. De voorspelde trajecten ondersteunen direct downstream videogeneratie en -bewerking. Code, modelcheckpoints en datasets zijn beschikbaar op https://trajloom.github.io/.

Abstractie als een geheugenefficiënte inductieve bias voor continu leren
Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Mar 17

ByElnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati, Nina Rouhani, Morteza Dehghani

De echte wereld is niet-stationair en oneindig complex, waardoor intelligente agenten continu moeten leren zonder de buitensporige kosten van hertraining vanaf nul. Hoewel online continu leren een raamwerk biedt voor deze setting, interfereert het leren van nieuwe informatie vaak met eerder verworven kennis, wat leidt tot vergeten en verminderde generalisatie. Om dit aan te pakken, stellen we Abstractie-augmented Training (AAT) voor, een aanpassing op verliesfunctieniveau die modellen aanmoedigt om de latente relationele structuur te vangen die voorbeelden gemeen hebben. Door gezamenlijk te optimaliseren over concrete instanties en hun abstracte representaties, introduceert AAT een geheugenefficiënte inductieve bias die het leren stabiliseert in strikt online datastromen, waardoor een replay-buffer overbodig wordt. Om de veelzijdige aard van abstractie te vangen, introduceren en evalueren we AAT op twee benchmarks: een gecontroleerde relationele dataset waar abstractie wordt gerealiseerd door entiteitsmaskering, en een narratieve dataset waar abstractie wordt uitgedrukt door gedeelde spreekwoorden. Onze resultaten tonen aan dat AAT prestaties bereikt die vergelijkbaar zijn met of sterker zijn dan sterke experience replay (ER) baseline-methoden, ondanks dat het nul extra geheugen vereist en slechts minimale wijzigingen aan het trainingsdoel. Dit werk benadrukt structurele abstractie als een krachtig, geheugenvrij alternatief voor ER.

VISion On Request: Verbeterde VLLM-efficiëntie met spaarzame, dynamisch geselecteerde visie-taalinteracties
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Mar 24

ByAdrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos

Bestaande benaderingen voor het verbeteren van de efficiëntie van Grote Visueel-Taalmodellen (LVLMs) zijn grotendeels gebaseerd op het concept van visuele tokenreductie. Deze aanpak creëert echter een informatiebottleneck die de prestaties aantast, vooral bij uitdagende taken die fijnmazig begrip en redenering vereisen. In dit werk dagen we dit paradigma uit door VISion On Request (VISOR) te introduceren, een methode die de inferentiekosten verlaagt zonder visuele informatie te verwijderen. In plaats van de afbeelding te comprimeren, verbetert VISOR de efficiëntie door de interactie tussen beeld- en teksttokens te verspreiden. Concreet laat het taalmodel zich richten op de volledige set hoogresolutie visuele tokens via een kleine, strategisch geplaatste set aandachtslagen: algemene visuele context wordt verschaft door efficiënte kruis-aandacht tussen tekst en beeld, terwijl enkele goed geplaatste en dynamisch geselecteerde zelf-aandachtslagen de visuele representaties zelf verfijnen, waardoor complexe, hoogresolutie redenering mogelijk wordt wanneer nodig. Gebaseerd op dit principe trainen we eerst een enkel universeel netwerk voor een reeks computationele budgetten door het aantal zelf-aandachtslagen te variëren, en introduceren we vervolgens een lichtgewicht beleidsmechanisme dat visuele berekening dynamisch toewijst op basis van de complexiteit per voorbeeld. Uitgebreide experimenten tonen aan dat VISOR de computationele kosten drastisch verlaagt terwijl het state-of-the-art resultaten evenaart of overtreft op een diverse reeks benchmarks, en uitblinkt in uitdagende taken die gedetailleerd visueel begrip vereisen.

Eén beeld is genoeg! Monoculaire training voor het genereren van nieuwe aanzichten in ongestructureerde omgevingen
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Mar 24

ByAdrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard

Monoculaire novel-view synthesis vereiste lange tijd multi-view beeldparen voor supervisie, wat de schaal en diversiteit van trainingsdata beperkte. Wij stellen dat dit niet nodig is: één beeld is voldoende. Wij presenteren OVIE, volledig getraind op ongepaarde internetbeelden. Wij benutten een monocular diepteschatter als geometrische scaffold tijdens de training: we tillen een bronbeeld op naar 3D, passen een bemonsterde cameratransformatie toe en projecteren dit om een pseudo-doelbeeld te verkrijgen. Om disocclusies te hanteren, introduceren we een gemaskeerde trainingsformulering die geometrische, perceptuele en textuurverliezen beperkt tot valide regio's, wat training op 30 miljoen ongecurateerde beelden mogelijk maakt. Tijdens inferentie is OVIE geometrie-vrij en vereist het geen diepteschatter of 3D-representatie. Uitsluitend getraind op in-the-wild beelden, overtreft OVIE eerdere methoden in een zero-shot setting, terwijl het 600x sneller is dan de op één na beste baseline. Code en modellen zijn publiekelijk beschikbaar op https://github.com/AdrienRR/ovie.

Ego2Web: Een Webagent Benchmark Gegrond in Egocentrische Video's
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Mar 23

ByShoubin Yu, Lei Shu, Antoine Yang, Yao Fu, Srinivas Sunkara, Maria Wang, Jindong Chen, Mohit Bansal, Boqing Gong

Multimodale AI-agenten automatiseren in toenemende mate complexe workflows in de echte wereld die online webuitvoering omvatten. Huidige benchmarks voor webagenten kampen echter met een kritieke beperking: ze richten zich volledig op webgebaseerde interactie en perceptie, zonder verankering in de fysieke omgeving van de gebruiker. Deze beperking maakt evaluatie in cruciale scenario's onmogelijk, zoals wanneer een agent egocentrische visuele perceptie (bijvoorbeeld via AR-brillen) moet gebruiken om een object in de omgeving van de gebruiker te herkennen en vervolgens een gerelateerde taak online moet voltooien. Om deze kloof te dichten, introduceren we Ego2Web, de eerste benchmark die egocentrische videoperceptie en webagent-uitvoering met elkaar verbindt. Ego2Web koppelt real-world eerstepersoonsvideo-opnames aan webtaken die visueel begrip, webtaakplanning en interactie in een online omgeving vereisen voor succesvolle voltooiing. We gebruiken een automatische datageneratiepijplijn in combinatie met menselijke verificatie en verfijning om goed geconstrueerde, hoogwaardige video-taakparen te creëren voor diverse soorten webtaken, waaronder e-commerce, media-retrieval, kennisopzoekingen, enz. Om nauwkeurige en schaalbare evaluatie voor onze benchmark mogelijk te maken, ontwikkelden we ook een nieuwe automatische evaluatiemethode met een grote taalmodel als rechter, Ego2WebJudge, die ongeveer 84% overeenstemming met menselijk oordeel bereikt, aanzienlijk hoger dan bestaande evaluatiemethoden. Experimenten met diverse state-of-the-art agenten op onze Ego2Web-benchmark tonen aan dat hun prestaties zwak zijn, met aanzienlijke verbeteringsmogelijkheden in alle taakcategorieën. We voerden ook een uitgebreide ablatiestudie uit naar het taakontwerp, die de noodzaak van nauwkeurig videobegrip in de voorgestelde taak en de beperkingen van huidige agenten benadrukt. We hopen dat Ego2Web een cruciale nieuwe bron kan zijn voor de ontwikkeling van werkelijk capabele AI-assistenten die naadloos kunnen zien, begrijpen en handelen in zowel de fysieke als de digitale wereld.

Onzekerheidsgestuurde Compositionele Afstemming met Deel-tot-Geheel Semantische Representativiteit in Hyperbolische Visie-Taalmodellen
Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Mar 23

ByHayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun

Hoewel Vision-Language Models (VLMs) opmerkelijke prestaties hebben bereikt, blijven hun Euclidische embeddings beperkt in het vastleggen van hiërarchische relaties, zoals deel-geheel- of ouder-kindstructuren, en hebben ze vaak moeite met multi-object compositiescenario's. Hyperbolische VLMs verlichten dit probleem door hiërarchische structuren beter te behouden en deel-geheelrelaties (d.w.z. een volledig scènebeeld en zijn deelafbeeldingen) te modelleren via implicatie. Bestaande benaderingen modelleren echter niet dat elk deel een verschillend niveau van semantische representativiteit voor het geheel heeft. Wij stellen UNcertainty-guided Compositional Hyperbolic Alignment (UNCHA) voor om hyperbolische VLMs te verbeteren. UNCHA modelleert de semantische representativiteit van deel naar geheel met hyperbolische onzekerheid, door een lagere onzekerheid toe te kennen aan meer representatieve delen en een hogere onzekerheid aan minder representatieve delen voor de gehele scène. Deze representativiteit wordt vervolgens opgenomen in het contrastieve doel met onzekerheidsgestuurde gewichten. Ten slotte wordt de onzekerheid verder gekalibreerd met een implicatieverlies geregulariseerd door een op entropie gebaseerde term. Met de voorgestelde verliezen leert UNCHA hyperbolische embeddings met een nauwkeurigere deel-geheelordening, waardoor de onderliggende compositionele structuur in een beeld wordt vastgelegd en het begrip van complexe multi-objectscènes verbetert. UNCHA behaalt state-of-the-art prestaties op benchmarks voor zero-shot classificatie, retrieval en multi-label classificatie. Onze code en modellen zijn beschikbaar op: https://github.com/jeeit17/UNCHA.git.

ABot-PhysWorld: Interactief Wereldfundamentmodel voor Robotmanipulatie met Fysica-afstemming
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Mar 24

ByYuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu

Op video gebaseerde wereldmodellen bieden een krachtig paradigma voor embodied simulatie en planning, maar state-of-the-art modellen genereren vaak fysiek onwaarschijnlijke manipulaties - zoals objectpenetratie en anti-zwaartekrachtbeweging - door training op generieke visuele data en op waarschijnlijkheid gebaseerde doelstellingen die fysieke wetten negeren. Wij presenteren ABot-PhysWorld, een 14B Diffusion Transformer-model dat visueel realistische, fysiek plausibele en actie-bestuurbare video's genereert. Gebouwd op een gecureerde dataset van drie miljoen manipulatieclips met fysica-bewuste annotatie, gebruikt het een nieuwe DPO-gebaseerde post-training framework met ontkoppelde discriminatoren om onfysisch gedrag te onderdrukken terwijl de visuele kwaliteit behouden blijft. Een parallel contextblok maakt precieze ruimtelijke actie-injectie mogelijk voor cross-embodiment controle. Ter verbetering van de evaluatie van generalisatie introduceren we EZSbench, de eerste trainings-onafhankelijke embodied zero-shot benchmark die echte en synthetische onzichtbare robot-taak-scène combinaties combineert. Het hanteert een ontkoppeld protocol om fysieke realisme en actie-alignering apart te beoordelen. ABot-PhysWorld behaalt een nieuwe state-of-the-art prestatie op PBench en EZSbench, en overtreft Veo 3.1 en Sora v2 Pro in fysieke plausibiliteit en trajectconsistentie. Wij zullen EZSbench vrijgeven om gestandaardiseerde evaluatie in embodied videogeneratie te bevorderen.

Redeneren of retoriek? Een empirische analyse van morele redeneerverklaringen in grote taalmodel
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Mar 23

ByAryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain

Redeneren grote taalmodellen moreel, of doen ze alleen maar alsof? Wij onderzoeken of LLM-reacties op morele dilemma's een daadwerkelijke ontwikkelingsprogressie vertonen volgens Kohlbergs stadia van morele ontwikkeling, of dat alignmenttraining juist redenerend-achtige output produceert die oppervlakkig lijkt op volwassen moreel oordeel, maar zonder de onderliggende ontwikkelingslijn. Met behulp van een LLM-als-rechter scoringspijplijn, gevalideerd over drie rechtermodelen, classificeren we meer dan 600 reacties van 13 LLM's met uiteenlopende architecturen, parameterschalen en trainingsregimes voor zes klassieke morele dilemma's, en voeren we tien aanvullende analyses uit om de aard en interne samenhang van de resulterende patronen te karakteriseren. Onze resultaten onthullen een opvallende omkering: reacties komen overweldigend overeen met postconventioneel redeneren (Stadia 5-6), ongeacht modelgrootte, architectuur of promptingstrategie. Dit is het effectieve omgekeerde van menselijke ontwikkelingsnormen, waar Stadium 4 domineert. Het meest opvallend is dat een subset van modellen morele ontkoppeling vertoont: een systematische inconsistentie tussen de vermelde morele rechtvaardiging en de gekozen handeling. Dit is een vorm van logische incoherentie die standhoudt over schaal en promptingstrategieën heen en een directe mislukking van redeneerconsistentie vertegenwoordigt, onafhankelijk van retorische verfijning. Modelschaal heeft een statistisch significant maar praktisch klein effect; het type training heeft geen significant onafhankelijk hoofdeffect; en modellen vertonen een bijna robotachtige consistentie over dilemma's heen, waarbij ze logisch ononderscheidbare reacties produceren voor semantisch verschillende morele problemen. Wij stellen dat deze patronen bewijs vormen voor moreel ventriloquisme: de verwerving, via alignmenttraining, van de retorische conventies van volwassen moreel redeneren, zonder de onderliggende ontwikkelingslijn die deze conventies horen te vertegenwoordigen.

Regulering van AI-agenten
Regulating AI Agents

Mar 24

ByKathrin Gardhouse, Amin Oueslati, Noam Kolt

AI-agenten – systemen die zelfstandig acties kunnen ondernemen om complexe doelstellingen te nastreven met slechts beperkt menselijk toezicht – zijn gemeengoed geworden. Deze systemen worden inmiddels op grote schaal ingezet voor het produceren van software, het uitvoeren van bedrijfsactiviteiten en het automatiseren van alledaagse persoonlijke taken. Hoewel AI-agenten raakvlakken hebben met veel rechtsgebieden, van het agentuurrecht en contractenrecht tot aansprakelijkheid uit onrechtmatige daad en arbeidsrecht, roepen zij bijzonder urgente vragen op voor de wereldwijd meest invloedrijke AI-regelgeving: de AI-verordening van de Europese Unie. De EU AI-verordening, die vóór de ontwikkeling en wijdverbreide inzet van AI-agenten werd vastgesteld, staat voor aanzienlijke obstakels bij het het hoofd bieden aan de governance-uitdagingen die voortvloeien uit deze transformerende technologie. Denk hierbij aan prestatieproblemen bij autonome taakuitvoering, het risico op misbruik van agenten door kwaadwillende actoren, en ongelijke toegang tot de economische kansen die AI-agenten bieden. Wij analyseren systematisch de reactie van de EU AI-verordening op deze uitdagingen, waarbij we ons zowel richten op de materiële bepalingen van de verordening als, cruciaal, op de institutionele kaders die de implementatie moeten ondersteunen. Onze analyse van de verdeling van monitoring- en handhavingsverantwoordelijkheden, de afhankelijkheid van zelfregulering door de industrie, en het niveau van overheidsmiddelen binnen de verordening illustreert hoe een regelgevend kader ontworpen voor conventionele AI-systemen ongeschikt kan zijn voor AI-agenten. In hun geheel suggereren onze bevindingen dat beleidsmakers in de EU en daarbuiten van koers zullen moeten veranderen, en wel snel, willen zij de volgende generatie AI-technologie effectief kunnen reguleren.

Sessie Risico Geheugen (SRG): Tijdelijke Autorisatie voor Deterministische Veiligheidsvoorzieningen bij Pre-Executie
Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Mar 22

ByFlorin Adrian Chitan

Deterministische veiligheidscontroles voor pre-uitvoering evalueren of individuele agentacties compatibel zijn met hun toegewezen rollen. Hoewel ze effectief zijn voor autorisatie per actie, zijn deze systemen structureel blind voor gedistribueerde aanvallen die schadelijke intentie verdelen over meerdere individueel-conforme stappen. Dit artikel introduceert Session Risk Memory (SRM), een lichtgewicht deterministische module die stateless uitvoeringscontroles uitbreidt met autorisatie op trajectniveau. SRM onderhoudt een compacte semantische centroid die het evoluerende gedragsprofiel van een agentsessie vertegenwoordigt en accumuleert een risicosignaal via exponentieel voortschrijdend gemiddelde over baseline-gesubtraheerde controle-uitvoer. Het werkt op dezelfde semantische vectorrepresentatie als de onderliggende controle, vereist geen extra modelcomponenten, training of probabilistische inferentie. We evalueren SRM op een multi-turn benchmark van 80 sessies met slow-burn exfiltratie, geleidelijke privilege-escalatie en compliance drift-scenario's. Resultaten tonen aan dat ILION+SRM een F1 = 1,0000 bereikt met 0% false positive rate, vergeleken met stateless ILION op F1 = 0,9756 met 5% FPR, terwijl beide systemen een detectierate van 100% behouden. Cruciaal is dat SRM alle false positives elimineert met een overhead per beurt van minder dan 250 microseconden. Het framework introduceert een conceptueel onderscheid tussen ruimtelijke autorisatieconsistentie (geëvalueerd per actie) en temporele autorisatieconsistentie (geëvalueerd over een traject), en biedt zo een principiële basis voor veiligheid op sessieniveau in agent-systemen.

STEM Agent: Een zelfaanpassende, toolondersteunde, uitbreidbare architectuur voor multi-protocol AI-agentensystemen
STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Mar 22

ByAlfred Shen, Aaron Shen

Huidige AI-agentframeworks leggen zich vroegtijdig vast op een enkel interactieprotocol, een vaste toolintegratiestrategie en statische gebruikersmodellen, wat hun inzet over diverse interactieparadigma's beperkt. Om deze beperkingen aan te pakken, introduceren we STEM Agent (Zelf-aanpassend, Tool-gestuurd, Uitbreidbaar, Multi-agent), een modulaire architectuur geïnspireerd op biologische pluripotentie waarin een ongedifferentieerde agentkern zich differentieert in gespecialiseerde protocolhandlers, toolbindingen en geheugensubsystemen die samen een volledig functionerend AI-systeem vormen. Het framework verenigt vijf interoperabiliteitsprotocollen (A2A, AG-UI, A2UI, UCP en AP2) achter een enkele gateway, introduceert een Caller Profiler die continu gebruikersvoorkeuren leert over meer dan twintig gedragsdimensies, externaliseert alle domeincapaciteiten via het Model Context Protocol (MCP) en implementeert een biologisch geïnspireerd vaardigheidsverwervingssysteem waarin terugkerende interactiepatronen kristalliseren tot herbruikbare agentvaardigheden via een rijpingslevenscyclus analoog aan celdifferentiatie. Als aanvulling hierop bevat het geheugensysteem consolidatiemechanismen, waaronder episodisch snoeien, semantische deduplicatie en patroonextractie, ontworpen voor sublineaire groei onder aanhoudende interactie. Een uitgebreide testset van 413 testen valideert het gedrag van protocolhandlers en componentintegratie over alle vijf architectuurlagen, en voltooit in minder dan drie seconden.

SHAMISA: Vormgemodelleerde Impliciete Structurele Associaties voor Zelf-gesuperviseerde Referentieloze Beeldkwaliteitsbeoordeling
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Mar 14

ByMahdi Naseri, Zhou Wang

No-Reference Image Quality Assessment (NR-IQA) heeft als doel de perceptuele kwaliteit in te schatten zonder toegang tot een referentiebeeld van onberispelijke kwaliteit. Het leren van een NR-IQA-model stuit op een fundamentele beperking: de behoefte aan een groot aantal kostbare menselijke perceptuele labels. Wij stellen SHAMISA voor, een niet-contrastief zelfgesuperviseerd raamwerk dat leert van ongelabelde verstoorde beelden door expliciet gestructureerde relationele supervisie te benutten. In tegenstelling tot eerdere methoden die rigide, binaire gelijkheidsbeperkingen opleggen, introduceert SHAMISA impliciete structurele associaties, gedefinieerd als zachte, controleerbare relaties die zowel verstoringsbewust als inhoudsgevoelig zijn, afgeleid van synthetische metadata en intrinsieke kenmerkstructuur. Een belangrijke innovatie is onze compositionele verstoringsengine, die een ontelbare familie van degradaties genereert uit continue parameterruimtes, gegroepeerd zodat slechts één verstoringsfactor per keer varieert. Dit maakt fijnmazige controle over representatiegelijkenis tijdens de training mogelijk: beelden met gedeelde verstoringspatronen worden in de embeddingruimte naar elkaar toe getrokken, terwijl variaties in ernst gestructureerde, voorspelbare verschuivingen produceren. We integreren deze inzichten via dual-source relatiegrafen die zowel bekende degradatieprofielen als emergente structurele verwantschappen coderen om het leerproces gedurende de training te sturen. Een convolutionele encoder wordt onder deze supervisie getraind en vervolgens bevroren voor inferentie, waarbij kwaliteitsvoorspelling wordt uitgevoerd door een lineaire regressor op zijn kenmerken. Uitgebreide experimenten op synthetische, authentieke en cross-dataset NR-IQA benchmarks tonen aan dat SHAMISA sterke algemene prestaties bereikt met verbeterde cross-dataset generalisatie en robuustheid, allemaal zonder menselijke kwaliteitsannotaties of contrastieve verliezen.

Reconstructie-Gestuurde Slotcurriculum: Aanpak van Objectoverfragmentatie in Video Object-Gecentreerd Leren
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Mar 24

ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo

Video Object-Centric Learning heeft als doel om ruwe video's op te splitsen in een kleine set object-slots, maar bestaande slot-attention-modellen kampen vaak met ernstige overfragmentatie. Dit komt doordat het model impliciet wordt aangemoedigd om alle slots te bezetten om de reconstructiedoelstelling te minimaliseren, waardoor een enkel object met meerdere redundante slots wordt gerepresenteerd. Wij pakken deze beperking aan met een reconstructie-gestuurd slot-curriculum (SlotCurri). De training start met slechts een paar grove slots en wijst geleidelijk nieuwe slots toe waar de reconstructiefout hoog blijft, waardoor de capaciteit alleen wordt uitgebreid waar nodig en fragmentatie vanaf het begin wordt voorkomen. Echter, tijdens slot-uitbreiding kunnen betekenisvolle sub-onderdelen alleen ontstaan als de semantiek op grof niveau reeds goed gescheiden is; met een klein initieel slot-budget en een MSE-doelstelling blijven semantische grenzen echter vaag. Daarom versterken we MSE met een structuurbewust verlies dat lokale contrast- en randinformatie behoudt, om elke slot aan te moedigen zijn semantische grenzen te verscherpen. Ten slotte stellen we een cyclische inferentie voor die slots vooruit en vervolgens achteruit door de beeldsequentie beweegt, waardoor temporeel consistente objectrepresentaties ontstaan, zelfs in de vroegste frames. Gecombineerd pakt SlotCurri object-overfragmentatie aan door representatiecapaciteit toe te wijzen waar reconstructie faalt, verder versterkt door structurele signalen en cyclische inferentie. Opmerkelijke FG-ARI-winsten van +6,8 op YouTube-VIS en +8,3 op MOVi-C valideren de effectiviteit van SlotCurri. Onze code is beschikbaar op github.com/wjun0830/SlotCurri.

Kunnen AI-agents uw gegevensvragen beantwoorden? Een benchmark voor data-agents
Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Mar 21

ByRuiying Ma, Shreya Shankar, Ruiqi Chen, Yiming Lin, Sepanta Zeighami, Rajoshi Ghosh, Abhinav Gupta, Anushrut Gupta, Tanmai Gopal, Aditya G. Parameswaran

Gebruikers in bedrijven vertrouwen steeds meer op AI-agenten om hun data te bevragen via natuurlijke taal. Het bouwen van betrouwbare data-agenten blijft echter moeilijk, omdat real-world data vaak versnipperd is over meerdere heterogene databasesystemen, met inconsistente verwijzingen en informatie die verborgen ligt in ongestructureerde tekst. Bestaande benchmarks pakken slechts afzonderlijke delen van dit probleem aan – bijvoorbeeld het vertalen van vragen in natuurlijke taal naar SQL-query's, of het beantwoorden van vragen over kleine tabellen die in de context worden meegeleverd – maar evalueren niet de volledige pijplijn van het integreren, transformeren en analyseren van data over meerdere databasesystemen heen. Om deze leemte op te vullen, presenteren we de Data Agent Benchmark (DAB), die is gebaseerd op een vormende studie van workloads voor enterprise data-agenten in zes industrieën. DAB omvat 54 query's verspreid over 12 datasets, 9 domeinen en 4 databasebeheersystemen. Op DAB behaalt het beste frontier-model (Gemini-3-Pro) slechts 38% pass@1-nauwkeurigheid. We benchmarken vijf frontier-LLM's, analyseren hun faalmodi en destilleren inzichten voor de toekomstige ontwikkeling van data-agenten. Onze benchmark en experimentcode zijn gepubliceerd op github.com/ucbepic/DataAgentBench.