HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

24 papers found

MolmoAct2: Actieredeneermodellen voor Implementatie in de Praktijk
MolmoAct2: Action Reasoning Models for Real-world Deployment

May 4

ByHaoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna

161

Vision-Language-Action (VLA)-modellen hebben als doel een enkele generalistische controller voor robots te bieden, maar de huidige systemen schieten tekort op de criteria die van belang zijn voor inzet in de praktijk. Frontier-modellen zijn gesloten, open-weight alternatieven zijn gekoppeld aan dure hardware, reasoning-augmented policies betalen een verboden hoge latentie voor hun grounding, en fijn afgestemde slagingspercentages blijven onder de drempel voor betrouwbaar gebruik. Wij presenteren MolmoAct2, een volledig open action reasoning-model gebouwd voor praktische inzet, dat zijn voorganger op vijf assen verbetert. Wij introduceren MolmoER, een VLM-backbone gespecialiseerd in ruimtelijk en embodied reasoning, getraind op een corpus van 3,3 miljoen samples met een specialiseer-dan-repeteer recept. Wij brengen drie nieuwe datasets uit die low-to-medium cost platforms bestrijken, waaronder MolmoAct2-BimanualYAM, 720 uur aan telegeoperreerde bimanuele trajecten die de grootste open bimanuele dataset tot op heden vormen, samen met kwalitatief gefilterde Franka (DROID) en SO100/101 subsets. Wij bieden OpenFAST, een open-weight, open-data action tokenizer getraind op miljoenen trajecten over vijf embodimenten. Wij herontwerpen de architectuur om een flow-matching continuous-action expert te enten op een discrete-token VLM via per-layer KV-cache conditioning. Ten slotte stellen wij MolmoThink voor, een adaptieve-diepte reasoning-variant die alleen dieptetokens opnieuw voorspelt voor scènegebieden die tussen tijdstappen veranderen, waardoor geometrische grounding behouden blijft tegen een fractie van de eerdere latentie. In de meest uitgebreide empirische studie van enige open VLA tot nu toe, die 7 simulatie- en praktijkbenchmarks omvat, presteert MolmoAct2 beter dan sterke baselines, waaronder Pi-05, terwijl MolmoER GPT-5 en Gemini Robotics ER-1.5 overtreft over 13 embodied-reasoning benchmarks. Wij geven modelgewichten, trainingscode en complete trainingsdata vrij. Projectpagina: https://allenai.org/blog/molmoact2

Van Context naar Vaardigheden: Kunnen Taalmodellen Vaardig Leren uit Context?
From Context to Skills: Can Language Models Learn from Context Skillfully?

May 3

ByShuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun

120

Veel real-worldtaken vereisen dat taalmodelen kunnen redeneren over complexe contexten die hun parametrische kennis overstijgen. Dit vraagt om contextleren, waarbij taalmodelen relevante kennis rechtstreeks uit de gegeven context leren. Een intuïtieve oplossing is vaardigheidsuitbreiding tijdens inferentie: het extraheren van regels en procedures uit de context naar natuurlijke-taalskills. Het construeren van dergelijke skills voor contextleerscenario's kampt echter met twee uitdagingen: de onhoudbare kosten van handmatige skillannotatie voor lange, technisch dense contexten, en het ontbreken van externe feedback voor geautomatiseerde skillconstructie. In dit artikel stellen we Ctx2Skill voor, een zelf-evoluerend framework dat autonoom context-specifieke skills ontdekt, verfijnt en selecteert zonder menselijk toezicht of externe feedback. Centraal staat een multi-agent self-play-lus met een Challenger die verkennende taken en rubrics genereert, een Reasoner die deze probeert op te lossen geleid door een evoluerende skillset, en een neutrale Judge die binaire feedback verschaft. Cruciaal is dat zowel de Challenger als de Reasoner evolueren door opgestapelde skills: toegewijde Proposer- en Generator-agents analyseren faalgevallen en synthetiseren deze tot gerichte skillupdates voor beide kanten, wat geautomatiseerde skillontdekking en -verfijning mogelijk maakt. Om adversariële collaps te voorkomen – veroorzaakt door steeds extremere taakgeneratie en overgespecialiseerde skillaccumulatie – introduceren we een Cross-time Replay-mechanisme dat de skillset identificeert die de beste balans bereikt over representatieve gevallen voor de Reasoner-kant, zodat robuuste en generaliseerbare skill-evolutie gewaarborgd is. De resulterende skills kunnen in elk taalmodel worden ingeplugd om betere contextleercapaciteit te verkrijgen. Geëvalueerd op vier contextleertaken uit CL-bench verbetert Ctx2Skill consistent de oplossingspercentages across backbone-modellen.

Wederhaling boven Diversiteit: Hoogwaardige Datafiltering voor Efficiënte Duitse Taalmodellering
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Apr 30

ByAnsar Aynetdinov, Patrick Haller, Alan Akbik

Recent onderzoek heeft aangetoond dat het filteren van enorme Engelstalige webcorpora naar hoogwaardige subsets de trainingsefficiëntie aanzienlijk verbetert. Voor talen met veel bronnen, zoals Duits, Frans of Japans, creëert agressief filteren echter een strategisch dilemma: moeten beoefenaars diversiteit prioriteren door één keer te trainen op grote hoeveelheden licht gefilterde webgegevens, of moeten ze kwaliteit prioriteren door strikt te filteren voor een hoogwaardige kern en deze over meerdere epochs te herhalen? Wij onderzoeken deze afweging voor het Duits door hiërarchische kwaliteitsfilters te construeren die worden toegepast op 500 miljoen webdocumenten, waarbij we training over meerdere epochs op de gefilterde subsets vergelijken met single-pass training op een divers corpus. Onze experimenten over verschillende modelschalen en tokenbudgets tonen aan dat het herhalen van hoogwaardige gegevens consistent beter presteert dan single-pass training op grotere, minder gefilterde sets. Opmerkelijk is dat het prestatieverschil aanhoudt, zelfs na 7 epochs. Onze bevindingen suggereren dat voor niet-Engelstalige LLM's semantische concentratie door kwaliteitsfiltering een haalbaarder pad biedt naar efficiënte taalmodellering dan het simpelweg maximaliseren van het volume unieke gegevens. Wij geven onze Duitse taalmodelen (genaamd Boldt), evenals onze opgeschoonde evaluatiebenchmarks, vrij aan de onderzoeksgemeenschap. Onze experimenten geven aan dat zij state-of-the-art resultaten behalen, ondanks training op 10-360x minder tokens dan vergelijkbare modellen.

Aanhoudend Visueel Geheugen: Het Behoud van Waarneming voor Diepe Generatie in LVLM's
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

May 1

BySiyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng

Hoewel autoregressieve grote visueel-taalmodelen (LVLM's) opmerkelijke bekwaamheid vertonen in multimodale taken, kampen ze met een "verdunning van visuele signalen": de opeenstapeling van tekstuele geschiedenis vergroot de partitiefunctie van aandacht, waardoor de visuele aandacht omgekeerd evenredig afneemt met de gegenereerde sequentielengte. Om dit tegen te gaan, stellen wij Persistent Visueel Geheugen (PVM) voor, een lichtgewicht leerbare module die duurzame, op vraag gebaseerde visuele perceptie garandeert. Geïntegreerd als een parallelle tak naast het Feed-Forward Netwerk (FFN) in LVLM's, creëert PVM een afstandsongevoelig retrievpad dat direct visuele inbeddingen verschaft voor precieze visuele perceptie, waardoor de inherente signaalonderdrukking bij diepe generatie structureel wordt gemitigeerd. Uitgebreide experimenten met Qwen3-VL-modellen tonen aan dat PVM aanzienlijke verbeteringen oplevert met verwaarloosbare parameteroverhead, en consistente gemiddelde nauwkeurigheidswinst biedt op zowel 4B- als 8B-schaal, vooral in complexe redeneertaken die aanhoudende visuele perceptie vereisen. Verder toont diepgaande analyse aan dat PVM lengte-geïnduceerde signaalverval kan weerstaan en interne voorspellingsconvergentie versnelt.

OceanPile: Een grootschalig multimodaal oceaan-corpus voor fundamentele modellen
OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Apr 25

ByYida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen

De uitgestrekte en onderbelichte oceaan speelt een cruciale rol in de regulering van het wereldwijde klimaat en het ondersteunen van mariene biodiversiteit, maar kunstmatige intelligentie heeft tot dusver een beperkte impact geleverd in dit domein vanwege een fundamenteel dataknelpunt. Concreet zijn oceaangegevens sterk gefragmenteerd over uiteenlopende bronnen en vertonen ze inherent multi-modale, ruisgevoelige en zwak gelabelde kenmerken, waarbij uniforme schema's en semantische afstemming ontbreken. Hoewel Multimodale Large Language Models (MLLM's) opmerkelijke successen hebben geboekt in algemene domeinen, blijft hun toepassing in de oceanografie ernstig beperkt door het ontbreken van grootschalige, goed afgestemde multimodale datasets die zijn toegesneden op mariene omgevingen. Om deze kloof te overbruggen, introduceren wij OceanPile, een grootschalig multimodaal corpus voor oceanische foundation-modellen. Het omvat drie kerncomponenten: OceanCorpus, een uniforme verzameling van sonardata, onderwaterbeelden, marien-wetenschappelijke visuals en wetenschappelijke tekst uit diverse gezaghebbende bronnen; OceanInstruction, een hoogwaardige instructiedataset gesynthetiseerd via een nieuwe pijplijn geleid door een hiërarchische Ocean Concept Knowledge Graph; en OceanBenchmark, een handmatig samengestelde evaluatiestandaard voor rigoureuze beoordeling. Wij hebben een meerfasen kwaliteitscontroleproces opgezet om wetenschappelijke validiteit en afstemming tussen modaliteiten te waarborgen. Experimentele validatie toont significante prestatieverbeteringen aan voor modellen die op onze data zijn getraind. Alle datasets worden openbaar vrijgegeven om het vakgebied van mariene kunstmatige intelligentie vooruit te helpen en domeinspecifieke MLLM's te versterken.

Hallucinaties Ondermijnen Vertrouwen; Metacognitie Biedt een Uitweg
Hallucinations Undermine Trust; Metacognition is a Way Forward

May 2

ByGal Yona, Mor Geva, Yossi Matias

Ondanks aanzienlijke vooruitgang in feitelijke betrouwbaarheid, blijven fouten – vaak aangeduid als hallucinaties – een groot probleem vormen voor generatieve AI, vooral nu van grote taalmodellen (LLM's) in toenemende mate wordt verwacht dat ze behulpzaam zijn in complexere of genuanceerdere situaties. Maar zelfs in de eenvoudigste setting – het beantwoorden van feitelijke vragen met een duidelijke grondwaarheid – blijven toonaangevende modellen zonder externe hulpmiddelen hallucineren. Wij stellen dat de meeste verbeteringen in feitelijkheid op dit gebied zijn voortgekomen uit het verleggen van de kennisgrenzen van het model (het coderen van meer feiten) in plaats van uit het verbeteren van het bewustzijn van die grenzen (het onderscheiden van bekende van onbekende informatie). Onze veronderstelling is dat dit laatste inherent moeilijk is: modellen hebben mogelijk niet het onderscheidend vermogen om waarheden perfect van fouten te scheiden, wat een onvermijdelijke wisselwerking creëert tussen het elimineren van hallucinaties en het behouden van functionaliteit. Deze wisselwerking verdwijnt bij een andere benadering. Als we hallucinaties opvatten als zelfverzekerde fouten – incorrecte informatie die zonder de juiste kwalificatie wordt gepresenteerd – dan duikt er een derde weg op, voorbij de dichotomie van antwoorden of afzien: het uiten van onzekerheid. Wij stellen *getrouwe onzekerheid* voor: het afstemmen van linguïstische onzekerheid op intrinsieke onzekerheid. Dit is een facet van metacognitie – het vermogen om zich bewust te zijn van de eigen onzekerheid en ernaar te handelen. Voor directe interactie betekent handelen naar onzekerheid dat men deze eerlijk communiceert; voor agent-systemen wordt het de controlelaag die bepaalt wanneer er gezocht moet worden en wat vertrouwd kan worden. Metacognitie is daarom essentieel om LLM's zowel betrouwbaar als capabel te maken; wij sluiten af door belangrijke openstaande problemen te belichten die moeten worden opgelost om dit doel te bereiken.

AcademiClaw: Wanneer Studenten Uitdagingen Stellen voor AI-agenten
AcademiClaw: When Students Set Challenges for AI Agents

May 4

ByJunjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang, Qiran Zhang, Xiuting Guo, Xuanyu Wang, Yang Wang, Yanjie Wang, Yi Yang, Zijian Hu, Ziyi Yang, Zonghan Zhou, Binghao Qiang, Borui Zhang, Chenning Li, Enchang Zhang, Feifan Chen, Feng Jian, Fengyin Sun, Hao Qiu, Hao Zheng, Haoran Zhu, Hongyu Liu, Jianbin Deng, Jiaxin Song, Jiaying Chi, Jiayou Shi, Jie Fang, Jinghui Zhong, Jingyu Zhou, Jinze Li, Junfeng Yi, Junyan Yu, Junzhi Xue, Ni Song, Pengyi Chen, Qi Chen, Quansheng Li, Rui Tao, Shenghai Gong, Shenhang Lu, Tianqi Shen, Tianxiang Zhu, Tiehan Kang, Tingyu Li, Wendi Wu, Xiao Shen, Xiao Zhou, Xiaotao Zhang, Xinrong Li, Xuankun Yang, Xun Zhang, Yan Li, Ye Lu, Yi Wang, Yibo Zhou, Yichi Zhang, Yihao Sun, Yijun Huang, Yixin Zhu, Yixuan Wu, Yuchen Sun, Yue Wu, Yuheng Sun, Yukun Li, Yutian Tu, Yuxuan Qin, Yuzhuo Wu, Zeyu Li, Zhengyu Lou, Zhenning Ran, Zizhu He, Pengfei Liu

Benchmarks binnen het OpenClaw-ecosysteem hebben tot dusver uitsluitend assistent-niveau taken geëvalueerd, waardoor de academische capaciteiten van OpenClaw grotendeels ononderzoek zijn gebleven. Wij introduceren AcademiClaw, een tweetalige benchmark bestaande uit 80 complexe, langetermijntaken die rechtstreeks afkomstig zijn uit de werkelijke academische workflows van universiteitsstudenten – huiswerk, onderzoeksprojecten, competities en persoonlijke projecten – die volgens hen niet effectief konden worden opgelost door huidige AI-agenten. De definitieve takenreeks, gecureerd uit 230 door studenten ingediende kandidaten via een rigoureuze expertreview, beslaat meer dan 25 professionele domeinen, variërend van olympiade-niveau wiskunde en taalkundige problemen tot GPU-intensieve reinforcement learning en full-stack systeemdebugging, waarbij 16 taken CUDA GPU-uitvoering vereisen. Elke taak wordt uitgevoerd in een geïsoleerde Docker-sandbox en wordt beoordeeld op taakvoltooiing aan de hand van multidimensionale rubrics die zes complementaire technieken combineren, met een onafhankelijke veiligheidsaudit in vijf categorieën voor aanvullend gedragsanalyse. Experimenten met zes frontier-modellen tonen aan dat zelfs het beste model slechts een slagingspercentage van 55\% behaalt. Verdere analyse onthult scherpe capaciteitsgrenzen tussen taakdomeinen, uiteenlopende gedragsstrategieën tussen modellen en een kloof tussen tokenverbruik en outputkwaliteit, wat fijnmazige diagnostische signalen oplevert die verder gaan wat aggregatemetrieken onthullen. Wij hopen dat AcademiClaw en zijn open-source data en code een nuttige bron kunnen zijn voor de OpenClaw-gemeenschap, en vooruitgang kunnen stimuleren naar agenten die capabeler en veelzijdiger zijn in de volledige breedte van reële academische eisen. Alle data en code zijn beschikbaar op https://github.com/GAIR-NLP/AcademiClaw.

ComboStoc: Combinatorische Stochastiek voor Diffusie Generatieve Modellen
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

Apr 29

ByRui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang

In dit artikel onderzoeken we een onderbelichte maar belangrijke factor van diffusiegeneratieve modellen, namelijk de combinatorische complexiteit. Datamonsters zijn over het algemeen hoogdimensionaal, en voor diverse gestructureerde generatietaken worden aanvullende attributen gecombineerd om aan datamonsters te koppelen. Wij tonen aan dat de ruimte die wordt opgespannen door de combinatie van dimensies en attributen onvoldoende wordt gedekt door bestaande trainingsschema's van diffusiegeneratieve modellen, wat de prestaties tijdens de testfase mogelijk beperkt. Wij presenteren een eenvoudige oplossing voor dit probleem door stochastische processen te construeren die de combinatorische structuren volledig benutten, vandaar de naam ComboStoc. Met deze eenvoudige strategie tonen we aan dat netwerktraining aanzienlijk wordt versneld over diverse datamodaliteiten, waaronder afbeeldingen en gestructureerde 3D-vormen. Bovendien stelt ComboStoc een nieuwe manier van genereren tijdens de testfase in staat, waarbij asynchrone tijdstappen worden gebruikt voor verschillende dimensies en attributen, waardoor verschillende gradaties van controle over deze mogelijk worden. Onze code is beschikbaar op: https://github.com/Xrvitd/ComboStoc

PhysicianBench: Evaluatie van LLM-agents in Realistische EHR-omgevingen
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

May 4

ByRuoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen

Wij introduceren PhysicianBench, een benchmark voor het evalueren van LLM-agenten op artsentaken, gebaseerd op een reële klinische setting binnen elektronische patiëntendossier (EPD)-omgevingen. Bestaande medische agentenbenchmarks richten zich voornamelijk op statische kennisrecall, enkelstaps atomische acties, of actie-intentie zonder verifieerbare uitvoering tegen de omgeving. Hierdoor slagen zij er niet in om de langetermijn, samengestelde workflows vast te leggen die kenmerkend zijn voor echte klinische systemen. PhysicianBench omvat 100 langetermijntaken, aangepast uit echte consultatiegevallen tussen huisartsen en specialisten, waarbij elke taak onafhankelijk werd beoordeeld door een apart panel van artsen. Taken worden geïnstantieerd in een EPD-omgeving met echte patiëntendossiers en toegankelijk gemaakt via dezelfde standaard-API's die door commerciële EPD-leveranciers worden gebruikt. De taken beslaan 21 specialismen (bijv. cardiologie, endocrinologie, oncologie, psychiatrie) en diverse workflowtypen (bijv. diagnose-interpretatie, medicatievoorschrijven, behandelplanning), waarbij gemiddeld 27 toolaanroepen per taak nodig zijn. Het oplossen van elke taak vereist het ophalen van gegevens across encounters, redeneren over heterogene klinische informatie, het uitvoeren van consequente klinische acties en het produceren van klinische documentatie. Elke taak wordt opgedeeld in gestructureerde checkpoints (670 in totaal verspreid over de benchmark) die afzonderlijke voltooiingsstadia vastleggen, beoordeeld door taakspecifieke scripts met op uitvoering gebaseerde verificatie. Over 13 propriëtaire en open-source LLM-agenten heen, behaalt het best presterende model slechts een slagingspercentage van 46% (pass@1), terwijl open-source modellen maximaal 19% bereiken, wat een aanzienlijke kloof onthult tussen de huidige agentcapaciteiten en de eisen van real-world klinische workflows. PhysicianBench biedt een realistische en op uitvoering gebaseerde benchmark om de voortgang naar autonome klinische agenten te meten.

T²PO: Onzekerheidsgestuurde Verkenning voor Stabiele Multi-Turn Agentische Versterkingsleren
T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

May 4

ByHaixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun

Recente vooruitgang in multi-turn reinforcement learning (RL) heeft de prestaties van redenerende grote taalmodelen (LLMs) op complexe interactieve taken aanzienlijk verbeterd. Ondanks vorderingen in stabilisatietechnieken zoals fijnmazige credit assignment en trajectfiltering, blijft instabiliteit wijdverbreid en leidt dit vaak tot trainingscollaps. Wij stellen dat deze instabiliteit voortvloeit uit inefficiënte exploratie in multi-turn settings, waarbij beleidsmodellen aanhouden met het genereren van acties met weinig informatie, die noch onzekerheid verminderen noch de taakvoortgang bevorderen. Om dit probleem aan te pakken, stellen wij Token- en Turn-level Policy Optimization (T²PO) voor, een onzekerheidsbewust raamwerk dat exploratie expliciet aanstuurt op fijnmazige niveaus. Op tokenniveau monitort T²PO de onzekerheidsdynamiek en activeert het een denkinterventie zodra de marginale onzekerheidsverandering onder een drempelwaarde zakt. Op turnniveau identificeert T²PO interacties met verwaarloosbare exploratievooruitgang en resamplet het dergelijke turns dynamisch om verspilling van rollouts te voorkomen. Wij evalueren T²PO in diverse omgevingen, waaronder WebShop, ALFWorld en Search QA, en tonen substantiële winst aan in trainingsstabiliteit en prestatieverbeteringen met een betere exploratie-efficiëntie. Code is beschikbaar op: https://github.com/WillDreamer/T2PO.

Hiërarchische Abstracte Boom voor Cross-Document Retrieval-Augmented Generation
Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

May 1

ByZiwen Zhao, Menglin Yang

Retrieval-augmented generation (RAG) versterkt grote taalmodel(len) met externe kennis, waarbij op bomen gebaseerde RAG documenten organiseert in hiërarchische indexen om queries op meerdere granulariteiten te ondersteunen. Bestaande Tree-RAG-methoden, ontworpen voor retriev(al) uit één document, kampen echter met kritieke uitdagingen bij het schalen naar multi-hop vragen over meerdere documenten: (1) slechte distributie-adaptatie, waarbij k-means-clustering ruis introduceert door rigide distributieaannames; (2) structurele isolatie, omdat boomindexen expliciete verbindingen tussen documenten missen; en (3) grove abstractie, waardoor fijnmazige details verloren gaan. Om deze beperkingen aan te pakken, stellen we Ψ-RAG voor, een tree-RAG-framework met twee kerncomponenten. Ten eerste een hiërarchische abstracte boomindex, opgebouwd via een iteratief "samenvoeg- en collaps"-proces dat zich aanpast aan datadistributies zonder a priori-aanname. Ten tweede een multi-granulaire retriev(al)-agent die intelligent interacteert met de kennisbank via herziene queries en een hybride retriever aangedreven door een agent. Ψ-RAG ondersteunt uiteenlopende taken, van vraagbeantwoording op tokenniveau tot samenvatting op documentniveau. Op benchmarks voor multi-hop vraagbeantwoording over meerdere documenten presteert het gemiddeld 25,9% beter dan RAPTOR en 7,4% beter dan HippoRAG 2 in F1-score. Code is beschikbaar op https://github.com/Newiz430/Psi-RAG.

Perceptueel Stroomnetwerk voor Visueel Gegronde Redenering
Perceptual Flow Network for Visually Grounded Reasoning

May 4

ByYangfu Li, Yuning Gong, Hongjian Zhan, Teng Li, Yuanhuiyi Lyu, Tianyi Chen, Qi Liu, Ziyuan Huang, Zhihang Zhong, Dandan Zheng, Yue Lu

Ondanks het succes van Large Vision Language Models (LVLMs) slagen algemene optimalisatiedoelen (zoals standaard MLE) er niet in visuele trajecten te begrenzen, wat leidt tot taalvervorming en hallucinatie. Om dit te beperken, introduceren huidige methoden geometrische prioren van visuele experts als aanvullende supervisie. Wij merken echter op dat dergelijke supervisie typisch suboptimaal is: ze is bevooroordeeld naar geometrische precisie en biedt beperkte redeneernuttigheid. Om deze kloof te overbruggen, stellen wij Perceptual Flow Network (PFlowNet) voor, dat rigide afstemming met de expertprioren vermijdt en interpreteerbaar doch effectiever visueel redeneren bereikt. Concreet ontkoppelt PFlowNet perceptie van redenering om een zelf-geconditioneerd generatieproces op te zetten. Op basis hiervan integreert het multidimensionale beloningen met vicinale geometrische vormgeving via variational reinforcement learning, waardoor redeneringsgerichte perceptuele gedragingen worden gefaciliteerd terwijl visuele betrouwbaarheid behouden blijft. PFlowNet biedt een bewijsbare prestatiegarantie en competitieve empirische resultaten, waarbij het met name nieuwe state-of-the-art records vestigt op V* Bench (90,6%) en MME-RealWorld-lite (67,0%).

HiL-Bench (Human-in-Loop Benchmark): Weten agenten wanneer ze om hulp moeten vragen?
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Apr 29

ByMohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu

Frontline coderende AI-agenten lossen complexe taken op wanneer ze volledige context krijgen, maar falen wanneer specificaties onvolledig of dubbelzinnig zijn. Het knelpunt is niet de ruwe capaciteit, maar het beoordelingsvermogen: weten wanneer autonoom te handelen en wanneer om hulp te vragen. Huidige benchmarks zijn blind voor deze faalmodus. Zij verstrekken eenduidige, gedetailleerde instructies en belonen alleen uitvoeringsnauwkeurigheid, waardoor een agent die een ontbrekende vereiste gelukkig raadt, dezelfde score krijgt als een agent die zou hebben gevraagd om zekerheid. Wij presenteren HiL-Bench (Human-in-the-Loop Benchmark) om deze vaardigheid van selectieve escalatie te meten. Elke taak bevat door mensen gevalideerde blokkades (ontbrekende informatie, vage verzoeken, tegenstrijdige informatie) die alleen naar voren komen door progressieve verkenning, niet door voorafgaande inspectie. Onze kernmetriek, Ask-F1, het harmonisch gemiddelde van vraagprecisie en blokkade-recall, vat de spanning tussen overmatig vragen en stilzwijgend gissen; de structuur ervan voorkomt architectonisch misbruik door vraagspam. Evaluatie in de domeinen Software Engineering (SWE) en tekst-naar-SQL onthult een grote, universele kloof in het beoordelingsvermogen: geen enkel frontlinie-model herstelt meer dan een fractie van zijn prestaties bij volledige informatie wanneer het zelf moet beslissen of het moet vragen. Foutenanalyse identificeert drie belangrijke hulpzoekpatronen: overmoedige verkeerde overtuigingen zonder kloopdetectie; hoge onzekerheidsdetectie maar aanhoudende fouten; brede, onnauwkeurige escalatie zonder zelfcorrectie. Deze consistente patronen bevestigen dat slecht hulp zoeken een modelniveau-fout is, niet taakspecifiek. RL-training met een gevormde Ask-F1 beloning laat zien dat beoordelingsvermogen trainbaar is: een 32B-model verbetert zowel de kwaliteit van het hulp zoeken als de taakslaagpercentages, waarbij de winst overdraagbaar is tussen domeinen. Het model leert geen domeinspecifieke heuristieken voor wanneer het moet vragen; het leert om onoplosbare onzekerheid te detecteren en ernaar te handelen.

Generatief Modelleren met Orbit-Ruimte Deeltjestransportoptimalisatie
Generative Modeling with Orbit-Space Particle Flow Matching

May 4

BySinan Wang, Jinjin He, Shenyifan Lu, Ruicheng Wang, Greg Turk, Bo Zhu

Wij presenteren Orbit-Space Geometric Probability Paths (OGPP), een deeltjes-native flow-matching-framework voor generatieve modellering van deeltjessystemen. OGPP is gemotiveerd door twee inzichten: (i) deeltjes zijn gedefinieerd op permutatiesymmetrieën na, waardoor anonieme indexering de variantie per index opblaast en gebogen, moeilijk aan te leren flows oplevert; en (ii) deeltjes bevinden zich in de fysieke ruimte, waardoor de eindsnelheid van de flow een fysieke betekenis heeft en geometrische attributen kan coderen, zoals oppervlaknormalen. OGPP implementeert drie kerncomponenten: (1) kanonisering van het eindpunt van de waarschijnlijkheidspad in de baanruimte, (2) inbeddingen van deeltjesindexen voor rollenspecialisatie, en (3) geometrische waarschijnlijkheidspaden met booglengte-bewuste eindsnelheden die normalen genereren als een bijproduct van de flow. Wij evalueren OGPP op minimale-oppervlak-benchmarks, waar het de metrieke fout met tot twee orden van grootte reduceert in één inferentiestap; op ShapeNet, waar het de stand-van-de-techniek evenaart met 5x minder stappen en een EMD voor vliegtuigen bereikt die vergelijkbaar is met DiT-3D met 26x minder parameters en 5x minder stappen; en op encodering van enkele vormen, waar het normalen en reconstructies produceert die concurrerend zijn met 6D-generatoren, terwijl het volledig in 3D opereert.

Globale Visuele Modellering in Lineaire Tijd zonder Expliciete Aandacht
Linear-Time Global Visual Modeling without Explicit Attention

May 3

ByRuize He, Dongchen Han, Gao Huang

Bestaand onderzoek schrijft het wereldwijde sequentiemodelleringsvermogen van Transformers grotendeels toe aan de expliciete berekening van aandachtswaarden, een proces dat inherent kwadratische computationele complexiteit met zich meebrengt. In dit werk bieden wij een nieuw perspectief: wij tonen aan dat aandacht wiskundig kan worden herformuleerd als een Multi-Layer Perceptron (MLP) uitgerust met dynamisch voorspelde parameters. Door deze lens verklaren we het globale modelleringsvermogen van aandacht niet als een expliciete aggregatie van tokens, maar als een impliciet proces waarbij dynamisch gegenereerde parameters fungeren als een gecomprimeerde representatie van de globale context. Geïnspireerd door dit inzicht onderzoeken we een fundamentele vraag: kunnen we Transformer-niveau van globale sequentiemodellering volledig bereiken via dynamische parameterisatie met behoud van lineaire complexiteit, en daarbij expliciete aandacht effectief vervangen? Om dit te verkennen, ontwerpen we verschillende strategieën voor dynamische parameterpredictie en integreren deze in standaard netwerklagen. Uitgebreide empirische studies met visionmodellen tonen aan dat dynamische parameterisatie inderdaad een zeer effectief, lineair-complex alternatief kan zijn voor expliciete aandacht, wat nieuwe wegen opent voor efficiënte sequentiemodellering. Code is beschikbaar op https://github.com/LeapLabTHU/WeightFormer.

Agentische AI-systemen moeten worden ontworpen als marginale tokenallocatoren.
Agentic AI Systems Should Be Designed as Marginal Token Allocators

May 2

BySiqi Zhu

Dit position paper betoogt dat agentische AI-systemen moeten worden ontworpen en geëvalueerd als economieën voor marginale tokenallocatie, in plaats van als tekstgeneratoren die per eenheid worden geprijsd. We volgen een enkele verzoek – een ontwikkelaar die een codeeragent vraagt een falende test te repareren – door vier economische lagen die tegenwoordig geïsoleerd worden ontworpen: een router die beslist welk model antwoordt, een agent die beslist of hij moet plannen, handelen, verifiëren of uitstellen, een serverstack die beslist hoe elke token wordt geproduceerd, en een trainingspijplijn die beslist of de trace de moeite waard is om van te leren. We tonen aan dat alle vier de lagen dezelfde eerstegraadsvoorwaarde oplossen – marginaal voordeel is gelijk aan marginale kosten plus latentiekosten plus risicokosten – maar met verschillende indexverzamelingen en verschillende prijzen. Het kader is opzettelijk minimaal: we stellen geen complete theorie van AI-economie voor. Maar door marginale tokenallocatie als het gedeelde boekhoudkundige object te adopteren, verklaart het waarom systemen die tokens lokaal minimaliseren ze globaal verkeerd alloceren, voorspelt het een kleine set terugkerende faalwijzen (over-routing, over-delegatie, onder-verificatie, servercongestie, verouderde rollouts, misbruik van cache), en wijst het naar een concrete onderzoeksagenda voor tokenbewuste evaluatie, autonomieprijzing, congestiegeprijsde servering en risicogecorrigeerde RL-begroting.

Tellen als minimale test voor de betrouwbaarheid van taalmodellen
Counting as a minimal probe of language model reliability

May 3

ByTianxiang Dai, Jonathan Fan

Grote taalmodellen presteren sterk op benchmarks voor wiskundig redeneren, coderen en documentanalyse, wat wijst op een breed vermogen om instructies te volgen. Het blijft echter onduidelijk of dit succes een algemene logische competentie weerspiegelt, de herhaalde toepassing van aangeleerde procedures, of patroonherkenning die regeluitvoering nabootst. Wij onderzoeken deze vraag door de Introductie van Stabiel Telvermogen, een toets waarbij modellen herhaalde symbolen tellen totdat ze falen. Deze toets verwijdert kennisdependencies, semantiek en ambiguïteit uit de evaluatie, vermijdt lexicale en tokenisatieverstorende factoren, en biedt een directe maatstaf voor procedurele betrouwbaarheid die verder gaat dan standaard kennisgebaseerde benchmarks. Hier tonen wij aan, over meer dan 100 modelvarianten, dat het stabiele telvermogen ver onder de geadverteerde contextlimieten blijft. Het modelgedrag is consistent noch met open-ended logica, noch met de stabiele toepassing van een aangeleerde regel, maar eerder met het gebruik van een beperkte set telachtige interne toestanden, vergelijkbaar met tellen op de vingers. Zodra deze resource uitgeput is, verdwijnt de schijn van regelvolgend gedrag en stort exacte uitvoering ineen in gokken, zelfs met extra rekencapaciteit tijdens het testen. Deze bevindingen tonen aan dat vloeiende prestaties van huidige taalmodellen geen algemene, betrouwbare regelvolging garanderen.

Verslag over de Paraatheid van Codewereldmodellen
Code World Model Preparedness Report

May 1

ByDaniel Song, Peter Ney, Cristina Menghini, Faizan Ahmad, Aidan Boyd, Nathaniel Li, Ziwen Han, Jean-Christophe Testud, Saisuke Okabayashi, Maeve Ryan, Jinpeng Miao, Hamza Kwisaba, Felix Binder, Spencer Whitman, Jim Gust, Esteban Arcaute, Dhaval Kapil, Jacob Kahn, Ayaz Minhas, Tristan Goodman, Lauren Deason, Alexander Vaughan, Shengjia Zhao, Summer Yue

Dit rapport documenteert de paraatheidsbeoordeling van Code World Model (CWM), een model van Meta voor codegeneratie en redeneren over code. Wij hebben pre-releasetests uitgevoerd op domeinen die in ons Frontier AI-raamwerk zijn geïdentificeerd als mogelijk catastrofale risico's met zich meebrengend, en hebben tevens de verkeerd afgestelde neigingen van het model geëvalueerd. Onze beoordeling concludeert dat CWM geen additionele frontierrisico's vormt buiten de reeds aanwezige risico's in het huidige AI-ecosysteem. Derhalve geven wij het vrij als een model met open gewichten.

Beoordeling van Vasculaire Invasie bij Pancreatisch Ductaal Adenocarcinoom: de PDACVI-benchmark
Assessing Pancreatic Ductal Adenocarcinoma Vascular Invasion: the PDACVI Benchmark

Apr 30

ByM. Riera-Marín, O. K. Sikha, J. Rodríguez-Comas, M. S. May, T. Kirscher, X. Coubez, P. Meyer, S. Faisan, Z. Pan, X. Zhou, X. Liang, C. Hémon, V. Boussot, J. -L. Dillenseger, J. -C. Nunes, K. -C. Kahl, C. Lüth, J. Traub, P. -H. Conze, M. M. Duh, A. Aubanell, R. de Figueiredo Cardoso, S. Egger-Hackenschmidt, J. García-López, M. A. González-Ballester, A. Galdran

Chirurgische resectie blijft de enige potentieel curatieve behandeling voor ductaal adenocarcinoom van de pancreas (PDAC), en geschiktheid hiervoor hangt af van een nauwkeurige beoordeling van vasculaire invasie (VI), ofwel de uitbreiding van de tumor naar aangrenzende kritieke bloedvaten. Ondanks het belang voor preoperatieve stadiering en chirurgische planning blijft computationele VI-beoordeling onderbelicht. Twee grote uitdagingen zijn het gebrek aan openbare datasets en de diagnostische ambiguïteit aan het tumor-vat grensvlak, wat leidt tot aanzienlijke variabiliteit tussen beoordelaars, zelfs onder ervaren radiologen. Om deze beperkingen aan te pakken, introduceren we de CURVAS-PDACVI Dataset en Challenge, een open benchmark voor onzekerheidsbewuste kunstmatige intelligentie bij PDAC-stadiering, gebaseerd op een dicht geannoteerde dataset met vijf onafhankelijke expertannotaties per scan. Wij stellen ook een multi-metrisch evaluatieraamwerk voor dat verder gaat dan ruimtelijke overlap en ook probabilistische kalibratie en VI-beoordeling omvat. Evaluatie van zes state-of-the-art methoden toont aan dat een sterke globale volumetrische overlap niet noodzakelijkerwijs vertaalt naar betrouwbare prestaties op klinisch kritieke tumor-vat grensvlakken. Met name methoden geoptimaliseerd voor binaire segmentatie presteren competitief op gemiddelde overlapmetrieken, maar verslechteren vaak in gevallen met hoge complexiteit en lage expertconsensus, waarbij ze ofwel in volume ineenstorten of zich overmatig uitbreiden bij onzekere grenzen. Daarentegen produceren methoden die de meningsverschillen tussen beoordelaars modelleren beter gekalibreerde probabilistische kaarten en tonen ze grotere robuustheid in deze ambigue gevallen. De benchmark benadrukt de beperkingen van volumetrische nauwkeurigheid als maatstaf voor gelokaliseerde chirurgische bruikbaarheid, en pleit voor onzekerheidsbewuste probabilistische modellen voor preoperatieve besluitvorming.

Vooraf Uitgelijnde Gegevensreiniging voor Tabellaire Fundamentmodellen
Prior-Aligned Data Cleaning for Tabular Foundation Models

Apr 28

ByLaure Berti-Equille

Tabulaire Foundation Models (TFM's) bereiken state-of-the-art zero-shot nauwkeurigheid op kleine tabulaire datasets door meta-leren over synthetische data-genererende processen – wat ze zeer aantrekkelijk maakt voor praktijkmensen die zich grote geannoteerde corpora niet kunnen veroorloven. Hun in-context leermechanisme veronderstelt echter ongeveer schone invoer: ontbrekende waarden, uitschieters en duplicaten in real-world data creëren een prior-mismatch die zowel de nauwkeurigheid als de betrouwbaarheidscalibratie gelijktijdig aantast. Het corrigeren van deze mismatch vereist sequentiële beslissingen over opschoningsoperatoren waarvan de interacties door geen enkele statische voorverwerkingsregel kunnen worden voorzien - een natuurlijke toepassing voor reinforcement learning (RL). Wij introduceren L2C2, het eerste deep RL-framework dat het opschonen van tabulaire data formuleert als prior-alignering: een geleerd beleid sequentieert operatoren om de distributionele kloof tussen vuile invoer en de synthetische prior van de TFM te minimaliseren. Zes experimenten op tien OpenML-benchmarkdatasets tonen aan: 1) drie van zeven beloningsontwerpen vervallen tot gedegenereerde triviale opschoningsstrategieën – principieel beloningsontwerp is wetenschappelijk niet-triviaal; 2) de nieuwe TFMAwareReward-beloning die wij voorstellen selecteert structureel verschillende pijplijnen op 4/10 datasets en behaalt een hogere TabPFN-nauwkeurigheid in die afwijkende gevallen (gemiddeld 0,851 vs. 0,843; Wilcoxon p=0,063, n=4) zonder ooit slechter te presteren; 3) geparametriseerde opschoningsacties verbeteren de beloning van de best gevonden pijplijn op 9/10 datasets (Wilcoxon p=0,004); en 4) een beleid vooraf getraind op één enkele brondataset overtreft training vanaf nul bij het 2.000-staps fine-tuning-controlepunt op alle drie de achtergehouden datasets (tot +28,8% na volledige fine-tuning), wat kruis-datasettransfer van prior-aligneringskennis aantoont. Deze bevindingen bevestigen dat prior-alignering een principiële data-voorbereidingsstrategie is voor TFM-implementatie op real-world tabulaire data.

Bewustzijn van Beweging in Caching voor Efficiënte Autoregressieve Videogeneratie
Motion-Aware Caching for Efficient Autoregressive Video Generation

May 3

ByJing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang

Autoregressieve videogeneratieparadigma's bieden theoretisch potentieel voor lange videosynthese, maar hun praktische inzet wordt belemmerd door de computationele last van sequentiële iteratieve denoising. Hoewel cache-hergebruikstrategieën generatie kunnen versnellen door overbodige denoisingstappen over te slaan, vertrouwen bestaande methoden op grofkorrelige chunk-level overslaan dat geen fijnkorrelige pixeldynamiek vastlegt. Dit overzicht is cruciaal: pixels met hoge beweging vereisen meer denoisingstappen om foutaccumulatie te voorkomen, terwijl statische pixels agressief overslaan tolereren. We formaliseren dit inzicht theoretisch door cachefouten te koppelen aan residuele instabiliteit, en stellen MotionCache voor, een motion-aware cache-framework dat inter-frame verschillen benut als een lichtgewicht proxy voor pixel-level bewegingseigenschappen. MotionCache hanteert een coarse-to-fine strategie: een initiële warm-upfase stelt semantische coherentie vast, gevolgd door motion-weighted cache-hergebruik dat updatefrequenties per token dynamisch aanpast. Uitgebreide experimenten op state-of-the-art modellen zoals SkyReels-V2 en MAGI-1 tonen aan dat MotionCache significante versnellingen bereikt van respectievelijk 6,28× en 1,64×, terwijl de generatiekwaliteit effectief behouden blijft (VBench: respectievelijk 1%↓ en 0,01%↓). De code is beschikbaar op https://github.com/ywlq/MotionCache.

BlenderRAG: Hoogfideliteit 3D-objectgeneratie via retrieval-augmented codesynthese
BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

May 1

ByMassimo Rondelli, Francesco Pivi, Maurizio Gabbrielli

De automatische generatie van uitvoerbare Blendercode uit natuurlijke taal blijft een uitdaging, waarbij state-of-the-art LLM's frequente syntaxisfouten en geometrisch inconsistente objecten produceren. Wij presenteren BlenderRAG, een retrieval-augmented generation-systeem dat werkt op een gecureerde multimodale dataset van 500 door experts gevalideerde voorbeelden (tekst, code, afbeelding) verspreid over 50 objectcategorieën. Door het ophalen van semantisch vergelijkbare voorbeelden tijdens de generatie, verbetert BlenderRAG het compilatiesuccespercentage van 40,8% naar 70,0% en de genormaliseerde semantische overeenkomst van 0,41 naar 0,77 (CLIP-gelijkenis) over vier state-of-the-art LLM's, zonder fine-tuning of gespecialiseerde hardware nodig te hebben, waardoor het direct inzetbaar is. De dataset en code zijn beschikbaar op https://github.com/MaxRondelli/BlenderRAG.

Een hybride aanpak voor het dichten van de Sim2Real-uiterlijk-kloof in synthetische datasets gegenereerd door game-engines
A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

May 4

ByStefanos Pasios

Videogame-engines zijn een belangrijke bron geweest voor het genereren van grote hoeveelheden visuele synthetische datasets voor het trainen en evalueren van computervisie-algoritmen die in de echte wereld moeten worden ingezet. Hoewel de visuele weergave van moderne game-engines aanzienlijk is verbeterd met technologieën zoals ray-tracing, blijft er een opmerkelijk sim2real-uitstralingsgat tussen de synthetische en de echte wereldbeelden bestaan, wat het gebruik van synthetische datasets in real-world toepassingen beperkt. In dit artikel onderzoeken we het vermogen van een state-of-the-art diffusiemodel voor beeldgeneratie en -bewerking (FLUX.2-4B Klein) om de fotorealistische kwaliteit van synthetische datasets te verbeteren en vergelijken we de prestaties met een traditioneel image-to-image-vertaalmodel (REGEN). Verder stellen we een hybride aanpak voor die de sterke geometrie- en materiaaltransformaties van diffusiegebaseerde methoden combineert met de distributie-matchingcapaciteiten van image-to-image-vertaaltechnieken. Uit experimenten blijkt dat REGEN beter presteert dan FLUX.2-4B Klein en dat door een combinatie van zowel FLUX.2-4B Klein- als REGEN-modellen een betere visuele realiteit kan worden bereikt in vergelijking met het afzonderlijk gebruik van elk model, waarbij de semantische consistentie behouden blijft. De code is beschikbaar op: https://github.com/stefanos50/Hybrid-Sim2Real

De koppeling van ruimtelijke biologie en klinische histologie via Haiku
Linking spatial biology and clinical histology via Haiku

Apr 30

ByYan Cui, Jacob S. Leiby, Wenhui Lei, Dokyoon Kim, Yanxiang Deng, Aaron T. Mayer, Zhenqin Wu, Alexandro E. Trevino, Zhi Huang

De integratie van moleculaire, morfologische en klinische gegevens is essentieel voor fundamenteel en translationeel biomedisch onderzoek, maar systematische kaders voor het gezamenlijk modelleren van deze modaliteiten blijven beperkt. Hier presenteren we Haiku, een trimodaal contrastief leermodel getraind op gemultiplexte immunofluorescentie (mIF). Het omvat 26,7 miljoen spatiale proteomische patches van 3.218 weefselsecties van 1.606 patiënten verspreid over 11 orgeltypen, met gematchte histologie (hematoxyline en eosine, H&E) en klinische metadata, uitgelijnd in een gedeelde embeddedruimte. Haiku maakt drieweg cross-modale retrieval mogelijk, verbetert downstream classificatie- en klinische voorspeltaken ten opzichte van unimodale basislijnen, en ondersteunt zero-shot biomarkerinferentie via fuseretrieval geconditioneerd op uitsluitend tekstbeschrijvingen van klinische metadata. Bij alle taken presteert Haiku beter dan concurrerende benaderingen, met cross-modale retrieval (Recall@50 tot 0,611 versus een bijna-nul basislijn), overlevingsvoorspelling (C-index 0,737, +7,91% relatieve verbetering) en zero-shot biomarkerinferentie (gemiddelde Pearson-correlatie 0,718 over 52 biomarkers). Verder introduceren we een contrafeitelijk voorspellingskader waarin alleen klinische metadata worden aangepast terwijl de weefselmorfologie constant wordt gehouden, om nichespecifieke moleculaire verschuivingen bloot te leggen die geassocieerd zijn met progressie van borstkankerstadia en overlevingsuitkomsten bij longkanker. In een longadenocarcinoom casestudy herstelt de contrafeitelijke analyse nichespecifieke verschuivingen die worden gekenmerkt door verhoogde CD8 en granzyme B, verminderde PD-L1 en verlaagde Ki67, in brede overeenstemming met patronen gerapporteerd voor gunstige uitkomsten. We presenteren deze contrafeitelijke resultaten als verkennende, hypothesegenererende signalen in plaats van mechanistische claims. Deze mogelijkheden tonen aan dat trimodale alignering via Haiku integratieve analyse van spatiale biologie mogelijk maakt, waarbij moleculaire metingen worden verbonden met de klinische context voor biologisch onderzoek.