HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

28 papers found

Qwen-AgentWorld: Taalwereldmodellen voor Algemene Agenten
Qwen-AgentWorld: Language World Models for General Agents

Jun 23

ByYuxin Zuo, Zikai Xiao, Li Sheng, Fei Huang, Jianhong Tu, Yuxuan Liu, Tianyi Tang, Xiaomeng Hu, Yang Su, Qingfeng Lan, Yantao Liu, Qin Zhu, Yinger Zhang, Bowen Yu, Haiquan Zhao, Haiyang Xu, Jianxin Yang, Jiayang Cheng, Junyang Wang, Lianghao Deng, Mingfeng Xue, Tianyi Bai, Yang Fan, Yubo Ma, Yucheng Li, Zeyu Cui, Zhihai Wang, Zhihui Xie, Zhuorui Ye, An Yang, Dayiheng Liu, Jingren Zhou, Ning Ding

Een wereldmodel voorspelt de omgevingsdynamica op basis van huidige observaties en acties en fungeert als een centraal cognitief mechanisme voor redeneren en plannen. In dit werk onderzoeken we hoe wereldmodellering op basis van taalmodellen de grenzen van algemene agenten verder kan verleggen. (i) We richten ons eerst op het bouwen van fundamentmodellen voor het simuleren van agentische omgevingen. We introduceren Qwen-AgentWorld-35B-A3B en Qwen-AgentWorld-397B-A17B, de eerste taal-wereldmodellen die in staat zijn om agentische omgevingen te simuleren die zeven domeinen bestrijken via langdurige redenering met denkketens. Door gebruik te maken van meer dan 10 miljoen interactietrajecten in reële omgevingen uit zeven domeinen, ontwikkelen we Qwen-AgentWorld via een drietraps trainingspijplijn: CPT injecteert algemene wereldmodelleringscapaciteiten vanuit de toestandsovergangsdynamica en augmented professionele corpora, SFT activeert redeneren voor het voorspellen van de volgende toestand, en RL verscherpt de simulatiegetrouwheid via een op maat gemaakt raamwerk met hybride rubric- en regelbeloningen. Om taal-wereldmodellen te evalueren presenteren we AgentWorldBench, een uitgebreide benchmark die is opgebouwd uit reële interacties van vijf geavanceerde modellen op negen gevestigde benchmarks. Empirische resultaten tonen aan dat Qwen-AgentWorld aanzienlijk beter presteert dan bestaande geavanceerde modellen. (ii) Naast fundamentmodellen onderzoeken we verder twee complementaire paradigma's waarmee wereldmodellering algemene agenten verbetert. Ten eerste, als een ontkoppelde omgevingssimulator ondersteunt Qwen-AgentWorld schaalbare en controleerbare simulatie van duizenden reële omgevingen voor agentische RL, wat voordelen oplevert die de traditionele training in een reële omgeving overtreffen. Ten tweede, als een uniform agent-fundamentmodel fungeert wereldmodeltraining als een zeer effectieve opwarmfase die de downstreamprestaties op zeven agentische benchmarks verbetert. Code: https://github.com/QwenLM/Qwen-AgentWorld

NatureBench: Kunnen code-agenten de gepubliceerde SOTA van Nature-familie papers evenaren?
NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

Jun 23

ByYuru Wang, Lejun Cheng, Yuxin Zuo, Sihang Zeng, Bingxiang He, Che Jiang, Junlin Yang, Yuchong Wang, Kaikai Zhao, Weifeng Huang, Kai Tian, Zhenzhao Yuan, Jincheng Zhong, Weizhi Wang, Ning Ding, Bowen Zhou, Kaiyan Zhang

Wij introduceren NatureBench, een cross-disciplinaire benchmark van 90 taken die zijn gedistilleerd uit peer-reviewed publicaties in de Nature-familie. Deze benchmark is ontworpen om te evalueren of AI-coderingsagenten verder kunnen gaan dan reproductie en daadwerkelijke ontdekkingen kunnen doen op echte wetenschappelijke problemen. NatureBench is gebouwd op NatureGym, een geautomatiseerde pipeline die een gestandaardiseerde, per-taak gecontaineriseerde omgeving construeert op basis van een bronartikel, waarmee het omgevingsfragmentatieprobleem wordt aangepakt dat de geloofwaardigheid van eerdere agent-gedreven onderzoeksbenchmarks heeft beperkt. Bij het evalueren van tien geavanceerde agentconfiguraties onder een strikt protocol zonder webzoekopdrachten, constateren we dat het sterkste model slechts 17,8% van de taken overtreft ten opzichte van de state-of-the-art onder het g>0.1-criterium. Analyse van methodepaden onthult dat agenten voornamelijk succes boeken via methodologische vertaling, waarbij wetenschappelijke taken worden omgezet in vertrouwde gesuperviseerde voorspellingsproblemen, in plaats van via echte wetenschappelijke inventiviteit. Mislukkingen worden gedomineerd door een verkeerde methodekeuze en onvoldoende rekenbudget, niet door misinterpretatie van de taak. Wij publiceren de benchmark, de NatureGym-pipeline en een openbaar leaderboard met reproductie aan onderhoudszijde. Code: https://github.com/FrontisAI/NatureBench

MobileForge: Annotatievrije Adaptatie voor Mobiele GUI-agenten met Hiërarchische Feedbackgestuurde Beleidsoptimalisatie
MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

Jun 18

ByGuangyi Liu, Pengxiang Zhao, Gao Wu, Yiwen Yin, Mading Li, Liang Liu, Congxiao Liu, Zhang Qi, Mengyan Wang, Liang Guo, Yong Liu

MLLM-gebaseerde mobiele GUI-agents hebben aanzienlijke vooruitgang geboekt in het begrijpen van gebruikersinterfaces en het uitvoeren van acties, maar aanpassing aan echte doelapps blijft kostbaar omdat mobiele apps talrijk zijn, regelmatig worden bijgewerkt en moeilijk te dekken zijn met handmatig geschreven taken, demonstraties of beloningslabels. Bestaande annotatievrije GUI-leertechnieken verminderen handmatig toezicht, maar missen een uniform substraat dat verkenning van doelapps, curriculumwinning, rollout-uitvoering en feedback verbindt, terwijl beleidsoptimalisatie vaak afhankelijk is van geïsoleerde rollouts en grove beloningen die moeilijk om te zetten zijn in betrouwbare verbeteringssignalen. We presenteren MobileForge, een annotatievrij aanpassingssysteem voor mobiele GUI-agents. MobileForge bestaat uit MobileGym, dat taakgeneratie en rollout-evaluatie baseert op echte mobiele app-interactie, en Hiërarchische Feedback-Gestuurde Beleidsoptimalisatie (HiFPO), dat trajectuitkomsten, stapsgewijze procesfeedback en corrigerende hints omzet in hint-gecontextualiseerde stapsgewijze GRPO-updates. Met alleen automatisch gegenereerde annotatievrije aanpassingsdata past MobileForge Qwen3-VL-8B aan naar 67,2% Pass@3 op AndroidWorld, dicht bij het gesloten-data GUI-gespecialiseerde GUI-Owl-1.5-8B-basismodel met 69,0%. De door MobileForge aangepaste ForgeOwl-8B bereikt verder 77,6% Pass@3 op AndroidWorld en 41,0% succes op de out-of-domain MobileWorld GUI-only split, waarmee de sterkste open-data mobiele GUI-agent in onze evaluatie wordt gevestigd. Code, data en getrainde modellen worden vrijgegeven op https://mobile-forge.github.io/.

MemGUI-Agent: Een end-to-end langetermijn mobiele GUI-agent met proactief contextbeheer
MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

Jun 18

ByGuangyi Liu, Gao Wu, Congxiao Liu, Pengxiang Zhao, Liang Liu, Mading Li, Qi Zhang, Mengyan Wang, Liang Guo, Yong Liu

Op MLLM-gebaseerde mobiele GUI-agenten is aanzienlijke vooruitgang geboekt op korte-termijn taken, maar ze blijven onbetrouwbaar op lange-termijn taken die het onthouden van tussentijdse feiten over vele stappen en app-overgangen vereisen. We wijten deze beperking aan ReAct-achtige prompting, die passief per-stap registraties accumuleert, wat leidt tot prompt-explosie en verdunning van cruciale cross-app feiten. Om dit aan te pakken introduceren we MemGUI-Agent, een end-to-end lange-termijn mobiele GUI-agent met proactief contextbeheer. MemGUI-Agent is gebaseerd op Context-as-Action (ConAct), dat contextbeheer behandelt als eersteklas acties die worden gegenereerd door hetzelfde beleid dat UI-acties selecteert. In plaats van passief geschiedenis toe te voegen, onderhoudt ConAct drie gestructureerde contextvelden: samengevouwen actiegeschiedenis, samengevouwen UI-status en recente stapregistratie, waarbij cruciale UI-feiten behouden blijven terwijl de context compact blijft. Om proactief contextbeheer leerbaar te maken over modelschalen heen, construeren we MemGUI-3K, een dataset van 2.956 trajecten met volledige ConAct-annotaties voor gesuperviseerde training en offline analyse. Het trainen van een 8B model op MemGUI-3K levert MemGUI-8B-SFT op, een 8B MemGUI-Agent die de beste open-data 8B prestaties behaalt op MemGUI-Bench en generaliseert naar de out-of-distribution MobileWorld-benchmark. Code, data en getrainde modellen worden beschikbaar gesteld op https://memgui-agent.github.io/.

OpenThoughts-Agent: Datarecepten voor Agentische Modellen
OpenThoughts-Agent: Data Recipes for Agentic Models

Jun 23

ByNegin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt

Agentische taalmodellen breiden de toepassingen van AI enorm uit, maar er is weinig publiekelijk bekend over hoe trainingsgegevens te cureren voor breed inzetbare agenten. Bestaande open inspanningen zoals SWE-Smith, SERA en Nemotron-Terminal richten zich doorgaans op een enkele benchmark, waardoor de vraag open blijft hoe modellen te trainen die generaliseren over uiteenlopende agentische taken. Het OpenThoughts-Agent (OT-Agent)-project pakt deze lacune aan met een volledig open datacuratiepijplijn voor het trainen van agentische modellen. We voeren meer dan 100 gecontroleerde ablatie-experimenten uit om systematisch elke fase van de pijplijn te onderzoeken, wat inzichten oplevert over het belang van taakbronnen en diversiteit. Vervolgens stellen we een trainingsset van 100K voorbeelden uit onze pijplijn samen en fijnstellen we Qwen3-32B op deze dataset, wat een gemiddelde nauwkeurigheid van 44,8% oplevert over zeven agentische benchmarks en een verbetering van 3,9 procentpunt ten opzichte van het sterkste bestaande open data-agentische model (Nemotron-Terminal-32B, 40,9%). Bovendien vertonen onze trainingsgegevens sterke schaalbaarheidseigenschappen en presteren ze beter dan alternatieve open datasets bij elke trainingssetgrootte in rekenkracht-gecontroleerde vergelijkingen. We geven onze trainingssets, datapijplijn, experimentele gegevens en modellen vrij op openthoughts.ai om toekomstig open onderzoek naar agentische modeltraining te ondersteunen.

AOHP: Een open-source agentenharness op OS-niveau voor gepersonaliseerde, efficiënte en veilige interactie
AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

Jun 22

ByShanhui Zhao, Jiacheng Liu, Guohong Liu, Jichao Yan, Jialei Ye, Yuhao Yang, Hao Wen, Shizuo Tian, Yizhen Yuan, Yuxuan Chen, Yunxin Liu, Ju Ren, Ya-Qin Zhang, Chao Huang, Yao Guo, Yuanchun Li

AI-agenten drijven een nieuw softwareparadigma aan, met het vermogen om autonoom tools aan te roepen, informatie te extraheren, geheugen te beheren en taken uit te voeren die zich uitstrekken over applicaties en databronnen. De meeste bestaande besturingssystemen voor eindgebruikers zijn echter ontworpen voor applicatiegerichte workflows en bieden weinig native ondersteuning voor AI-agenten. Deze mismatch beperkt de bredere adoptie van agenten en leidt tot uitvoeringsoverhead en veiligheidsrisico's bij het draaien van agenten op conventionele systemen. Hoewel het concept van agent-native besturingssystemen opkomt, mist de onderzoeksgemeenschap een open testomgeving om de architecturale primitieven te verkennen die gewenst zijn voor agent-gemedieerde interactie. We presenteren AOHP (Android Open Harness Project), een OS-level agent harness gebouwd op het Android Open Source Project (AOSP). Het kernontwerpprincipe van AOHP is om agenten te behandelen als eersteklas OS-actoren, wat adaptieve gebruikersinterfaces en agentvriendelijke runtime-omgevingen mogelijk maakt. AOHP behoudt het volwassen Android-software- en hardware-ecosysteem terwijl het drie agentgerichte systeemmechanismen introduceert: gepersonaliseerde servicecompositie, efficiënte agentinterfaces en beveiligde informatiestroom. Op basis van voorlopige experimenten met uitdagende taken die de belangrijkste mogelijkheden van OS-agenten bestrijken, toont AOHP duidelijke voordelen in taakvoltooiing (+21,12% voltooiingspercentage), uitvoeringskosten (-51,55% tokenkosten) en naleving van beveiligingsbeleid.

LingxiDiagBench: Een multi-agent framework voor het benchmarken van LLM's in Chinese psychiatrische consultatie en diagnose
LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

Jun 11

ByShihao Xu, Tiancheng Zhou, Jiatong Ma, Yanli Ding, Yiming Yan, Ming Xiao, Guoyi Li, Haiyang Geng, Yunyun Han, Jianhua Chen, Yafeng Deng

Psychische stoornissen komen wereldwijd veel voor, maar het tekort aan psychiaters en de inherente subjectiviteit van interviewgebaseerde diagnose vormen aanzienlijke barrières voor tijdige en consistente geestelijke gezondheidsbeoordeling. De vooruitgang bij AI-ondersteunde psychiatrische diagnose wordt beperkt door het ontbreken van benchmarks die tegelijkertijd realistische patiëntsimulatie, door clinici geverifieerde diagnostische labels en ondersteuning voor dynamische multi-turn consultatie bieden. Wij presenteren LingxiDiagBench, een grootschalige multi-agent benchmark die LLM's evalueert op zowel statische diagnostische inferentie als dynamische multi-turn psychiatrische consultatie in het Chinees. De kern is LingxiDiag-16K, een dataset van 16.000 EMR-afgestemde synthetische consultatiedialogen die zijn ontworpen om de reële klinische demografische en diagnostische verdelingen over 12 ICD-10 psychiatrische categorieën te reproduceren. Door middel van uitgebreide experimenten met state-of-the-art LLM's leggen we de volgende belangrijke bevindingen vast: (1) hoewel LLM's een hoge nauwkeurigheid behalen bij binaire depressie-angstclassificatie (tot 92,3%), verslechtert de prestatie aanzienlijk bij herkenning van comorbiditeit van depressie en angst (43,0%) en differentiële diagnose over 12 categorieën (28,5%); (2) dynamische consultatie presteert vaak slechter dan statische evaluatie, wat erop wijst dat ineffectieve informatieverzamelingsstrategieën de downstream diagnostische redenering aanzienlijk belemmeren; (3) de consultatiekwaliteit beoordeeld door LLM-als-beoordelaar vertoont slechts een matige correlatie met diagnostische nauwkeurigheid, wat suggereert dat goed gestructureerd vragen stellen alleen niet voldoende is voor correcte diagnostische beslissingen. We publiceren LingxiDiag-16K en het volledige evaluatieraamwerk om reproduceerbaar onderzoek te ondersteunen op https://github.com/Lingxi-mental-health/LingxiDiagBench.

FLAT: Feedforward Latent Driehoek Splatting voor Geometrisch Nauwkeurige Scènegeneratie
FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation

Jun 23

ByOrest Kupyn, Goutam Bhat, Philipp Henzler, Fabian Manhardt, Christian Rupprecht, Federico Tombari

Het genereren van verkennbare 3D-scènes op basis van één enkele afbeelding vereist sterke generatieve voorkennis en nauwkeurige geometrische representaties die geschikt zijn voor downstream-gebruik. Huidige video-diffusiemodellen bieden generatie van hoge kwaliteit en coderen impliciet multi-view geometrische structuur in de latente ruimte. Bestaande feedforward latent scène-decoders geven echter doorgaans volumetrische 3D-Gaussiaanse functies weer, die geen goed gedefinieerd oppervlak hebben, wat hun gebruik in simulatie of standaard grafische pipelines beperkt. Dit motiveert het decoderen van oppervlak-uitgelijnde primitieven die niet alleen renderbaar zijn, maar ook dichter bij expliciete geometrische objecten staan. We vragen ons af of gecomprimeerde video-diffusie latenten in één enkele doorgang direct kunnen worden omgezet naar expliciete oppervlakteprimitieven. Hiertoe introduceren we FLAT en tonen we voor het eerst aan dat driehoek-splats direct kunnen worden gedecodeerd uit video-diffusie latenten. Vergeleken met het decoderen van 3D-Gaussiaanse functies is het voorspellen van platte primitieven berucht uitdagender vanwege de hoge gevoeligheid voor primitieforiëntaties, wat vaak leidt tot slechte gradiëntstroom. FLAT lost dit op met twee sleutelingrediënten: een straal-gecentreerde rotatieparameterisatie voor driehoekregressie en een nieuwe product-vensterfunctie die de gradiëntstroom tijdens differentieerbare driehoek-rendering verbetert. Op standaard benchmarks behaalt FLAT aanzienlijk betere geometrische nauwkeurigheid, terwijl de visuele kwaliteit concurrerend blijft vergeleken met state-of-the-art feedforward baselines. Verder tonen we aan dat een lichte testtijd-verfijningsstap de voorspelde driehoeksoep omzet in een volledig ondoorzichtige, game-engine-klare representatie die real-time rendering ondersteunt. Door 3DGS-, 2DGS- en driehoek-splattingvarianten te evalueren onder een identieke trainingsopzet, bieden we de eerste systematische analyse van representatie-afwegingen in feedforward scène-generatie. De projectpagina is beschikbaar op https://flat-splat.github.io.

Semantisch Bladeren: Beheersbare Diversiteit voor Beeldgeneratie
Semantic Browsing: Controllable Diversity for Image Generation

Jun 22

BySara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or

Moderne tekst-naar-beeld modellen excelleren in visuele getrouwheid en promptnaleving. Deze strikte naleving gaat echter ten koste van diversiteit: gegenereerde samples neigen naar één enkele visuele interpretatie. Bestaande methoden om diversiteit te verbeteren leveren uitkomsten op die worden gedreven door toevallige variaties in plaats van betekenisvolle ontwerpkeuzes. Dit motiveert een nieuwe variant van de diversiteitstaak waarbij structuur wordt opgelegd aan de gegenereerde samples. We introduceren een methode voor gecontroleerde diversiteit die Semantic Browsing mogelijk maakt, waarbij gebruikers door gestructureerde beeldgalerijen kunnen navigeren en creatieve verkenning ervaren via een systematische doorloop van betekenisvolle, interpreteerbare variatieassen. Het bereiken van dit niveau van semantische controle vereist een diep begrip van de scène. We maken gebruik van het feit dat recente tekst-naar-beeld modellen zijn getraind op uitgebreide bijschriften, waardoor semantische besluitvorming effectief wordt ontkoppeld van pixelgeneratie. Dit maakt een paradigmaverschuiving mogelijk: in plaats van te vertrouwen op stochastische variatie binnen het tekst-naar-beeld model, veroorzaken we diversiteit direct op tekstniveau. Door gebruik te maken van rijke tekstuele representaties laten we een Vision Language Model (VLM) opereren op de volledige scènecontext. Om de generieke uitkomsten te overwinnen die typisch zijn voor standaard VLM's, hanteren we een agentische workflow die expliciet gestructureerde variatie afdwingt die is afgestemd op de oorspronkelijke prompt. We tonen aan dat onze methode diverse en navigeerbare ontwerpruimten produceert waarin elke variatie overeenkomt met een specifieke, voor de gebruiker begrijpelijke semantische beslissing.

Kritiek op het Agentmodel
Critique of Agent Model

Jun 22

ByEric Xing, Mingkai Deng, Jinyu Hou

Wat is een agent? Wat bepaalt agentschap? Met de opkomst van Large Language Model (LLM)-systemen die op de markt worden gebracht als 'coding agents', 'AI co-scientists' en andere 'agentische' hulpmiddelen die beloven de productiviteit te verhogen, en tegelijkertijd 'existentiële' zorgen zoals AI die aan menselijke controle ontsnapt met destructieve kracht onder een speculatieve 'machine agency' tegen mensen, is het essentieel geworden om te verduidelijken waar automatisering eindigt en agentschap begint, zowel voor het bouwen van capabele systemen als voor het begrijpen of en waarvoor we bang moeten zijn. Voortbouwend op Descartes' fundering van agentschap in onafhankelijk denken, en op portretten van autonome wezens in sciencefiction, onderzoeken we het huidige landschap van AI-agenten en analyseren we agentarchitecturen langs vijf dimensies: doel, identiteit, besluitvorming, zelfregulatie en leren. Specifiek stellen we dat oprecht agentschap vereist dat deze structuren in het systeem zelf worden geïnternaliseerd in plaats van te worden samengesteld via externe scaffolding. Dit onderscheid tussen agentische systemen, waarvan de competentie in ontworpen workflows ligt, en agentieve systemen, waarvan de capaciteiten (inclusief sociale interactie) endogeen ontstaan, definieert de grens tussen systemen ontworpen voor voorgeschreven taken en systemen die in staat zijn om met echte autonomie in de open wereld te opereren. Voortbouwend op deze analyse stellen we de Goal-Identity-Configurator (GIC)-architectuur voor voor een algemeen agentmodel, dat hiërarchische doeldecompositie, identiteitsevolutie, simulatief redeneren dat is gebaseerd op een apart getraind wereldmodel, aangeleerde zelfregulatie en zelfgestuurd leren van zowel echte als gesimuleerde ervaringen combineert. Verder delen we inzichten over de controleerbaarheid, beheersbaarheid en veiligheid van agentieve systemen die meer autonomie en 'agentschap' bezitten, maar onder menselijk toezicht blijven.

FedOT: Eigendomsverificatie en Lekopsporing via Watermerken voor Gefedereerde LDM's
FedOT: Ownership Verification and Leakage Tracing via Watermarks for Federated LDMs

Jun 22

ByWenlong Cheng, Yuan Gan, Yunqiu Xu, Jiaxu Miao

Het trainen van Latente Diffusiemodellen (LDM's) binnen Federated Learning (FL) heeft toenemende aandacht getrokken vanwege het vermogen om de krachtige generatieve capaciteit van LDM's te combineren met de privacybeschermende eigenschappen van FL. Echter, FL vereist het delen van het globale model met meerdere deelnemers, wat risico's met zich meebrengt van ongeautoriseerde modeldistributie of doorverkoop door kwaadwillende cliënten. Hoewel een intuïtieve benadering is om bestaande op VAE gebaseerde watermerktechnieken voor LDM's in FL toe te passen, schiet deze strategie tekort bij het aanpakken van dergelijke bedreigingen vanwege twee fundamentele uitdagingen: (1) Bestaande methoden ondersteunen eigendomsverificatie, maar missen het vermogen om modellek naar een specifieke kwaadwillende cliënt te traceren; (2) Op VAE gebaseerde watermerken zijn kwetsbaar, omdat ze eenvoudig kunnen worden verwijderd door de decoder te vervangen door een schoon equivalent. In dit artikel stellen we FedOT voor, het eerste raamwerk voor eigendomsverificatie en lektracering in federatieve LDM's. Specifiek, om de eerste uitdaging aan te pakken, ontwerpen we een opgedeeld watermerk, waarbij het eerste deel dient voor eigendomsverificatie en het tweede deel wordt gebruikt voor cliëntidentificatie. Verder introduceren we, om de tweede uitdaging te overwinnen en het model te beveiligen tegen VAE-vervangingsaanvallen, Latente Vector Transformatie (LVT), die de verbinding tussen de VAE- en U-Net-latente ruimtes versterkt door de oorspronkelijke latente verdeling van de VAE te wijzigen. Bijgevolg leidt elke poging om de VAE te vervangen voor watermerkverwijdering tot een aanzienlijke verslechtering van de beeldkwaliteit, waardoor het LDM-model onbruikbaar wordt. Uitgebreide experimenten tonen aan dat FedOT superieure prestaties levert op het gebied van zowel eigendomsverificatie als traceerbaarheid. Projectpagina: https://spyzixuan.github.io/FedOT/.

Ontsnappen aan de zelfbevestigingsval: een Uitvoeren-Destilleren-Verifiëren-paradigma voor agentisch ervaringsleren
Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

Jun 23

ByShiding Zhu, Yudi Qi, Yajie Wang, Jiaze Li, Chao Song, Yaorui Shi, Yibo Miao, Hanqi Gao, Kai Zhang

Ervaringgestuurde zelfevolutie is cruciaal voor grote taalmodellen (LLM-agenten) om te verbeteren door interactie met de open wereld. Bestaande methoden voor ervaringsleren vertrouwen echter grotendeels op enkelvoudige agent-lussen, waarbij dezelfde agent taken uitvoert, resultaten samenvat en de inhoud van het geheugen bepaalt. Deze opzet maakt agenten kwetsbaar voor de zelfbevestigingsvalkuil: verkeerde maar zelfconsistente trajecten worden ten onrechte als succesvolle ervaringen geïdentificeerd, wat leidt tot cumulatieve fouten bij het ophalen en hergebruiken. Om dit probleem aan te pakken, introduceren we EDV, een Uitvoer-Distilleer-Verifieer-framework voor betrouwbaar ervaringsleren. In de Uitvoerfase verkennen meerdere heterogene agenten parallel dezelfde taakruimte om diverse kandidaattrajecten te genereren. In de Distilleerfase analyseert een speciale derde partij deze trajecten vergelijkend om kandidaatervaringen te produceren, waardoor de samenvattingsbias van de uitvoerder wordt verminderd. In de Verifieerfase valideert de uitvoeringsgroep de kandidaten via een consensusmechanisme, en alleen goedgekeurde ervaringen worden in gedeeld of privégeheugen geschreven. Door de drie fasen te ontkoppelen, transformeert EDV ervaringsleren van geïsoleerde zelfreflectie naar collaboratieve constructie, waarbij foutieve en ruizige inhoud wordt gefilterd voordat deze in het geheugen wordt geplaatst. We evalueren EDV op drie uitdagende langetermijnbenchmarks: tau2-bench, Mind2Web en MMTB. Resultaten tonen aan dat EDV consequent sterke basislijnen overtreft, wat bevestigt dat betrouwbare ervaringsconstructie essentieel is voor robuuste agentzelfevolutie. Onze code is beschikbaar op https://github.com/shidingz/EDV.

Zijn tekst-naar-beeldmodellen inductivistische kalkoenen? Een contrafactische benchmark voor causaal redeneren
Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

Jun 23

ByJiayi Lei, Yuandong Pu, Xingyu Han, Rongpeng Zhu, Jing Xu, Jinyao Wang, Zijian Zhou, Bin Fu, Yuewen Cao, Yihao Liu, Yongsheng Li

Tekst-naar-beeld (T2I) generatiemodellen hebben opmerkelijke vooruitgang geboekt in het produceren van visueel realistische afbeeldingen op basis van prompts in natuurlijke taal. Toch blijft het onduidelijk of hun succes een echt causaal begrip weerspiegelt of geavanceerde patroonherkenning op basis van visueel-verbale correlaties. Geïnspireerd door Russell's inductivistische kalkoen introduceren we Counterfactual-World (CF-World), een contrafeitelijke benchmark die is ontworpen om te onderzoeken of tekst-naar-beeld modellen afbeeldingen kunnen genereren onder regels die systematisch in tegenspraak zijn met real-world priors. CF-World organiseert elk scenario in drie progressieve niveaus: feitelijke generatie op basis van gewone wereldkennis, expliciete contrafeitelijke generatie met directe visuele instructies, en impliciete contrafeitelijke generatie die causaal redeneren vereist op basis van aangepaste regels. We evalueren zowel open-source als closed-source T2I-modellen met behulp van een op een Vision Language Model (VLM) gebaseerde evaluator (CF-Eval). Verder introduceren we twee metrieken: Priorweerstandspercentage (PRR), dat het vermogen van een model meet om ingesleten real-world priors te overwinnen, en Redeneerbehoudpercentage (RRR), dat beoordeelt of modellen redeneerafhankelijke contrafeitelijke generatie kunnen handhaven zonder expliciete visuele aanwijzingen. Experimenten tonen aan dat alle modellen een scherpe degradatie vertonen van feitelijke naar contrafeitelijke settings. Verdere analyses suggereren dat deze mislukkingen ontstaan omdat huidige T2I-modellen wereldkennis en visuele verschijningen coderen als nauw gekoppelde patronen. Bijgevolg dwingt hun sterke afhankelijkheid van frequente visuele co-occurrenties in de trainingsdata hen om terug te vallen op vertrouwde commonsense-priors wanneer ze de taak krijgen contrafeitelijke werelden weer te geven.

DiffusionBench: Over de Holistische Evaluatie van Diffusion Transformers
DiffusionBench: On Holistic Evaluation of Diffusion Transformers

Jun 23

ByXingjian Leng, Jaskirat Singh, Zhanhao Liang, Ethan Smith, Martin Bell, Aninda Saha, Yuhui Yuan, Liang Zheng

Onderzoek naar diffusietransformatoren (DiT) voor beeldgeneratie is geconvergeerd naar één enkele evaluatieopzet: klasse-afhankelijke generatie op ImageNet. Hoewel methoden de FID en aanverwante metrieken verbeteren, wordt steeds onduidelijker of deze verbeteringen daadwerkelijke vooruitgang in generatieve modellering weerspiegelen. Het natuurlijke alternatief, namelijk tekst-naar-beeld (T2I)-generatie, wordt vaak als te duur of onpraktisch beschouwd om te trainen en evalueren en wordt daarom vaak overgeslagen. Wij stellen dat deze perceptie niet langer houdbaar is. We introduceren NanoGen, een uniform trainings- en evaluatieframework voor DiT. NanoGen evenaart de state-of-the-art DiT-baselines op ImageNet en traint met slechts 12 regels configuratiewijzigingen ook concurrerende tekst-naar-beeld-modellen. Het ondersteunt momenteel RAE-, VAE-, pixelruimte- en MeanFlow-diffusiemethoden onder zowel ImageNet- als T2I-opstellingen. Met NanoGen vereist het trainen van T2I vergelijkbare rekenkracht als ImageNet. Na het trainen van 21 latente diffusiemodellen met NanoGen constateren we dat de rangschikking van methoden geen sterke correlatie vertoont tussen ImageNet- en T2I-generatie: de Pearson-correlatie ligt tussen -0,377 en -0,580 voor drie metrieken. Dit suggereert dat een methode die de klasse-afhankelijke ImageNet-FID verbetert, geen overeenkomstige verbetering op T2I hoeft te laten zien, wat duidelijk de noodzaak aantoont om DiT's op beide taken te evalueren. Hiertoe vatten we de resultaten van ImageNet en tekst-naar-beeld samen, wat leidt tot DiffusionBench, een holistische benchmark voor DiT-onderzoek. We bevelen aan om DiffusionBench te rapporteren in plaats van alleen ImageNet: methoden die DiffusionBench verbeteren, weerspiegelen waarschijnlijk bredere vooruitgang.

VeriEvol: Het opschalen van multimodaal wiskundig redeneren via verifieerbare Evol-Instruct
VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct

Jun 22

ByHaoling Li, Kai Zheng, Jie Wu, Can Xu, Qingfeng Sun, Han Hu, Yujiu Yang

Het opschalen van reinforcement learning voor visueel wiskundig redeneren vereist meer dan het genereren van moeilijkere vragen: naarmate de datavolume groeit, moeten de beloningslabels zelf betrouwbaar blijven. Toch schalen bestaande datapijplijnen het toezicht op terwijl ze vertrouwen op de labeller, en methoden aan de beleidszijde gaan ervan uit dat de onderliggende antwoorden al correct zijn. Wij beschouwen schaling daarentegen als een verifieerbaar dataconstructieprobleem en ontkoppelen twee assen vóór enige beleidsupdate: promptmoeilijkheid, uitgebreid door routespecifieke evolutieoperatoren, en antwoordbetrouwbaarheid, afgedwongen door offline hypothese-testfalsificatie. We implementeren dit als VeriEvol, een iteratief raamwerk met twee uitbreidbare componenten: een typebewuste evolutiemodule die beeld-vraagzaden met lage moeilijkheid herschrijft naar hardere, beeldgebaseerde prompts; en HTV-Agent, een verificateur die een antwoord alleen accepteert nadat multi-bront tegenbewijs er niet in is geslaagd het te weerleggen. De resulterende geverifieerde data schaalt in volume, breidt uit door evolutieroutes of verificateurkanalen toe te voegen, en sluit direct aan op bestaande GRPO-stijl RL-recepten. Op een vijf-benchmark visueel-wiskundige suite verhoogt het opschalen van geëvolueerde SFT-gegevens van 10K naar 250K monsters de gemiddelde nauwkeurigheid van 35,42 naar 54,73; vervolgens, met backbone, SFT-initialisatie en GRPO-recept constant gehouden, voegt VeriEvol een cumulatieve +3,88 toe bovenop een niet-geëvolueerde RL-baseline, waarvan +1,82 afkomstig is van geëvolueerde prompts en +2,06 van de HTV-Agent verificateur. We geven de prompts, data, modellen, code en de volledige verificateurtrace van elk monster vrij, zodat downstreamwerk de pijplijn kan schalen en auditen in plaats van alleen de uitvoer ervan te inspecteren.

Holistische Datascheduler voor LLM Pre-training via Multi-Objectief Reinforcement Learning
Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

Jun 23

ByChenhao Dang, Jing Ma, Mingjie Liao

De samenstelling van trainingsgegevens, beheerst door de diversiteit van bronnen en hun mengstrategie, is een hoeksteen van de pre-training van grote taalmodellen (LLM's). Online Data Mixing (ODM), de techniek om datamengsels tijdens de training adaptief aan te passen, is naar voren gekomen als een veelbelovende richting om de efficiëntie te verbeteren. Bestaande methoden worden echter beperkt door hun afhankelijkheid van een enkelvoudig optimalisatieperspectief, dat fundamenteel voorbijgaat aan de noodzaak voor complexe LLM-pre-training om de dynamische datasamenstelling vanuit meerdere dimensies te beschouwen. Om deze beperking te overwinnen, introduceren wij de Holistic Data Scheduler (HDS), een nieuw online data-mixing raamwerk. HDS formuleert de uitdaging van datascheduling als een reinforcement learning-probleem in een continue controleruimte en maakt gebruik van het Soft Actor-Critic (SAC)-algoritme vanwege zijn stabiliteit en sample-efficiëntie bij het verkennen van de hoogdimensionale beleidsruimte. De kern van HDS is een nieuwe multi-objectieve, holistische beloningsfunctie die drie kritische perspectieven integreert: een data-gedreven beloning voor kwaliteit, een verliesgedreven beloning die inter-domein invloed vastlegt, en een modelgedreven beloning op basis van gewichtsnormen. Om ons ontwerp te valideren en de optimale configuratie ervan te bepalen, hebben we systematische experimenten uitgevoerd met LLM's van verschillende groottes. Op de The Pile benchmark bereikt HDS de uiteindelijke validatie-perplexiteit van de op een na beste methode met 44% minder trainingsiteraties. Bovendien behaalt het een verbetering van 7,2% op de MMLU 0-shot-taak, samen met consistente verbeteringen op andere benchmarks, wat zijn vermogen aantoont om zowel de trainingsefficiëntie als de uiteindelijke modelcapaciteit te verbeteren.

DREAM: Dichte Retrieval Embeddings via Autoregressieve Modellering
DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

Jun 23

ByYixuan Tang, Yi Yang

Dense retrieval-embeddingmodellen zijn een fundamenteel onderdeel van moderne op retrieval gebaseerde AI-systemen. De meeste dense retrievers worden getraind met contrastieve doelstellingen, waarvoor gelabelde positieve en negatieve documentparen nodig zijn die vaak kostbaar en moeilijk te verkrijgen zijn. In dit werk onderzoeken we of de autoregressieve next-token voorspellingsdoelstelling van een groot taalmodel (LLM) supervisie kan bieden voor dense retrieval. De intuïtie is eenvoudig: als een document informatie bevat die relevant is voor een query, zou conditionering op dat document de doeluitvoer gemakkelijker moeten maken voor het LLM om te voorspellen. Een belangrijke uitdaging is dat het next-token voorspellingsverlies binnen het LLM wordt berekend, terwijl de retriever een apart embeddingmodel is. Om deze uitdaging aan te pakken, stellen we DREAM (Dense Retrieval Embeddings via Autoregressive Modeling) voor, dat door de retriever gegenereerde query-document overeenkomstscores injecteert in geselecteerde aandachtskoppen van een bevroren LLM. Tijdens de training bepalen deze scores hoeveel aandacht elk kandidaatdocument krijgt terwijl het LLM de doeluitvoer voorspelt. Het resulterende voorspellingsverlies levert gradiënten voor retrievertraining via het aandachtsmechanisme. We evalueren DREAM op retrieval-benchmarks BEIR en RTEB met behulp van embedding-backbones variërend van 0,5B tot 3B parameters. DREAM presteert consistent beter dan bestaande basislijnen over verschillende modelschalen. Deze resultaten tonen aan dat DREAM een veelbelovende aanpak biedt voor het trainen van dense retrievers via autoregressieve modellering.

ChartWalker: Het benchmarken van de cross-chart RAG-taak
ChartWalker: Benchmarking the Cross-Chart RAG Task

Jun 22

ByNing Tang, Chenghan Xie, Hanyang Yuan, Yi Li, Renhong Huang, Qian Kou, Xiaofeng Shi, Hua Zhou, Jiarong Xu

Cross-Chart Retrieval-Augmented Generation (RAG) is cruciaal voor complexe multimodale analytische taken in wetenschappelijke, zakelijke en politieke domeinen. Echter, bestaande benchmarks richten zich ofwel op tabellen, die goed gestructureerd en getekstualiseerd zijn, of genereren cross-chart vragen door simpelweg kernpunten te extraheren, wat vaak leidt tot lexicale overlap tussen queries en bewijsmateriaal en logisch inconsistente redeneerketens oplevert. Om dit aan te pakken, introduceren we ChartWalker, een nieuw raamwerk voor het construeren van uitdagende cross-chart RAG-taken. ChartWalker kenmerkt zich door een hiërarchische kennisgraafconstructiemethode toegespitst op diagrammen, die entiteiten en relaties organiseert op granulariteit om de analytische structuur te behouden. Vervolgens stellen we een structuurbewust sample-algoritme voor dat semantisch coherente, multi-hop redeneerpaden synthetiseert, waardoor expliciete controle over querymoeilijkheid en granulariteit voor QA-generatie mogelijk wordt. Gebouwd met dit raamwerk, brengen we ChartWalker-Bench uit, een uitgebreide benchmark die diverse domeinen en cross-chart querytypen bestrijkt. Uitgebreide evaluaties over belangrijke RAG-paradigma's tonen aanzienlijke prestatiekloven aan, wat de moeilijkheidsgraad en het nut van de benchmark onderstreept. Bovendien bieden we ChartWalker-Agent aan, een agentische baseline om analyse te vergemakkelijken en toekomstig systeemontwerp te inspireren.

QG-MIL: Een Gated Transformer Aggregator voor Domein-Agnostisch Multiple Instance Learning in Medische Beeldvorming
QG-MIL: A Gated Transformer Aggregator for Domain-Agnostic Multiple Instance Learning in Medical Imaging

Jun 18

ByLuca Zedda, Davide Antonio Mura, Cecilia Di Ruberto, Maurizio Atzori, Muhammed Furkan Dasdelen, Carsten Marr, Andrea Loddo

Op aandachtsgebaseerde Multiple Instance Learning-aggregatoren in medische beeldvorming is de neiging tot aandachtsconcentratie, wat leidt tot te zelfverzekerde en onstabiele voorspellingen. Wij introduceren QG-MIL, een gepoorte transformer-aggregator die dit probleem aanpakt via vier synergistische architecturale componenten: RMSNorm-gebaseerde pre-normalisatie, per-hoofd QK-normalisatie, fijnmazige aandachtuitgangspoortvorming en SwiGLU-stijl feed-forward modules. Samen stabiliseren deze ontwerpkeuzes de training en verdelen ze de aandacht gelijkmatiger over de instanties, zonder extra verliezen, masking of meertrapsregularisatie. We evalueren QG-MIL op zes benchmarks die de gehele-dia-pathologie en celniveau-hematologie omvatten, twee fundamenteel verschillende MIL-schalen. De best presterende QG-MIL-varianten overtreffen de belangrijkste baselines op alle zes benchmarks, met een gemiddelde verbetering van +6,1 macro-F1-punten. Aandachtsoverlays en aandachtsmassanalyse bevestigen een meer gedistribueerde instantieweging. Ablatiestudies tonen aan dat individuele componenten op specifieke datasets weliswaar de prestaties van het volledige model kunnen evenaren, maar dat het QG-MIL-ontwerp de meest consistente cross-domeinprestaties en de strakste variantie biedt in vergelijking met geselecteerde baselines. We stellen een configureerbare implementatie beschikbaar ter ondersteuning van reproduceerbaarheid op: https://github.com/unica-visual-intelligence-lab/QG-MIL

ReMMD: Realistische meertalige multi-afbeelding agentische verificatie voor multimodale desinformatiedetectie
ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

Jun 23

ByChenhao Dang, Dantong Zhu, Jun Yang, Conghui He, Weijia Li

Multimodale desinformatiedetectie wordt steeds belangrijker omdat virale berichten nu lange meertalige verhalen, meerdere afbeeldingen, gemengde herkomst en subtiele tekst-beeld framingfouten combineren. Bestaande benchmarks en methoden sluiten slecht aan bij deze context: ze isoleren gewoonlijk korte bijschriften, enkele afbeeldingen, binaire labels of één manipulatiebron, terwijl agentische verificatie onder realistische bewijszoeopdrachten duur blijft. Wij presenteren ReMMD, een realistisch meertalig multi-image agentisch verificatiekader voor multimodale desinformatiedetectie. ReMMD omvat ReMMDBench, een realistische multimodale desinformatiedetectiebenchmark met 500 monsters, 2.756 afbeeldingen, vijf eentalige talen, twee cross-linguale instellingen, drie tekstlengteniveaus, berichten met meerdere afbeeldingen, vijfwaardige waarheidslabels, acht vervormingslabels, bewijsherkomst en motiveringen. Het omvat ook ReMMD-Agent, een aanhoudende geheugenverificateur die berichten ontleedt in atomaire punten, een herbruikbare bewijzenset opbouwt en gestructureerde L1/L2/L3-uitvoer voorspelt. Over propriëtaire systemen, open LVLM's, MMD-Agent en T2-Agent heen behaalt ReMMD-Agent de beste vijfwaardige waarheidsprestaties, met 41,80% nauwkeurigheid en 39,12% macro-F1 met GPT-5.2, terwijl de kosten met 17,5% dalen ten opzichte van MMD-Agent en met 79,9% ten opzichte van T2-Agent. Het project is beschikbaar op https://dang-ai.github.io/ReMMD.

EventVLA: Event-gedreven Visueel Bewijsgeheugen voor Lange-termijn Visie-Taal-Actie Beleidsstrategieën
EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

Jun 18

ByGanlin Yang, Zhangzheng Tu, Yuqiang Yang, Sitong Mao, Junyi Dong, Tianxing Chen, Jiaqi Peng, Jing Xiong, Jiafei Cao, Jifeng Dai, Wengang Zhou, Yao Mu, Tai Wang

Geheugen blijft een kritiek knelpunt voor robotmanipulatie over lange tijdsperioden, omdat standaard Visie-Taal-Actie (VTA)-beleidsstrategieën vaak falen wanneer taakrelevante aanwijzingen na verloop van tijd worden afgeschermd of niet waarneembaar zijn. Hoewel bestaande geheugenaugmentatiemethoden historische context benutten, kampen ze ofwel met ernstige informatieknelpunten, vertonen ze hoge latentie door ontkoppelde dubbele systemen, of vertrouwen ze op onselectieve buffers die enorme visuele redundanties accumuleren. Om deze beperkingen aan te pakken, introduceren wij EventVLA, een eind-tot-eind raamwerk dat is gebaseerd op het concept van geheugen met spaarzame visuele bewijzen. Het bestaat uit twee kerncomponenten: fundamentele visuele ankers voor het behouden van initiële en korte-termijn contexten, en een dynamische Keyframe Evidence Memory (KEM)-module. Specifiek voorspelt KEM rechtstreeks toekomstige kansverdelingen voor sleutelframes op basis van de latente inbeddingen van de VTA om autonoom spaarzame, taakkritische visuele gebeurtenissen vast te leggen en op te slaan. Dit vooruitziende mechanisme stelt het beleid in staat om dynamisch het toekomstige causale nut van huidige waarnemingen te evalueren, waarbij vluchtig visueel bewijs wordt bewaard voordat het niet waarneembaar wordt. Verder stellen wij RoboTwin-MeM voor, een diagnostische benchmark die specifiek is ontworpen om niet-Markovse manipulatietaken met interactieve visuele bewijzen te evalueren. Uitgebreide evaluaties tonen aan dat EventVLA over 17 simulatietaken die geheugen vereisen en 4 realistische bimanuele taken een gemiddelde verbetering van het slagingspercentage van +40% behaalt ten opzichte van de modernste geheugengeaugmenteerde VTA's.

Wereldwaardemodellen voor Robotmanipulatie
World Value Models for Robotic Manipulation

Jun 23

ByZhihao Wang, Jianxiong Li, Yu Cui, Yuan Gao, Xianyuan Zhan, Junzhi Yu, Xiao Ma

Algemene waardemodellen spelen een cruciale rol bij het opschalen van robotbeleidsleren op basis van grootschalige data van gemengde kwaliteit. Wiskundig gezien vereist nauwkeurige waardeschatting een diep temporeel begrip, waarbij modellen zowel de huidige overtuiging moeten verankeren met historische context als moeten plannen voor toekomstige uitkomsten. De meeste bestaande robotwaardemodellen zijn echter gebouwd op Vision-Language Model (VLM)-backbones die voornamelijk zijn getraind op statische of temporeel schaarse visuele waarnemingen, en missen de benodigde temporele modelleringscapaciteiten voor waardeschatting. In tegenstelling tot VLM's blinken wereldmodellen van nature uit in temporele modellering en toekomstplanning, waardoor ze ideale basisvormen zijn voor het leren van generaliseerbare waardefuncties. Gedreven door dit inzicht combineren we wereldmodellen met waardeschatting om een nieuw algemeen robotwaardemodel te construeren, het Wereldwaardemodel (WVM), dat nauwkeurige taakvoortgang biedt om datakwaliteit te beoordelen. Op standaard benchmarks levert WVM state-of-the-art (SOTA) Value-Order Correlation (VOC) resultaten. Ter aanvulling op standaard evaluatiesuites die alleen expertdata bevatten, introduceren we verder Suboptimal-Value-Bench, een multi-embodiment benchmark bestaande uit 800 suboptimale trajecten met hooggetrouwe, door mensen gelabelde frame-annotaties. Onze evaluaties tonen aan dat WVM zijn SOTA-prestaties behoudt op Suboptimal-Value-Bench, waarmee het zijn robuustheid bevestigt in het omgaan met zowel expert- als suboptimale data. Wanneer ingezet voor beleidsleren, verbetert WVM de manipulatieprestaties bij verschillende beleidsextractiebenaderingen in zowel gesimuleerde als echte implementaties, en biedt het robuuste begeleiding voor het leren van data van gemengde kwaliteit.

FlowR2A: Het leren van de beloning-naar-actie distributie voor multimodale rijplanning
FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning

Jun 23

ByXirui Li, Zhe Liu, Xiaoqing Ye, Wenhua Han, Yifeng Pan, Junyu Han, Hengshuang Zhao

Multimodale rijdplanning kent een al lang bestaande spanning tussen twee paradigma's: op scores gebaseerde methoden profiteren van dichte beloningssupervisie, maar zijn beperkt tot een vaste actiewoordenschat, terwijl op ankers gebaseerde methoden dynamisch voorstellen genereren, maar te lijden hebben onder schaarse supervisie die beperkt is tot één enkele grondwaarheidstraject. In dit werk stellen we FlowR2A voor, die deze spanning oplost door op simulatie gebaseerde beloningen te herkaderen van discriminatieve doelen naar generatieve condities. Door de beloningsgeconditioneerde actieverdeling te leren uit dichte traject-beloningsparen met een flow-matchingdecoder, verenigt FlowR2A de dichte supervisie van op scores gebaseerde methoden met de voorstelgeneratie van op ankers gebaseerde methoden in één enkel generatief model, waardoor het model gedwongen wordt de correlatie tussen een actie en de uitkomsten ervan op het gebied van veiligheid, voortgang, comfort en regelconformiteit te internaliseren. Om harde veiligheidsbeperkingen in balans te brengen met zachte voortgangsdoelstellingen, introduceren we fijnmazige beloningsconditionering per tijdstap en ruisaugmentatie van beloningen. De generatieve formulering ondersteunt van nature controleerbare testtijdsampling via beloningssturing en verankerde sampling, wat resulteert in voorstellen van hoge kwaliteit. FlowR2A behaalt state-of-the-art resultaten op de NAVSIM v1- en v2-benchmarks, met multimodale voorstellen van aanzienlijk hogere kwaliteit dan eerdere methoden.

Een Efficiënte Methode voor de Optimale Regeling van Microgrids onder Onzekerheden met Behulp van Lokale Reductie
An Efficient Method for the Optimal Control of Microgrids Under Uncertainties using Local Reduction

Jun 10

ByEdoardo Scaccia, Eric C. Kerrigan, Anna Sadowska

Het probleem van optimale dimensionering en vermogensplanning in microgrids onder onzekerheden is algemeen bekend binnen de regeltechnische gemeenschap. Doorgaans wordt het optimale regelprobleem geformuleerd als een gemengd-geheelgetallig programma om de logische beperkingen in energieopslagsystemen te modelleren, en wordt het vervolgens bij benadering opgelost met numerieke methoden, zoals de scenario-benadering. In dit artikel stellen we twee formuleringen voor van een robuust optimaal regelprobleem voor dimensionering en vermogensplanning van een microgrid met logische beperkingen en onzekerheden in de stroomvraag van de gebruiker, zonne-energieopwekking, netelektriciteitsprijzen en batterijrendementen, en vergelijken we deze. De eerste formulering maakt gebruik van binaire variabelen en big-M-beperkingen, wat leidt tot een gemengd-geheelgetallig lineair programma. De tweede formulering herformuleert het probleem als een continu niet-lineair programma door middel van een exacte gladde herformulering van de logische beperkingen, bestaande uit extra modelvariabelen en niet-convexe beperkingen. Vervolgens introduceren we een nieuw lokaal reductiealgoritme, als uitbreiding van een bestaande methode, om beide problemen op te lossen. De twee formuleringen worden vergeleken door de oplossingen te evalueren die door het lokale reductiealgoritme worden gegenereerd, met behulp van Monte Carlo-simulaties met 100.000 steekproeven, en behalen veelbelovende resultaten, waarbij beide gemiddelde haalbaarheidspercentages boven de 90% noteren.

InSight: Zelfgestuurde Vaardigheidsverwerving via Stuurbare VLA’s
InSight: Self-Guided Skill Acquisition via Steerable VLAs

Jun 23

ByMaggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

Visie-taal-actie (VTA) modellen kunnen manipulatievaardigheden leren van demonstraties, maar hun mogelijkheden worden begrensd door de vaardigheden in de trainingsdata. Wij presenteren InSight, een raamwerk dat autonome vaardigheidsverwerving mogelijk maakt door VTA's stuurbaar te maken op het niveau van primitieve acties (bijv. "verplaats grijper naar de kom", "til omhoog", "giet de fles"). InSight bestaat uit twee primaire fasen: (1) een geautomatiseerde segmentatiepijplijn die demonstraties opsplitst in gelabelde primitieven via VLM-plan decompositie en eind-effector poses om VTA-primitief stuurbaarheid te realiseren, en (2) een VLM-gestuurd data vliegwiel dat ontbrekende primitieven identificeert die nodig zijn om een nieuwe taak te volbrengen, autonoom probeert demonstraties van de ontbrekende primitieven uit te voeren met VLM-voorgestelde laagniveau besturing, en succesvolle demonstraties automatisch labelt, opslaat en integreert in de VTA-trainingsset. We evalueren InSight in zowel simulatie- als echte manipulatie taken, waaronder blok omdraaien, lade sluiten, vegen, draaien en gieten, zonder enige menselijke demonstraties van deze doelvaardigheden. Eenmaal geleerd, kunnen deze primitieven worden samengesteld om nieuwe, lange-termijn taken uit te voeren zonder extra menselijke demonstraties. Onze bevindingen tonen aan dat primitief stuurbaarheid een praktische basis biedt voor continue vaardigheidsverwerving in VTA-beleid. Projectwebsite: https://insight-vla.github.io.

FLUX3D: Hoge-getrouwheid 3D Gaussiaanse generatie met diffusie-uitgelijnde schaarse representatie
FLUX3D: High-Fidelity 3D Gaussian Generation with Diffusion-Aligned Sparse Representation

Jun 23

ByHaorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo

Schaarse voxelrepresentatie heeft zich ontwikkeld tot een schaalbare basis voor beeld-naar-3D Gaussian Splatting (3DGS)-generatie, maar huidige methoden hebben moeite om hoogfrequente visuele details van invoerbeelden te behouden vanwege twee structurele knelpunten. Ten eerste gebruiken ze discriminerende 2D-kenmerken die zijn geoptimaliseerd voor semantische abstractie om schaarse voxel-latenten te construeren, wat reconstructieve signalen onderdrukt en een representatieknelpunt veroorzaakt. Ten tweede missen standaard diffusietransformators in de generatiefase effectieve mechanismen om dichte 2D-beeldtokens af te stemmen op schaarse 3D-voxel-latenten, wat leidt tot een crossmodaal correspondentieknelpunt. Om deze problemen aan te pakken, stellen we FLUX3D voor, een schaalbaar beeld-naar-3DGS-framework dat zowel representatieleren als crossmodale afstemming tijdens de generatie verbetert. We herzien eerst de 2D-kenmerkenselectie voor schaars-voxel-gebaseerd 3D-representatieleren, stellen Diffusion-Aligned Structured Latents (DA-SLAT) voor en koppelen dit aan een decoder-only architectuur om de 3DGS-reconstructiefideliteit te verbeteren. Daarnaast ontwerpen we een schaars-structuur-bewust diffusieframework, dat de Sparse-structure Multimodal Diffusion Transformer (SMDiT) en Modal-Aware Rotary Positional Embedding (MARoPE) integreert om geometrie-agnostische 2D-3D-afstemming te bereiken. Uitgebreide benchmarkexperimenten tonen aan dat FLUX3D aanzienlijke verbeteringen in uiterlijkfideliteit oplevert en alle state-of-the-art (SOTA)-methoden significant overtreft bij het genereren van hoogwaardige 3DGS-assets.

AGORA: Een archiefgebaseerde benchmark voor agentisch redeneren over werkplekdocumenten
AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning

Jun 23

ByHonglin Guo, Qi Zhang, Yu Zhang, Weijie Li, Rui Zheng, Zhikai Lei, Qiyuan Peng, Zhiheng Xi, Tao Gui, Qi Zhang

Grote taalmodellen worden steeds vaker ingezet als agenten die redeneren op basis van documenten in plaats van antwoorden te geven op basis van parametrische kennis. Wij bestuderen archief-gefundeerd redeneren: het lokaliseren van schaarse bewijsstukken in een grote, rommelige verzameling werkplekbestanden, het verzoenen van inconsistente terminologie, eenheden en tijdsconventies, en het berekenen van een antwoord. Bestaande benchmarks bestrijken slechts delen van deze setting en geen enkele legt gezamenlijk de nadruk op archief-gefundeerdheid, agentische exploratie en cross-domein dekking. Wij introduceren Agora, een benchmark die 362 vragen koppelt aan acht domeincollecties van 9.664 authentieke documenten en 372M tokens, veruit groter dan het contextvenster van enig model, zodat agenten doelbewust moeten verkennen in plaats van uitputtend te scannen. Agora is gebouwd door een agentische pijplijn die cross-document taaksynthese, lekkage-voorkomende obfuscatie en moeilijkheidsfiltering combineert. Bij het evalueren van acht modellen blijkt de taak verre van opgelost: zelfs het sterkste model haalt slechts 59,4% nauwkeurigheid, met opmerkelijke variatie tussen domeinen.

Multi4D: Hoge-getrouwheid Dynamische Gaussian Splatting via Meerniveau Concurrentie Toewijzing
Multi4D: High-Fidelity Dynamic Gaussian Splatting via Multi-Level Competitive Allocation

Jun 20

ByRui Wang, Quentin Lohmeyer, Siyu Tang, Mirko Meboldt

Dynamische 3D Gaussische splatting staat voor een fundamentele spanning tussen bewegingsconsistentie en visuele getrouwheid. Op vervorming gebaseerde benaderingen behouden temporele correspondentie, maar lijden onder over-factorisatie van beweging, wat hoogfrequente dynamiek overmatig gladstrijkt. Daarentegen leggen 4D-primitieve methoden fijne visuele details vast, maar brengen temporele overparameterisatie met zich mee, wat de objectidentiteit doorbreekt en leidt tot ernstige opslagoverhead. Om dit op te lossen introduceren we Multi4D, een raamwerk voor hoog-getrouwe dynamische Gaussische splatting op basis van meerlaagse competitieve allocatie. In plaats van een monolitische representatie verdelen we de modelleercapaciteit over drie gestructureerde niveaus: statische structuur, persistente dynamische geometrie en tijdelijke verschijningsprimitieven. Door middel van gedeelde rasterisatie en residu-gestuurde optimalisatie concurreren deze niveaus dynamisch om de fotometrische fout te verklaren, wat adaptieve specialisatie mogelijk maakt zonder vooraf toegewezen decompositie. Deze allocatie behoudt bewegingsconsistentie op lange termijn terwijl fijne dynamische details worden vastgelegd, resulterend in state-of-the-art weergavekwaliteit en real-time prestaties met aanzienlijk minder dynamische primitieven. Bovendien, omdat onze representatie expliciet compacte persistente Gaussianen in de loop van de tijd bijhoudt, kunnen semantische kenmerken achteraf worden ingebed, waardoor Multi4D state-of-the-art 4D-segmentatienauwkeurigheid bereikt met een orde-van-grootte versnelling. Projectpagina: https://batfacewayne.github.io/Multi4D.io/