ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Heterogene Samenwerking tussen Wetenschappelijke Fundamentmodellen
Heterogeneous Scientific Foundation Model Collaboration

Apr 30
ByZihao Li, Jiaru Zou, Feihao Fang, Xuying Ning, Mengting Ai, Tianxin Wei, Sirui Chen, Xiyuan Yang, Jingrui He
176
1

Agentische grote-taalmodel-systemen hebben sterke capaciteiten getoond. Hun afhankelijkheid van taal als universele interface beperkt echter fundamenteel hun toepasbaarheid op veel real-world problemen, vooral in wetenschappelijke domeinen waar domeinspecifieke foundation-modellen zijn ontwikkeld voor gespecialiseerde taken die verder gaan dan natuurlijke taal. In dit werk introduceren we Eywa, een heterogeen agentisch framework ontworpen om taalgecentreerde systemen uit te breiden naar een bredere klasse van wetenschappelijke foundation-modellen. De kernidee van Eywa is het versterken van domeinspecifieke foundation-modellen met een op taalmodellen gebaseerde redeneerinterface, waardoor taalmodellen inferentie over niet-linguïstische datamodaliteiten kunnen sturen. Dit ontwerp stelt voorspellende foundation-modellen, die typisch zijn geoptimaliseerd voor gespecialiseerde data en taken, in staat om deel te nemen aan hogere-niveau redeneer- en besluitvormingsprocessen binnen agentische systemen. Eywa kan dienen als directe vervanging voor een single-agent pipeline (EywaAgent) of worden geïntegreerd in bestaande multi-agent systemen door traditionele agents te vervangen met gespecialiseerde agents (EywaMAS). Wij onderzoeken verder een op planning gebaseerd orchestratieframework waarin een planner dynamisch traditionele agents en Eywa-agents coördineert om complexe taken over heterogene datamodaliteiten op te lossen (EywaOrchestra). We evalueren Eywa in een diverse reeks wetenschappelijke domeinen, waaronder natuur-, levens- en sociale wetenschappen. Experimentele resultaten tonen aan dat Eywa de prestaties verbetert bij taken met gestructureerde en domeinspecifieke data, terwijl de afhankelijkheid van taalgebaseerd redeneren wordt verminderd door effectieve samenwerking met gespecialiseerde foundation-modellen.

2

Visuele Generatie in het Nieuwe Tijdperk: Een Evolutie van Atomische Mapping naar Agentisch Wereldmodelleren
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Apr 30
ByKeming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang
70
2

Recente visuele generatiemodellen hebben grote vooruitgang geboekt op het gebied van fotorealisme, typografie, instructievolging en interactieve bewerking, maar ze worstelen nog steeds met ruimtelijk redeneren, persistente toestand, consistentie op lange termijn en causaal begrip. Wij beargumenteren dat het veld zich moet bewegen voorbij het synthetiseren van uiterlijk naar intelligente visuele generatie: geloofwaardige beelden verankerd in structuur, dynamica, domeinkennis en causale relaties. Om deze verschuiving te kaderen, introduceren we een taxonomie met vijf niveaus: Atoomgeneratie, Voorwaardelijke Generatie, In-Context Generatie, Agent-gebaseerde Generatie en Wereldmodellerende Generatie, die evolueert van passieve renderers naar interactieve, agent-gebaseerde, wereldbewuste generators. We analyseren belangrijke technische drijvende krachten, waaronder flow matching, verenigde begrip-en-generatie modellen, verbeterde visuele representaties, post-training, beloningsmodellering, datacuratie, distillatie van synthetische data en samplingversnelling. Verder tonen we aan dat huidige evaluaties de vooruitgang vaak overschatten door de nadruk te leggen op perceptuele kwaliteit terwijl structurele, temporele en causale fouten over het hoofd worden gezien. Door een combinatie van benchmarkreview, stress-tests in de praktijk en expert-gebonden casestudies biedt deze routekaart een capaciteitsgericht perspectief voor het begrijpen, evalueren en bevorderen van de volgende generatie intelligente visuele generatiesystemen.

3

Co-Evoluerende Policy Distillatie
Co-Evolving Policy Distillation

Apr 29
ByNaibin Gu, Chenxu Yang, Qingyi Si, Chuanyu Qin, Dingyu Yao, Peng Fu, Zheng Lin, Weiping Wang, Nan Duan, Jiaqi Wang
34
1

RLVR en OPD zijn standaardparadigma's geworden voor post-training. Wij bieden een geünificeerde analyse van deze twee paradigma's bij het consolideren van meerdere expertcapaciteiten in één model, waarbij we capaciteitsverlies op verschillende manieren identificeren: gemengde RLVR lijdt onder inter-capaciteitsdivergentiekosten, terwijl de pijplijn van eerst experts trainen en vervolgens OPD uitvoeren, hoewel divergentie vermeden wordt, er niet in slaagt de capaciteiten van de teacher volledig te absorberen vanwege grote gedragspatroonverschillen tussen teacher en student. Wij stellen Co-Evolving Policy Distillation (CoPD) voor, waarbij parallelle training van experts wordt aangemoedigd en OPD wordt geïntroduceerd tijdens de doorlopende RLVR-training van elke expert in plaats van na voltooide experttraining, waarbij experts als onderlinge teachers fungeren (waardoor OPD bidirectioneel wordt) om zich gezamenlijk te ontwikkelen. Dit maakt consistentere gedragspatronen tussen experts mogelijk terwijl voldoende complementaire kennis behouden blijft. Experimenten valideren dat CoPD een alles-in-één integratie van tekst-, beeld- en videoredeneercapaciteiten bereikt, aanzienlijk sterker presteert dan sterke baseline-methoden zoals gemengde RLVR en MOPD, en zelfs domeinspecifieke experts overtreft. Het parallelle modeltrainingspatroon dat CoPD biedt, kan een nieuw trainingsschaalparadigma inspireren.

4

ExoActor: Exocentrische videogeneratie als generaliseerbare interactieve humanoïde besturing
ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Apr 30
ByYanghao Zhou, Jingyu Ma, Yibo Peng, Zhenguo Sun, Yu Bai, Börje F. Karlsson
31
2

Humanoïde besturingssystemen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, maar het modelleren van vloeiende, interactierijke gedragingen tussen een robot, zijn omgeving en taakrelevante objecten blijft een fundamentele uitdaging. Deze moeilijkheid ontstaat door de noodzaak om ruimtelijke context, temporele dynamiek, robotacties en taakintentie op schaal gezamenlijk vast te leggen, wat slecht aansluit bij conventionele supervisie. Wij stellen ExoActor voor, een nieuw raamwerk dat de generalisatiecapaciteiten van grootschalige videogeneratiemodellen benut om dit probleem aan te pakken. Het kerninzicht van ExoActor is het gebruik van derdepersoonsvideogeneratie als een uniforme interface voor het modelleren van interactiedynamiek. Gegeven een taakinstructie en scènecontext synthetiseert ExoActor plausibele uitvoeringsprocessen die gecoördineerde interacties tussen robot, omgeving en objecten impliciet coderen. Deze video-uitvoer wordt vervolgens omgezet in uitvoerbare humanoïde gedragingen via een pijplijn die menselijke beweging schat en deze uitvoert via een algemene bewegingcontroller, wat resulteert in een taakgeconditioneerde gedragsreeks. Om het voorgestelde raamwerk te valideren, implementeren we het als een end-to-endsysteem en demonstreren we de generalisatie naar nieuwe scenario's zonder aanvullende dataverzameling in de echte wereld. Tot slot bespreken we de beperkingen van de huidige implementatie en schetsen we veelbelovende onderzoeksrichtingen, waarbij we illustreren hoe ExoActor een schaalbare aanpak biedt voor het modelleren van interactierijke humanoïde gedragingen, wat mogelijk een nieuwe weg opent voor generatieve modellen om algemeen bruikbare humanoïde intelligentie te bevorderen.

5

Efficiënte training op meerdere consumenten-GPU's met RoundPipe
Efficient Training on Multiple Consumer GPUs with RoundPipe

Apr 29
ByYibin Luo, Shiwei Gao, Huichuan Zheng, Youyou Lu, Jiwu Shu
24
1

Het finetunen van grote taalmmodellen (LLM's) op consumenten-GPU's is zeer kosteneffectief, maar wordt beperkt door beperkt GPU-geheugen en trage PCIe-verbindingen. Pipeline-parallelisme gecombineerd met CPU-offloading verzacht deze hardwarebeperkingen door communicatie-overhead te verminderen. Bestaande PP-schema's lijden echter onder een inherente beperking, het zogenaamde gewichtsbindingsprobleem. Het binden van ongelijke modelstadia (bijv. de LM-head is groot) aan GPU's beperkt de doorvoer van de pijplijn tot die van de GPU met de zwaarste belasting, wat leidt tot ernstige pijplijnbellen. In dit artikel stellen we RoundPipe voor, een nieuw pijplijnschema dat de gewichtsbindingsbeperking op consumenten-GPU-servers doorbreekt. RoundPipe behandelt GPU's als een pool van stateless uitvoeringsworkers en verdeelt rekenstadia dynamisch over apparaten in een round-robin manier, waardoor een pijplijn met bijna nul bellen wordt bereikt. Om trainingscorrectheid en systeemefficiëntie te garanderen, integreert RoundPipe een prioriteitsbewuste overdrachtsscheduleringsengine, een fijnmazig gedistribueerd op events gebaseerd synchronisatieprotocol en een geautomatiseerd laagpartitioneringsalgoritme. Evaluaties op een 8x RTX 4090-server tonen aan dat RoundPipe 1,48–2,16x versnellingen bereikt ten opzichte van state-of-the-art baseline-methoden bij het finetunen van modellen van 1,7B tot 32B parameters. Opmerkelijk is dat RoundPipe LoRA-finetuning van het Qwen3-235B-model met een sequentielengte van 31K op een enkele server mogelijk maakt. RoundPipe is openbaar beschikbaar als een open-source Python-bibliotheek met uitgebreide documentatie.

6

Claw-Eval-Live: Een Live-Agent Benchmark voor Evolving Real-World Workflows
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Apr 30
ByChenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan
17
1

LLM-agenten worden geacht end-to-end werkzaamheden te voltooien across softwaretools, bedrijfsservices en lokale werkruimtes. Toch bevriezen veel agentbenchmarks een geselecteerde set taken bij de release en beoordelen ze voornamelijk het eindantwoord, wat het moeilijk maakt om agenten te evalueren tegen evoluerende workflowbehoeften of om te verifiëren of een taak daadwerkelijk werd uitgevoerd. Wij introduceren Claw-Eval-Live, een live benchmark voor workflowagenten die een vernieuwbare signaallaag, die tussen releases wordt bijgewerkt op basis van publieke workflowvraagsignalen, scheidt van een reproduceerbare, getimestampde releasesnapshot. Elke release wordt samengesteld uit publieke workflowvraagsignalen, waarbij de ClawHub Top-500 vaardigheden die in de huidige release worden gebruikt, worden gematerialiseerd als gecontroleerde taken met vaste fixtures, services, werkruimtes en beoordelaars. Voor de beoordeling registreert Claw-Eval-Live uitvoeringstraces, auditlogs, servicestatus en artefacten in de werkruimte na uitvoering, waarbij deterministische controles worden gebruikt wanneer bewijs voldoende is en gestructureerde LLM-beoordeling alleen voor semantische dimensies. De release bevat 105 taken die zich uitstrekken over gecontroleerde bedrijfsservices en lokaal werkruimteherstel, en evalueert 13 frontier-modellen onder een gedeelde, publieke slaagregel. Experimenten tonen aan dat betrouwbare workflowautomatisering nog lang niet is opgelost: het beste model slaagt voor slechts 66,7% van de taken en geen enkel model bereikt 70%. Fouten zijn gestructureerd per taakfamilie en uitvoeringsoppervlak, waarbij HR-, management- en multi-systeem bedrijfsworkflows hardnekkige knelpunten vormen, en lokaal werkruimteherstel relatief eenvoudiger maar onverzadigd is. Enkel de leaderboardpositie volstaat niet, omdat modellen met vergelijkbare slaagpercentages kunnen verschillen in algehele voltooiing, en taakniveau-discriminatie concentreert zich in een middelste band van taken. Claw-Eval-Live suggereert dat evaluatie van workflowagenten dubbel moet worden verankerd: in verse externe vraag en in verifieerbare agentactie.

7

Lengtewaardemodel: Schaalbare waardevoorpretraining voor token-niveau lengtemodellering
Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Apr 29
ByZhen Zhang, Changyi Yang, Zijie Xia, Zhen Yang, Chengzhi Liu, Zhaotiao Weng, Yepeng Liu, Haobo Chen, Jin Pan, Chenyang Zhao, Yuheng Bu, Alkesh Patel, Zhe Gan, Xin Eric Wang
16
1

Tokens vormen de fundamentele rekeneenheid in moderne autoregressieve modellen, en de generatielengte beïnvloedt direct zowel de inferentiekosten als de prestaties van het redeneervermogen. Ondanks dit belang ontbreekt het bestaande benaderingen aan fijnmazige lengtemodellering, omdat ze voornamelijk op het grove sequentieniveau opereren. Wij introduceren het Lengte Waarde Model (LenVM), een token-level raamwerk dat de resterende generatielengte modelleert. Door lengtemodellering te formuleren als een waardeschattingsprobleem en aan elk gegenereerd token een constante negatieve beloning toe te kennen, voorspelt LenVM een begrenst, verdisconteerd rendement dat dient als een monotoon proxy voor de resterende generatiehorizon. Deze formulering resulteert in supervisie die annotatievrij, dicht, onbevooroordeeld en schaalbaar is. Experimenten met LLM's en VLM's tonen aan dat LenVM een zeer effectief signaal biedt tijdens inferentie. Voor de LIFEBench-taak voor exacte lengte-afstemming verbetert het toepassen van LenVM op een 7B-model de lengtescore van 30,9 naar 64,8, wat frontier closed-source modellen significant overtreft. Bovendien stelt LenVM continue controle mogelijk over de afweging tussen prestaties en efficiëntie. Op GSM8K met een budget van 200 tokens behoudt LenVM een nauwkeurigheid van 63% tegenover 6 procent voor de token budget-basislijn. Het voorspelt ook nauwkeurig de totale generatielengte vanaf de promptgrens. Ten slotte bieden de token-level waarden van LenVM een interpreteerbaar beeld van de generatiedynamiek, en onthullen ze hoe specifieke tokens het redeneren verschuiven naar kortere of langere regimes. Resultaten tonen aan dat LenVM een breed scala aan toepassingen ondersteunt en dat tokenlengte effectief kan worden gemodelleerd als een token-level waarde-signaal, wat het potentieel van LenVM benadrukt als een algemeen raamwerk voor lengtemodellering en als een lengte-specifiek waarde-signaal dat toekomstige RL-training zou kunnen ondersteunen. Code is beschikbaar op https://github.com/eric-ai-lab/Length-Value-Model.

8

Benutting van Verificateur-Gestuurd Versterkingsleren bij Beeldbewerking
Leveraging Verifier-Based Reinforcement Learning in Image Editing

Apr 30
ByHanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
15
1

Hoewel Reinforcement Learning from Human Feedback (RLHF) een cruciaal paradigma is geworden voor tekst-naar-beeldgeneratie, blijft de toepassing ervan op beeldbewerking grotendeels onontgonnen. Een belangrijke bottleneck is het ontbreken van een robuust algemeen beloningsmodel voor alle bewerkingstaken. Bestaande beloningsmodellen voor bewerkingen geven meestal algemene scores zonder gedetailleerde controles, negeren verschillende instructievereisten en veroorzaken daardoor vertekende beloningen. Om dit aan te pakken, stellen wij dat de sleutel ligt in de overgang van een eenvoudige scorer naar een redenerende verifier. Wij introduceren Edit-R1, een raamwerk dat een op een chain-of-thought (CoT) verifier gebaseerd redenerend beloningsmodel (RRM) bouwt en dit vervolgens benut voor downstream beeldbewerking. Het Edit-RRM breekt instructies op in afzonderlijke principes, evalueert de bewerkte afbeelding tegen elk principe, en aggregeert deze controles tot een interpreteerbare, fijnmazige beloning. Om een dergelijk RRM te bouwen, passen we eerst supervised fine-tuning (SFT) toe als een "cold-start" om CoT-beloningstrajecten te genereren. Vervolgens introduceren we Group Contrastive Preference Optimization (GCPO), een reinforcement learning-algoritme dat gebruikmaakt van menselijke gepaarde voorkeursdata om ons puntsgewijze RRM te versterken. Na het bouwen van het RRM gebruiken we GRPO om bewerkingsmodellen te trainen met dit niet-differentieerbare maar krachtige beloningsmodel. Uitgebreide experimenten tonen aan dat ons Edit-RRM krachtige VLMs zoals Seed-1.5-VL en Seed-1.6-VL overtreft als een bewerkingsspecifiek beloningsmodel, en we observeren een duidelijke schaalwet, waarbij de prestaties consistent verbeteren van 3B naar 7B parameters. Bovendien levert Edit-R1 verbeteringen op voor bewerkingsmodellen zoals FLUX.1-kontext, wat de effectiviteit ervan bij het verbeteren van beeldbewerking benadrukt.

9

Intern-Atlas: Een methodologische evolutiegrafiek als onderzoeksinfrastructuur voor AI-wetenschappers
Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

Apr 30
ByYujun Wu, Dongxu Zhang, Xinchen Li, Jinhang Xu, Yiling Duan, Yumou Liu, Jiabao Pan, Xuanhe Zhou, Jingxuan Wei, Siyuan Li, Jintao Chen, Conghui He, Cheng Tan
11
2

De bestaande onderzoeksinfrastructuur is fundamenteel documentgericht: ze biedt citatiekoppelingen tussen artikelen, maar mist expliciete representaties van methodologische evolutie. In het bijzonder legt ze de gestructureerde relaties niet vast die verklaren hoe en waarom onderzoeksmethoden ontstaan, zich aanpassen en op elkaar voortbouwen. Met de opkomst van AI-gestuurde onderzoeksagenten als een nieuwe categorie gebruikers van wetenschappelijke kennis wordt deze beperking steeds belangrijker, aangezien dergelijke agenten niet betrouwbaar methodologie-evolutietopologieën kunnen reconstrueren uit ongestructureerde tekst. Wij introduceren Intern-Atlas, een methodologie-evolutiegraaf die automatisch methodeniveau-entiteiten identificeert, afstammingsrelaties tussen methodologieën afleidt en de knelpunten vastlegt die overgangen tussen opeenvolgende innovaties aandrijven. Opgebouwd uit 1.030.314 artikelen van AI-conferenties, tijdschriften en arXiv-preprints, omvat de resulterende graaf 9.410.201 semantisch getypeerde edges, elk verankerd in letterlijk bronbewijs, en vormt zo een bevraagbaar causaal netwerk van methodologische ontwikkeling. Om deze structuur operationeel te maken, stellen we verder een zelfgestuurd tijdelijk boomzoekalgoritme voor voor het construeren van evolutieketens die de voortgang van methoden in de tijd traceren. We evalueren de kwaliteit van de resulterende graaf aan de hand van door experts samengestelde grondwaarheid-evolutieketens en constateren een sterke overeenkomst. Daarnaast tonen we aan dat Intern-Atlas downstream-toepassingen mogelijk maakt op het gebied van ideeënevaluatie en geautomatiseerde ideeëngeneratie. Wij positioneren methodologie-evolutiegrafieken als een fundamentele datalaag voor de opkomende geautomatiseerde wetenschappelijke ontdekking.

10

Nemotron 3 Nano Omni: Efficiënte en Open Multimodale Intelligentie
Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Apr 27
ByNVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, Tuomas Rintamaki, Matthieu Le, Tyler Poon, Danial Mohseni Taheri, Ilia Karmanov, Guilin Liu, Jarno Seppanen, Arushi Goel, Mike Ranzinger, Greg Heinrich, Guo Chen, Lukas Voegtle, Philipp Fischer, Timo Roman, Karan Sapra, Collin McCarthy, Shaokun Zhang, Fuxiao Liu, Hanrong Ye, Yi Dong, Mingjie Liu, Yifan Peng, Piotr Zelasko, Zhehuai Chen, Nithin Rao Koluguri, Nune Tadevosyan, Lilit Grigoryan, Ehsan Hosseini Asl, Pritam Biswas, Leili Tavabi, Yuanhang Su, Zhiding Yu, Peter Jin, Alexandre Milesi, Netanel Haber, Yao Xu, Sarah Amiraslani, Nabin Mulepati, Eric Tramel, Jaehun Jung, Ximing Lu, Brandon Cui, Jin Xu, Zhiqi Li, Shihao Wang, Yuanguo Kuang, Shaokun Zhang, Huck Yang, Boyi Li, Hongxu Yin, Song Han, Pavlo Molchanov, Adi Renduchintala, Charles Wang, David Mosallanezhad, Soumye Singhal, Luis Vega, Katherine Cheung, Sreyan Ghosh, Yian Zhang, Alexander Bukharin, Venkat Srinivasan, Johnny Greco, Andre Manoel, Maarten Van Segbroeck, Suseella Panguliri, Rohit Watve, Divyanshu Kakwani, Shubham Pachori, Jeffrey Glick, Radha Sri-Tharan, Aileen Zaman, Khanh Nguyen, Shi Chen, Jiaheng Fang, Qing Miao, Wenfei Zhou, Yu Wang, Zaid Pervaiz Bhat, Varun Praveen, Arihant Jain, Ramanathan Arunachalam, Tomasz Kornuta, Ashton Sharabiani, Amy Shen, Wei Huang, Yi-Fu Wu, Ali Roshan Ghias, Huiying Li, Brian Yu, Nima Tajbakhsh, Chen Cui, Wenwen Gao, Li Ding, Terry Kong, Manoj Kilaru, Anahita Bhiwandiwalla, Marek Wawrzos, Daniel Korzekwa, Pablo Ribalta, Grzegorz Chlebus, Besmira Nushi, Ewa Dobrowolska, Maciej Jakub Mikulski, Kunal Dhawan, Steve Huang, Jagadeesh Balam, Yongqiang Wang, Nikolay Karpov, Valentin Mendelev, George Zelenfroynd, Meline Mkrtchyan, Qing Miao, Omri Almog, Bhavesh Pawar, Rameshwar Shivbhakta, Sudeep Sabnis, Ashrton Sharabiani, Negar Habibi, Geethapriya Venkataramani, Pamela Peng, Prerit Rodney, Serge Panev, Richard Mazzarese, Nicky Liu, Michael Fukuyama, Andrii Skliar, Roger Waleffe, Duncan Riach, Yunheng Zou, Jian Hu, Hao Zhang, Binfeng Xu, Yuhao Yang, Zuhair Ahmed, Alexandre Milesi, Carlo del Mundo, Chad Voegele, Zhiyu Cheng, Nave Assaf, Andrii Skliar, Daniel Afrimi, Natan Bagrov, Ran Zilberstein, Ofri Masad, Eugene Khvedchenia, Natan Bagrov, Borys Tymchenko, Tomer Asida, Daniel Afrimi, Parth Mannan, Victor Cui, Michael Evans, Katherine Luna, Jie Lou, Pinky Xu, Guyue Huang, Negar Habibi, Michael Boone, Pradeep Thalasta, Adeola Adesoba, Dina Yared, Christopher Parisien, Leon Derczynski, Shaona Ghosh, Wes Feely, Micah Schaffer, Radha Sri-Tharan, Jeffrey Glick, Barnaby Simkin, George Zelenfroynd, Tomasz Grzegorzek, Rishabh Garg, Aastha Jhunjhunwala, Sergei Kolchenko, Farzan Memarian, Haran Kumar, Shiv Kumar, Isabel Hulseman, Anjali Shah, Kari Briski, Padmavathy Subramanian, Joey Conway, Udi Karpas, Jane Polak Scowcroft, Annie Surla, Shilpa Ammireddy, Ellie Evans, Jesse Oliver, Tom Balough, Chia-Chih Chen, Sandip Bhaskar, Alejandra Rico, Bardiya Sadeghi, Seph Mard, Katherine Cheung, Meredith Price, Laya Sleiman, Saori Kaji, Wesley Helmholz, Wendy Quan, Michael Lightstone, Jonathan Cohen, Jian Zhang, Oleksii Kuchaiev, Boris Ginsburg, Jan Kautz, Eileen Long, Mohammad Shoeybi, Mostofa Patwary, Oluwatobi Olabiyi, Andrew Tao, Bryan Catanzaro, Udi Karpas
9
1

Wij introduceren Nemotron 3 Nano Omni, het nieuwste model in de Nemotron multimodale serie en de eerste die naast tekst, afbeeldingen en video ook native audio-inputs ondersteunt. Nemotron 3 Nano Omni behaalt consistente nauwkeurigheidsverbeteringen ten opzichte van zijn voorganger, Nemotron Nano V2 VL, across alle modaliteiten, mogelijk gemaakt door vooruitgang in architectuur, trainingsdata en recepten. In het bijzonder levert Nemotron 3 toonaangevende resultaten op het gebied van documentbegrip in de praktijk, langdurige audio-videocomprehensie en agent-achtig computergebruik. Gebouwd op de zeer efficiënte Nemotron 3 Nano 30B-A3B-backbone, integreert Nemotron 3 Nano Omni verder innovatieve multimodale tokenreductietechnieken om een aanzienlijk lagere inferentielatentie en een hogere doorvoer te leveren dan andere modellen van vergelijkbare grootte. Wij geven modelcheckpoints vrij in BF16-, FP8- en FP4-formaten, samen met delen van de trainingsdata en codebase om verder onderzoek en ontwikkeling te vergemakkelijken.

11

InteractWeb-Bench: Kunnen multimodale agenten blinde uitvoering ontvluchten bij het genereren van interactieve websites?
InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Apr 30
ByQiyao Wang, Haoran Hu, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang
8
1

Met de opkomst van multimodale grote taalmodellen (MLLM's) en coderingsagenten is de ontwikkeling van websites verschoven van handmatig programmeren naar agent-gebaseerde synthese van code op projectniveau. Bestaande benchmarks steunen op geïdealiseerde aannames, met name voor goed gestructureerde, informatieve inputs en statische uitvoeringsomgevingen. In de praktijk wordt ontwikkeling daarentegen beperkt door een kritieke bottleneck: de semantische kloof tussen dubbelzinnige, kwalitatief ondermaatse instructies van niet-deskundige gebruikers en het begrip van het model, wat resulteert in een foutmodus die wij *blinde uitvoering* noemen. Om deze kloof te dichten, introduceren wij InteractWeb-Bench, de eerste multimodale interactieve benchmark voor websitegeneratie onder niet-deskundige gebruikersomstandigheden met weinig code. InteractWeb-Bench introduceert vier typen gebruikersagenten en persona-gestuurde instructieverstoringen om diverse gebruikersgedragingen systematisch te simuleren, waaronder dubbelzinnigheid, redundantie en tegenstrijdigheid, gebaseerd op taxonomieën van defecten in requirement engineering. Wij ontwikkelen een interactieve uitvoeringsomgeving voor agenten, met een uniforme actieruimte bestaande uit Verduidelijken, Implementeren, Verifiëren en Indienen, waarmee iteratieve verfijning van intenties, codesynthese en validatie op basis van visuele feedback mogelijk wordt. Uitgebreide experimenten en analyses tonen aan dat toonaangevende MLLM-gebaseerde agenten vast blijven zitten in blinde uitvoering, wat beperkingen blootlegt in intentieherkenning en adaptieve interactie.

12

Synthetische Computers op Schaal voor Productiviteitssimulaties op Lange Termijn
Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Apr 30
ByTao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao
8
1

Realistisch productiviteitswerk op lange termijn is sterk afhankelijk van gebruikersspecifieke computeromgevingen, waarin het grootste deel van de werkcontext wordt opgeslagen en georganiseerd via directorystructuren en inhoudsrijke artefacten. Om de creatie van synthetische data voor dergelijke productiviteitsscenario's op te schalen, introduceren wij Synthetic Computers at Scale, een schaalbare methodologie voor het creëren van dergelijke omgevingen met realistische mappenhiërarchieën en inhoudsrijke artefacten (zoals documenten, spreadsheets en presentaties). Gebaseerd op elke synthetische computer voeren wij simulaties op lange termijn uit: één agent creëert productiviteitsdoelstellingen die specifiek zijn voor de gebruiker van de computer en die meerdere professionele resultaten vereisen en ongeveer een maand menselijk werk beslaan; een andere agent gedraagt zich vervolgens als die gebruiker en blijft werken op de computer – bijvoorbeeld door het bestandssysteem te navigeren voor grounding, te coördineren met gesimuleerde collaborateurs en professionele artefacten te produceren – totdat deze doelstellingen zijn voltooid. In eerste experimenten creëren wij 1.000 synthetische computers en voeren hierop simulaties op lange termijn uit; elke run vereist meer dan 8 uur agent-runtime en beslaat gemiddeld meer dan 2.000 beurten. Deze simulaties produceren rijke ervaringsleersignalen, waarvan de effectiviteit wordt gevalideerd door significante verbeteringen in agentprestaties bij zowel in-domein als out-of-domain productiviteitsevaluaties. Aangezien persona's op miljardenschaal ruim voorhanden zijn, kan deze methodologie in principe worden opgeschaald naar miljoenen of zelfs miljarden synthetische gebruikerswerelden met voldoende rekenkracht, waardoor een bredere dekking van diverse beroepen, rollen, contexten, omgevingen en productiviteitsbehoeften mogelijk wordt. Wij stellen dat schaalbare synthetische computercreatie, samen grootschalige simulaties, zeer veelbelovend is als een fundamenteel substraat voor agent-self-improvement en agentic reinforcement learning in productiviteitsscenario's op lange termijn.

13

Representation Fréchet-verlies voor Visuele Generatie
Representation Fréchet Loss for Visual Generation

Apr 30
ByJiawei Yang, Zhengyang Geng, Xuan Ju, Yonglong Tian, Yue Wang
6
0

Wij tonen aan dat de Fréchet-afstand (FD), lang als onpraktisch beschouwd als trainingsdoelstelling, in feite effectief geoptimaliseerd kan worden in de representatieruimte. Ons idee is eenvoudig: ontkoppel de populatiegrootte voor FD-schatting (bijv. 50k) van de batchgrootte voor gradiëntberekening (bijv. 1024). Wij noemen deze aanpak FD-verlies. Het optimaliseren van FD-verlies onthult verschillende verrassende bevindingen. Ten eerste verbetert het na-trainen van een basisgenerator met FD-verlies in verschillende representatieruimtes consequent de visuele kwaliteit. In de Inception-functieruimte behaalt een één-staps generator een FID van 0.72 op ImageNet 256x256. Ten tweede hergebruikt hetzelfde FD-verlies meerstapsgenerators als sterke één-staps generators zonder *teacher distillation*, adversariële training of per-sample doelen. Ten derde kan FID de visuele kwaliteit verkeerd rangschikken: moderne representaties kunnen betere samples opleveren ondanks een slechtere Inception-FID. Dit motiveert FDr^k, een metriek gebaseerd op meerdere representaties. Wij hopen dat dit werk verder onderzoek zal aanmoedigen naar distributionele afstanden in diverse representatieruimtes, zowel als trainingsdoelstellingen als evaluatiemetrieken voor generatieve modellen.

14

Het Laatste Door Mensen Geschreven Artikel: Agent-Natieve Onderzoeksartefacten
The Last Human-Written Paper: Agent-Native Research Artifacts

Apr 29
ByJiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
5
1

Wetenschappelijke publicatie perst een vertakkend, iteratief onderzoeksproces samen in een lineair narratief, waarbij het merendeel van wat onderweg werd ontdekt, wordt weggegooid. Deze compilatie legt twee structurele kosten op: een *Storytelling Tax*, waarbij mislukte experimenten, verworpen hypothesen en het vertakkende exploratieproces worden geschrapt om in een lineair verhaal te passen; en een *Engineering Tax*, waarbij de kloof tussen voor-reviewers-voldoende proza en voor-agenten-voldoende specificatie kritieke implementatiedetails onbeschreven laat. Deze kosten zijn draaglijk voor menselijke lezers, maar worden kritiek wanneer AI-agenten gepubliceerd werk moeten begrijpen, reproduceren en uitbreiden. Wij introduceren het *Agent-Native Research Artifact* (ARA), een protocol dat het narratieve artikel vervangt door een machine-uitvoerbaar onderzoekspakket, gestructureerd rond vier lagen: wetenschappelijke logica, uitvoerbare code met volledige specificaties, een exploratiegraaf die de mislukkingen bewaart die de compilatie wegwerp, en bewijs dat elke claim verankert in ruwe outputs. Drie mechanismen ondersteunen het ecosysteem: een *Live Research Manager* die beslissingen en doodlopende paden vastlegt tijdens gewone ontwikkeling; een *ARA Compiler* die legacy PDF's en repo's vertaalt naar ARA's; en een ARA-native beoordelingssysteem dat objectieve checks automatiseert, zodat menselijke reviewers zich kunnen richten op significantie, nieuwigheid en 'smaak'. Op PaperBench en RE-Bench verhoogt ARA de nauwkeurigheid van vraagbeantwoording van 72.4% naar 93.7% en het reproductiesucces van 57.4% naar 64.4%. Op RE-Bench's vijf open-ended uitbreidingstaken versnellen bewaarde mislukkingssporen in ARA de vooruitgang, maar kunnen een capabele agent ook beperken om buiten de eerder-gelopen paden te treden, afhankelijk van de capaciteiten van de agent.

15

Naleving versus Gevoeligheid: Over de Beheersbaarheid van Redeneren in Grote Taalmodellen
Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Apr 29
ByXingwei Tan, Marco Valentino, Mahmud Elahi Akhter, Yuxiang Zhou, Maria Liakata, Nikolaos Aletras
5
1

Grootschalige taalmodelen (LLM's) verwerven redeneervaardigheden door gedeelde inferentiepatronen in vooraf getrainde data, die verder worden opgeroepen via Chain-of-Thought (CoT) praktijken. Of fundamentele redeneerpatronen, zoals inductie, deductie en abductie, echter kunnen worden losgekoppeld van specifieke probleeminstanties blijft een kritieke uitdaging voor modelbeheersbaarheid en voor het verduidelijken van de beheersbaarheid van redeneren. In dit artikel presenteren we de eerste systematische onderzoek naar dit probleem door de lens van redeneerconflicten: een expliciete spanning tussen parametrische en contextuele informatie, veroorzaakt door het opleggen van logische schema's die afwijken van de verwachte patronen voor een bepaalde taak. Onze evaluatie toont aan dat LLM's consequent logische zinvolheid boven instructienaleving verkiezen, waarbij ze de voorkeur geven aan taakgeschikte redeneerpatronen ondanks tegenstrijdige instructies. Opmerkelijk genoeg wordt taaknauwkeurigheid niet strikt bepaald door zinvolheid; modellen behouden vaak een hoge prestatiewaarde zelfs bij gebruik van conflicterende patronen, wat wijst op een afhankelijkheid van geïnternaliseerd parametrisch geheugen dat toeneemt met de modelgrootte. We tonen verder aan dat redeneerconflicten intern detecteerbaar zijn, aangezien betrouwbaarheidsscores significant dalen tijdens conflicterende episodes. Probing-experimenten bevestigen dat redeneertypen lineair gecodeerd zijn van middelste tot late lagen, wat wijst op het potentieel voor beheersbaarheid op activatieniveau. Gebruikmakend van deze inzichten, sturen we modellen naar naleving toe, waardoor het volgen van instructies met tot 29% toeneemt. Over het geheel genomen tonen onze bevindingen aan dat hoewel LLM-redenering verankerd is aan concrete instanties, actieve mechanistische interventies logische schema's effectief kunnen loskoppelen van data, wat een pad biedt naar verbeterde beheersbaarheid, betrouwbaarheid en generaliseerbaarheid.

16

MoCapAnything V2: End-to-End Bewegingsvastlegging voor Willekeurige Skeletten
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons

Apr 30
ByKehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
4
1

Recente methoden voor motion capture met willekeurige skeletten uit monovideo volgen een gefactoriseerde pijplijn: een Video-naar-Pose-netwerk voorspelt gewrichtsposities, en een analytische inverse-kinematische (IK) fase herstelt gewrichtsrotaties. Hoewel effectief, is dit ontwerp inherent beperkt, omdat gewrichtsposities rotaties niet volledig bepalen en vrijheidsgraden zoals torsie van de botas ambigu laten. De niet-differentieerbare IK-fase voorkomt bovendien dat het systeem zich kan aanpassen aan onzuivere voorspellingen of kan optimaliseren voor het uiteindelijke animatiedoel. In dit werk presenteren we het eerste volledig end-to-end raamwerk waarin zowel Video-naar-Pose als Pose-naar-Rotatie leerbaar zijn en gezamenlijk geoptimaliseerd worden. Wij observeren dat de ambiguïteit in de pose-naar-rotatie-afbeelding ontstaat door ontbrekende coördinatensysteeminformatie: dezelfde gewrichtsposities kunnen onder verschillende rustposities en lokale asconventies corresponderen met verschillende rotaties. Om dit op te lossen, introduceren we een referentie pose-rotatie-paar van de doelasset, dat samen met het rustpose niet alleen de afbeelding verankert, maar ook het onderliggende rotatiecoördinatensysteem definieert. Deze formulering maakt van rotatievoorspelling een goed-gebonden conditioneel probleem en maakt effectief leren mogelijk. Daarnaast voorspelt ons model gewrichtsposities direct uit video zonder afhankelijk te zijn van mesh-tussenproducten, wat zowel de robuustheid als efficiëntie verbetert. Beide fasen delen een skeletbewuste Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module voor lokaal redeneren op gewrichtsniveau en globale coördinatie. Experimenten op Truebones Zoo en Objaverse tonen aan dat onze methode de rotatiefout reduceert van ~17 graden naar ~10 graden, en naar 6,54 graden op onbekende skeletten, terwijl een ~20x snellere inferentie wordt bereikt dan bij op mesh gebaseerde pijplijnen. Projectpagina: https://animotionlab.github.io/MoCapAnythingV2/

17

PhyCo: Aanleerbare beheersbare fysieke voorkennis voor generatieve beweging
PhyCo: Learning Controllable Physical Priors for Generative Motion

Apr 30
BySriram Narayanan, Ziyu Jiang, Srinivasa Narasimhan, Manmohan Chandraker
4
0

Moderne videodiffusiemodellen blinken uit in het synthetiseren van uiterlijkheden, maar hebben nog steeds moeite met fysische consistentie: objecten verschuiven, botsingen vertonen geen realistische terugkaatsing, en materiaalreacties komen zelden overeen met hun onderliggende eigenschappen. Wij presenteren PhyCo, een raamwerk dat continue, interpreteerbare en fysisch onderbouwde controle introduceert in videogeneratie. Onze aanpak integreert drie kernelementen: (i) een grootschalige dataset met meer dan 100K fotorealistische simulatievideo's waarin wrijving, restitutie, deformatie en kracht systematisch worden gevarieerd in diverse scenario's; (ii) fysica-gesuperviseerde finetuning van een voorgetraind diffusiemodel met een ControlNet die wordt geconditioneerd op pixelgealigneerde fysische-eigenschappenkaarten; en (iii) VLM-geleide beloningsoptimalisatie, waarbij een fijn afgesteld vision-language-model gegenereerde video's evalueert met gerichte fysica-vragen en differentieerbare feedback geeft. Deze combinatie stelt een generatief model in staat om fysisch consistente en bestuurbare uitvoer te produceren door variaties in fysieke attributen - zonder enige simulator of geometriereconstructie tijdens inferentie. Op de Physics-IQ-benchmark verbetert PhyCo de fysische realiteit aanzienlijk ten opzichte van sterke baseline-modellen, en humane studies bevestigen een duidelijkere en trouwere controle over fysieke eigenschappen. Onze resultaten tonen een schaalbare weg aan naar fysisch consistente, bestuurbare generatieve videomodellen die generaliseren voorbij synthetische trainingsomgevingen.

18

Leren van ruisvoorkeuren: een semi-gestuurd leeraanpak voor directe voorkeursoptimalisatie
Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Apr 27
ByXinxin Liu, Ming Li, Zonglin Lyu, Yuzhang Shang, Chen Chen
2
1

Menselijke visuele voorkeuren zijn van nature multidimensionaal, waarbij esthetiek, detailgetrouwheid en semantische afstemming worden omvat. Bestaande datasets bieden echter alleen enkele, holistische annotaties, wat leidt tot ernstige labelruis: afbeeldingen die uitblinken in sommige dimensies maar tekortschieten in andere, worden eenvoudigweg als winnaar of verliezer gemarkeerd. Wij tonen theoretisch aan dat het comprimeren van multidimensionale voorkeuren naar binaire labels tegenstrijdige gradiëntsignalen genereert die Diffusion Direct Preference Optimization (DPO) misleiden. Om dit aan te pakken, stellen wij Semi-DPO voor, een semi-gesuperviseerde aanpak die consistente paren als schone gelabelde data behandelt en conflicterende paren als ruisende ongelabelde data. Onze methode start met training op een op consensus gefilterde schone subset, gebruikt dit model vervolgens als een impliciete classifier om pseudo-labels te genereren voor de ruisende set voor iteratieve verfijning. Experimentele resultaten tonen aan dat Semi-DPO state-of-the-art prestaties bereikt en de afstemming met complexe menselijke voorkeuren significant verbetert, zonder extra menselijke annotatie of expliciete beloningsmodellen tijdens de training. Wij zullen onze code en modellen vrijgeven op: https://github.com/L-CodingSpace/semi-dpo.

19

World2Minecraft: Op bezettingsgraad gebaseerde constructie van gesimuleerde scènes
World2Minecraft: Occupancy-Driven Simulated Scenes Construction

Apr 30
ByLechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
2
1

Geëmbodieerde intelligentie vereist hoogwaardige simulatieomgevingen om waarneming en besluitvorming te ondersteunen, maar bestaande platforms kampen vaak met datacontaminatie en beperkte flexibiliteit. Om dit te verhelpen stellen we World2Minecraft voor, dat real-world scènes omzet in gestructureerde Minecraft-omgevingen op basis van 3D semantische occupancievoorspelling. In de gereconstrueerde scènes kunnen we moeiteloos downstreamtaken uitvoeren zoals Vision-Language Navigation (VLN). We merken echter dat de reconstructiekwaliteit sterk afhangt van accurate occupancievoorspelling, die beperkt blijft door dataschaarste en zwakke generalisatie in bestaande modellen. We introduceren een kostenefficiënt, geautomatiseerd en schaalbaar data-acquisitieproces voor het creëren van maatwerk occupancy-datasets, en demonstreren de effectiviteit ervan met MinecraftOcc, een grootschalige dataset met 100.165 afbeeldingen uit 156 rijkgedetailleerde binnenruimtes. Uitgebreide experimenten tonen aan dat onze dataset een cruciale aanvulling vormt op bestaande datasets en een significante uitdaging biedt voor huidige state-of-the-art methoden. Deze bevindingen dragen bij aan verbeterde occupancievoorspelling en benadrukken de waarde van World2Minecraft als aanpasbaar en bewerkbaar platform voor gepersonaliseerd geëmbodieerd AI-onderzoek. Projectpagina: https://world2minecraft.github.io/.

20

Stapgewijze optimalisatie voor efficiënte computergebruik-agents
Step-level Optimization for Efficient Computer-use Agents

Apr 29
ByJinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
1
1

Computer-use agents bieden een veelbelovend pad naar algemne software-automatisering omdat ze rechtstreeks kunnen interageren met willekeurige grafische gebruikersinterfaces, in plaats van te vertrouwen op kwetsbare, toepassingsspecifieke integraties. Ondanks recente vooruitgang in benchmarkprestaties blijven krachtige computer-use agents in de praktijk duur en traag, aangezien de meeste systemen bij bijna elke interactiestap grote multimodale modellen aanroepen. Wij stellen dat deze uniforme toewijzing van rekenkracht fundamenteel inefficiënt is voor GUI-taken met een lange tijds horizon. Dergelijke trajecten zijn zeer heterogeen: veel stappen zijn routine en kunnen betrouwbaar worden afgehandeld door kleinere, goedkopere policies, terwijl fouten zich tendentieel concentreren op een relatief klein aantal hoogrisicomomenten. In computer-use benchmarks nemen deze fouten herhaaldelijk twee vormen aan: voortgangsstagnatie, waarbij de agent vastloopt, ineffectieve acties herhaalt of geen betekenisvolle vooruitgang boekt, en stille semantische drift, waarbij de agent doorgaat met lokaal plausibele acties nadat deze al is afgedwaald van het werkelijke gebruikersdoel. Om deze inefficiëntie aan te pakken, stellen we een gebeurtenisgestuurde, stap-level cascade voor voor computer-use agents. Deze voert standaard een kleine policy uit en schaalt alleen op naar een sterker model wanneer lichtgewicht, geleerde monitors een verhoogd risico detecteren. Ons framework combineert twee complementaire signalen: een Stuck Monitor die verslechterde voortgang detecteert uit de recente redenatie-actiegeschiedenis en herstel activeert, en een Milestone Monitor die semantisch betekenisvolle controlepunten identificeert waar sparse verificatie het meest informatief is voor het opsporen van drift. Dit ontwerp verandert altijd-aan inferentie met frontier-modellen in adaptieve, on-demand toewijzing van rekenkracht tijdens een zich ontwikkelende interactie. Het framework is modulair en implementatiegericht: het kan worden toegevoegd bovenop bestaande computer-use agents zonder de onderliggende agentarchitectuur te wijzigen of het grote model opnieuw te trainen.

21

Op instructies gebaseerde poëziegeneratie in het Arabisch en zijn dialecten
Instruction-Guided Poetry Generation in Arabic and Its Dialects

Apr 30
ByAbdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto
1
1

Poëzie is lange tijd een centrale kunstvorm voor Arabischtaligen geweest, en dient als een krachtig medium voor expressie en culturele identiteit. Hoewel moderne Arabischtaligen poëzie blijven waarderen, richt bestaand onderzoek naar Arabische poëzie binnen Large Language Models (LLM's) zich voornamelijk op analysetaken zoals interpretatie of het voorspellen van metadata, bijvoorbeeld rijmschema's en titels. Daarentegen richt ons werk zich op het praktische aspect van het creëren van poëzie in het Arabisch door het introduceren van controleerbare generatiemogelijkheden om gebruikers te helpen bij het schrijven van poëzie. Specifiek presenteren we een grootschalige, zorgvuldig samengestelde, op instructies gebaseerde dataset in Modern Standaardarabisch (MSA) en verschillende Arabische dialecten. Deze dataset maakt taken mogelijk zoals het schrijven, reviseren en vervolgen van gedichten op basis van vooraf gedefinieerde criteria, waaronder stijl en rijm, evenals het uitvoeren van poëzieanalyse. Onze experimenten tonen aan dat het finetunen van LLM's op deze dataset modellen oplevert die effectief poëzie kunnen genereren die voldoet aan gebruikersvereisten, gebaseerd op zowel geautomatiseerde metrieken als humane evaluatie door moedertaalsprekers van het Arabisch. De data en de code zijn beschikbaar op https://github.com/mbzuai-nlp/instructpoet-ar.

22

ViPO: Visuele Voorkeursoptimalisatie op Schaal
ViPO: Visual Preference Optimization at Scale

Apr 29
ByMing Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen
1
1

Hoewel voorkeursoptimalisatie cruciaal is voor het verbeteren van visuele generatieve modellen, blijft de vraag hoe dit paradigma effectief opgeschaald kan worden grotendeels onbeantwoord. Huidige open-source voorkeursdatasets bevatten tegenstrijdige voorkeurspatronen, waarbij winnaars uitblinken in sommige dimensies maar onderpresteren in andere. Een naïeve optimalisatie op dergelijke rumoerige datasets leert geen voorkeuren aan, wat een effectieve opschaling belemmert. Om de robuustheid tegen ruis te vergroten, stellen we Poly-DPO voor, dat het DPO-doel uitbreidt met een extra polynoomterm die de modelconfidence dynamisch aanpast op basis van datasetkenmerken, waardoor effectief leren over diverse datadistributies mogelijk wordt. Naast bevooroordeelde patronen lijden bestaande datasets onder lage resolutie, beperkte promptdiversiteit en onevenwichtige distributies. Om grootschalige visuele voorkeursoptimalisatie mogelijk te maken door dataknelpunten aan te pakken, construeren we ViPO, een grootschalige voorkeursdataset met 1M afbeeldingsparen bij 1024px in vijf categorieën en 300K videoparen bij 720p+ in drie categorieën. State-of-the-art generatieve modellen en diverse prompts waarborgen betrouwbare voorkeurssignalen met gebalanceerde distributies. Opmerkelijk genoeg convergeert de optimale configuratie naar standaard DPO wanneer Poly-DPO op onze hoogwaardige dataset wordt toegepast. Deze convergentie valideert de datasetkwaliteit en het adaptieve karakter van Poly-DPO: geavanceerde optimalisatie wordt overbodig bij voldoende datakwaliteit, maar blijft waardevol voor onvolmaakte datasets. We valideren onze aanpak voor verschillende visuele generatiemodellen. Op rumoerige datasets zoals Pick-a-Pic V2 behaalt Poly-DPO winsten van 6,87 en 2,32 ten opzichte van Diffusion-DPO op GenEval voor respectievelijk SD1.5 en SDXL. Voor ViPO behalen modellen prestaties die ver uitstijgen boven die getraind op bestaande open-source voorkeursdatasets. Deze resultaten bevestigen dat het aanpakken van zowel algoritmische aanpasbaarheid als datakwaliteit essentieel is voor het opschalen van visuele voorkeursoptimalisatie.

23

Veiligheidsverschuiving na Fine-Tuning: Bewijs uit Hoog-Risicodomeinen
Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains

Apr 27
ByEmaan Bilal Khan, Amy Winecoff, Miranda Bogen, Dylan Hadfield-Menell
0
1

Stichtingsmodellen worden routinematig gefinetuned voor gebruik in specifieke domeinen, maar veiligheidsbeoordelingen worden doorgaans alleen op basismodellen uitgevoerd. Hierbij wordt impliciet aangenomen dat veiligheidseigenschappen behouden blijven tijdens downstream-aanpassing. Wij testen deze aanname door het veiligheidsgedrag van 100 modellen te analyseren, waaronder veelgebruikte finetunes in de medische en juridische domeinen, evenals gecontroleerde aanpassingen van open stichtingsmodellen naast hun basisversies. Op zowel algemene als domeinspecifieke veiligheidsbenchmarks constateren we dat goedaardig finetunen grote, heterogene en vaak tegenstrijdige veranderingen in gemeten veiligheid teweegbrengt: modellen verbeteren vaak op sommige instrumenten terwijl ze verslechteren op andere, met aanzienlijke tegenstrijdigheden tussen evaluaties. Deze resultaten tonen aan dat veiligheidsgedrag niet stabiel is onder gebruikelijke downstream-aanpassing, wat kritische vragen oproept over governance en implementatiepraktijken die zijn gecentreerd rond basismodelevaluaties. Zonder expliciete herevaluatie van gefinetunede modellen in implementatie-relevante contexten schieten dergelijke benaderingen tekort in het adequaat beheersen van downstream-risico's, waarbij praktische bronnen van schade over het hoofd worden gezien – tekortkomingen die vooral ingrijpend zijn in hoog-risicocontexten en die de huidige aansprakelijkheidsparadigma's uitdagen.

24

FlashRT: Op weg naar computationeel en geheugenefficiënte red-teaming voor promptinjectie en kenniscorruptie
FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Apr 30
ByYanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia
0
1

Lang-context grote taalmodellen (LLM's) - zoals Gemini-3.1-Pro en Qwen-3.5 - worden op grote schaal ingezet om tal van real-world toepassingen mogelijk te maken, zoals retrieval-augmented generation, autonome agents en AI-assistenten. Veiligheid blijft echter een groot aandachtspunt bij hun brede inzet, met bedreigingen zoals prompt injection en knowledge corruption. Om de beveiligingsrisico's voor LLM's onder deze dreigingen te kwantificeren, heeft de onderzoeksgemeenschap heuristische en op optimalisatie gebaseerde red-teaming-methoden ontwikkeld. Optimalisatiegebaseerde methoden produceren over het algemeen sterkere aanvallen dan heuristische aanvallen en bieden daardoor een strengere beoordeling van de LLM-beveiligingsrisico's. Ze zijn echter vaak resource-intensief, waarbij aanzienlijke rekenkracht en GPU-geheugen nodig is, vooral in lang-context scenario's. Dit resource-intensieve karakter vormt een grote belemmering voor de gemeenschap (met name academische onderzoekers) om de beveiligingsrisico's van lang-context LLM's systematisch te evalueren en de effectiviteit van verdedigingsstrategieën op grote schaal te beoordelen. In dit werk stellen we FlashRT voor, het eerste raamwerk om de efficiëntie (zowel qua rekenkracht als geheugen) te verbeteren voor optimalisatiegebaseerde prompt injection- en knowledge corruption-aanvallen onder lang-context LLM's. Uit uitgebreide evaluaties blijkt dat FlashRT consistent een 2x-7x versnelling biedt (bijvoorbeeld door de looptijd terug te brengen van een uur naar minder dan tien minuten) en een 2x-4x vermindering van het GPU-geheugengebruik (bijvoorbeeld een reductie van 264,1 GB naar 65,7 GB GPU-geheugen voor een context van 32K tokens) in vergelijking met de state-of-the-art baseline nanoGCG. FlashRT kan breed worden toegepast op black-box optimalisatiemethoden, zoals TAP en AutoDAN. We hopen dat FlashRT kan dienen als een red-teaming tool om systematische evaluatie van lang-context LLM-beveiliging mogelijk te maken. De code is beschikbaar op: https://github.com/Wang-Yanting/FlashRT

Apr 30
May 1