HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

AgentDoG: Een Diagnostisch Veiligheidskader voor de Veiligheid en Beveiliging van AI-agenten
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Jan 26

ByDongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu

122

De opkomst van AI-agenten brengt complexe veiligheids- en beveiligingsuitdagingen met zich mee die voortvloeien uit autonoom toolgebruik en interacties met de omgeving. Huidige guardrail-modellen missen agent-specifiek risicobewustzijn en transparantie in risicodiagnose. Om een agent-specifieke guardrail te introduceren die complex en talrijk risicogedrag dekt, stellen we eerst een uniforme driedimensionale taxonomie voor die agent-risico's orthogonaal categoriseert op basis van hun bron (waar), faalwijze (hoe) en gevolg (wat). Geleid door deze gestructureerde en hiërarchische taxonomie introduceren we een nieuwe fijnmazige agent-veiligheidsbenchmark (ATBench) en een Diagnostisch Guardrail-raamwerk voor agentveiligheid en -beveiliging (AgentDoG). AgentDoG biedt fijnmazige en contextuele monitoring over agenttrajecten heen. Cruciaal is dat AgentDoG de hoofdoorzaken kan diagnosticeren van onveilige acties en schijnbaar veilige maar onredelijke acties, waarbij het herkomst en transparantie biedt die verder gaan binaire labels om effectieve agent-alignment te vergemakkelijken. AgentDoG-varianten zijn beschikbaar in drie formaten (4B, 7B en 8B parameters) binnen de Qwen- en Llama-modelfamilies. Uitgebreide experimentele resultaten tonen aan dat AgentDoG state-of-the-art prestaties bereikt in het modereren van agent-veiligheid in diverse en complexe interactieve scenario's. Alle modellen en datasets zijn openbaar vrijgegeven.

AdaReasoner: Dynamische Gereedschapscoördinatie voor Iteratief Visueel Redeneren
AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Jan 26

ByMingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng

Wanneer mensen problemen tegenkomen die hun directe capaciteiten overstijgen, vertrouwen ze op gereedschappen. Dit biedt een veelbelovend paradigma voor het verbeteren van visueel redeneren in multimodale grote taalmodellen (MLLM's). Effectief redeneren hangt daarom af van het weten welk gereedschap te gebruiken, wanneer het in te schakelen en hoe het over meerdere stappen te combineren, zelfs wanneer men wordt geconfronteerd met nieuwe gereedschappen of nieuwe taken. Wij introduceren AdaReasoner, een familie van multimodale modellen die het gebruik van gereedschappen leren als een algemene redeneervaardigheid in plaats van als gereedschap-specifiek of expliciet gesuperviseerd gedrag. AdaReasoner wordt mogelijk gemaakt door (i) een schaalbare data-curatiepijplijn die modellen blootstelt aan langetermijn, meerstaps interacties met gereedschappen; (ii) Tool-GRPO, een reinforcement learning-algoritme dat de selectie en volgorde van gereedschappen optimaliseert op basis van het succes van de eindtaak; en (iii) een adaptief leermechanisme dat het gereedschapsgebruik dynamisch reguleert. Samen stellen deze componenten modellen in staat om de bruikbaarheid van gereedschappen af te leiden uit de taakcontext en tussentijdse resultaten, wat coördinatie van meerdere gereedschappen en generalisatie naar onbekende gereedschappen mogelijk maakt. Empirisch vertoont AdaReasoner sterk adaptief en generaliserend gedrag voor gereedschappen: het neemt autonoom nuttige gereedschappen over, onderdrukt irrelevante en past de gebruiksfrequentie aan op basis van de taakeisen, ondanks dat het hier nooit expliciet voor is getraind. Deze capaciteiten vertalen zich naar state-of-the-art prestaties op uitdagende benchmarks, waarbij het het 7B-basismodel gemiddeld met +24,9% verbetert en sterke propriëtaire systemen zoals GPT-5 op meerdere taken overtreft, waaronder VSP en Jigsaw.

Een pragmatisch VLA-fundamentmodel
A Pragmatic VLA Foundation Model

Jan 26

ByWei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng

Een veelbelovend Vision-Language-Action (VLA)-foundationmodel voor robotmanipulatie moet getrouw kunnen generaliseren over taken en platformen heen, waarbij tevens kostenefficiëntie wordt gewaarborgd (bijv. qua benodigde data en GPU-uren voor aanpassing). Hiertoe ontwikkelden we LingBot-VLA met ongeveer 20.000 uur aan real-world data van 9 populaire dual-arm robotconfiguraties. Via een systematische evaluatie op 3 robotplatforms – waarbij elk platform 100 taken uitvoerde met 130 post-training episodes per taak – behaalt ons model een duidelijke superioriteit ten opzichte van concurrenten, wat zijn sterke prestaties en brede generaliseerbaarheid aantoont. We hebben tevens een efficiënte codebase gebouwd, die een doorvoersnelheid van 261 samples per seconde per GPU levert bij een trainingopstelling met 8 GPU's, wat een versnelling van 1,5 tot 2,8 keer (afhankelijk van het gebruikte VLM-basismodel) vertegenwoordigt ten opzichte van bestaande VLA-gerichte codebases. Bovenstaande eigenschappen garanderen dat ons model uitstekend geschikt is voor inzet in de praktijk. Om het vakgebied van robotleren vooruit te helpen, stellen we de code, het basismodel en de benchmarkdata openbaar beschikbaar, met de focus op het mogelijk maken van uitdagendere taken en het bevorderen van degelijke evaluatiestandaarden.

Youtu-VL: Het ontketenen van visueel potentieel via geünificeerd visueel-taalkundig toezicht
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Jan 27

ByZhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li

Ondanks de significante vooruitgang die Vision-Language Models (VLM's) vertegenwoordigen, vertonen huidige architecturen vaak beperkingen in het behouden van fijnmazige visuele informatie, wat leidt tot grofmazige multimodale begrip. Wij schrijven dit tekort toe aan een suboptimaal trainingsparadigma dat inherent is aan heersende VLM's, dat een tekst-dominante optimalisatievooroordeel vertoont door visuele signalen louter te conceptualiseren als passieve conditionele inputs in plaats van superviserende doelen. Om dit te verhelpen, introduceren wij Youtu-VL, een raamwerk dat gebruikmaakt van het Vision-Language Unified Autoregressive Supervision (VLUAS) paradigma. Dit verschuift het optimalisatiedoel fundamenteel van "visie-als-input" naar "visie-als-doel". Door visuele tokens direct te integreren in de voorspellingsstroom, past Youtu-VL uniforme autoregressieve supervisie toe op zowel visuele details als linguïstische inhoud. Verder breiden wij dit paradigma uit naar visie-centrische taken, waardoor een standaard VLM visie-centrische taken kan uitvoeren zonder taakspecifieke toevoegingen. Uitgebreide empirische evaluaties tonen aan dat Youtu-VL competitieve prestaties bereikt op zowel algemene multimodale taken als visie-centrische taken, en zo een robuuste basis vestigt voor de ontwikkeling van uitgebreide generalistische visuele agentschappen.

Visuele Generatie Ontgrendelt Mensachtig Redeneren via Multimodale Wereldmodellen
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jan 27

ByJialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long

Mensen construeren interne wereldmodellen en redeneren door de concepten binnen deze modellen te manipuleren. Recente vooruitgang in AI, met name chain-of-thought (CoT) redeneren, benadert dergelijke menselijke cognitieve vermogens, waarbij wordt aangenomen dat wereldmodellen zijn ingebed in grote taalmodellen. Expertniveau-prestaties in formele en abstracte domeinen zoals wiskunde en programmeren zijn bereikt in huidige systemen door voornamelijk te vertrouwen op verbaal redeneren. Echter, ze blijven ver achter bij mensen in domeinen zoals fysieke en ruimtelijke intelligentie, die rijkere representaties en voorkennis vereisen. De opkomst van verenigde multimodale modellen (UMMs) die zowel verbale als visuele generatie kunnen uitvoeren, heeft daarom interesse gewekt in meer mensachtig redeneren gebaseerd op complementaire multimodale paden, hoewel hun voordelen onduidelijk blijven. Vanuit een wereldmodelperspectief presenteert dit artikel de eerste principekwestie-studie naar wanneer en hoe visuele generatie het redeneren ten goede komt. Onze centrale stelling is de visuele superioriteitshypothese: voor bepaalde taken—met name die verankerd in de fysieke wereld—dient visuele generatie natuurlijker als wereldmodel, terwijl puur verbale wereldmodellen tegen bottlenecks aanlopen die voortkomen uit representatielimitaties of onvoldoende voorkennis. Theoretisch formaliseren we intern wereldmodelleren als een kerncomponent van CoT-redeneren en analyseren we onderscheiden tussen verschillende vormen van wereldmodellen. Empirisch identificeren we taken die interleaved visueel-verbaal CoT-redeneren vereisen, en construeren we een nieuwe evaluatiesuite, VisWorld-Eval. Gecontroleerde experimenten met een state-of-the-art UMM tonen aan dat interleaved CoT significant beter presteert dan puur verbaal CoT bij taken die visueel wereldmodelleren begunstigen, maar anderszins geen duidelijk voordeel biedt. Samen verduidelijkt dit werk het potentieel van multimodaal wereldmodelleren voor krachtigere, mensachtige multimodale AI.

Zelfdistillatie maakt continu leren mogelijk
Self-Distillation Enables Continual Learning

Jan 27

ByIdan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal

Doorlopend leren, waarbij modellen nieuwe vaardigheden en kennis kunnen verwerven zonder bestaande capaciteiten te verslechteren, blijft een fundamentele uitdaging voor foundation-modellen. Hoewel on-policy reinforcement learning vergeten kan verminderen, vereist het expliciete beloningsfuncties die vaak niet beschikbaar zijn. Leren van expertdemonstraties, het primaire alternatief, wordt gedomineerd door supervised fine-tuning (SFT), dat inherent off-policy is. Wij introduceren Self-Distillation Fine-Tuning (SDFT), een eenvoudige methode die on-policy leren rechtstreeks vanuit demonstraties mogelijk maakt. SDFT benut in-context learning door een demonstratie-geconditioneerd model als zijn eigen leraar te gebruiken, waarbij het on-policy trainingssignalen genereert die bestaande capaciteiten behouden terwijl nieuwe vaardigheden worden verworven. In taken voor vaardigheidsleren en kennisverwerving presteert SDFT consistent beter dan SFT, met hogere nauwkeurigheid voor nieuwe taken en aanzienlijk minder catastrofaal vergeten. In sequentiële leer experimenten stelt SDFT een enkel model in staat om meerdere vaardigheden over tijd op te bouwen zonder prestatieverlies, waarmee on-policy distillatie wordt gevestigd als een praktisch pad voor doorlopend leren vanuit demonstraties.

Post-LayerNorm Is Terug: Stabiel, Expressief en Diep
Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Jan 27

ByChen Chen, Lai Wei

Het schalen van grote taalmodel-architecturen (LLM's) bereikt een plafond. Het verbreden van modellen levert afnemende meeropbrengsten op, en het verlengen van de contextlengte verbetert de fundamentele expressiviteit niet. Daarentegen biedt diepteschaling theoretisch superieure expressiviteit, maar huidige Transformer-architecturen hebben moeite om betrouwbaar te trainen op extreme dieptes. Wij herbezien de Post-LayerNorm (Post-LN) formulering, wiens instabiliteit op schaal leidde tot vervanging door Pre-LN in moderne LLM's. Wij tonen aan dat de centrale foutmodus van Post-LN ontstaat door het ResNet-stijl restpad, dat gradientverval introduceert in diepe netwerken. Wij presenteren Keel, een Post-LN Transformer die dit restpad vervangt door een Highway-stijl verbinding. Deze aanpassing behoudt de gradientstroom door de resttak, waardoor signaalverval van de bovenste naar de onderste lagen wordt voorkomen. In tegenstelling tot eerdere methoden maakt Keel stabiele training op extreme dieptes mogelijk zonder gespecialiseerde initialisatie of complexe optimalisatietrucs. Keel traint robuust op dieptes van meer dan 1000 lagen en verbetert consistent de perplexiteit en diepteschalingskenmerken ten opzichte van Pre-LN. Deze bevindingen geven aan dat Post-LN, in combinatie met een Highway-stijl verbinding, een eenvoudige en effectieve basis biedt voor het bouwen van diep schaalbare LLM's, wat de mogelijkheid opent voor toekomstige oneindig-diepe architecturen.

AVMeme Examen: Een Multimodaal Meertalig Multicultureel Benchmark voor het Contextuele en Culturele Kennis- en Denkvermogen van LLM's
AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

Jan 25

ByXilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani

Internet-audiovisuele fragmenten brengen betekenis over via tijdvariërend geluid en beweging, wat verder reikt dan wat tekst alleen kan weergeven. Om te onderzoeken of AI-modellen dergelijke signalen in menselijke culturele contexten kunnen begrijpen, introduceren we AVMeme Exam, een door mensen samengestelde benchmark van meer dan duizend iconische internetgeluiden en video's, variërend van spraak en liedjes tot muziek en geluidseffecten. Elke meme is gekoppeld aan een unieke vraag-en-antwoordset die verschillende begripsniveaus toetst, van oppervlakkige inhoud tot context en emotie, en van gebruik tot wereldkennis, samen met metadata zoals het oorspronkelijke jaar, transcript, samenvatting en gevoeligheid. We evalueren systematisch state-of-the-art multimodale grote taalmodellen (MLLM's) naast menselijke deelnemers met behulp van deze benchmark. Onze resultaten tonen een consistente beperking aan: huidige modellen presteren slecht op tekstloze muziek en geluidseffecten, en hebben moeite om contextueel en cultureel te denken in vergelijking met oppervlakkige inhoud. Deze bevindingen belichten een cruciaal hiaat in mensgericht multimodaal intelligentie en pleiten voor modellen die contextueel en cultureel verder kunnen waarnemen dan alleen het oppervlak van wat ze horen en zien. Projectpagina: avmemeexam.github.io/public

World Craft: Agentisch Framework voor het Creëren van Visualiseerbare Werelden via Tekst
World Craft: Agentic Framework to Create Visualizable Worlds via Text

Jan 14

ByJianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang

Grote Taalmodellen (LLM's) vormen de drijvende kracht achter de simulatie van generatieve agenten (zoals AI Town) om een "dynamische wereld" te creëren, wat van onschatbare waarde is voor zowel entertainment als onderzoek. Voor niet-experts, met name voor hen zonder programmeervaardigheden, is het echter moeilijk om zelf een visueel voorstelbare omgeving aan te passen. In dit artikel introduceren we World Craft, een agent-gebaseerd raamwerk voor wereldcreatie dat het mogelijk maakt om een uitvoerbare en visueel voorstelbare AI Town te creëren via tekstuele beschrijvingen van de gebruiker. Het bestaat uit twee hoofdmodules: World Scaffold en World Guild. World Scaffold is een gestandaardiseerde, gestructureerde en beknopte methode om interactieve game-scènes te ontwikkelen, en dient als een efficiënte steiger voor LLM's om een uitvoerbare, AI Town-achtige omgeving aan te passen. World Guild is een multi-agent raamwerk dat progressief de intenties van gebruikers uit ruwe beschrijvingen analyseert en de benodigde gestructureerde inhoud (zoals omgevingslay-out en assets) synthetiseert voor World Scaffold. Bovendien construeren we een hoogwaardige dataset voor foutcorrectie via reverse engineering om ruimtelijke kennis te verbeteren en de stabiliteit en beheersbaarheid van lay-outgeneratie te vergroten, waarbij we multidimensionale evaluatiemetrics rapporteren voor verdere analyse. Uitgebreide experimenten tonen aan dat ons raamwerk aanzienlijk beter presteert dan bestaande commerciële code-agenten (Cursor en Antigravity) en LLM's (Qwen3 en Gemini-3-Pro) op het gebied van scenarioconstructie en de overdracht van narratieve intentie, en biedt zo een schaalbare oplossing voor de democratisering van omgevingscreatie.

Naar Pixel-Level VLM-Waarneming via Eenvoudige Puntenvoorspelling
Towards Pixel-Level VLM Perception via Simple Points Prediction

Jan 27

ByTianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang

Wij presenteren SimpleSeg, een opvallend eenvoudige maar zeer effectieve aanpak om Multimodale Grote Taalmodellen (MLLM's) te voorzien van een native perceptie op pixelniveau. Onze methode herdefinieert segmentatie als een eenvoudig sequentiegeneratieprobleem: het model voorspelt direct reeksen punten (tekstuele coördinaten) die objectgrenzen afbakenen, geheel binnen zijn taalkundige ruimte. Om een hoge nauwkeurigheid te bereiken, introduceren we een tweefasen SFtoRL-trainingspijplijn, waarbij Reinforcement Learning met een op IoU gebaseerde beloning de puntreeksen verfijnt om nauwkeurig overeen te komen met de werkelijke contouren. Wij ontdekken dat de standaard MLLM-architectuur een sterk, inherent vermogen heeft voor laag-niveau perceptie, dat kan worden ontsloten zonder gespecialiseerde architectuur. Op segmentatiebenchmarks behaalt SimpleSeg prestaties die vergelijkbaar zijn met, en vaak overtreffen, methoden die vertrouwen op complexe, taakspecifieke ontwerpen. Dit werk toont aan dat precies ruimtelijk begrip kan ontstaan uit eenvoudige puntvoorspelling, wat de heersende noodzaak voor hulpcomponenten uitdaagt en de weg effent voor meer verenigde en capabele VLMs. Homepage: https://simpleseg.github.io/

FABEL: Forest-gebaseerde Adaptieve Bi-Pad LLM-verbeterde Retrieval voor Multi-Document Redeneren
FABLE: Forest-Based Adaptive Bi-Path LLM-Enhanced Retrieval for Multi-Document Reasoning

Jan 26

ByLin Sun, Linglin Zhang, Jingang Huang, Change Jia, Zhengwei Cheng, Xiangzheng Zhang

De snelle opkomst van Large Language Models (LLM's) met een lange context heeft de discussie doen oplaaien of Retrieval-Augmented Generation (RAG) nog steeds noodzakelijk is. Empirisch bewijs toont echter aanhoudende beperkingen van inferentie met lange contexten, waaronder het 'lost-in-the-middle'-fenomeen, hoge computationele kosten en beperkte schaalbaarheid voor redeneren over meerdere documenten. Traditionele RAG-systemen daarentegen, hoewel efficiënt, worden beperkt door platte retrieval op chunkniveau, wat semantische ruis introduceert en gestructureerde synthese over documenten heen niet ondersteunt. Wij presenteren FABLE, een op een 'forest' gebaseerd adaptief bi-pad LLM-verbeterd retrievalraamwerk dat LLM's integreert in zowel kennisorganisatie als retrieval. FABLE construeert hiërarchische 'forest'-indexen, verrijkt door LLM's, met semantische structuren op meerdere granulariteiten. Vervolgens wordt een bi-padstrategie toegepast die LLM-gestuurd hiërarchisch doorlopen combineert met structuurbewuste propagatie voor het verkrijgen van fijnmazige evidence, met expliciete budgetcontrole voor adaptieve efficiëntie-afwegingen. Uitgebreide experimenten tonen aan dat FABLE consistent beter presteert dan state-of-the-art RAG-methoden en een vergelijkbare nauwkeurigheid bereikt als volledige-context LLM-inferentie, met een reductie van tot 94% in tokens. Dit laat zien dat LLM's met een lange context de behoefte aan gestructureerde retrieval versterken in plaats van volledig vervangen.

TriPlay-RL: Drie-rol Zelfspel Versterkingsleren voor Veiligheidsafstemming van Grote Taalmodellen
TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Jan 26

ByZhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun

De afgelopen jaren zijn veiligheidsrisico's in verband met grote taalmodellen steeds prominenter geworden, wat de dringende noodzaak benadrukt om de generatie van giftige en schadelijke inhoud te beperken. Het mainstream paradigma voor veiligheidsafstemming van LLM's hanteert typisch een collaboratief kader met drie rollen: een aanvaller voor het genereren van adversariële prompts, een verdediger voor veiligheidsdefensie, en een beoordelaar voor respons-evaluatie. In dit artikel stellen we een gesloten reinforcement learning-kader voor, genaamd TriPlay-RL, dat iteratieve en gezamenlijk verbeterende samenwerking tussen deze drie rollen mogelijk maakt met bijna geen handmatige annotatie. Experimentele resultaten tonen aan dat de aanvaller een hoge outputdiversiteit behoudt en tegelijkertijd een verbetering van 20%-50% in adversariële effectiviteit bereikt; de verdediger behaalt een winst van 10%-30% in veiligheidsprestaties zonder afbreuk te doen aan het algemeen redeneervermogen; en de beoordelaar verfijnt continu zijn fijnmazige beoordelingsvermogen door iteraties, waarbij hij onveilige reacties, eenvoudige weigeringen en nuttige begeleiding nauwkeurig onderscheidt. Over het geheel genomen vestigt ons kader een efficiënt en schaalbaar paradigma voor LLM-veiligheidsafstemming, dat continue co-evolutie binnen een verenigde leerlus mogelijk maakt.

Herziening van de Parameterserver in Post-Training van Large Language Models
Revisiting Parameter Server in LLM Post-Training

Jan 27

ByXinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li

Moderne data-parallelle (DP) training geeft de voorkeur aan collectieve communicatie boven parameterservers (PS) vanwege de eenvoud en efficiëntie bij gebalanceerde workloads. De aanname van een gebalanceerde workload gaat echter niet langer op bij de na-training van grote taalmodellen (LLM's) vanwege de hoge variantie in sequentielengtes. Onder ongebalanceerde workloads creëren collectieve communicatie synchronisatiebarrières, wat leidt tot onderbenutting van apparaten met kleinere workloads. Deze verandering in trainingsdynamiek vraagt om een herevaluatie van het PS-paradigma vanwege de robuustheid tegen dergelijke onbalans. Wij stellen On-Demand Communication (ODC) voor, dat PS aanpast naar Fully Sharded Data Parallel (FSDP) door collectieve all-gather en reduce-scatter te vervangen door directe point-to-point communicatie. Vergeleken met FSDP vermindert ODC de synchronisatiebarrière van één keer per laag naar één keer per minibatch en ontkoppelt het de workload op elk apparaat, zodat snellere workers niet worden tegengehouden. Het maakt ook eenvoudigere en effectievere load balancing op minibatchniveau mogelijk. Over diverse LLM na-taken verbetert ODC consistent de apparaatbenutting en trainingsdoorvoer, met een snelheidswinst tot 36% ten opzichte van standaard FSDP. Deze resultaten tonen aan dat ODC beter geschikt is voor de heersende ongebalanceerde workloads in LLM na-training. Onze implementatie van ODC en integratie met FSDP is open-source beschikbaar op https://github.com/sail-sg/odc.

Hallucinatie in Citaten: Het Blootleggen van de Impact van Verzonnen Referenties met 300 Gefingeerde Artikelen op ACL-Conferenties
HalluCitation Matters: Revealing the Impact of Hallucinated References with 300 Hallucinated Papers in ACL Conferences

Jan 26

ByYusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

Recentelijk hebben we vaak gehallucineerde citaties of referenties waargenomen die niet overeenkomen met enig bestaand werk in papers onder review, preprints of gepubliceerde artikelen. Dergelijke gehallucineerde citaties vormen een ernstige zorg voor de wetenschappelijke betrouwbaarheid. Wanneer ze verschijnen in geaccepteerde artikelen, kunnen ze ook een negatieve invloed hebben op de geloofwaardigheid van conferenties. In deze studie verwijzen we naar gehallucineerde citaties als "HalluCitation" en onderzoeken we systematisch hun prevalentie en impact. We analyseren alle artikelen gepubliceerd op ACL, NAACL en EMNLP in 2024 en 2025, inclusief hoofdconferentie-, Findings- en workshoppapers. Onze analyse toont aan dat bijna 300 artikelen ten minste één HalluCitation bevatten, waarvan de meeste werden gepubliceerd in 2025. Opmerkelijk is dat de helft van deze artikelen werd geïdentificeerd op EMNLP 2025, de meest recente conferentie, wat aangeeft dat dit probleem snel toeneemt. Bovendien werden meer dan 100 van dergelijke artikelen geaccepteerd als hoofdconferentie- en Findings-papers op EMNLP 2025, wat de geloofwaardigheid aantast.

HyperAlign: Hypernetwerk voor Efficiënte Testtijd-afstemming van Diffusiemodellen
HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

Jan 22

ByXin Xie, Jiaxian Guo, Dong Gong

Diffusiemodellen behalen state-of-the-art prestaties, maar slagen er vaak niet in om uitvoer te genereren die aansluit bij menselijke voorkeuren en intenties, wat resulteert in beelden met een slechte esthetische kwaliteit en semantische inconsistenties. Bestaande afstemmingsmethoden presenteren een moeilijke afweging: fine-tuning benaderingen leiden tot verlies van diversiteit door overoptimalisatie van beloningsscores, terwijl methoden voor schaling tijdens het testen aanzienlijke rekenkosten met zich meebrengen en de neiging hebben tot onderoptimalisatie. Om deze beperkingen aan te pakken, stellen wij HyperAlign voor, een nieuw raamwerk dat een hypernetwerk traint voor efficiënte en effectieve afstemming tijdens het testen. In plaats van latente toestanden aan te passen, genereert HyperAlign dynamisch gewichten voor low-rank aanpassing om de generatie-operatoren van het diffusiemodel te moduleren. Hierdoor kan het traject van ruimverwijdering adaptief worden aangepast op basis van invoer-latente variabelen, tijdstappen en prompts voor afstemming met voorwaarden gebaseerd op beloning. Wij introduceren meerdere varianten van HyperAlign die verschillen in hoe vaak het hypernetwerk wordt toegepast, om een balans te vinden tussen prestaties en efficiëntie. Verder optimaliseren we het hypernetwerk met een doelstelling voor beloningsscores, geregulariseerd met voorkeursdata, om 'reward hacking' te verminderen. We evalueren HyperAlign op meerdere uitgebreide generatieve paradigma's, waaronder Stable Diffusion en FLUX. Het presteert aanzienlijk beter dan bestaande fine-tuning en test-time scaling baseline-methoden in het verbeteren van semantische consistentie en visuele aantrekkelijkheid.

Selectieve Sturing: Norm-Behoudende Regeling Door Discriminatieve Laagselectie
Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

Jan 27

ByQuy-Anh Dang, Chris Ngo

Ondanks aanzienlijke vooruitgang in alignment blijven grote taalmmodellen (LLM's) kwetsbaar voor adversariële aanvallen die schadelijk gedrag uitlokken. Activatiesturingstechnieken bieden een veelbelovende interventiebenadering tijdens inferentie, maar bestaande methoden kampen met kritieke beperkingen: activatietoevoeging vereist zorgvuldige afstemming van coëfficiënten en is gevoelig voor laagspecifieke normvariaties, terwijl directionele ablatie slechts binaire controle biedt. Recent werk over Angulaire Sturing introduceert continue controle via rotatie in een 2D-deelruimte, maar de praktische implementatie ervan schendt normbehoud, wat distributieverschuiving en generatiecollaps veroorzaakt, met name in modellen onder de 7B parameters. Wij stellen Selectieve Sturing voor, dat deze beperkingen aanpakt via twee belangrijke innovaties: (1) een wiskundig rigoureuze, normbehoudende rotatieformulering die de integriteit van de activatiedistributie handhaaft, en (2) discriminerende laagselectie die sturing alleen toepast waar feature-representaties tegenovergestelde klassalignering vertonen. Experimenten met negen modellen tonen aan dat Selectieve Sturing 5,5x hogere aanvalssuccespercentages bereikt dan eerdere methoden, terwijl het nul perplexiteitsschendingen handhaaft en ongeveer 100% capaciteitsbehoud op standaard benchmarks. Onze benadering biedt een principieel, efficiënt kader voor controleerbare en stabiele gedragsmodificatie van LLM's. Code: https://github.com/knoveleng/steering

DeFM: Het leren van fundamentele representaties uit diepte voor robotica
DeFM: Learning Foundation Representations from Depth for Robotics

Jan 26

ByManthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter

Dieptesensoren worden op grote schaal ingezet op robotplatforms, en vooruitgang in snelle, hoogwaardige dieptesimulatie heeft ertoe geleid dat robotbeleid dat getraind is op diepteobservaties, robuuste simulatie-naar-realiteit-transfer kan bereiken voor een breed scala aan taken. Desondanks blijft representation learning voor de dieptemodaliteit onderbelicht in vergelijking met RGB, waar grootschalige foundationmodellen nu de standaard bepalen. Om dit hiaat aan te pakken, presenteren we DeFM, een zelfgesuperviseerd foundationmodel dat volledig is getraind op diepteafbeeldingen voor robottoepassingen. Met behulp van een DINO-achtig zelfdistillatiedoel op een gecureerde dataset van 60 miljoen diepteafbeeldingen, leert DeFM geometrische en semantische representaties die generaliseren naar diverse omgevingen, taken en sensoren. Om metrisch bewustzijn over meerdere schalen te behouden, introduceren we een nieuwe normalisatiestrategie voor invoer. We distilleren DeFM verder naar compacte modellen die geschikt zijn voor resource-beperkte robotsystemen. Bij evaluatie op dieptegebaseerde classificatie-, segmentatie-, navigatie-, locomotie- en manipulatiebenchmarks, behaalt DeFM state-of-the-art prestaties en toont het sterke generalisatie van simulatie naar de echte wereld. We geven al onze voorgetrainde modellen vrij, die direct gebruikt kunnen worden voor dieptegebaseerd robotleren zonder taakspecifieke fine-tuning. Webpagina: https://de-fm.github.io/

EvolVE: Evolutionaire Zoektocht voor LLM-gebaseerde Verilog-generatie en -optimalisatie
EvolVE: Evolutionary Search for LLM-based Verilog Generation and Optimization

Jan 26

ByWei-Po Hsin, Ren-Hao Deng, Yao-Ting Hsieh, En-Ming Huang, Shih-Hao Hung

De ontwerpcyclus van Verilog is inherent arbeidsintensief en vereist uitgebreide domeinkennis. Hoewel Large Language Models (LLM's) een veelbelovend pad richting automatisering bieden, schieten hun beperkte trainingsdata en intrinsieke sequentiële redenering tekort in het vatten van de strikte formele logica en gelijktijdigheid die eigen zijn aan hardwaresystemen. Om deze barrières te overwinnen, presenteren wij EvolVE, het eerste raamwerk dat meerdere evolutiestrategieën analyseert voor chipontwerptaken. Dit onthult dat Monte Carlo Tree Search (MCTS) uitblinkt in het maximaliseren van functionele correctheid, terwijl Idea-Guided Refinement (IGR) superieur blijkt voor optimalisatie. We benutten verder Structured Testbench Generation (STG) om het evolutionaire proces te versnellen. Om het gebrek aan complexe optimalisatiebenchmarks aan te pakken, introduceren we IC-RTL, gericht op problemen op industrieel niveau afkomstig van de National Integrated Circuit Contest. Evaluaties vestigen EvolVE als de nieuwe state-of-the-art, met scores van 98,1% op VerilogEval v2 en 92% op RTLLM v2. Bovendien overtreft ons raamwerk op de industrieel geschikte IC-RTL suite de referentie-implementaties gemaakt door deelnemers aan de wedstrijd, door het Power, Performance, Area (PPA)-product met tot 66% te verminderen bij Huffman Coding en met 17% in het geometrisch gemiddelde over alle problemen. De broncode van de IC-RTL benchmark is beschikbaar op https://github.com/weiber2002/ICRTL.

CooperBench: Waarom Codeeragentschappen Nog Geen Teamgenoten Kunnen Zijn
CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Jan 19

ByArpandeep Khatua, Hao Zhu, Peter Tran, Arya Prabhudesai, Frederic Sadrieh, Johann K. Lieberwirth, Xinkai Yu, Yicheng Fu, Michael J. Ryan, Jiaxin Pei, Diyi Yang

Het oplossen van teamconflicten vereist niet alleen taakspecifieke competentie, maar ook sociale intelligentie om gemeenschappelijke grond te vinden en consensus op te bouwen. Naarmate AI-agenten steeds meer samenwerken aan complex werk, moeten ze coördinatievaardigheden ontwikkelen om als effectieve teamleden te functioneren. Toch veronderstellen we dat huidige agenten over deze vaardigheden beschikken. Om dit te testen, introduceren we CooperBench, een benchmark met meer dan 600 collaboratieve codeertaken verspreid over 12 bibliotheken in 4 programmeertalen. Elke taak wijst twee agenten verschillende functies toe die onafhankelijk geïmplementeerd kunnen worden, maar kunnen conflicteren zonder juiste coördinatie. Taken zijn gebaseerd op echte open-source repositories met expertgeschreven tests. Bij evaluatie van state-of-the-art coderingsagenten observeren we de vloek van coördinatie: agenten behalen gemiddeld 30% lagere slagingspercentages bij samenwerking vergeleken met het individueel uitvoeren van beide taken. Dit staat in schril contrast met menselijke teams, waar het toevoegen van teamleden doorgaans de productiviteit verhoogt. Onze analyse onthult drie kernproblemen: (1) communicatiekanalen verstoppen met vage, slecht getimede en onnauwkeurige berichten; (2) zelfs met effectieve communicatie wijken agenten af van hun toezeggingen; en (3) agenten hebben vaak incorrecte verwachtingen over andermans plannen en communicatie. Via grootschalige simulatie observeren we ook zeldzaam maar interessant emergent coördinatiegedrag, waaronder rolverdeling, resourceverdeling en onderhandeling. Ons onderzoek presenteert een nieuwe benchmark voor collaboratief coderen en pleit voor een verschuiving van het nastreven van individuele agentcapaciteit naar het ontwikkelen van sociale intelligentie.

GPCR-Filter: een deep learning-raamwerk voor efficiënte en precieze ontdekking van GPCR-modulatoren
GPCR-Filter: a deep learning framework for efficient and precise GPCR modulator discovery

Jan 27

ByJingjie Ning, Xiangzhen Shen, Li Hou, Shiyi Shen, Jiahao Yang, Junrui Li, Hong Shan, Sanan Wu, Sihan Gao, Huaqiang Eric Xu, Xinheng He

G-eiwitgekoppelde receptoren (GPCR's) reguleren diverse fysiologische processen en zijn centraal in de moderne farmacologie. Toch blijft de ontdekking van GPCR-modulatoren uitdagend, omdat receptoractivatie vaak voortkomt uit complexe allosterische effecten in plaats van directe bindingsaffiniteit, en conventionele assays zijn traag, kostbaar en niet geoptimaliseerd voor het vastleggen van deze dynamiek. Hier presenteren we GPCR-Filter, een deep learning-raamwerk specifiek ontwikkeld voor de ontdekking van GPCR-modulatoren. We stelden een hoogwaardige dataset samen van meer dan 90.000 experimenteel gevalideerde GPCR-ligandparen, wat een robuuste basis biedt voor training en evaluatie. GPCR-Filter integreert het ESM-3-eiwittaalmodel voor hoogwaardige GPCR-sequentierepresentaties met grafische neurale netwerken die ligandstructuren coderen, gekoppeld via een op aandacht gebaseerd fusiemechanisme dat functionele receptor-ligandrelaties leert. In meerdere evaluatieomgevingen presteerde GPCR-Filter consistent beter dan state-of-the-art verbinding-eiwitinteractiemodellen en vertoonde het sterke generalisatie naar onbekende receptoren en liganden. Opmerkelijk was dat het model met succes agonisten van de 5-HT1A-receptor op micromolair niveau identificeerde met verschillende chemische structuren. Deze resultaten positioneren GPCR-Filter als een schaalbare en effectieve computationele aanpak voor de ontdekking van GPCR-modulatoren, en bevorderen zo AI-ondersteunde medicijnontwikkeling voor complexe signaalsystemen.

Benchmarks Verzadigen Wanneer Het Model Slimmer Wordt Dan De Beoordelaar
Benchmarks Saturate When The Model Gets Smarter Than The Judge

Jan 27

ByMarthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis

Benchmarks zijn belangrijke instrumenten om de voortgang in de ontwikkeling van Large Language Models (LLM's) bij te houden, maar onnauwkeurigheden in datasets en evaluatiemethoden ondermijnen hun effectiviteit stelselmatig. Hier presenteren we Omni-MATH-2, een handmatig gereviseerde versie van de Omni-MATH-dataset, bestaande uit een schone subset met exacte antwoorden (n=4181) en een gelabelde subset met niet-standaard problemen (n=247). Elk probleem werd gecontroleerd om LaTeX-compileerbaarheid, oplosbaarheid en verifieerbaarheid te garanderen. Dit proces omvatte het toevoegen van ontbrekende figuren of informatie, het labelen van problemen die een bewijs, schatting of afbeelding vereisen, en het verwijderen van overbodige informatie. Dit proces vermindert dataset-geïnduceerde ruis aanzienlijk, waardoor een nauwkeurigere beoordeling van modelprestaties mogelijk wordt. De geannoteerde dataset stelt ons ook in staat om judge-geïnduceerde ruis te evalueren door GPT-5 mini te vergelijken met de originele Omni-Judge, wat aanzienlijke discrepanties tussen de beoordelaars aan het licht brengt, zowel voor de schone als de gelabelde problemsubsets. Expertannotaties tonen aan dat Omni-Judge in 96,4% van de geschillen tussen beoordelaars ongelijk heeft, wat wijst op een onvermogen om onderscheid te maken tussen de capaciteiten van modellen, zelfs ruim voordat de benchmark verzadigd raakt. Naarmate problemen uitdagender worden, zien we dat competentere beoordelaars essentieel worden om te voorkomen dat beoordelingsfouten werkelijke verschillen tussen modellen maskeren. Tot slot identificeren geen van beide beoordelaars de huidige faalwijzen voor de subset van gelabelde problemen, wat aantoont dat zowel datasetkwaliteit als betrouwbaarheid van de beoordelaar cruciaal zijn voor het ontwikkelen van nauwkeurige benchmarks voor modelprestaties.

Visuele Generatie Ontgrendelt Mensachtig Redeneren via Multimodale Wereldmodellen
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jan 27

ByJialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long