HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

25 papers found

GLM-5: van Vibe Coding naar Agentic Engineering
GLM-5: from Vibe Coding to Agentic Engineering

Feb 17

ByGLM-5 Team, Aohan Zeng, Xin Lv, Zhenyu Hou, Zhengxiao Du, Qinkai Zheng, Bin Chen, Da Yin, Chendi Ge, Chengxing Xie, Cunxiang Wang, Gengzheng Pan, Hao Zeng, Haoke Zhang, Haoran Wang, Huilong Chen, Jiajie Zhang, Jian Jiao, Jiaqi Guo, Jingsen Wang, Jingzhao Du, Jinzhu Wu, Kedong Wang, Lei Li, Lin Fan, Lucen Zhong, Mingdao Liu, Mingming Zhao, Pengfan Du, Qian Dong, Rui Lu, Shuang-Li, Shulin Cao, Song Liu, Ting Jiang, Xiaodong Chen, Xiaohan Zhang, Xuancheng Huang, Xuezhen Dong, Yabo Xu, Yao Wei, Yifan An, Yilin Niu, Yitong Zhu, Yuanhao Wen, Yukuo Cen, Yushi Bai, Zhongpei Qiao, Zihan Wang, Zikang Wang, Zilin Zhu, Ziqiang Liu, Zixuan Li, Bojie Wang, Bosi Wen, Can Huang, Changpeng Cai, Chao Yu, Chen Li, Chen Li, Chenghua Huang, Chengwei Hu, Chenhui Zhang, Chenzheng Zhu, Congfeng Yin, Daoyan Lin, Dayong Yang, Di Wang, Ding Ai, Erle Zhu, Fangzhou Yi, Feiyu Chen, Guohong Wen, Hailong Sun, Haisha Zhao, Haiyi Hu, Hanchen Zhang, Hanrui Liu, Hanyu Zhang, Hao Peng, Hao Tai, Haobo Zhang, He Liu, Hongwei Wang, Hongxi Yan, Hongyu Ge, Huan Liu, Huan Liu, Huanpeng Chu, Jia'ni Zhao, Jiachen Wang, Jiajing Zhao, Jiamin Ren, Jiapeng Wang, Jiaxin Zhang, Jiayi Gui, Jiayue Zhao, Jijie Li, Jing An, Jing Li, Jingwei Yuan, Jinhua Du, Jinxin Liu, Junkai Zhi, Junwen Duan, Kaiyue Zhou, Kangjian Wei, Ke Wang, Keyun Luo, Laiqiang Zhang, Leigang Sha, Liang Xu, Lindong Wu, Lintao Ding, Lu Chen, Minghao Li, Nianyi Lin, Pan Ta, Qiang Zou, Rongjun Song, Ruiqi Yang, Shangqing Tu, Shangtong Yang, Shaoxiang Wu, Shengyan Zhang, Shijie Li, Shuang Li, Shuyi Fan, Wei Qin, Wei Tian, Weining Zhang, Wenbo Yu, Wenjie Liang, Xiang Kuang, Xiangmeng Cheng, Xiangyang Li, Xiaoquan Yan, Xiaowei Hu, Xiaoying Ling, Xing Fan, Xingye Xia, Xinyuan Zhang, Xinze Zhang, Xirui Pan, Xunkai Zhang, Yandong Wu, Yanfu Li, Yidong Wang, Yifan Zhu, Yijun Tan, Yilin Zhou, Yiming Pan, Ying Zhang, Yinpei Su, Yipeng Geng, Yipeng Geng, Yong Yan, Yonglin Tan, Yuean Bi, Yuhan Shen, Yuhao Yang, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yurong Wu, Yutao Zhang, Yuxi Duan, Yuxuan Zhang, Zezhen Liu, Zhengtao Jiang, Zhenhe Yan, Zheyu Zhang, Zhixiang Wei, Zhuo Chen, Zhuoer Feng, Zijun Yao, Ziwei Chai, Ziyuan Wang, Zuzhou Zhang, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

105

Wij presenteren GLM-5, een next-generation foundationmodel dat ontworpen is om het paradigma van vibe coding te laten overgaan in agentic engineering. Voortbouwend op de agentic, reasoning en coding (ARC) capaciteiten van zijn voorganger, adopteert GLM-5 DSA om de trainings- en inferentiekosten significant te verlagen met behoud van lange-context nauwkeurigheid. Om modelalignment en autonomie te bevorderen, implementeren we een nieuwe asynchrone reinforcement learning-infrastructuur die de efficiëntie na de training aanzienlijk verbetert door generatie van training te ontkoppelen. Verder stellen we nieuwe asynchrone agent-RL-algoritmen voor die de RL-kwaliteit verder verbeteren, waardoor het model effectiever kan leren van complexe, langdurige interacties. Door deze innovaties behaalt GLM-5 state-of-the-art prestaties op belangrijke open benchmarks. Cruciaal is dat GLM-5 een ongekend vermogen demonstreert in real-world codeertaken, waarbij het eerdere baseline-resultaten overtreft in het afhandelen van end-to-end software-engineering uitdagingen. Code, modellen en meer informatie zijn beschikbaar op https://github.com/zai-org/GLM-5.

SkillsBench: Benchmarken hoe goed agentvaardigheden presteren in diverse taken
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Feb 13

ByXiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

Agentvaardigheden zijn gestructureerde pakketten van procedurele kennis die LLM-agenten tijdens de inferentie versterken. Ondanks snelle adoptie is er geen standaardmanier om te meten of ze daadwerkelijk helpen. Wij presenteren SkillsBench, een benchmark met 86 taken verdeeld over 11 domeinen, gekoppeld aan zorgvuldig samengestelde Vaardigheden en deterministische verifiers. Elke taak wordt geëvalueerd onder drie condities: geen Vaardigheden, samengestelde Vaardigheden en zelf gegenereerde Vaardigheden. We testen 7 agent-modelconfiguraties over 7.308 trajecten. Samengestelde Vaardigheden verhogen het gemiddelde slagingspercentage met 16,2 procentpunten (pp), maar de effecten variëren sterk per domein (van +4,5 pp voor Software Engineering tot +51,9 pp voor Gezondheidszorg) en 16 van de 84 taken vertonen negatieve delta's. Zelf gegenereerde Vaardigheden bieden gemiddeld geen voordeel, wat aantoont dat modellen niet betrouwbaar de procedurele kennis kunnen produceren waarvan ze profiteren bij het consumeren ervan. Gerichte Vaardigheden met 2-3 modules presteren beter dan uitgebreide documentatie, en kleinere modellen met Vaardigheden kunnen evenaren aan grotere modellen zonder Vaardigheden.

Sanity Checks voor Sparse Autoencoders: Presteren SAE's Beter dan Willekeurige Baseline-modellen?
Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Feb 15

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina

Sparse Autoencoders (SAE's) zijn naar voren gekomen als een veelbelovend instrument voor het interpreteren van neurale netwerken door hun activeringen te ontbinden in sparse sets van door mensen interpreteerbare kenmerken. Recent onderzoek heeft meerdere SAE-varianten geïntroduceerd en deze met succes opgeschaald naar frontier-modellen. Ondanks de grote opwinding werpt een groeiend aantal negatieve resultaten in downstreamtaken twijfel op of SAE's daadwerkelijk betekenisvolle kenmerken blootleggen. Om dit direct te onderzoeken, voeren we twee complementaire evaluaties uit. In een synthetische opzet met bekende grondwaarheid-kenmerken tonen we aan dat SAE's slechts 9% van de werkelijke kenmerken herstellen, ondanks het behalen van 71% verklaarde variantie, wat aantoont dat ze falen in hun kerntaak, zelfs wanneer reconstructie sterk is. Om SAE's op echte activeringen te evalueren, introduceren we drie basislijnen die de richtingen van SAE-kenmerken of hun activeringspatronen beperken tot willekeurige waarden. Door middel van uitgebreide experimenten met meerdere SAE-architecturen laten we zien dat onze basislijnen volledig getrainde SAE's evenaren op het gebied van interpreteerbaarheid (0.87 vs 0.90), sparse probing (0.69 vs 0.72) en causale manipulatie (0.73 vs 0.72). Gezamenlijk suggereren deze resultaten dat SAE's in hun huidige staat niet betrouwbaar de interne mechanismen van modellen ontbinden.

Ontstaat er socialisatie in een AI-agentensamenleving? Een casestudy van Moltbook
Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

Feb 15

ByMing Li, Xirui Li, Tianyi Zhou

Naarmate grote taalmodelagenten in toenemende mate netwerkomgevingen bevolken, rijst een fundamentele vraag: ondergaan kunstmatige intelligentie (KI)-agentensamenlevingen convergentiedynamieken die vergelijkbaar zijn met menselijke sociale systemen? Moltbook benadert recentelijk een plausibel toekomstscenario waarin autonome agenten deelnemen aan een open, continu evoluerende online samenleving. Wij presenteren de eerste grootschalige systemische diagnose van deze KI-agentensamenleving. Voorbij statische observatie introduceren we een kwantitatief diagnostisch kader voor dynamische evolutie in KI-agentensamenlevingen, waarbij we semantische stabilisatie, lexicale omzet, individuele traagheid, invloedspersistentie en collectieve consensus meten. Onze analyse onthult een systeem in dynamisch evenwicht in Moltbook: hoewel globale semantische gemiddelden zich snel stabiliseren, behouden individuele agenten een hoge diversiteit en aanhoudende lexicale omzet, waardoor homogenisering wordt weerstaan. Echter, agenten vertonen sterke individuele traagheid en minimale adaptieve respons op interactiepartners, wat wederzijdse beïnvloeding en consensus verhindert. Hierdoor blijft invloed vluchtig zonder persistente superknooppunten, en ontwikkelt de samenleving geen stabiele collectieve invloedsankers door het ontbreken van gedeeld sociaal geheugen. Deze bevindingen tonen aan dat schaal en interactiedichtheid alleen onvoldoende zijn om socialisatie te induceren, en bieden bruikbare ontwerp- en analyseprincipes voor aanstaande volgende-generatie KI-agentensamenlevingen.

jina-embeddings-v5-text: Taakgerichte Embedding Distillatie
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Feb 17

ByMohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao

Tekst-embeddingmodellen worden veelvuldig gebruikt voor semantische gelijkenistaken, waaronder informatie-retrieval, clustering en classificatie. Algemene modellen worden doorgaans getraind met eenfasige of meerfasige processen die gebruikmaken van contrastieve verliesfuncties. Wij introduceren een nieuwe trainingsmethode die modeldistillatietechnieken combineert met taakspecifieke contrastieve verliesfuncties om compacte, hoogpresterende embeddingmodellen te produceren. Onze bevindingen suggereren dat deze aanpak effectiever is voor het trainen van kleine modellen dan uitsluitend contrastieve of op distillatie gebaseerde trainingsparadigma's. De benchmark-scores van de resulterende modellen, jina-embeddings-v5-text-small en jina-embeddings-v5-text-nano, overtreffen of evenaren de state-of-the-art voor modellen van vergelijkbare grootte. De jina-embeddings-v5-text-modellen ondersteunen bovendien lange teksten (tot 32k tokens) in vele talen en genereren embeddings die robuust blijven bij afkapping en binaire kwantisering. De modelgewichten zijn publiekelijk beschikbaar, wat naar verwachting verdere vooruitgang in de ontwikkeling van embeddingmodellen zal inspireren.

Een trajectgebaseerde veiligheidsaudit van de Clawdbot (OpenClaw)
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Feb 16

ByTianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang

Clawdbot is een zelf-gehoste, toolgebruikende persoonlijke AI-agent met een brede actieruimte die lokale uitvoering en web-gemedieerde workflows omvat. Dit roept verhoogde veiligheids- en beveiligingsproblemen op bij onduidelijkheid en tegenstrijdige aansturing. Wij presenteren een trajectgecentreerde evaluatie van Clawdbot over zes risicodimensies. Onze testsuite bemonstert en lichtjes adapteert scenario's uit eerdere agent-veiligheidsbenchmarks (inclusief ATBench en LPS-Bench) en vult deze aan met handmatig ontworpen cases die zijn toegesneden op Clawdbot's tooloppervlak. We loggen complete interactietrajecten (berichten, acties, tool-aanroepargumenten/uitvoer) en beoordelen de veiligheid met zowel een geautomatiseerde trajectbeoordelaar (AgentDoG-Qwen3-4B) als menselijke beoordeling. Over 34 canonieke cases heen constateren we een niet-uniform veiligheidsprofiel: de prestaties zijn over het algemeen consistent bij taken gericht op betrouwbaarheid, terwijl de meeste mislukkingen optreden bij ongespecificeerde intentie, open-einde doelen of ogenschijnlijk onschuldige jailbreak-prompt, waarbij kleine misinterpretaties kunnen escaleren naar toolacties met een grotere impact. We hebben de algemene resultaten aangevuld met representatieve casestudies en de gemeenschappelijke kenmerken van deze cases samengevat, waarbij we de beveiligingskwetsbaarheden en typische faalwijzen analyseerden die Clawdbot in de praktijk geneigd is te triggeren.

ResearchGym: Het Evalueren van Taalmodelagenten op Echt AI-Onderzoek
ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Feb 16

ByAniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

Wij introduceren ResearchGym, een benchmark en uitvoeringsomgeving voor het evalueren van AI-agenten op end-to-end onderzoek. Om dit te concretiseren, hergebruiken we vijf orale en spotlight papers van ICML, ICLR en ACL. Uit de repository van elke paper behouden we de datasets, de evaluatie-opzet en de baseline-implementaties, maar we houden de door de paper voorgestelde methode achter. Dit resulteert in vijf gecontaineriseerde taakomgevingen die in totaal 39 sub-taken omvatten. Binnen elke omgeving moeten agenten nieuwe hypothesen voorstellen, experimenten uitvoeren en proberen de sterke menselijke baselines op de metrieken van de paper te overtreffen. In een gecontroleerde evaluatie van een agent aangedreven door GPT-5 observeren we een grote kloof tussen capaciteit en betrouwbaarheid. De agent verbetert de verstrekte baselines uit de repository in slechts 1 van de 15 evaluaties (6,7%) met 11,5%, en voltooit gemiddeld slechts 26,5% van de sub-taken. Wij identificeren terugkerende foutmodi op de lange termijn, waaronder ongeduld, slecht tijd- en resourcebeheer, overmoed in zwakke hypothesen, moeilijkheden bij het coördineren van parallelle experimenten en harde limieten door contextlengte. Toch overtreft de agent in een enkele run de oplossing van een ICML 2025 Spotlight-taak, wat aangeeft dat frontier-agenten af en toe state-of-the-art prestaties kunnen bereiken, maar dit onbetrouwbaar doen. We evalueren tevens propriëtaire agent-scaffolds, waaronder Claude Code (Opus-4.5) en Codex (GPT-5.2), die een vergelijkbare kloof vertonen. ResearchGym biedt infrastructuur voor de systematische evaluatie en analyse van autonome agenten bij gesloten-lus onderzoek.

UniT: Uniforme Multimodale Chain-of-Thought Schaling tijdens Testtijd
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Feb 12

ByLeon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu

Unificatie modellen kunnen zowel multimodale interpretatie als generatie binnen een enkele architectuur aan, maar werken doorgaans in één keer zonder hun uitvoer iteratief te verfijnen. Veel multimodale taken, vooral die met complexe ruimtelijke composities, meerdere interagerende objecten of evoluerende instructies, vereisen het opdelen van instructies, het verifiëren van tussentijdse resultaten en het maken van iteratieve correcties. Hoewel test-time scaling (TTS) heeft aangetoond dat het toewijzen van extra rekenkracht tijdens inferentie voor iteratief redeneren de prestaties van taalmodellen aanzienlijk verbetert, blijft het uitbreiden van dit paradigma naar unificatie multimodale modellen een open uitdaging. Wij introduceren UniT, een raamwerk voor multimodale chain-of-thought test-time scaling dat een enkel unificatie model in staat stelt om over meerdere rondes te redeneren, verifiëren en verfijnen. UniT combineert agent-gebaseerde datasynthese, unificatie modeltraining en flexibele inferentie tijdens testtijd om cognitief gedrag op te roepen, waaronder verificatie, subdoeldecompositie en inhoudelijk geheugen. Onze belangrijkste bevindingen zijn: (1) unificatie modellen getraind op korte redeneertrajecten generaliseren naar langere inferentieketens tijdens testtijd; (2) sequentiële chain-of-thought redenering biedt een schaalbaardere en rekenzuinigere TTS-strategie dan parallelle sampling; (3) training op generatie- en bewerkingstrajecten verbetert visueel redeneren buiten de verdeling. Deze resultaten vestigen multimodale test-time scaling als een effectief paradigma voor het bevorderen van zowel generatie als interpretatie in unificatie modellen.

Opnieuw bezien van de Platoonse representatiehypothese: een Aristotelisch perspectief
Revisiting the Platonic Representation Hypothesis: An Aristotelian View

Feb 16

ByFabian Gröger, Shuo Wen, Maria Brbić

De Platonic Representation Hypothesis suggereert dat representaties van neurale netwerken convergeren naar een gemeenschappelijk statistisch model van de werkelijkheid. Wij tonen aan dat de bestaande metrieken die worden gebruikt om representatiegelijkenis te meten, verstoord worden door de schaal van het netwerk: het vergroten van de modeldiepte of -breedte kan representatiegelijkenisscores systematisch opdrijven. Om deze effecten te corrigeren, introduceren we een op permutatie gebaseerd nulkalibratiekader dat elke representatiegelijkenismetriek omzet in een gekalibreerde score met statistische garanties. Wij herzien de Platonic Representation Hypothesis met ons kalibratiekader, wat een genuanceerd beeld onthult: de ogenschijnlijke convergentie gerapporteerd door globale spectrale maten verdwijnt grotendeels na kalibratie, terwijl lokale nabijheidsgelijkenis, maar niet lokale afstanden, significante overeenstemming behoudt tussen verschillende modaliteiten. Op basis van deze bevindingen stellen wij de Aristoteliaanse Representatiehypothese voor: representaties in neurale netwerken convergeren naar gedeelde lokale nabijheidsrelaties.

Geometrie-Bewuste Roterende Positie-Inbedding voor een Consistent Videowereldmodel
Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Feb 8

ByChendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Voorspellende wereldmodellen die toekomstige observaties simuleren onder expliciete camerabesturing zijn fundamenteel voor interactieve AI. Ondanks snelle vooruitgang ontbreekt het huidige systemen aan ruimtelijke persistentie: ze slagen er niet in stabiele scènestructuren te behouden over lange trajecten, en hallucineren vaak details wanneer camera's eerder waargenomen locaties opnieuw bezoeken. Wij identificeren dat deze geometrische drift voortkomt uit de afhankelijkheid van positie-embeddingen in de beeldruimte, die in conflict zijn met de projectieve geometrie die nodig is voor 3D-consistentie. Wij introduceren ViewRope, een geometriebewuste codering die camerastralingsrichtingen direct injecteert in de zelf-attentielagen van videotransformers. Door aandacht te parametriseren met relatieve straalgeometrie in plaats van pixel-localiteit, biedt ViewRope een model-native inductieve bias voor het ophalen van 3D-consistente inhoud over temporele hiaten. Verder stellen wij Geometrie-Bewust, Frame-Spaarzaam Aandacht voor, dat gebruikmaakt van deze geometrische signalen om selectief aandacht te schenken aan relevante historische frames, waardoor de efficiëntie verbetert zonder geheugenconsistentie op te offeren. Wij presenteren ook ViewBench, een diagnostische suite die lus-sluitingsgetrouwheid en geometrische drift meet. Onze resultaten tonen aan dat ViewRope de langetermijnconsistentie aanzienlijk verbetert en tegelijkertijd de rekenkosten verlaagt.

Over de Verrassende Effectiviteit van Maskerupdates in Adaptieve Optimalisatiealgoritmen
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Feb 17

ByTaejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie

Het trainen van grote taalmmodellen (LLM's) berust vrijwel uitsluitend op dense adaptieve optimalisatiemethoden met steeds geavanceerdere preconditioners. Wij tonen aan dat deze aanpak niet vanzelfsprekend is door te demonstreren dat het willekeurig maskeren van parameterupdates zeer effectief kan zijn: een gemaskeerde variant van RMSProp overtreft consistent recente state-of-the-art optimalisatiemethoden. Onze analyse onthult dat het willekeurig maskeren een kromming-afhankelijke geometrische regularisatie induceert die het optimalisatietraject gladder maakt. Op basis van dit inzicht introduceren we Momentum-uitgelijnde gradientmaskering (Magma), waarbij de gemaskeerde updates worden gemoduleerd aan de hand van momentum-gradient-uitlijning. Uitgebreide experimenten met het voor-trainen van LLM's tonen aan dat Magma een eenvoudige, directe vervanging is voor adaptieve optimalisatiemethoden, met consistente verbeteringen en verwaarloosbare rekenkosten. Opmerkelijk is dat voor het 1B-modelformaat Magma de perplexiteit met meer dan 19% respectievelijk 9% reduceert ten opzichte van Adam en Muon.

HLE-Verified: Een Systematische Verificatie en Gestructureerde Herziening van het Laatste Examen van de Mensheid
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Feb 15

ByWeiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao

Humanity's Last Exam (HLE) is uitgegroeid tot een veelgebruikte benchmark voor het evalueren van geavanceerde grote taalmodellen op uitdagende, multidisciplinaire vragen. Gemeenschapsanalyses hebben echter zorgen gewekt dat HLE een aanzienlijk aantal onzuivere items bevat, wat evaluatieresultaten kan vertekenen en modelvergelijkingen kan beïnvloeden. Om deze uitdaging aan te pakken, introduceren we HLE-Verified, een geverifieerde en herziene versie van HLE met een transparant verificatieprotocol en een fijnmazige foutentaxonomie. Onze constructie volgt een tweefasen workflow van validatie-en-reparatie, resulterend in een gecertificeerde benchmark. In Fase I ondergaat elk item een binaire validatie van het probleem en het eindantwoord door domeinexpertbeoordeling en modelgebaseerde kruiscontroles, wat 641 geverifieerde items oplevert. In Fase II worden defecte maar repareerbare items herzien onder strikte beperkingen die de oorspronkelijke evaluatiedoelen behouden, via dubbele onafhankelijke expertreparaties, modelondersteunde auditing en finale adjudicatie, resulterend in 1.170 herziene en gecertificeerde items. De overige 689 items worden vrijgegeven als een gedocumenteerde onzekere set met expliciete onzekerheidsbronnen en expertisetags voor toekomstige verfijning. We evalueren zeven state-of-the-art taalmodellen op HLE en HLE-Verified, en observeren een gemiddelde absolute nauwkeurigheidswinst van 7–10 procentpunt op HLE-Verified. De verbetering is vooral uitgesproken bij items waar de oorspronkelijke probleemstelling en/of het referentieantwoord foutief is, met winsten van 30–40 procentpunt. Onze analyses tonen verder een sterke associatie tussen modelvertrouwen en de aanwezigheid van fouten in de probleemstelling of het referentieantwoord, wat de effectiviteit van onze revisies ondersteunt. Over het geheel genomen verbetert HLE-Verified HLE-stijl evaluaties door annotatieruis te verminderen en een betrouwbaardere meting van modelcapaciteiten mogelijk te maken. Data is beschikbaar op: https://github.com/SKYLENAGE-AI/HLE-Verified

TAROT: Test-gedreven en Capaciteit-adaptieve Curriculum Reinforcement Fine-tuning voor Codegeneratie met Grote Taalmodellen
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Feb 17

ByChansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li

Grote Taalmodellen (LLM's) veranderen het codeerparadigma, bekend als "vibe coding", maar het synthetiseren van algoritmisch geavanceerde en robuuste code blijft een kritieke uitdaging. Het stimuleren van de diepe redeneervermogens van LLM's is essentieel om deze horde te nemen. Reinforcement Fine-Tuning (RFT) is naar voren gekomen als een veelbelovende strategie om in deze behoefte te voorzien. De meeste bestaande benaderingen negeren echter de inherente heterogene moeilijkheidsgraad en granulariteit van testgevallen, wat leidt tot een onevenwichtige verdeling van beloningssignalen en bijgevolg vertekende gradientupdates tijdens de training. Om dit aan te pakken, stellen we Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT) voor. TAROT construeert systematisch voor elk probleem een testset met vier niveaus (basis, intermediair, complex, edge), wat een gecontroleerd moeilijkheidslandschap biedt voor curriculumontwerp en -evaluatie. Cruciaal is dat TAROT curriculumvoortgang ontkoppelt van ruwe beloningsscores, waardoor capaciteitsgeconditioneerde evaluatie en principiële selectie vanuit een portfolio van curriculumbeleid mogelijk wordt, in plaats van toevallige samenstelling van testgevalmoeilijkheid. Dit ontwerp bevordert stabiele optimalisatie en efficiëntere competentieverwerving. Uitgebreide experimentele resultaten tonen aan dat het optimale curriculum voor RFT bij codegeneratie nauw verbonden is met de inherente capaciteit van een model. Minder capabele modellen behalen grotere vooruitgang met een eenvoudig-naar-moeilijk progressie, terwijl competantere modellen excelleren onder een moeilijk-eerst curriculum. TAROT biedt een reproduceerbare methode die curriculumontwerp adaptief afstemt op de capaciteit van een model, waardoor de functionele correctheid en robuustheid van de gegenereerde code consistent verbetert. Alle code en data zijn vrijgegeven om reproduceerbaarheid te bevorderen en gemeenschapsonderzoek vooruit te helpen op https://github.com/deep-diver/TAROT.

COMPOT: Kalibratie-geoptimaliseerde Matrix Procrustes Orthogonalisatie voor Compressie van Transformers
COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Feb 16

ByDenis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis

Post-training compressie van Transformer-modellen berust doorgaans op truncated singular value decomposition (SVD). Het afdwingen van een enkele gedeelde deelruimte kan echter de nauwkeurigheid aantasten, zelfs bij matige compressie. Sparse dictionary learning biedt een flexibelere union-of-subspaces representatie, maar bestaande methoden kampen vaak met iteratieve updates van de dictionary en coëfficiënten. Wij stellen COMPOT voor (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), een trainingsvrij compressieraamwerk dat een kleine kalibratiedataset gebruikt om een sparse gewichtsfactorisatie te schatten. COMPOT gebruikt orthogonale dictionaries die gesloten Procrustes-updates voor de dictionary en analytische sparse coding in één stap voor de coëfficiënten mogelijk maken, waardoor iteratieve optimalisatie wordt geëlimineerd. Om om te gaan met heterogene laaggevoeligheid onder een globaal compressiebudget, introduceert COMPOT verder een eenmalige dynamische allocatiestrategie die laagsgewijze compressiepercentages adaptief herverdeelt. Uitgebreide experimenten met diverse architecturen en taken tonen aan dat COMPOT consequent een superieure kwaliteit-compressie-afweging biedt ten opzichte van sterke low-rank en sparse baseline-methoden, terwijl het volledig compatibel blijft met post-training kwantisatie voor extreme compressie. Code is beschikbaar op https://github.com/mts-ai/COMPOT.

Causal-JEPA: Wereldmodellen Leren door Object-Level Latente Interventies
Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Feb 11

ByHeejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero

Wereldmodellen vereisen een robuust relationeel begrip om voorspelling, redenering en controle te ondersteunen. Hoewel objectgecentreerde representaties een nuttige abstractie bieden, zijn ze niet toereikend om interactie-afhankelijke dynamiek vast te leggen. Wij stellen daarom C-JEPA voor, een eenvoudig en flexibel objectgecentreerd wereldmodel dat gemaskeerde joint embedding-predictie uitbreidt van beeldpatches naar objectgecentreerde representaties. Door objectniveau-masking toe te passen dat vereist dat de toestand van een object wordt afgeleid uit andere objecten, induceert C-JEPA latente interventies met contrafeitelijke effecten en voorkomt het shortcut-oplossingen, wat interactieredenering essentieel maakt. Empirisch leidt C-JEPA tot consistente verbeteringen in visuele vraagbeantwoording, met een absolute verbetering van ongeveer 20% in contrafeitelijk redeneren vergeleken met dezelfde architectuur zonder objectniveau-masking. Bij agent-controletaken maakt C-JEPA aanzienlijk efficiëntere planning mogelijk door slechts 1% van de totale latente invoerkenmerken te gebruiken die patchgebaseerde wereldmodellen vereisen, terwijl vergelijkbare prestaties worden bereikt. Ten slotte bieden we een formele analyse die aantoont dat objectniveau-masking een causuele inductieve bias induceert via latente interventies. Onze code is beschikbaar op https://github.com/galilai-group/cjepa.

Begrip versus Generatie: Het Navigeren door Optimalisatiedilemma's in Multimodale Modellen
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Feb 17

BySen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu

Huidig onderzoek naar multimodale modellen wordt geconfronteerd met een fundamentele uitdaging: het verbeteren van generatieve capaciteiten gaat vaak ten koste van het begripsvermogen, en omgekeerd. Wij analyseerden deze wisselwerking en identificeren dat de voornaamste oorzaak wellicht het potentiële conflict tussen generatie en begrip is, wat een competitieve dynamiek binnen het model creëert. Om dit aan te pakken, stellen we het Reason-Reflect-Refine (R3) raamwerk voor. Dit innovatieve algoritme herformuleert de taak van eenstapsgeneratie naar een meerstapsproces van "genereren-begrijpen-hergenereren". Door het begripsvermogen van het model expliciet te benutten tijdens de generatie, verzachten we het optimalisatiedilemma succesvol, wat resulteert in sterkere generatieresultaten en een verbeterd begripsvermogen dat gerelateerd is aan het generatieproces. Dit biedt waardevolle inzichten voor het ontwerpen van next-generation, verenigde multimodale modellen. Code is beschikbaar op https://github.com/sen-ye/R3.

Panini: Continueel Leren in Tokenruimte via Gestructureerd Geheugen
Panini: Continual Learning in Token Space via Structured Memory

Feb 16

ByShreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury

Taalmodelen worden steeds vaker ingezet om te redeneren over inhoud waarop ze niet zijn getraind, zoals nieuwe documenten, evoluerende kennis en gebruikersspecifieke gegevens. Een gangbare aanpak is retrieval-augmented generation (RAG), waarbij documenten letterlijk extern worden opgeslagen (als chunks) en alleen een relevante subset tijdens inferentie wordt opgehaald voor een LLM om over te redeneren. Dit leidt echter tot inefficiënt gebruik van rekencapaciteit tijdens testtijd (de LLM redeneert herhaaldelijk over dezelfde documenten); bovendien kan chunk-retrieval irrelevante context injecteren die ongefundeerde generatie bevordert. Wij stellen een mensachtig niet-parametrisch continu-leerkader voor, waarbij het basismodel ongewijzigd blijft en leren plaatsvindt door elke nieuwe ervaring te integreren in een externe semantische geheugenstatus die zich continu accumuleert en consolideert. Wij presenteren Panini, dat dit realiseert door documenten voor te stellen als Generative Semantic Workspaces (GSW) – een entiteits- en gebeurtenisbewust netwerk van vraag-antwoordparen (QA), voldoende voor een LLM om de ervaren situaties te reconstrueren en latente kennis te ontginnen via op redenering gebaseerde inferentieketens op het netwerk. Gegeven een query, doorloopt Panini alleen de continu bijgewerkte GSW (niet de letterlijke documenten of chunks), en haalt de meest waarschijnlijke inferentieketens op. Over zes QA-benchmarks behaalt Panini de hoogste gemiddelde prestatie, 5%-7% hoger dan andere competitieve basismodellen, terwijl het 2-30x minder antwoord-contexttokens gebruikt, volledig open-source pipelines ondersteunt en ongefundeerde antwoorden op gecureerde onbeantwoordbare queries reduceert. De resultaten tonen aan dat efficiënte en accurate structurering van ervaringen tijdens schrijftijd – zoals bereikt door het GSW-kader – zowel efficiëntie- als betrouwbaarheidswinst oplevert tijdens leestijd. Code is beschikbaar op https://github.com/roychowdhuryresearch/gsw-memory.

Visuele Overtuiging: Wat Beïnvloedt de Beslissingen van Vision-Language Modellen?
Visual Persuasion: What Influences Decisions of Vision-Language Models?

Feb 17

ByManuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh

Het web is bezaaid met afbeeldingen die ooit zijn gemaakt voor menselijke consumptie en die nu in toenemende mate worden geïnterpreteerd door agents die vision-language models (VLMs) gebruiken. Deze agents nemen visuele beslissingen op grote schaal, waarbij ze bepalen wat ze moeten aanklikken, aanbevelen of kopen. Toch weten we weinig over de structuur van hun visuele voorkeuren. Wij introduceren een raamwerk om dit te bestuderen door VLMs gecontroleerde, op afbeeldingen gebaseerde keuzetaken te geven en hun invoer systematisch te verstoren. Onze kernidee is om de beslissingsfunctie van de agent te behandelen als een latente visuele nutsfunctie die kan worden afgeleid door middel van gebleken voorkeur: keuzes tussen systematisch bewerkte afbeeldingen. Uitgaande van veelvoorkomende afbeeldingen, zoals productfoto's, stellen we methoden voor voor visuele promptoptimalisatie, waarbij we tekstoptimalisatiemethoden aanpassen om iteratief visueel plausibele aanpassingen voor te stellen en toe te passen met behulp van een beeldgeneratiemodel (zoals in compositie, belichting of achtergrond). Vervolgens evalueren we welke bewerkingen de selectiekans vergroten. Door grootschalige experimenten met geavanceerde VLMs tonen we aan dat geoptimaliseerde bewerkingen de keuzekansen significant veranderen in directe vergelijkingen. We ontwikkelen een automatische interpreteerbaarheidspipeline om deze voorkeuren te verklaren en identificeren consistente visuele thema's die de selectie sturen. Wij beargumenteren dat deze aanpak een praktische en efficiënte manier biedt om visuele kwetsbaarheden en veiligheidsproblemen aan het licht te brengen, die anders impliciet in de praktijk ontdekt zouden worden, en zo een proactievere auditing en governance van op afbeeldingen gebaseerde AI-agents ondersteunt.

Voorschrijvend schalen onthult de evolutie van taalmodellen
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Feb 17

ByHanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade

Bij de inzet van foundation-modellen hebben praktijkmensen steeds vaker behoefte aan prescriptieve schaalwetten: gegeven een rekenbudget voor voorafgaande training, welke downstreamnauwkeurigheid is haalbaar met hedendaagse post-trainingpraktijken, en hoe stabiel is die relatie naarmate het vakgebied evolueert? Met behulp van grootschalige observationele evaluaties met 5k observationele en 2k nieuw bemonsterde gegevens over modelprestaties schatten we prestatiegrenzen in – hoge conditionele kwantielen van benchmark scores als functie van log voorafgaande trainings-FLOPs – via gegladde kwantielregressie met een monotone, verzadigende sigmoïde parameterisatie. We valideren de temporele betrouwbaarheid door te fitten op eerdere modelgeneraties en te evalueren op latere releases. Over verschillende taken zijn de geschatte grenzen grotendeels stabiel, met uitzondering van wiskundig redeneren, dat een consistent voortschrijdende grens vertoont in de tijd. Vervolgens breiden we onze aanpak uit om taakafhankelijke verzadiging te analyseren en om contaminatiegerelateerde verschuivingen in wiskundige redeneertaken te onderzoeken. Ten slotte introduceren we een efficiënt algoritme dat bijna volledige datagrenzen herstelt met ongeveer 20% van het evaluatiebudget. Samen brengt ons werk Proteus 2k uit, de nieuwste dataset voor evaluatie van modelprestaties, en introduceert het een praktische methodologie om rekenbudgetten om te zetten in betrouwbare prestatieverwachtingen en om te monitoren wanneer prestatiegrenzen in de tijd verschuiven.

STAPO: Stabilisatie van Reinforcement Learning voor LLM's door het Onderdrukken van Zeldzame Valse Tokens
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Feb 17

ByShiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

Versterkend leren (RL) heeft de redeneercapaciteit van grote taalmodellen aanzienlijk verbeterd, maar bestaande RL-fijnafstemmingsmethoden zijn sterk afhankelijk van heuristische technieken zoals entropieregularisatie en herweging om stabiliteit te waarborgen. In de praktijk ondervinden deze methoden vaak prestatieverlies in latere trainingsfasen, wat leidt tot verminderde redeneerkwaliteit en instabiele training. Wij leiden af dat de grootte van tokengewijze beleidsgradiënten in RL negatief gecorreleerd is met de tokenwaarschijnlijkheid en de lokale beleidsentropie. Op basis van dit resultaat bewijzen wij dat trainingsinstabiliteit wordt veroorzaakt door een minuscuul deel van de tokens (ongeveer 0,01%), die wij spurious tokens noemen. Wanneer dergelijke tokens voorkomen in correcte antwoorden, dragen zij weinig bij aan het redeneerresultaat maar erven de volledige reeksniveau-beloning, wat leidt tot abnormaal versterkte gradiëntupdates. Gemotiveerd door deze observatie stellen wij Spurious-Token-Aware Policy Optimization (STAPO) voor voor grootschalige modelverfijning, waarbij dergelijke updates selectief worden gemaskeerd en het verlies over geldige tokens wordt genormaliseerd. Over zes wiskundige redeneerbenchmarks met Qwen 1.7B-, 8B- en 14B-basismodellen toont STAPO consistent superieure entropiestabiliteit en behaalt het een gemiddelde prestatieverbetering van 7,13% ten opzichte van GRPO, 20-Entropy en JustRL.

Aanleren van Inheemse Voortzetting voor Actiechunking-stroombeleid
Learning Native Continuation for Action Chunking Flow Policies

Feb 13

ByYufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao

Action chunking stelt Vision Language Action (VLA)-modellen in staat om in realtime te werken, maar naïeve uitgevoerde chunking vertoont vaak discontinuïteiten op de chunkgrenzen. Real-Time Chunking (RTC) verlicht dit probleem, maar is extern aan het beleid, wat leidt tot ongewenste multimodale schakelingen en trajecten die niet intrinsiek soepel zijn. Wij stellen Legato voor, een continuatiemethode tijdens de training voor op actie-chunking gebaseerde VLA-beleidsmodellen met flow. Specifiek initialiseert Legato de ruisverwijdering vanuit een op het schema gebaseerd mengsel van bekende acties en ruis, waardoor het model wordt blootgesteld aan gedeeltelijke actie-informatie. Bovendien hervormt Legato de geleerde flow-dynamiek om ervoor te zorgen dat het ruisverwijdingsproces consistent blijft tussen training en inferentie onder begeleiding per stap. Legato gebruikt verder een gerandomiseerde schema-conditionering tijdens de training om wisselende inferentievertragingen te ondersteunen en beheersbare soepelheid te bereiken. Empirisch gezien produceert Legato soepelere trajecten en vermindert het ongewenste multimodale schakelingen tijdens de uitvoering, wat leidt tot minder aarzeling en een kortere taakvoltooiingstijd. Uitgebreide experimenten in de echte wereld tonen aan dat Legato consequent beter presteert dan RTC bij vijf manipulatietaken, met verbeteringen van ongeveer 10% in zowel trajectsoepelheid als taakvoltooiingstijd.

Het Vision Wormhole: Latent-Ruimte Communicatie in Heterogene Multi-Agent Systemen
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Feb 17

ByXiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao

Multi-Agent Systemen (MAS) die worden aangedreven door Large Language Models hebben geavanceerd collaboratief redeneren mogelijk gemaakt, maar blijven geketend door de inefficiëntie van discrete tekstcommunicatie, wat aanzienlijke runtime-overhead en informatieverlies door kwantisatie met zich meebrengt. Hoewel latente staatsoverdracht een alternatief met hoge bandbreedte biedt, veronderstellen bestaande benaderingen ofwel homogene zender-ontvanger-architecturen of vertrouwen ze op paar-specifieke, aangeleerde vertalers, wat de schaalbaarheid en modulariteit over diverse modelfamilies met gescheiden variëteiten beperkt. In dit werk stellen wij de Vision Wormhole voor, een nieuw raamwerk dat de visuele interface van Vision-Language Models (VLM's) hergebruikt om model-agnostische, tekstvrije communicatie mogelijk te maken. Door een Universele Visuele Codec te introduceren, vertalen we heterogene redeneersporen naar een gedeelde continue latente ruimte en injecteren deze direct in het visuele pad van de ontvanger, waarbij de visuele encoder effectief wordt behandeld als een universele poort voor inter-agent telepathie. Ons raamwerk adopteert een topologie met een hub-en-spoke-structuur om de complexiteit van paarsgewijze afstemming van O(N²) naar O(N) te reduceren en benut een labelvrije teacher-student-distillatiedoelfunctie om het hogesnelheidsvisuele kanaal af te stemmen op de robuuste redeneerpatronen van het tekstpad. Uitgebreide experimenten met diverse modelfamilies (bijv. Qwen-VL, Gemma) tonen aan dat de Vision Wormhole de end-to-end wall-clock tijd in gecontroleerde vergelijkingen reduceert, terwijl de redeneernauwkeurigheid vergelijkbaar blijft met standaard op tekst gebaseerde MAS. Code is beschikbaar op https://github.com/xz-liu/heterogeneous-latent-mas.

ClinAlign: Het Opschalen van Zorgafstemming op Basis van Klinische Voorkeuren
ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Feb 10

ByShiwei Lyu, Xidong Wang, Lei Liu, Hao Zhu, Chaohe Zhang, Jian Wang, Jinjie Gu, Benyou Wang, Yue Shen

Hoewel grote taalmodellen (LLM's) expertniveau medische kennis demonstreren, blijft het een uitdaging om hun open-einde uitvoeren af te stemmen op de fijnmazige voorkeuren van clinici. Bestaande methodes vertrouwen vaak op grove doelstellingen of onbetrouwbare geautomatiseerde beoordelaars die zwak verankerd zijn in professionele richtlijnen. Wij stellen een raamwerk in twee fasen voor om deze kloof te dichten. Ten eerste introduceren we HealthRubrics, een dataset met 7.034 door artsen geverifieerde voorkeursvoorbeelden waarin clinici door LLM's opgestelde rubrics verfijnen om aan strenge medische standaarden te voldoen. Ten tweede destilleren we deze rubrics tot HealthPrinciples: 119 breed toepasbare, klinisch onderbouwde principes, geordend per klinische dimensie, waardoor schaalbare supervisie mogelijk wordt die verder gaat dan handmatige annotatie. We gebruiken HealthPrinciples voor (1) offline-afstemming door rubrics te synthetiseren voor ongelabelde queries en (2) als hulpmiddel tijdens inferentie voor begeleide zelfrevisie. Een model met 30B parameters dat tijdens inferentie slechts 3B parameters activeert, getraind met ons raamwerk, behaalt 33.4% op HealthBench-Hard en presteert daarmee beter dan veel grotere modellen, waaronder Deepseek-R1 en o3, wat een resource-efficiënte basislijn voor klinische afstemming vestigt.

Detectie van Overflow in Gecomprimeerde Tokenrepresentaties voor Retrieval-Augmented Generation
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

Feb 12

ByJulia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko

Efficiënte verwerking van lange contexten blijft een cruciale uitdaging voor hedendaagse grote taalmodellen (LLM's), vooral in omgevingen met beperkte middelen. Zachte compressie-architecturen beloven de effectieve contextlengte te vergroten door lange tokenreeksen te vervangen door kleinere sets aangeleerde gecomprimeerde tokens. De grenzen van comprimeerbaarheid – en wanneer compressie taakrelevante inhoud begint te wissen – blijven echter onderbelicht. In dit artikel definiëren we token-overflow als een regime waarin gecomprimeerde representaties niet langer voldoende informatie bevatten om een gegeven query te beantwoorden, en stellen we een methodologie voor om dit te karakteriseren en detecteren. In de xRAG zachte-compressie-instelling stellen we vast dat query-onafhankelijke saturatiestatistieken betrouwbaar onderscheid maken tussen gecomprimeerde en niet-gecomprimeerde tokenrepresentaties, wat een praktisch hulpmiddel biedt voor het identificeren van gecomprimeerde tokens, maar slechts beperkte overflow-detectiecapaciteit laat zien. Lichtgewicht probing-classificatoren over zowel query- als context-xRAG-representaties detecteren overflow met gemiddeld 0,72 AUC-ROC op de HotpotQA-, SQuADv2- en TriviaQA-datasets, wat aantoont dat het incorporeren van query-informatie de detectieprestaties verbetert. Deze resultaten betekenen een vooruitgang van query-onafhankelijke diagnostiek naar query-bewuste detectoren, waardoor goedkope pre-LLM-gating mogelijk wordt om compressie-gerelateerde fouten te beperken.

Hoeveel Redeneervermogen Voegen Retrieval-augmented Modellen Toe Bovenop LLM's? Een Benchmarking Framework voor Multi-Hop Inferentie over Hybride Kennis
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Feb 10

ByJunhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu

Grote taalmodellen (LLM's) blijven moeite hebben met kennisintensieve vragen die actuele informatie en multi-hop redenering vereisen. Het verrijken van LLM's met hybride externe kennis, zoals ongestructureerde tekst en gestructureerde kennisgrafieken, biedt een veelbelovend alternatief voor kostbare continue voortraining. Daarom wordt een betrouwbare evaluatie van hun retrieval- en redeneervermogen cruciaal. Veel bestaande benchmarks overlappen echter in toenemende mate met de voortrainingsdata van LLM's, wat betekent dat antwoorden of ondersteunende kennis mogelijk al in de modelparameters zijn gecodeerd. Dit maakt het moeilijk om echte retrieval en redenering te onderscheiden van parametrische herinnering. Wij introduceren HybridRAG-Bench, een raamwerk voor het construeren van benchmarks om retrieval-intensieve, multi-hop redenering over hybride kennis te evalueren. HybridRAG-Bench koppelt automatisch ongestructureerde tekst en gestructureerde kennisgrafiekrepresentaties afgeleid van recente wetenschappelijke literatuur op arXiv, en genereert kennisintensieve vraag-antwoordparen gebaseerd op expliciete redeneerpaden. Het raamwerk ondersteunt flexibele domein- en tijdsselectie, waardoor contaminatiebewuste en aanpasbare evaluatie mogelijk wordt naarmate modellen en kennis evolueren. Experimenten in drie domeinen (kunstmatige intelligentie, bestuur en beleid, en bio-informatica) tonen aan dat HybridRAG-Bench echte retrieval en redenering beloont in plaats van parametrische herinnering, en biedt zo een principieel testplatform voor het evalueren van hybride kennisverrijkte redeneersystemen. Wij geven onze code en data vrij op github.com/junhongmit/HybridRAG-Bench.