HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

37 papers found

OCC-RAG: Optimale Cognitieve Kern voor Getrouwe Vraagbeantwoording
OCC-RAG: Optimal Cognitive Core for Faithful Question Answering

May 30

ByMaksim Savkin, Mikhail Goncharov, Alexander Gambashidze, Alla Chepurova, Dmitrii Tarasov, Nikita Andriianov, Daria Pugacheva, Vasily Konovalov, Andrey Galichin, Ivan Oseledets

De recente vooruitgang in de ontwikkeling van taalmodellen wordt gekenmerkt door schaalvergroting, waarbij elke generatie meer van de wereldse kennis absorbeert in haar gewichten. Veel praktische toepassingen profiteren echter meer van robuust redeneren dan van uitgebreide parametrische kennis. In deze context bieden taakspecifieke kleine taalmodellen (SLM's) een principiële ontwerpkeuze. We introduceren Optimal Cognitive Core (OCC), een familie van SLM's die op deze premisse is gebouwd. Als variant van OCC presenteren we OCC-RAG, geoptimaliseerd voor getrouwe vraagbeantwoording (QA) die is gebaseerd op de aangeleverde context. Deze taak sluit direct aan bij de OCC-ontwerpbenadering, waarbij meerstapsredenering over aangeleverde passages vereist is, terwijl gememoriseerde kennis wordt genegeerd. Om OCC-RAG te trainen implementeren we een nieuwe pijplijn voor het op schaal synthetiseren van multi-context, multi-hop QA-data, wat een corpus oplevert van meer dan drie miljoen voorbeelden die gericht zijn op meerstapsredenering, strikte contextgetrouwheid en gekalibreerde weigering. We brengen OCC-RAG-0.6B en OCC-RAG-1.7B uit, beide verder getraind op dit corpus. De modellen produceren gestructureerde redeneringsporen met bronvermeldingen die gebaseerd zijn op letterlijke citaten uit de context. Met OCC-RAG tonen we aan dat compacte, taakspecifieke SLM's kunnen wedijveren met of beter kunnen presteren dan algemene modellen die 2 tot 6 keer zo groot zijn, op het gebied van meerstapsredenering (HotpotQA, MuSiQue, TAT-QA), getrouwheid (ConFiQA) en weigering (MuSiQue-Un) benchmarks.

Van activering naar causaliteit: Ontdekking van causale visuele representaties in de menselijke hersenen
From Activation to Causality: Discovery of Causal Visual Representations in the Human Brain

May 22

ByYuval Golbari, Navve Wasserman, Matias Cosarinsky, Roman Beliy, Aude Oliva, Antonio Torralba, Michal Irani, Tamar Rott Shaham

Het identificeren van welke hersenregio's een visueel concept in het menselijk brein vertegenwoordigen, is een centrale uitdaging binnen de neurowetenschappen. Bestaande benaderingen hebben grove functionele regio's (bijv. voor gezichten, plaatsen) gelokaliseerd via activatiemaximalisatie, waarbij regio's worden geïdentificeerd die sterk actief zijn voor een doelconcept ten opzichte van andere concepten. Echter, sterke activatie alleen bewijst niet dat een regio het concept zelf representeert, aangezien responsen ook kunnen worden gedreven door gecorreleerde visuele of semantische signalen. We introduceren BrainCause, een geautomatiseerd raamwerk dat generatieve en breinmodellen combineert om gecontroleerde stimuli te synthetiseren en neurale representaties te valideren door middel van gericht causaal testen. Gegeven een zoekopdracht die een concept van interesse specificeert, construeert ons raamwerk gerichte stimulussets bestaande uit conceptafbeeldingen, contrafeitelijke bewerkingen die het doelconcept verwijderen terwijl andere beeldinhoud behouden blijft, en afbeeldingen met kandidaat-gecorreleerde afleiders. Vervolgens gebruikt het een beeld-naar-fMRI-coderingsmodel om hersenresponsen te voorspellen en zoekt het naar representaties die specifiek reageren op het doelconcept ten opzichte van gecorreleerde alternatieven. BrainCause geeft gevalideerde kandidaat-representaties terug en stelt vervolgexperimenten met fMRI voor om de ontdekkingen verder te testen of uit te breiden. Onze aanpak herstelt met succes bekende functionele lokalisaties en identificeert nieuwe kandidaat-representaties voor tientallen concepten, gevalideerd op zowel voorspelde als gemeten fMRI-data. Cruciaal is dat we aantonen dat zonder causale validatie een groot deel van de lokalisaties vals-positieve resultaten zou zijn, wat bevestigt dat activatie alleen onvoldoende bewijs is voor representatie.

Trust Region On-Policy Distillatie
Trust Region On-Policy Distillation

May 31

ByXingrun Xing, Haoqing Wang, Boyan Gao, Ziheng Li, Yehui Tang

On-Policy Destillatie (OPD) is een fundamentele techniek voor efficiënte nabehandeling van grote taalmodellen (LLM's) en kent brede toepassingen in agentleren, meertakenverbetering en modelcompressie. OPD-training wordt echter instabiel wanneer de verdelingen van de leraar en student aanzienlijk verschillen, omdat toezicht van de leraar op door de student gegenereerde tokens kan leiden tot onbetrouwbare beleidsgradiënten en zelfs optimalisatiefalen. Dit werk pakt betrouwbaar toezicht op token-niveau via krediettoewijzingsstrategieën aan en stelt Trust Region On-Policy Destillatie voor, TrOPD. Het kenmerkt zich door de volgende eigenschappen: 1) Trust-Region On-Policy Leren: TrOPD voert OPD alleen uit in gebieden waar de leraar betrouwbaar toezicht biedt, wat de optimalisatieproblemen van de K1 reverse-KL schatter onder distributiemismatch verlicht. 2) Uitbijterschatting: Voor uitbijtergebieden verkennen we gradiëntclipping, masking en forward-KL schatting om de nadelige effecten van onbetrouwbaar toezicht te verminderen. 3) Off-Policy Begeleiding: De student gaat verder met genereren vanaf lerar prefixen en gebruikt forward KL om off-policy begeleiding te imiteren, wat on-policy verkenning naar betrouwbare gebieden stimuleert. Experimenten tonen aan dat TrOPD consistent beter presteert dan state-of-the-art OPD-baselines, waaronder OPD, EOPD en REOPOLD, op het gebied van wiskundig redeneren, codegeneratie en algemene-domein benchmarks.

Humanoid-GPT: Opschalen van data en structuur voor zero-shot bewegingsvolgen
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

Jun 2

ByZekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi

Wij introduceren Humanoid-GPT, een GPT-achtige Transformer met causale aandacht, getraind op een bewegingscorpus van miljarden schaal voor volledige lichaamscontrole. In tegenstelling tot eerdere ondiepe MLP-trackers die werden beperkt door schaarse data en een afweging tussen behendigheid en generalisatie, is Humanoid-GPT voorgetraind op een 2B-frame herdoelgericht corpus dat alle belangrijke motion capture-datasets verenigt met grootschalige interne opnames. Het opschalen van zowel data als modelcapaciteit levert een enkele generatieve Transformer op die zeer dynamisch gedrag volgt, terwijl het een ongekende zero-shot generalisatie naar ongeziene bewegingen en besturingstaken bereikt. Uitgebreide experimenten en schaalanalyses tonen aan dat ons model een nieuwe prestatiegrens vestigt, waarbij het robuuste zero-shot generalisatie naar ongeziene taken demonstreert terwijl het tegelijkertijd zeer dynamische en complexe bewegingen volgt.

KVarN: Variantie-genormaliseerde KV-cache-kwantisering beperkt foutaccumulatie in redeneertaken
KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

Jun 2

ByLorenz K. Muller, Philippe Bich, Chiara Boretti, Hyun-Min Chang, Jiawei Zhuang, Lukas Cavigelli

Test-time schaling is een krachtige aanpak om betere redenering in grote taalmodellen te verkrijgen, maar het wordt een geheugenknelpunt tijdens decodering met lange horizon, naarmate de KV-cache groeit. KV-cache-kwantisatie kan dit helpen verbeteren, maar huidige methoden worden geëvalueerd onder prefill-achtige instellingen en fouten gedragen zich anders onder autoregressieve decodering. We tonen aan dat in het laatste regime kwantisatiefouten zich over tijdstappen accumuleren, voornamelijk gedreven door onjuiste tokenschalen. We introduceren KVarN, een kalibratievrije KV-cache-kwantiseerder die een Hadamard-rotatie toepast gevolgd door een variantienormalisatie met dubbele schaling over beide assen van de K- en V-matrices. We vinden dat deze combinatie uitschietende token-schaalfouten corrigeert en foutaccumulatie aanzienlijk vermindert ten opzichte van bestaande baselines. KVarN vestigt een nieuwe state-of-the-art voor KV-cache-kwantisatie op generatieve benchmarks, waaronder MATH500, AIME24 en HumanEval, bij 2-bits precisie. Een vLLM-implementatie van de KVarN-methode is beschikbaar op https://github.com/huawei-csl/KVarN

Een lokale perturbatietheorie voor cross-domein interferentie en herstel in multi-domein RL
A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

Jun 1

ByLei Yang, Siyu Ding, Deyi Xiong

Versterkend leren (RL) post-training verbetert grote taalmodellen (LLMs) op individuele domeinen zoals wiskundig redeneren, codegeneratie, vraagbeantwoording en creatief schrijven (CW), maar training op één domein verslechtert vaak de prestaties op andere domeinen. Bestaande verklaringen op basis van catastrofaal vergeten of globaal gradientconflict zijn onvolledig: er kan aanzienlijke interferentie optreden, zelfs wanneer de gradiënten van het volledige model bijna orthogonaal zijn. Wij tonen aan dat single-domein RL leidt tot schaarse, kleinschalige parameteraanpassingen met zwakke overlap tussen de meest gewijzigde neuronen, terwijl verschillende domeinen nog steeds substantiële actieve berekeningstrajecten delen, waarbij de update-richtingen bepalen of ze synergetisch werken of conflicteren. Geleid door deze observatie bewijzen we onder een lokaal perturbatiemodel van multi-domein RL dat later-domein training een eerder domein voornamelijk schaadt via een tweede-orde schadeterm, die onder de waargenomen schaarse routestructuur concentreert in een laagdimensionale gedeelde conflictdeelruimte. Bovendien krimpt een korte domeinverversing de schadelijke component in deze deelruimte, wat selectief herstel mogelijk maakt met beperkte nevenschade. In overeenstemming met de theorie herstelt een korte Re-Math verversing na Code → Math → QA → CW de wiskundeprestaties van 57,66 naar 66,04, terwijl de prestaties op de andere domeinen grotendeels behouden blijven, wat leidt tot de beste gemiddelde score van 66,39. Naast verversing herstelt een training-vrije terugrol op een schaarse proxy-conflictcoördinatenset voor het Math-QA-paar de wiskundeprestaties gedeeltelijk, wat direct proxy-niveau bewijs levert voor gelokaliseerde schade. Deze resultaten bieden een gelokaliseerd mechanismeverslag van interferentie en herstel in multi-domein RL.

Wereldmodellen ontmoeten taalmodellen: over de complementariteit van concreet en abstract redeneren
World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

Jun 2

ByYucheng Zhou, Wei Tao, Yiwen Guo, Jianbing Shen

Wereldmodellen en multimodale grote taalmodellen (MLLM's) bieden complementaire mogelijkheden voor het voorspellen van toekomstige uitkomsten op basis van statische visuele waarnemingen. Wereldmodellen kunnen concrete visuele rollouts van mogelijke toekomsten genereren, terwijl MLLM's abstract kunnen redeneren over vragen, doelen en regels. Gegenereerde rollouts zijn echter stochastisch en kunnen visueel plausibel zijn maar taakincorrect, waardoor het noodzakelijk is om te bepalen wanneer visuele simulatie nuttig is, of een rollout geloofwaardig is en hoe deze de uiteindelijke uitkomst moet beïnvloeden. We formuleren dit probleem als gecontroleerd concreet redeneren, waarbij een model leert om visuele toekomstsimulatie op te roepen, te verifiëren en te integreren naast abstract redeneren. Om deze setting te bestuderen, construeren we twee door mensen geverifieerde benchmarks, VRQABench voor controleerbare ruimtelijke vooruitblik en OpenWorldQA voor open-domein fysieke voorspelling, en stellen we Privileged-Future On-Policy Self-Distillation (PF-OPSD) voor. Tijdens training gebruikt PF-OPSD alleen grondwaarheid-toekomstvideo's en antwoorden als bevoorrechte context aan de docentzijde om op-beleid concrete-redeneringstrajecten te evalueren, terwijl de inzetbare student nooit echte toekomsten observeert tijdens testtijd. Experimentele resultaten tonen aan dat PF-OPSD de basislijn met respectievelijk 10,6% en 10,9% overtreft op VRQABench en OpenWorldQA, terwijl de robuustheid tegen ruizige of conflicterende rollouts toeneemt. Onze code en dataset zijn beschikbaar op https://github.com/yczhou001/PF-OPSD.

AutoMedBench: Naar Medisch Auto-Onderzoek met Agentische AI-modellen
AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

Jun 1

ByJunqi Liu, Salena Song, Yuhan Wang, Jiawei Mao, Hardy Chen, Xiaoke Huang, Tianhao Qi, Pengfei Guo, Yucheng Tang, Yufan He, Can Zhao, Andriy Myronenko, Dong Yang, Daguang Xu, Yuyin Zhou

Van autonome agenten wordt in toenemende mate verwacht dat zij end-to-end medische AI-onderzoeksworkflows ondersteunen, verdergaand dan geïsoleerde voorspellingstaken of het beantwoorden van korte klinische vragen. Echter, bestaande medische agentbenchmarks evalueren voornamelijk einduitkomsten, waardoor er beperkt inzicht is in het gedrag van agenten binnen het onderzoeksproces. Om deze leemte aan te pakken, presenteren we AutoMedBench, een workflow-bewuste benchmark voor autonoom medisch AI-onderzoek voor diverse medische beeldvormings- en multimodale inferentietaken, waarbij de agentuitvoering wordt georganiseerd in een uniforme vijfstappenworkflow (S1-S5): Plan, Setup, Validate, Inference en Submit. Het omvat langlopende taken met gemiddeld 33 agentbeurten per run, verspreid over vijf onderzoekstracks: segmentatie, beeldverbetering, visuele vraagbeantwoording (VQA), rapportgeneratie en laesiedetectie. Elke taak wordt geëvalueerd op twee moeilijkheidsniveaus, Lite en Standaard, die dezelfde data en metrieken gebruiken, maar verschillen in de hoeveelheid taakbeschrijvingsondersteuning (scaffolding), en elke run wordt gescoord op basis van zowel de uiteindelijke taakprestatie als S1-S5-stapenscores, waardoor analyse op stappeniveau mogelijk is, van de initiële taakbeschrijving tot het uiteindelijk ingediende artefact. In duizenden geregistreerde runs toont scoring op stappeniveau aan dat Validate gemiddeld de zwakste workflowstap is, terwijl Setup de sterkste is, wat suggereert dat huidige agenten beter zijn in het uitvoerbaar maken van pipelines dan in het verifiëren van hun betrouwbaarheid. Foutanalyse na afloop laat verder zien dat verificatie- en indieningsfouten de getagde fouten domineren, met respectievelijk 37,7% en 38,1% van de geactiveerde codes, terwijl taakbegripsfouten zeldzaam zijn met 0,9%, en runs met één geactiveerde foutcode gemiddeld een 48% lagere overall score hebben dan runs zonder foutcode.

MIRA: Midden-training Rubriekverankering voor Bronbewuste Dataselectie
MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection

May 29

ByHaowen Wang, Yaxin Du, Jian Yang, Jiajun Wu, Shukai Liu, Yuxuan Zhang, Pingjie Wang, Siheng Chen, Tuney Zheng, Ming Zhou, Xianglong Liu, Bryan Dai

Midden-training is een belangrijke fase geworden in de moderne ontwikkeling van grote taalmodellen (LLM's), waarbij grootschalige, samengestelde mengsels worden gebruikt om capaciteiten te versterken vóór de uiteindelijke natraining. Het probleem van gegevensselectie is hierbij uniek: de gegevens worden geoptimaliseerd met een voortrainingsachtige doelstelling op bijna-voortrainingsschaal, maar worden samengesteld met het oog op stroomafwaartse capaciteiten en zijn afkomstig uit heterogene bronnen met verschillende formaten en trainingsrollen. Effectieve selectie vereist daarom zowel schaalbaarheid als bronadaptieve semantische criteria. Bestaande modelgebaseerde methoden zijn goed schaalbaar, maar bieden alleen impliciete kwaliteitssignalen. Semantische selectiemethoden bieden sterkere oordelen, maar gaan doorgaans uit van vaste rubrics of gestandaardiseerde gegevensformaten. Om deze mismatch aan te pakken, stellen we MIRA voor, een bronbewust filteringsraamwerk gebaseerd op zelfverankerde rubric-ontdekking. Het kernidee is om rubric-constructie onderdeel te maken van gegevensselectie: MIRA ontdekt eerst wat er voor elke bronnengroep moet worden geëvalueerd en destilleert vervolgens die oordelen in schaalbare student-scoorders voor het filteren van de volledige corpus. Bij codegerichte midden-training met 21 bronnen en 5 bronnengroepen overtreft MIRA de selectie-baselines op negen code-benchmarks en evenaart het de prestaties van de volledige corpus-run, terwijl het slechts de helft van de tokens gebruikt.

TRON: Gerichte Regelverifieerbare Online Omgevingen voor Visueel Redeneren RL
TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

Jun 1

ByTianze Yang, Yucheng Shi, Ruitong Sun, Jingyuan Huang, Ninghao Liu, Jin Sun

Versterkingsleren (RL) voor visueel redeneren vereist schaalbare, verifieerbare en controleerbare trainingssignalen. Bestaande visuele RL-natraining wordt getraind op statische samengestelde datasets, met vaste beeld-vraag-antwoordmonsters die worden begrensd door het bijbehorende verzamelingsbudget. In dit werk introduceren we TRON (Targeted, Rule-verifiable Online eNvironments), een online omgevingsubstraat: een trainingsrollout wordt op verzoek gegenereerd door een beheersbaar generator-verifier programma dat een verse latente visuele toestand bemonstert, een afbeelding rendert, een vraag stelt en het antwoord exact verifieert. Een enkele run kan daardoor een onbegrensde stroom verse exemplaren genereren op het moeilijkheidsniveau dat het huidige curriculum vereist. De huidige TRON-suite bevat 520 omgevingen, georganiseerd in vijf vaardigheidsgroepen (ruimtelijk, wiskundig, diagram, patroon/logica en tellen); hetzelfde substraat ondersteunt zowel een enkel volledig model dat op alle groepen is getraind als per-groep specialistenmodellen, zonder dat extra dataverzameling nodig is. We introduceren ook een substraatanalyse die betrekking heeft op generatiebetrouwbaarheid, diversiteit van exemplaren en niveaus, bijna-herhalingen over omgevingen heen en het slagingspercentage van het basismodel per moeilijkheidsgraad. RL-natraining met METHOD verbetert consistent de prestaties op tien externe multimodale redeneerbenchmarks voor Qwen3-VL-4B, Qwen2.5-VL-7B en MiMo-VL-7B-SFT.

Benchmarking van visuele toestandstracking in multimodaal videobegrip
Benchmarking Visual State Tracking in Multimodal Video Understanding

Jun 2

BySihyun Yu, Nanye Ma, Pinzhi Huang, Hyunseok Lee, Shusheng Yang, June Suk Choi, Ellis Brown, Oscar Michel, Boyang Zheng, Jinwoo Shin, Saining Xie

Het begrijpen van een video vereist meer dan het herkennen van geïsoleerde momenten, omdat mensen continu entiteiten, toestanden en gebeurtenissen in de tijd volgen. Dit vermogen voor visuele toestandsvolgorde is fundamenteel voor videobegrip, maar blijft onderbelicht in huidige evaluaties van multimodale grote taalmodellen (MLLMs). We introduceren de Visual STAte Tracking benchmark (VSTAT), een video-gebaseerde benchmark ontworpen om visuele toestandsvolgorde in MLLMs te diagnosticeren. VSTAT bestaat uit 834 clips afkomstig van zowel synthetische als echte video's, gekoppeld aan 1.500 vragen die niet kunnen worden beantwoord op basis van een enkel frame of kort segment, maar continue perceptie en integratie van gebeurtenissen over de gehele videostroom vereisen. Ondanks hun sterke prestaties op bestaande video-benchmarks, zien we dat de modernste MLLMs ver onder het menselijk niveau presteren en slechts bescheiden boven basislijnen die gebruikmaken van antwoordprior. Om deze kloof te analyseren, vergelijken we de denksporen van MLLMs met de onderliggende videostroom om te begrijpen waarom en wanneer MLLMs falen op VSTAT. We vinden dat MLLMs correct redeneren en volgen in tekst, maar falen in het visueel waarnemen van de gebeurtenissen die ze moeten volgen. Tot slot suggereert onze voorlopige evaluatie dat recente agentische benaderingen, waaronder MLLM-gebaseerde video-agenten en codeer-agenten, deze fouten niet gemakkelijk oplossen en nog steeds tekortschieten op VSTAT.

Taalmodellen Hebben Slaap Nodig: Leren Zichzelf Aanpassen en Herinneringen Consolideren
Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

Jun 2

ByAli Behrouz, Farnoosh Hashemi, Vahab Mirrokni

De afgelopen decennia hebben aanzienlijke vooruitgang gezien in het ontwerp van machine learning-algoritmen, van vroege onderzoeken naar taakspecifieke ondiepe modellen tot meer algemene diepe Large Language Models (LLM's). Ondanks dat ze veelbelovende resultaten laten zien in taken die onmiddellijke voorspelling of in-context leren vereisen, missen bestaande modellen het vermogen om continu te leren en hun temporele in-context kennis effectief over te dragen naar hun langetermijnparameters. Geïnspireerd door het menselijke leerproces introduceren we een "Slaap"-paradigma waarmee de modellen continu kunnen leren, hun kortetermijnkwetsbare herinneringen kunnen distilleren naar stabiele langetermijnkennis met replay, en zichzelf recursief kunnen verbeteren met een "Dromen"-proces. In meer detail bestaat slaap uit twee fasen: (1) Geheugenconsolidatie: een opwaarts distillatieproces, genaamd Kenniszaaien, waarbij de herinneringen van een kleinere zelf worden gedistilleerd naar een groter netwerk om meer capaciteit te bieden terwijl de kennis behouden blijft. Als proof of concept presenteren we een nieuw Gegeneraliseerd Distillatieproces voor Kenniszaaien (d.w.z. de combinatie van on-policy distillatie met op Reinforcement Learning (RL) gebaseerd imitatieleren); (2) Dromen: een zelfverbeteringsfase, waarin het model RL gebruikt om een curriculum van synthetische data te genereren om nieuwe kennis te oefenen en bestaande capaciteiten te verfijnen zonder menselijk toezicht. Onze experimenten op taken met een lange horizon, continu leren, kennisopname en few-shot generalisatie ondersteunen het belang van de slaapfase.

NVIDIA OmniDreams: Real-Time Generatief Wereldmodel voor Gesloten-Lus Simulatie van Autonome Voertuigen
NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation

Jun 2

ByNVIDIA, Aarti Basant, Amlan Kar, Despoina Paschalidou, Fangyin Wei, Francesco Ferroni, Guillermo Garcia Cobo, Haithem Turki, Huan Ling, Jaewoo Seo, James Lucas, Jay Zhangjie Wu, Jialiang Wang, Jonathan Lorraine, Jun Gao, Kai He, Katarina Tothova, Kevin Xie, Michał Tyszkiewicz, Qi Wu, Riccardo de Lutio, Ruilong Li, Sanja Fidler, Seung Wook Kim, Tianchang Shen, Tianshi Cao, Tobias Pfaff, William Lew, Xindi Wu, Xuanchi Ren, Yifan Lu, Yuxuan Zhang, Zan Gojcic, Zian Wang

Naarmate de mogelijkheden van autonome voertuigen toenemen, blijft de veilige evaluatie van rijbeleid in long-tail scenario's een kritieke bottleneck. In closed-loop simulatie interageert het rijbeleidsmodel actief met de omgeving, waarbij zijn acties de simulatortoestand dynamisch bijwerken en direct de volgende reeks gegenereerde sensorwaarnemingen beïnvloeden. Hoewel recente reconstructiegebaseerde neurale simulatoren fotorealisme bieden, worden ze fundamenteel beperkt door hun oorspronkelijk vastgelegde gegevens en kunnen ze moeilijk generaliseren naar zeer dynamische of nieuwe scènes. Om deze beperkingen te overwinnen, introduceren we OmniDreams, een fundamenteel generatief wereldmodel dat midden- en nabehandeling heeft ondergaan vanuit het Cosmos-diffusiemodel om autoregressief in realtime actie-geconditioneerde video's te genereren. Door gebruik te maken van de rijke visuele prior-kennis van Cosmos en midden- en na-training op 21.000 uur aan rijdscenario's, synthetiseert OmniDreams complexe, niet-waargenomen fenomenen die moeilijk te vatten zijn voor traditionele simulatoren, zoals extreem weer en onvoorspelbare dynamische agentgedragingen. Cruciaal is dat het zijn fotorealistische sensor-generatie autoregressief conditioneert op eerdere frames, de huidige simulatortoestand en onmiddellijke rijacties. Ingezet in een closed-loop systeem met het Alpamayo 1-beleidsmodel en de AlpaSim-orchestrator, fungeert OmniDreams als een zeer responsieve, reactieve omgeving, die een schaalbare en uitgebreide oplossing biedt voor het trainen en evalueren van volgende generaties autonoom rijbeleid. We tonen daarnaast voorlopige resultaten die aangeven dat een wereld-actiemodel (WAM) dat nabehandeling heeft ondergaan vanuit OmniDreams, sterke prestaties levert op de Physical AI Autonomous Vehicles NuRec-dataset, waarbij het het VLA-gebaseerde Alpamayo 1.5-onderzoeksbeleidsmodel overtreft met slechts 1/5 van het totale aantal parameters. Deze resultaten benadrukken het potentieel van een realtime wereldmodel zoals OmniDreams om ook als ruggengraat voor beleidsarchitecturen te dienen.

Bootstrap uw generator: Ongepaarde visuele bewerking met Flow Matching
Bootstrap Your Generator: Unpaired Visual Editing with Flow Matching

Jun 2

ByYoad Tewel, Yuval Atzmon, Gal Chechik, Lior Wolf

Moderne generatieve modellen hebben een diepgaand begrip van visuele inhoud, maar het trainen ervan voor beeldbewerking vereist doorgaans enorme datasets met gepaarde voorbeelden. Dit beperkt de schaalbaarheid, met name voor videobewerking, waar het verzamelen van gepaarde data onbetaalbaar duur is. Wij stellen Bootstrap Your Generator (ByG) voor, een algemeen raamwerk voor ongepaarde training van stroommatching-bewerkingsmodellen. Het benut de kennis van het basismodel zonder enige externe signaal. Onze aanpak combineert instructie-volgende aanwijzingen, geëxtraheerd uit het bevroren model, met cyclusconsistentie voor structuurbehoud. Om dit haalbaar te maken, stellen we voor om gradiënten van downstream-verliezen over schone voorspellingen terug te leiden naar ruizige trainingstoestanden. We tonen state-of-the-art resultaten aan op uitdagende data-schaarse scenario's voor beeld- en videobewerking. Uitgebreide evaluaties en gebruikersstudies laten zien dat onze methode effectief generaliseert naar ongeziene domeinen en beter presteert dan gesuperviseerde basislijnen getraind op miljoenen monsters. Analyse onthult dat onze gradiëntroutering de train-inferentiekloof overbrugt en dat het extraheren van semantische aanwijzingen uit een basismodel een robuust trainingssignaal biedt dat de noodzaak van externe beloningsmodellen overbodig maakt.

Ontkoppelde Residuele Denoising Diffusiemodellen voor Geünificeerde en Data-efficiënte Beeld-naar-beeld Vertaling
Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation

May 31

ByZiyue Lin, Jiahe Hou, Hongyu Xia, Xinrui Xie, Feifei Wang, Yuyin Zhou, Wei Wang, Jiawei Liu, Liangqiong Qu

Wij stellen Ontkoppelde Residuele Denoising Diffusiemodellen (DRDD) voor voor uniforme en data-efficiënte beeld-naar-beeld (I2I)-translatie. Hoewel diffusiemodellen de kwaliteit en diversiteit van I2I-translatie hebben verbeterd, ontdekken wij een voorheen onderbelichte eigenschap van diffusiemodellen. Cruciaal is dat het injecteren van Gaussische ruis, naast zijn conventionele rol van manifold lifting (het optillen van data van laagdimensionale manifolds), domeinharmonisatie bevordert door kenmerkdistributies impliciet over domeinen heen uit te lijnen – een eigenschap die bijzonder gunstig is voor uniforme I2I-translatie. Bestaande diffusiemodellen tasten dit harmonisatie-effect echter voortijdig aan, omdat ruis en residuen gelijktijdig worden verwijderd in één enkel gekoppeld diffusieproces. Om dit aan te pakken, ontkoppelt DRDD het diffusieproces in twee opeenvolgende en onafhankelijke diffusiefasen: (1) een stochastische ruisdiffusie voor domeinharmonisatie en manifold lifting, en (2) een deterministische residu-diffusie die de kern-semantische mapping volledig binnen het vaste-ruisdomein leert. Deze ontkoppeling behoudt de harmonisatie- en manifold-liftingeffecten gedurende de gehele transformatie, wat het leren van uniforme mappings over diverse taken en domeinen aanzienlijk vereenvoudigt. Opmerkelijk is dat de ruisdiffusiefase uitsluitend wordt getraind op overvloedige, ongepaarde doelgebiedafbeeldingen, wat de data-efficiëntie sterk verbetert. Uitgebreide theoretische en empirische analyse toont aan dat DRDD breed compatibel is met gangbare diffusiemodellen en consistent robuuste, uniforme I2I-translatie levert, zelfs onder beperkte gepaarde data. Onze code is beschikbaar op https://github.com/HKU-HealthAI/DRDD.

Ψ-Bench: Evaluatie van persona-gevoelige beïnvloeding in persuasieve dialogen
Ψ-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

Jun 1

ByPeixuan Han, Hongyi Du, Jiayu Liu, Yihang Sun, Yutong Liu, Jiaxuan You

Personalisatie is een cruciale capaciteit van moderne taalagenten. Echter, huidig onderzoek positioneert gepersonaliseerde agenten voornamelijk als passieve reageerders op gebruikersvoorkeuren, wat hun vermogen om met gebruikers te interageren en proactief suggesties of begeleiding te geven, beperkt. Om dergelijke proactieve personalisatie in realistische interacties systematisch te evalueren, stellen we Ψ-Bench voor, een benchmark voor het beoordelen van het vermogen van LLM's om realistische gebruikers te beïnvloeden door middel van conversatie. We ontwerpen drie realistische interactiescenario's die overtuigingskracht vereisen in Ψ-Bench, en voorzien gesimuleerde cliënten van persoonlijke kenmerken via expliciete gebruikersprofielen die zijn afgeleid van gespreksgeschiedenissen. We evalueren 10 geavanceerde LLM's op Ψ-Bench en ontdekken dat hoewel de meeste modellen coherente en redelijke argumenten kunnen produceren, zelfs de modernste modellen nog aanzienlijke ruimte voor verbetering in overtuigingskracht overlaten. We vinden ook dat het verlenen van toegang tot cliëntprofielen een gemiddelde prestatieverbetering van 18,24% oplevert, wat het belang van gebruikersspecifieke informatie voor effectieve overtuiging benadrukt. Over het geheel genomen benadrukt ons werk persoonsgevoelig beïnvloeden als een uitdagende maar praktische richting voor het evalueren en ontwikkelen van meer proactieve gepersonaliseerde LLM-agenten. De codes zijn beschikbaar op: https://github.com/Hanpx20/Psi-Bench.

Kleine RL-controller, groot taalmodel: RL-gestuurde adaptieve sampling voor schaling tijdens testtijd
Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

Jun 2

ByRunpeng Dai, Tong Zheng, Rui Liu, Chengsong Huang, Hongtu Zhu

Testtijdsschaalvergroting verbetert de redeneerprestatie van grote taalmodellen, maar brengt aanzienlijke kosten met zich mee in zowel totale rekenkracht als latentie. Bestaande adaptieve bemonsteringsmethoden verhelpen dit probleem gedeeltelijk door dynamisch te beslissen wanneer te stoppen met bemonsteren, maar vertrouwen doorgaans op heuristische regels of op verdelingsaannames. In dit werk formuleren we adaptieve bemonstering als een Markov-beslissingsproces (MDP). We trainen een lichtgewicht bemonsteringscontroller met behulp van reinforcement learning (RL) om gezamenlijk de juistheid van antwoorden, latentie en rekenkosten in evenwicht te brengen. In elke ronde beslist de controller of hij stopt met bemonsteren of extra monsters neemt. Onze methode is lichtgewicht en is alleen afhankelijk van statistieken van uiteindelijke antwoorden, en kan worden getraind en ingezet op een CPU. We laten verder zien dat het resulterende raamwerk kan worden geïnterpreteerd als de Lagrangiaanse relaxatie van een beperkt optimalisatieprobleem met expliciete budgetbeperkingen. Experimenten tegen sterke basislijnen zoals ASC en ESC tonen aan dat onze methode verbeterde afwegingen bereikt tussen antwoordjuistheid, bemonsteringsronden en totale benodigde monsters.

Adaptief Auto-Harness: Voortdurende Zelfverbetering voor Implementatie van Agentische Systemen op Open-Eindige Taakstromen
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams

Jun 1

ByZewen Liu, Zhan Shi, Yisi Sang, Bing He, Minhua Lin, Tianxin Wei, Dakuo Wang, Benoit Dumoulin, Wei Jin, Hanqing Lu

Auto-harnassystemen zoals A-Evolve, GEPA en Meta-Harness verbeteren LLM-agenten door prompts, vaardigheden, tools, geheugens en ondersteunende infrastructuur te optimaliseren op basis van uitvoeringsfeedback, maar worden doorgaans geëvalueerd op vaste offline benchmarks. In echte implementaties komen daarentegen open-taakstromen voor: geschiedenissen groeien zonder vast eindpunt, heterogene taken vereisen verschillende harnassen en probleemverdelingen verschuiven in de tijd. Deze uitdagingen maken een enkel, herhaaldelijk en dicht bijgewerkt harnas breekbaar, wat leidt tot prestatievermindering doordat de nauwkeurigheid piekt en vervolgens afneemt. Dit motiveert de ontwikkeling van duurzame harnasconstructie met taakspecifieke aanpassing. We introduceren Adaptive Auto-Harness, een raamwerk en systeem voor dergelijke stromen. Het raamwerk decomposeert de kloof tot een orakelharnas in evolutieverlies en adaptatieverlies. Het systeem adresseert deze verliezen met een toestandsafhankelijke multi-agent evolver, een harnasboom met routering op het moment van oplossen, en haken voor menselijke sturing voor gevallen waarin de geschiedenis het benodigde signaal mist. In marktvoorspelling-, beveiligingscompetitie- en gebeurtenisvoorspellingsstromen presteert Adaptive Auto-Harness beter dan vijf bestaande auto-harnasbaselines, en ablatie-experiments schrijven de winst toe aan betere constructie, routering of gerichte menselijke sturing. Code is beschikbaar op https://github.com/A-EVO-Lab/AdaptiveHarness.

PaddleOCR-VL-1.6: Het verleggen van de grens van documentparsing met onder-geoptimaliseerde regioverfijning en progressieve post-training
PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

Jun 2

ByZelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma

We introduceren PaddleOCR-VL-1.6, een verbeterd compact documentparsemodel gebaseerd op PaddleOCR-VL-1.5. Hoewel PaddleOCR-VL-1.5 een sterke baseline van 0,9B vormt, concentreren de resterende fouten zich in ondergeoptimaliseerde regio's waar modelgedrag instabiel is, datadekking schaars is of supervisie onbetrouwbaar is. In plaats van het trainingscorpus ongericht uit te breiden, introduceert PaddleOCR-VL-1.6 een regio-bewust dataoptimalisatieframework dat zwakke regio's van het vorige model identificeert, gerichte verbetering op deze regio's toepast en de betrouwbaarheid van supervisiesignalen verbetert. Het neemt daarnaast een progressief nabehandelingsrecept aan, gebaseerd op samengestelde dataselectie en versterkingsleren, waardoor modelprestaties door gefaseerde optimalisatie naar een hoger niveau worden gebracht. PaddleOCR-VL-1.6 behaalt een nieuwe state-of-the-art score van 96,33% op OmniDocBench v1.6, toont sterke concurrentiepositie tegen top-VLM's en biedt een praktisch nabehandelingsrecept voor de PaddleOCR-VL-serie.

Gedecentraliseerde instructie-afstemming: conflictbewust splitsen en gewichtsmerging
Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

Jun 1

ByMinsik Choi, Geewook Kim

Instructie-afstemming stemt grote taalmodellen, waaronder multimodale, af op diverse gebruikersintenties, maar het opschalen naar heterogene mengsels wordt belemmerd door gradiëntinterferentie en bandbreedte-intensieve synchronisatie. We vragen ons af of deze twee knelpunten gezamenlijk kunnen worden aangepakt door delen van het mengsel onafhankelijk te trainen en ze eenmaal in de parameterruimte te verzoenen. We ontwikkelen een lokale kwadratische theorie binnen een gedeeld vlak bassin die drie resultaten oplevert: gewichtsamenvoeging produceert een kromming-gewogen variantiereductie; PCA-uitgelijnde conflictsplitsing maximaliseert deze winst langs richtingen met hoge kromming; en samenvoeging fungeert bovendien als spectrale filtering met impliciete normregularisatie. Deze resultaten motiveren direct MERIT, een gedecentraliseerde samenvoegingsklare instructie-afstemmingspijplijn die dataset-niveau gradiëntconflicten schat, het mengsel opdeelt langs de top PCA-conflictassen, elke partitie onafhankelijk verfijnt zonder communicatie tussen partities, en eenmaal samenvoegt via token-gewogen middeling. Op Qwen2.5-VL-3B met 136 Vision-FLAN-taken verbetert MERIT het 8-benchmarkgemiddelde van 54,3 (gezamenlijke training) naar 57,0. Hetzelfde recept schaalt naar een 7B-model op een mengsel van 1,6M voorbeelden en 176 bronnen – wat overeenkomt met of beter is dan gecentraliseerde gezamenlijke training met minimale kostenoverhead – en is overdraagbaar naar tekst-only FLAN. Onze code is beschikbaar op https://github.com/naver-ai/merit.

PlatonicNav: Onthulling van semantische correspondentie in navigatie met Platonische topologische kaarten
PlatonicNav: Unveiling Semantic Correspondence in Navigation with Platonic Topological Maps

Jun 1

ByJunlin Long, Zeyu Zhang, Xu Deng, Yiran Wang, Yue Yang, Luke Borgnolo, Maxwell Twelftree, Yang Zhao

Belichaamde visuele navigatie, waarbij een agent een complexe omgeving waarneemt en handelt om een doel te bereiken op basis van ruwe sensorische input, vormt de basis voor een breed scala aan toepassingen, zoals huishoudelijke servicerobotica, ondersteunende robotica en grootschalige autonome verkenning. Recente pogingen om visie-en-taalnavigatie (VLN) en objectdoelnavigatie (ObjNav) te verenigen blijven echter op het niveau van architectonische fusie, gemengde taaktraining en grootschalige visie-taal voor training, zonder te onderzoeken of onafhankelijk getrainde visie- en taalencoders mogelijk al een gemeenschappelijke semantische structuur delen. Bovendien gronden zelfs objectgerichte topologische kaarten taaldoelen nog steeds via expliciete cross-modale supervisie, zoals CLIP of grote visie-taalmodellen, wat de vraag openlaat of een dergelijke grounding mogelijk is vanuit een puur op visie gebouwde kaart. Om deze uitdagingen aan te pakken, breiden we de Platonische Representatiehypothese uit naar belichaamde navigatie en herdefiniëren we visie-only ObjNav, cross-modale ObjNav en VLN als drie verschillende interfaces naar dezelfde objectgerichte semantische variëteit. Verder introduceren we PlatonicNav, een trainingsvrij raamwerk waarvan de Platonische Topologische Kaart geometrische en semantische knooppuntafstanden fuseert vanuit een zelfgesuperviseerde visuele encoder, en taaldoelen grondt via blinde matching zonder enige gepaarde visie-taaldata. Uitgebreide experimenten op simulatietests, waaronder HM3D-IIN, OVON en R2R-CE op MP3D, samen met implementatie op de Unitree Go2, tonen aan dat PlatonicNav generaliseert over taken, modaliteiten en belichamingen zonder expliciete cross-modale training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.

Diagnosticeren van schadelijke voortzetting in antwoord-correcte lange CoT-trainingssporen
Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

May 28

ByChen He, Yuhao Wu, Lei Wang, Wenxuan Zhang, Fumin Shen

Lange chain-of-thought (CoT)-sporen worden veelvuldig gebruikt als supervisie voor redeneringsgericht LLM SFT, maar sporen met correcte antwoorden kunnen nog steeds leiden tot opmerkelijk verschillende finetuningresultaten. Wij bestuderen voortzetting na de conclusie in lange CoT-gegevens met correcte antwoorden: een voortzetting waarbij het antwoord voldoende ondersteund lijkt, maar het spoor verdergaat met additionele redenering die in het gesuperviseerde doel behouden blijft. Om het trainingseffect te testen, gebruiken we een alleen-verwijder-editor om antwoordbehoudende achtervoegselverwijdering te construeren en vergelijken we CoT-gebaseerde SFT op de originele en bewerkte sporen. We nemen verbeterde SFT-resultaten waar na het verwijderen van de door de editor geïdentificeerde voortzetting na de conclusie, wat suggereert dat deze voortzetting schadelijk is voor training in onze setting. We verwijzen daarom naar dit empirisch ondersteunde fenomeen als schadelijke voortzetting. Naast deze interventie karakteriseren we de verwijderde voortzetting na de conclusie verder via onzekerheid en voortgang in verborgen toestand. We nemen aanhoudende lokale onzekerheid waar samen met verzwakte terminal-richtingsvoortgang, wat een mismatch tussen onzekerheid en geometrie vormt. Ten slotte implementeren we Harmful Continuation Cut (HCC), een lichtgewicht grenswaarde die de door de editor geïdentificeerde grens van de voortzetting na de conclusie benadert.

OmniOPD: Logit-vrije On-Policy Distillatie via Speculatieve Verificatie
OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

May 31

ByYuhang Zhou, Lizhu Zhang, Yifan Wu, Mingyi Wang, Peng Bo, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao

Beleidsgetrouwe Distillatie (OPD) traint een studentmodel op zijn eigen generatieve trajecten onder dichte token-niveau feedback van een sterker leraar, waarbij zowel de off-policy distributieverschuiving van Supervised Fine-Tuning (SFT) als de spaarzame krediettoewijzing van Reinforcement Learning (RL) worden beperkt. Standaard OPD kampt echter met twee gekoppelde beperkingen. Ten eerste vereist het directe toegang tot de token-niveau logits van de leraar, waardoor een brede klasse van capabele propriëtaire modellen als leraar wordt uitgesloten. Ten tweede is het token-niveau logitsignaal zelf broos, afhankelijk van een smalle overlap van plausibele volgende tokens tussen leraar en student, en gevoelig voor het versterken van degeneratieve patronen zoals herhalingslussen. In dit artikel introduceren we OmniOPD, een nieuw raamwerk dat beide beperkingen aanpakt via een logit-vrij, chunk-niveau supervisiesignaal. OmniOPD vervangt deterministische logit-matching door Monte Carlo-rollouts die de lokale voorkeuren van de leraar benaderen via een continue semantische gelijkenismetriek over meerdere token-chunks, en concentreert deze supervisie via een piek-entropieplanner die de student alleen controleert bij zijn redeneerpunten met hoge onzekerheid. Een Dirichlet-Multinomial Bayesiaanse prior en een KL-anker van het basismodel begrenzen verder de variantie van discrete sampling en voorkomen beleidsinstorting over ongecontroleerde tokens. In competitieve benchmarks overtreft OmniOPD de standaard OPD-aanpak met maximaal +28,64% op wiskunde, wat bevestigt dat chunk-niveau semantische verificatie een betrouwbaarder leersignaal oplevert dan token-niveau logit-matching, waarvan de hoge informatiedichtheid wordt geneutraliseerd door aanzienlijke ruis en broosheid. Bovendien, wanneer gekoppeld aan sterkere black-box leraren zoals Claude-4.5-Haiku en Gemini-2.5-Flash, behaalt OmniOPD een extra relatieve +9,54% op wiskunde ten opzichte van zijn open-gewicht leraar-tegenhanger, waarmee de student verder wordt gebracht dan de prestaties van zelfverkennende RL.

MERIT: Het Leren van Ontwarde Muziekrepresentaties voor Audiogelijkenis
MERIT: Learning Disentangled Music Representations for Audio Similarity

May 26

ByAbhinaba Roy, Junyi Liang, Dorien Herremans

Huidige modellen voor muziekgelijkenis berekenen doorgaans een enkele, monolitische score, waarbij verschillende muzikale dimensies zoals melodie, ritme en timbre door elkaar worden gehaald. Dit beperkt de gebruikerscontrole en interpreteerbaarheid, waardoor het onmogelijk is om genuanceerde zoekopdrachten uit te voeren. We introduceren MERIT, een raamwerk voor het leren van ontwarrende, factorspecifieke muziekrepresentaties die zijn afgestemd op deze drie kerndimensies. Om het gebrek aan geïsoleerde muzikale variaties in echte audiobestanden te overwinnen, gebruiken we een nieuwe trainingsstrategie die gebruikmaakt van conditionele audiogeneratie en bron-gescheiden stems om enkelvoudige factorvariatie in de trainingsdata sterk aan te moedigen. Onze evaluaties tonen sterke factorgewijze ontwarring aan. Elke kop reageert sterk op de beoogde perceptuele dimensie terwijl deze bij toeval blijft op de andere dimensies, een representatieve eigenschap die geldt voor zowel het synthetische trainingsdomein als onafhankelijke echte audiobestanden.

Waardebewuste Stochastische KV-cache-verwijdering voor Redeneermodellen
Value-Aware Stochastic KV Cache Eviction for Reasoning Models

Jun 2

ByTing-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia

Redeneermodellen verbeteren de nauwkeurigheid door middel van uitgebreide denkketens, maar hun lange uitvoer creëert een geheugen- en rekenknelpunt. KV-cache-evictiemethoden verminderen deze kosten door onbelangrijke sleutel-waardeparen uit de cache te verwijderen, maar leveren vaak een lagere nauwkeurigheid op dan op selectie gebaseerde alternatieven voor schaarse aandacht, die de volledige KV-cache behouden. We identificeren sleutelfactoren die cruciaal zijn voor de nauwkeurigheid van KV-cache-evictie. Ten eerste heeft een klein deel van de waarde-toestanden abnormaal grote magnitudes, en het verwijderen ervan leidt tot catastrofale fouten waarbij modellen in repetitieve redeneerlussen terechtkomen. Ten tweede verbetert het introduceren van stochasticiteit tijdens evictie de nauwkeurigheid door de cachediversiteit te vergroten. Op basis van deze bevindingen stellen we Value-aware Stochastic KV Cache Eviction (VaSE) voor, een trainingsvrij recept dat waarde-toestanden met grote magnitudes beschermt en diverse evictiebeslissingen bevordert. Over zes redeneertaken heen leveren Qwen3-modellen die VaSE gebruiken met 4x KV-cachecompressie een hogere gemiddelde nauwkeurigheid op dan de state-of-the-art selectiemethode bij dezelfde schaarste, terwijl ze de sterkste evictiemethode met meer dan 4% overtreffen. Over het algemeen overbrugt VaSE de kloof tussen efficiëntie en nauwkeurigheid, ondersteunt het FlashAttention2 en maakt het een statische geheugenvoetafdruk mogelijk voor redeneermodellen.

Een multi-AI-agentframework dat end-to-end eindige-elementenanalyse mogelijk maakt voor vastestofmechanicaproblemen
A Multi-AI-agent Framework Enabling End-to-end Finite Element Analysis for Solid Mechanics Problems

May 28

ByTitu Ranjan Sarker, Muhammed Jawaad Zulqernine, Ling Yue, Shaowu Pan, Chenxi Wang, Shiyao Lin

Eindige-elementenanalyse (FEA) is de belangrijkste numerieke benadering voor de vaste-stofmechanica. Uitdagingen van FEA zijn onder andere een steile leercurve voor beginnende gebruikers en mogelijke foutieve simulaties door onjuiste definities van essentiële simulatiecomponenten, zoals randvoorwaarden, belastingsgevallen en oplossingsvariabelen. Jarenlange technische ervaring is doorgaans noodzakelijk voor het oplossen van praktijkproblemen. Om deze problemen aan te pakken presenteren we AbaqusAgent, een multi-agentframework gebaseerd op grote taalmodellen (LLM's) voor analyses van vaste-stofmechanica. AbaqusAgent is ontwikkeld om het genereren en uitvoeren van analysecases met Abaqus, een van de meest gebruikte FEA-pakketten, te vergemakkelijken door natuurlijketaalinstructies van gebruikers om te zetten in uitgevoerde FEA-analyses en resultaatvisualisatie. AbaqusAgent bestaat uit zes agenten: interpreter, architect, input writer, runner, reviewer en visualizer, die alle essentiële voor- en nabewerkingsstappen van standaard FEA-analyses omvatten. Een breed scala van 50 problemen in de vaste-stofmechanica is succesvol gevalideerd, met een algemeen slagingspercentage van 86%. Naast het verbeteren van de efficiëntie van FEA voor problemen in de vaste-stofmechanica en het verlagen van de drempel voor onderwijs in computationele mechanica, bevordert AbaqusAgent het paradigma van mens-simulatie-interactie en maakt het integratie met AI-gestuurde optimalisatie- en materiaalkarakteriseringsworkflows mogelijk. De code is beschikbaar op https://github.com/LIRAM-LIN/AbaqusAgent

Domeinspecifieke datasynthese voor LLM's via minimaal toereikend representatieleren
Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning

May 29

ByTong Ye, Hang Yu, Tengfei Ma, Xuhong Zhang, Jianguo Li, Peng Di, Peiyu Liu, Jianwei Yin, Wenhai Wang

Grote taalmodellen hebben opmerkelijke vooruitgang geboekt in algemene toepassingsmogelijkheden en kunnen sterke prestaties leveren in specifieke domeinen door middel van fijnafstemming op domeinspecifieke gegevens. Het verkrijgen van hoogwaardige gegevens voor doeldomeinen blijft echter een aanzienlijke uitdaging. Bestaande methoden voor gegevenssynthese volgen een deductief paradigma en zijn sterk afhankelijk van expliciete domeinbeschrijvingen in natuurlijke taal en zorgvuldige prompt-engineering, wat hun toepasbaarheid beperkt in praktijkscenario's waar domeinen moeilijk te beschrijven of formeel te formuleren zijn. In dit werk pakken we het onderbelichte probleem van domeinspecifieke gegevenssynthese aan via een inductief paradigma, waarbij het doeldomein alleen wordt gedefinieerd door een reeks referentievoorbeelden, met name wanneer domeinkenmerken moeilijk in natuurlijke taal te verwoorden zijn. We stellen een nieuw raamwerk voor, DOMINO, dat een minimaal voldoende domeinrepresentatie leert uit referentiesteekproeven en deze gebruikt om de generatie van domein-afgestemde synthetische gegevens te sturen. DOMINO integreert prompt-afstemming met een contrastieve ontwarringsdoelstelling om domeinpatronen te scheiden van monsterspecifieke ruis, waardoor overfitting wordt beperkt terwijl de kernkenmerken van het domein behouden blijven. Theoretisch bewijzen we dat DOMINO de ondersteuning van de synthetische gegevensverdeling uitbreidt, wat zorgt voor een grotere diversiteit. Empirisch, op uitdagende codeerbenchmarks waar domeindefinities impliciet zijn, verbetert fijnafstemming op door DOMINO gesynthetiseerde gegevens de Pass@1-nauwkeurigheid met tot 4,63% in vergelijking met sterke, instructie-afgestemde basislijnen, wat de effectiviteit en robuustheid ervan aantoont. Dit werk vestigt een nieuw paradigma voor domeinspecifieke gegevenssynthese, waardoor praktische en schaalbare domeinaanpassing mogelijk wordt zonder handmatig promptontwerp of domeinspecificaties in natuurlijke taal.

Conditionele hypothesengeneratie voor LLM-gebaseerde tekstanalyse met door de onderzoeker gespecificeerde covariaten
Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates

Jun 2

ByPaiheng Xu, Jing Liu, Wei Ai

Een kern doel van computationele sociale wetenschap is het ontdekken van interpreteerbare verschillen in hoe taal varieert over uitkomsten van interesse, zoals politieke voorkeur of instructiekwaliteit. Recente op LLM gebaseerde hypothesengeneratiemethoden beschrijven dergelijke verschillen in natuurlijke taal, maar selecteren op globale discriminatieve patronen zonder rekening te houden met covariaten die de data vormgeven op basis van de domeinkennis van onderzoekers. Wanneer covariaten worden genegeerd, kunnen geselecteerde patronen verstorende factoren weerspiegelen in plaats van verschillen van substantieel belang. We introduceren conditionele hypothesengeneratie, een raamwerk dat door onderzoekers gespecificeerde covariaten integreert om hypothesenontdekking te sturen naar verschillen die gelden binnen relevante subgroepen. Twee uitdagingen doen zich voor: de doel-subgroep kan ondervertegenwoordigd zijn (stratum-onbalans), en de richting van een verschil kan omkeren over subgroepen (tekenomkering). We stellen twee door econometrie geïnspireerde methoden voor: één introduceert kenmerk-covariaat interacties om tekenomkeringen te detecteren, en de andere past binnen-stratum demanen en inverse-frequentie herweging toe om ondervertegenwoordigde strata gelijk te trekken. Synthetische experimenten tonen aan dat elke methode beter presteert dan globale baselines in de beoogde setting, en expert evaluatie op twee real-world datasets bevestigt dat covariaatbewuste generatie meer bruikbare hypothesen binnen relevante subgroepen oplevert.

ClawHub Beveiligingssignalen: Wanneer VirusTotal, Statische Analyse en SkillSpector van elkaar afwijken
ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree

May 31

ByVincent Koc, Patrick Erichsen, Jacob Tomlinson, Agustin Rivera, Michael Appel, Nir Paz

Agentvaardigheden breiden AI-agenten uit met herbruikbare instructies, tools, scripts, referenties en workflows, en creëren een beveiligingsgrens die verschilt van zowel modelveiligheid als traditionele pakket-malwaredetectie. ClawHub Security Signals is een gesaneerde dataset van 67.453 nieuwste openbare OpenClaw-vaardigheidsversies. Elke rij koppelt geredigeerde SKILL.md-inhoud en gesaneerde gebundelde bestanden (indien aanwezig) aan een definitief ClawScan-registeroordeel en bewijs van drie scannersfamilies: VirusTotal, statische heuristische analyse en NVIDIA SkillSpector. In plaats van de prevalentie van kwaadaardige vaardigheden te schatten, bestuderen we de scanner-onenigheid. De drie scanners markeren zelden dezelfde vaardigheden: elk paar overlapt op maximaal 10,4% van hun gecombineerde positieven, slechts 0,69% van de vaardigheden wordt door alle drie gemarkeerd, en 81,9% van de gemarkeerde vaardigheden wordt door slechts één scanner geïdentificeerd. De onenigheid is gestructureerd per aanvalsoppervlak. SkillSpector, dat semantische agentische risicoadviezen geeft in plaats van malware-reputatiesignalen, is positief voor 19.209 van de 25.504 verdachte rijen (75,3%) maar slechts 14 van de 206 kwaadaardige rijen (6,8%). Het gebied met kwaadaardige oordelen vertoont het omgekeerde profiel: 150 van de 206 kwaadaardige rijen (72,8%) zijn VirusTotal-positief, consistent met bewijs van gebundelde codemalware. Deze resultaten tonen aan dat beveiliging van agentvaardigheden gelaagd bestuur vereist, niet enkele toestaan/blokkeren-beslissingen van één scanner. Het corpus wordt vrijgegeven als een gesaneerde zilveren-standaarddataset: labels zijn de geautomatiseerde oordelen van het register, niet door mensen geannoteerde grondwaarheid, en de vrijgave vertegenwoordigt een vroege, versiebeheerde momentopname bedoeld om de gemeenschap te ondersteunen terwijl een door mensen geannoteerde subset wordt ontwikkeld. Verder onderzoek wordt aangemoedigd, inclusief modellen die zijn afgestemd op triage van vaardigheidsbeveiliging.

αDepth: Leren van eenmalige zachte grensdecompositie voor stereoconversie
αDepth: Learning Single-Pass Soft Boundary Decomposition for Stereo Conversion

May 29

ByXiang Zhang, Yang Zhang, Lukas Mehl, Karlis Martins Briedis, Markus Gross, Christopher Schroers

Het nauwkeurig modelleren van zachte grenzen, zoals haar en defocusvervaging, vormt een fundamentele uitdaging bij stereoconversie vanwege de ambigue vermenging van voorgrond en achtergrond. Bestaande dieptemodellen voorspellen voornamelijk enkellaagse diepte, wat leidt tot dubbelzinnigheid in dieptecorrespondentie bij zachte grenzen. Hoewel matting-technieken dekking kunnen vastleggen voor gelaagde modellering, worstelen ze vaak met complexe scènes met meerdere objecten en vereisen ze doorgaans gebruikersinterventie. Dit artikel introduceert αDepth, een gelaagde representatie die zachte grenzen decomposeert voor hifi-stereoconversie. Specifiek lossen we eerst de dubbelzinnigheid van gemengde kleur en diepte op door gelaagde kleur- en dieptewaarden bij zachte grenzen te schatten. Rekening houdend met complexe multi-objectscènes ontwerpen we een Circulaire Alfa Representatie (CAR) die het paradigma verschuift van globale objectextractie naar lokale grensdecompositie. In tegenstelling tot eerdere matting-methoden die beperkt zijn tot een enkele voorgrond/achtergrond, maakt CAR efficiënte scèneniveau-inferentie mogelijk zonder handmatige begeleiding. Uitgebreide evaluaties tonen aan dat αDepth state-of-the-art prestaties levert op het gebied van stereoconversie, waarbij achtergronddoorlek en structurele vervormingen bij zachte grenzen worden geëlimineerd.

Ultralytics YOLO26: Verenigde real-time end-to-end visiemodellen
Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

Jun 2

ByGlenn Jocher, Jing Qiu, Mengyu Liu, Shuai Lyu, Fatih Cagatay Akyon, Muhammet Esat Kalfaoglu

Real-time vision vereist modellen die accuraat, efficiënt en eenvoudig inzetbaar zijn op diverse hardware. De YOLO-familie wordt om deze reden veelvuldig ingezet, maar de meeste YOLO-detectoren zijn nog steeds afhankelijk van non-maximum suppressie tijdens inferentie, dragen zware detectiekoppen door Distribution Focal Loss, vereisen lange trainingsschema's en kunnen de kleinste objecten zonder positieve labeltoewijzing laten. Wij presenteren Ultralytics YOLO26, een uniforme real-time vision modelfamilie die deze beperkingen aanpakt door gecoördineerde architectuur- en trainingsverbeteringen. YOLO26 gebruikt een tweevoudig kopontwerp voor native NMS-vrije end-to-end inferentie en verwijdert DFL volledig, wat resulteert in een lichtere kop met een onbeperkt regressiebereik. De trainingspijplijn combineert MuSGD, een hybride Muon-SGD-optimalisator aangepast van grootschalige taalmodeltraining; Progressive Loss, die de supervisie verschuift naar de inferentiekop; en STAL, een labeltoewijzingsstrategie die positieve dekking voor kleine objecten garandeert. Naast detectie introduceert YOLO26 taakspecifieke kop- en verliesontwerpen voor instance segmentation, pose estimation en georiënteerde detectie, wat consistente verbeteringen oplevert over taken en schalen. De familie omvat vijf schalen (n/s/m/l/x) en ondersteunt detectie, instance segmentation, pose estimation, classificatie en georiënteerde detectie in één pijplijn, met een open-vocabulaire extensie, YOLOE-26, voor tekst-, visuele- en prompt-vrije inferentie. Op alle schalen behaalt YOLO26 40,9–57,5 mAP op COCO bij 1,7–11,8 ms T4 TensorRT-latentie, waarmee de nauwkeurigheid-latentie Pareto-grens wordt verschoven ten opzichte van eerdere real-time detectoren, terwijl YOLOE-26x 40,6 AP op LVIS minival bereikt onder tekstprompting. Code en modellen zijn beschikbaar op https://github.com/ultralytics/ultralytics.

AURA: Actie-gepoort Geheugen voor Robotbeleid bij Constante VRAM
AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Jun 1

ByJosef Chen

De KV-cache is het juiste geheugen voor datacenters, maar het verkeerde geheugen voor robots. Inferentie in datacenters verwerkt veel korte aanvragen in batch en reset deze, waarbij een attention-cache wordt afgeschreven over een menigte. In belichaamde agenten daarentegen wordt één lange, niet-resettende episode gedraaid op bandbreedte-beperkte edge-hardware, waar hoog-bandbreedtegeheugen en flash schaars zijn, flash een beperkte schrijfduurzaamheid heeft, en geheugenschrijfacties in plaats van rekenkracht de bindende beperking kunnen worden. AURA-Mem (Action-Utility Recurrent Adaptive Memory) richt zich op dit regime. Het omhult een bevroren visie-taal-actie backbone met een constant groot recurrent geheugen en een aangeleerde poort die alleen schrijft wanneer de huidige waarneming de volgende actie zou veranderen: geheugen dat weet wanneer het stil moet blijven. In tegenstelling tot op reconstructie gebaseerd geheugen, wordt de poort direct getraind tegen een closed-loop actiefout-signaal. De inferentietoestand is vastgesteld op 4.224 bytes, ongeacht de horizon, terwijl een KV-cache 6.061 keer groeit tot 6.061 keer groter bij 100.000 stappen. Op een gecontroleerde synthetische benchmark evenaart AURA-Mem de beste O(1)-baseline in nauwkeurigheid, terwijl het 5,19–6,13 keer minder schrijfacties gebruikt, en tot 9,19 keer minder schrijfacties op eenvoudigere configuraties. Budget-gematchte willekeurige en periodieke schema's herstellen deze winst niet, wat het voordeel isoleert tot het actie-verrassingssignaal. Op een getrainde closed-loop OpenVLA-OFT 7B-panel op LIBERO-Long (n=60 episodes per arm) schaadt de poort het succes niet: AURA-Mem evenaart het ongepoorte basisbeleid (0,233) en overtreft licht een altijd-schrijvende KV-arm (0,217), terwijl het 7,0 keer minder schrijfacties en constant geheugen gebruikt. We instantiteren ook een approximate-information-state waarde-verliesgrens als methodologiedemonstratie; op deze schaal is de grens leeg in plaats van een garantie.

Voorkennisbeschikbaarheid in industriële visuele sim-to-real: een overzicht van CAD-gestuurde en CAD-onbeschikbare regimes
Prior Availability in Industrial Visual Sim-to-Real: A Review of CAD-Guided and CAD-Unavailable Regimes

May 28

ByChenxi Tao, Seung-Kyum Choi

Industrieel visueel sim-to-real wordt vaak beschreven als de overdracht van synthetische beelden naar echte beelden, maar industriële implementatie omvat doorgaans een bredere mismatch tussen beschikbare bewijzen en vereiste beslissingen. Een systeem kan worden opgebouwd uit CAD-renders, gesimuleerde RGB-D-waarnemingen, normale referentiebeelden, synthetische defecten, voorgetrainde kenmerkruimtes of taalaanwijzingen, maar wordt ingezet onder andere sensoren, belichting, materialen, armaturen, kalibratie, productievariatie en zeldzame defectmodi. Deze review herkadert industrieel visueel sim-to-real als een domeinkloofprobleem, geordend naar beschikbaarheid van voorkennis. We onderscheiden CAD-beschikbare instellingen, waar expliciete objectgeometrie rendering, kalibratie, positie-schatting, segmentatie en geometrische verificatie tijdens testen kan ondersteunen; CAD-niet-beschikbare instellingen, waar geometrie wordt vervangen door normaal-referentie-uiterlijk, kenmerkdistributies, teacher-student-residuen, synthetische anomalie-aannames, funderingskenmerken of visie-taal-priors; en grens-prior-instellingen, waar benaderende modellen, sjablonen, referentieaanzichten of semantische correspondenties slechts een deel van de CAD-rol behouden. Deze inkadering verbindt de literatuur over CAD-gebaseerde detectie en 6D-positieschatting met de literatuur over industriële anomalie- en oppervlakte-inspectie, die doorgaans afzonderlijk wordt besproken. Om de taxonomie concreet te maken, gebruiken we empirische ankers op T-LESS/BOP, MVTec AD en VisA. De ankers tonen aan dat alleen het aantal CAD-renders de overdracht niet dicht; de ontwerp van de brondistributie, de detectiecapaciteit en een kleine echte kalibratie kunnen belangrijker zijn. Ze tonen ook aan dat CAD tijdens tests een apart verificatiekanaal creëert via masker-, positie- en diepteconsistentie, terwijl CAD-niet-beschikbare inspectie afhankelijk is van gekalibreerde normaliteit en kenmerkafwijking. De review pleit daarom tegen een enkel cross-task-klassement en vraagt in plaats daarvan welke voorkennis de implementatiebeslissing onderbouwt.

BA-T: Een iteratieve Transformer voor twee-views bundelaanpassing
BA-T: An Iterative Transformer for Two-View Bundle Adjustment

Jun 2

ByGanlin Zhang, Weirong Chen, Daniel Cremers, Xi Wang

Feed-forward modellen voor 3D-reconstructie hebben sterke prestaties behaald door gebruik te maken van diepe cross-view aandacht om informatie tussen afbeeldingen uit te wisselen. Deze benaderingen zijn echter vaak afhankelijk van zware decoderstapelingen en missen een gestructureerd mechanisme voor geometrische verfijning, wat leidt tot slechte multi-view consistentie. Wij pakken dit aan door inspiratie te putten uit klassieke bundelaanpassing (BA), die kan worden gezien als een iteratief informatiepropagatieproces tussen posities en lokale geometrie. Geïnspireerd door BA stellen we BA-T voor, een iteratieve Transformer die BA-achtige gestructureerde updates implementeert als een herhaalbare laag in impliciete tokenruimte. In plaats van te vertrouwen op diepe aandachtstapelingen, verfijnt BA-T voorspellingen op basis van latente residuen met een enkele lichtgewicht laag. Experimenten tonen aan dat BA-T iteratief de nauwkeurigheid van posities en reconstructie verbetert, sterkere cross-view consistentie bereikt dan conventionele decoders, en even groot of groter is dan aanzienlijk grotere modellen, terwijl het slechts 16% van hun decoderparameters gebruikt. BA-T biedt een compact, efficiënt en structureel alternatief voor diepgaande aandacht, waardoor nauwkeurige 3D-reconstructie mogelijk wordt binnen een lichtgewicht architectuur. De code zal openbaar worden gemaakt op https://github.com/zhangganlin/BA-T.

Druktesten van misleidingssondes in grote taalmodellen: schaling, robuustheid en de geometrie van misleidende representaties
Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations

May 27

BySachin Kumar

Lineaire probes getraind op LLM-activaties worden steeds vaker voorgesteld als detectiemetrieken voor bedrog, maar rapporteren een AUROC van meer dan 0,96 op schone benchmarks terwijl ze instorten onder distributieverschuiving. Dit artikel onderwerpt probe-gebaseerde metrieken systematisch aan stresstests binnen de Gemma 3-modelfamilie (1B-27B parameters), waarbij we diagnosticeren waarom ze falen in plaats van alleen te documenteren dat ze falen. We testen vier hypothesen over de codering van bedrog: (1) enkele lineaire richting, (2) multidimensionale deelruimte, (3) convex conisch omhulsel, (4) entropieproxy. Ons ontwerp omvat cross-domein overdrachtsmatrices, multidimensionale probe-analyse met permutatie-nulhypothesen, entropie-residualisatietests en afleiderevaluaties over 8 stilistische verschuivingen. We vinden dat: (a) probes bijna perfecte AUROC (>=0,998) behalen op schone data, maar instorten onder stilistische verschuivingen; stijl-uitgebreide probes herstellen bijna perfecte detectie (gemiddelde AUROC 0,979-0,983) op ongeziene stijlen; (b) de enkele-richtinghypothese wordt verworpen (k=1 vangt slechts 0,61-0,80 AUROC), waarbij cross-domein overdrachtsfalen wordt bevestigd als geometrisch in plaats van laagafstemmingsgedreven; (c) de entropieproxy-hypothese wordt verworpen (max |rho|=0,454, max Delta-AUROC na residualisatie=0,004); en (d) bedrog vormt geen significante lineaire deelruimte (per-domein k*=0), maar multidimensionale probes (k>=5) herstellen het signaal via verdeelde subdrempelkenmerken. Probe-fragiliteit weerspiegelt distributienauwheid in plaats van een architecturale beperking: stijl-uitgebreide probes herstellen bijna perfecte detectie bij zowel 4B als 27B, wat vaststelt dat het inverse schalingspatroon een trainingsdistributie-artefact is in plaats van een echt schaalafhankelijk fenomeen.

Het mitigeren van perceptuele oordeelsbias in multimodale LLM-als-rechter via perceptuele perturbatie en beloningsmodellering
Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

Jun 1

BySeojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim

Recente multimodale grote taalmodellen hebben een sterk redeneervermogen getoond, maar hun betrouwbaarheid als geautomatiseerde beoordelaars blijft beperkt door een kritieke zwakte: wanneer visueel bewijs in conflict is met tekstuele aanwijzingen, belonen MLLM-beoordelaars vaak plausibele verhalen boven perceptueel correcte antwoorden. We identificeren en analyseren systematisch dit fenomeen, dat we Perceptual Judgment Bias noemen. Door middel van gecontroleerde visuele perturbaties verankeren bestaande multimodale beoordelaars zich vaak op de antwoordtekst in plaats van op hun eigen visuele perceptie, wat leidt tot inconsistente en niet-verifieerbare evaluaties. Om dit probleem aan te pakken, introduceren we de Perceptually Perturbed Judgment Dataset, die minimaal bewerkte tegenfeitelijke antwoorden construeert die perceptuele fouten isoleren en verifieerbare supervisie mogelijk maken. Voortbouwend op deze dataset ontwikkelen we een uniform trainingsraamwerk dat een gestructureerde GRPO-gebaseerde beloning combineert met een batch-ranking-doelstelling, wat een coherente globale ordening bereikt zonder expliciete paarsgewijze labels. Experimenten op diverse MLLM-as-a-Judge-benchmarks tonen aan dat onze aanpak de perceptuele betrouwbaarheid, de coherentie van de rangschikking en de overeenstemming met menselijke evaluatie aanzienlijk verbetert. Onze resultaten leggen een schaalbare en generaliseerbare weg voor het trainen van multimodale beoordelaars die perceptueel gegrond, interpreteerbaar en robuust zijn tegen visueel-redeneerconflicten.

WALL-WM: Het uitsnijden van wereldactiemodellering op de gebeurtenisverbindingen
WALL-WM: Carving World Action Modeling at the Event Joints

Jun 1

ByShalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang

WALL-WM is een Wereldactiemodel dat video-actieleren verschuift van chunk-gecentreerde optimalisatie naar gebeurtenisgebaseerde Visie-Taal-Actie (VTA) voortraining, waarbij semantisch samenhangende actiegebeurtenissen als de atomaire leereenheid worden gebruikt. Bestaande WAM's initialiseren doorgaans vanuit multimodale of video-fundatiemodellen en optimaliseren vervolgens actiechunks van vaste lengte, die direct worden geconditioneerd op de huidige waarneming en instructie. Hoewel handig, creëert deze chunk-gecentreerde formulering een fundamentele granulariteitsmismatch. Taal beschrijft semantische doelen en gebeurtenissen, visie evolueert door continue scènedynamiek, en acties opereren op besturingstijdschalen; door alle drie in hetzelfde voorspellingsvenster van vaste lengte te dwingen, wordt VTA-training gereduceerd tot correlatiefitten op korte termijn. WALL-WM pakt deze mismatch aan door zowel supervisie als data rond semantische gebeurtenissen te organiseren. Specifiek combineert het gebeurtenisgebaseerde VTA-voortraining met een data-ecosysteem dat is opgebouwd uit gebeurtenisniveau-onderschriften en clustergebalanceerde sampling, wat schaalbaar leren over diverse gedragingen, scènes en taakstructuren mogelijk maakt. Vanuit dezelfde gebeurtenis-voortrainde backbone ondersteunt WALL-WM twee complementaire inferentiemodi. De gebeurtenismodus verbruikt volgende-gebeurtenisbeschrijvingen en maakt uitvoeringschunks van variabele lengte mogelijk, terwijl de uniforme modus een VLM met Staircase Decoding gebruikt om conventionele chunk-inferentie van vaste lengte te conditioneren, terwijl een gradiëntcontinu VTA-pad behouden blijft. Samen met op Muon-optimizer gebaseerde grootschalige voortrainingsinfrastructuur biedt WALL-WM een praktisch opschalingsrecept voor algemeen bruikbare WAM's. Experimenten tonen aan dat WALL-WM breed generaliseert over taal, scènes en taken, en een state-of-the-art prestatie levert in grootschalige generalisatie-evaluatie in de echte wereld.