HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

32 papers found

Minder is Genoeg: Synthese van Diverse Data in de Feature-ruimte van LLM's
Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Feb 11

ByZhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu

244

De diversiteit van post-trainingdata is cruciaal voor effectieve downstreamprestaties van grote taalmodellen (LLM's). Veel bestaande benaderingen voor het samenstellen van post-trainingdata kwantificeren diversiteit met op tekst gebaseerde metrieken die linguïstische variatie vastleggen, maar dergelijke metrieken geven slechts zwakke signalen voor de taakrelevante kenmerken die de downstreamprestaties bepalen. In dit werk introduceren we Feature Activation Coverage (FAC), dat data-diversiteit meet in een interpreteerbare kenmerkenruimte. Voortbouwend op deze metriek stellen we verder een diversiteit-gestuurd datasyntheseframework voor, genaamd FAC Synthesis, dat eerst een sparse autoencoder gebruikt om ontbrekende kenmerken te identificeren vanuit een startdataset, en vervolgens synthetische samples genereert die deze kenmerken expliciet weerspiegelen. Experimenten tonen aan dat onze aanpak consistent zowel de data-diversiteit als de downstreamprestaties verbetert bij diverse taken, waaronder instructie-opvolging, toxiciteitsdetectie, beloningsmodellering en gedragssturing. Interessant genoeg identificeren we een gedeelde, interpreteerbare kenmerkenruimte over modelfamilies heen (d.w.z. LLaMA, Mistral en Qwen), wat kruismodelkennistransfer mogelijk maakt. Ons werk biedt een solide en praktische methodologie voor het verkennen van data-gedreven optimalisatie van LLM's.

SQuTR: Een robuustheidscriterium voor gesproken-zoekopdracht-naar-tekstretrieval bij akoestische ruis
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

Feb 13

ByYuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang

168

Gesproken query retrieval is een belangrijke interactiemodus in moderne informatie-retrieval. Bestaande evaluatiedatasets zijn echter vaak beperkt tot eenvoudige queries onder gecontroleerde ruisomstandigheden, waardoor ze ongeschikt zijn voor het beoordelen van de robuustheid van gesproken query retrieval-systemen onder complexe akoestische verstoringen. Om deze beperking aan te pakken, presenteren we SQuTR, een robuustheidsbenchmark voor gesproken query retrieval die een grootschalige dataset en een uniform evaluatieprotocol omvat. SQuTR verzamelt 37.317 unieke queries uit zes veelgebruikte Engelse en Chinese tekstretrieval-datasets, verspreid over meerdere domeinen en uiteenlopende querytypen. We synthetiseren spraak met stemprofielen van 200 echte sprekers en voegen 17 categorieën realistische omgevingsgeluiden toe onder gecontroleerde SNR-niveaus, wat reproduceerbare robuustheidsevaluatie mogelijk maakt van stille tot extreem rumoerige omstandigheden. Volgens het uniforme protocol voeren we grootschalige evaluaties uit op representatieve gecascadeerde en end-to-end retrievalsystemen. Experimentele resultaten tonen aan dat de retrievalprestaties afnemen naarmate de ruis toeneemt, met aanzienlijk verschillende dalingen tussen systemen. Zelfs grootschalige retrievalmodellen presteren slecht onder extreme ruis, wat aangeeft dat robuustheid een kritieke bottleneck blijft. Over het geheel genomen biedt SQuTR een reproduceerbare testomgeving voor benchmarking en diagnostische analyse, en faciliteert het toekomstig onderzoek naar robuustheid in gesproken query naar tekst retrieval.

MedXIAOHE: Een Uitgebreid Recept voor het Bouwen van Medische MLLM's
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Feb 13

ByBaorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang

Wij presenteren MedXIAOHE, een medisch vision-language foundation model dat is ontworpen om algemeen medisch begrip en redeneren in realistische klinische toepassingen te bevorderen. MedXIAOHE behaalt state-of-the-art prestaties op diverse medische benchmarks en overtreft toonaangevende closed-source multimodale systemen op meerdere capaciteiten. Hiertoe stellen we een entity-aware continu voor-trainingsraamwerk voor dat heterogene medische corpora structureert om de kennisdekking te verbreden en long-tail hiaten (zoals zeldzame ziekten) te verkleinen. Voor medisch expert-level redeneren en interactie integreert MedXIAOHE diverse medische redeneerpatronen via reinforcement learning en tool-augmented agentic training, waardoor multi-stap diagnostisch redeneren met verifieerbare beslissingssporen mogelijk wordt. Om de betrouwbaarheid in de praktijk te verbeteren, integreert MedXIAOHE gebruikersvoorkeur-rubrieken, evidence-grounded redeneren en long-form rapportgeneratie met lage hallucinatie, met verbeterde naleving van medische instructies. Wij publiceren dit rapport om onze praktische ontwerpkeuzes, schaalingsinzichten en evaluatieraamwerk te documenteren, in de hoop verder onderzoek te inspireren.

Zoomen zonder te zoomen: Regio-naar-beelddistillatie voor fijnmateriële multimodale perceptie
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Feb 12

ByLai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang

Multimodale Large Language Models (MLLM's) blinken uit in brede visuele interpretatie, maar hebben nog steeds moeite met fijnmazige perceptie, waarbij het doorslaggevende bewijs klein is en gemakkelijk wordt overschaduwd door de globale context. Recente "Denken-met-Beelden"-methoden verlichten dit door iteratief in te zoomen op en uit te zoomen op regio's van belang tijdens de inferentie, maar lijden onder hoge latentie door herhaalde toolaanroepen en visuele hercodering. Om dit aan te pakken, stellen we Region-to-Image Distillation voor, wat inzoomen transformeert van een tool tijdens de inferentie naar een primitief tijdens de training, waardoor de voordelen van agent-achtig inzoomen worden geïnternaliseerd in een enkele voorwaartse passering van een MLLM. In het bijzonder zoomen we eerst in op micro-uitgesneden regio's om sterke leraarmodellen hoogwaardige VQA-gegevens te laten genereren, en destilleren we deze op regio's gebaseerde supervisie vervolgens terug naar de volledige afbeelding. Na training op dergelijke gegevens verbetert het kleinere studentenmodel de "enkele blik" fijnmazige perceptie zonder toolgebruik. Om deze capaciteit rigoureus te evalueren, presenteren we verder ZoomBench, een hybride geannoteerde benchmark van 845 VQA-gegevens verspreid over zes fijnmazige perceptuele dimensies, samen met een dual-view protocol dat het globale–regionale "inzoom-gat" kwantificeert. Experimenten tonen aan dat onze modellen toonaangevende prestaties bereiken op meerdere fijnmazige perceptiebenchmarks, en ook de algemene multimodale cognitie verbeteren op benchmarks zoals visueel redeneren en GUI-agenten. We bespreken verder wanneer "Denken-met-Beelden" noodzakelijk is versus wanneer de winst ervan kan worden gedestilleerd in een enkele voorwaartse passering. Onze code is beschikbaar op https://github.com/inclusionAI/Zooming-without-Zooming.

Op weg naar Universele Video MLLM's met Attribuut-Gestructureerde en Kwaliteitsgeverifieerde Instructies
Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Feb 13

ByYunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng

Universeel videobegrip vereist het modelleren van fijnmazige visuele en auditieve informatie over tijd in diverse real-world scenario's. De prestaties van bestaande modellen worden echter voornamelijk beperkt door video-instructiedata die complexe audiovisuele inhoud weergeven als enkele, onvolledige beschrijvingen, waarbij een fijnmazige organisatie en betrouwbare annotatie ontbreekt. Om dit aan te pakken, introduceren wij: (i) ASID-1M, een open-source verzameling van één miljoen gestructureerde, fijnmazige audiovisuele instructieannotaties met supervisie op basis van enkele en meerdere attributen; (ii) ASID-Verify, een schaalbare datacuratiepijplijn voor annotatie, met automatische verificatie en verfijning die semantische en temporele consistentie afdwingt tussen beschrijvingen en de corresponderende audiovisuele inhoud; en (iii) ASID-Captioner, een videobegripmodel getraind via Supervised Fine-Tuning (SFT) op de ASID-1M. Experimenten op zeven benchmarks die audiovisuele ondertiteling, attribuutgewijze ondertiteling, op ondertiteling gebaseerde vraag-antwoordtaken en op ondertiteling gebaseerde temporele lokalisatie bestrijken, tonen aan dat ASID-Captioner de kwaliteit van fijnmazige ondertiteling verbetert, terwijl hallucinaties worden verminderd en het volgen van instructies verbetert. Het behaalt state-of-the-art prestaties onder open-source modellen en is competitief met Gemini-3-Pro.

OneVision-Encoder: Codec-Uitgelijnde Sparsheid als een Fundamenteel Principe voor Multimodale Intelligentie
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Feb 9

ByFeilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Hypothese. Kunstmatige algemene intelligentie is in de kern een compressieprobleem. Effectieve compressie vereist resonantie: deep learning schaalt het beste wanneer de architectuur ervan overeenkomt met de fundamentele structuur van de data. Dit zijn de fundamentele principes. Toch zijn moderne visie-architecturen afgedwaald van deze waarheden: visuele signalen zijn zeer redundant, terwijl discriminerende informatie, de verrassing, spaarzaam is. Huidige modellen verwerken uniform dichte pixelroosters, verspillen enorme rekenkracht aan statische achtergronden in plaats van zich te richten op de voorspellende residuen die beweging en betekenis definiëren. Wij stellen dat om visueel begrip op te lossen, onze architecturen moeten worden afgestemd op de informatie-theoretische principes van video, namelijk Codecs. Methode. OneVision-Encoder codeert video door voorspellende visuele structuur te comprimeren tot semantische betekenis. Door Codec Patchification toe te passen, verlaat OV-Encoder uniforme berekening om zich uitsluitend te richten op de 3,1%-25% van de regio's die rijk zijn aan signaalentropie. Om ruimtelijke en temporele redenering te verenigen onder onregelmatige token-indelingen, gebruikt OneVision-Encoder een gedeelde 3D RoPE en wordt getraind met een grootschalig clusterdiscriminatiedoel over meer dan een miljoen semantische concepten, waarbij objectpermanentie en bewegingsdynamiek gezamenlijk worden vastgelegd. Bewijs. De resultaten valideren onze kernhypothese: efficiëntie en nauwkeurigheid zijn geen afruil; ze zijn positief gecorreleerd. Wanneer geïntegreerd in een LLM, presteert het consistent beter dan sterke visie-backbones zoals Qwen3-ViT en SigLIP2 op 16 benchmarks voor beeld-, video- en documentbegrip, ondanks het gebruik van aanzienlijk minder visuele tokens en pretrainingsdata. Opmerkelijk is dat OV-Encoder voor videobegriptaken een gemiddelde verbetering van 4,1% behaalt ten opzichte van Qwen3-ViT. Codec-afgestemde, patch-level sparseiteit is een fundamenteel principe, dat OV-Encoder mogelijk maakt als een schaalbare engine voor de volgende generatie visuele generalisten.

CoPE-VideoLM: Codec-primitieven voor efficiënte videotaalmodellen
CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Feb 13

BySayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu

Video Language Models (VideoLMs) stellen AI-systemen in staat om temporele dynamiek in video's te begrijpen. Om aan de maximale contextvensterbeperking te voldoen, gebruiken huidige methoden keyframe-sampling, wat zowel macro-niveau gebeurtenissen als micro-niveau details kan missen vanwege de beperkte temporele dekking. Bovendien brengt de verwerking van volledige afbeeldingen en hun tokens voor elk frame aanzienlijke rekenkosten met zich mee. Om deze beperkingen aan te pakken, stellen we voor om video-codec-primitieven (specifiek motion vectors en residuals) te benutten, die van nature videoredundantie en -sparsiteit coderen zonder dure volledige afbeeldingcodering voor de meeste frames vereist. Hiertoe introduceren we lichtgewicht op transformers gebaseerde encoders die codec-primitieven aggregeren en hun representaties afstemmen op image encoder-embeddings via een pre-trainingstrategie die de convergentie tijdens end-to-end fine-tuning versnelt. Onze aanpak vermindert de time-to-first-token met tot 86% en het tokenverbruik met tot 93% in vergelijking met standaard VideoLMs. Bovendien kunnen we, door de keyframe- en codec-primitiefdichtheden te variëren, de prestaties handhaven of verbeteren op 14 diverse video-begriptaken, variërend van algemene vraag-antwoordtaken, temporeel redeneren, langdurig begrip en ruimtelijk scenebegrip.

SemanticMoments: Trainingsvrije Bewegingsgelijkenis via Derde Moment Kenmerken
SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Feb 9

BySaar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady

Het ophalen van video's op basis van semantische beweging is een fundamenteel, maar nog onopgelost probleem. Bestaande benaderingen voor videorepresentatie vertrouwen te veel op statische verschijning en scènecontext in plaats van bewegingsdynamiek, een vooroordeel dat ze erven van hun trainingsdata en -doelen. Traditionele, beweging-centrische invoer zoals optische stroming daarentegen mist de semantische verankering die nodig is om hoogwaardige beweging te begrijpen. Om deze inherente bias aan te tonen, introduceren we de SimMotion-benchmarks, die gecontroleerde synthetische data combineren met een nieuwe, door mensen geannoteerde dataset uit de echte wereld. We tonen aan dat bestaande modellen slecht presteren op deze benchmarks en vaak niet in staat zijn beweging van verschijning te onderscheiden. Om deze kloof te dichten, stellen we SemanticMoments voor, een eenvoudige, trainingsvrije methode die temporele statistieken (specifiek, hogere-orde momenten) berekent over features van voorgetrainde semantische modellen. Op al onze benchmarks presteert SemanticMoments consistent beter dan bestaande RGB-, stromings- en tekstgesuperviseerde methoden. Dit toont aan dat temporele statistieken in een semantische feature-ruimte een schaalbare en perceptueel verankerde basis bieden voor beweging-centrisch videobegrip.

GeoAgent: Leren om overal te lokaliseren met versterkte geografische kenmerken
GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Feb 13

ByModi Jin, Yiming Zhang, Boyuan Sun, Dingwen Zhang, MingMing Cheng, Qibin Hou

Dit artikel introduceert GeoAgent, een model dat in staat is om op een menselijke manier te redeneren en fijnmazige adresconclusies af te leiden. Eerdere op reinforcement learning (RL) gebaseerde methoden hebben doorbraken bereikt in prestaties en interpreteerbaarheid, maar roepen toch bezwaren op vanwege hun afhankelijkheid van door AI gegenereerde chain-of-thought (CoT)-gegevens en trainingsstrategieën, die in conflict staan met geografische kenmerken. Om deze problemen aan te pakken, introduceren we eerst GeoSeek, een nieuwe geolocatiedataset bestaande uit CoT-gegevens die zijn geannoteerd door geografie-experts en professionele spelers. Verder verkennen we grondig de inherente kenmerken van geografische taken en stellen we een geo-gelijkvormigheidsbeloning en een consistentiebeloning voor, beoordeeld door een consistentie-agent, om de training te ondersteunen. Dit moedigt het model aan om vanuit een geografisch perspectief naar correcte antwoorden te convergeren, terwijl de integriteit en consistentie van het redeneerproces worden gewaarborgd. Experimentele resultaten tonen aan dat GeoAgent de prestaties overtreft van bestaande methoden en een reeks algemene VLLM's (Very Large Language Models) op meerdere granulariteiten, terwijl het redeneringen genereert die nauw aansluiten bij het menselijk denken.

Wat verbetert RL voor Visueel Redeneren? Een Frankensteiniaanse Analyse
What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Feb 12

ByXirui Li, Ming Li, Tianyi Zhou

Versterkend leren (RL) met verifieerbare beloningen is een standaard nafasestadium geworden om visueel redeneren in visie-taalmodellen te verbeteren, maar het blijft onduidelijk welke capaciteiten RL daadwerkelijk verbetert in vergelijking met supervised fine-tuning als koude-start-initialisatie (IN). End-to-end benchmarkwinsten verenigen meerdere factoren, waardoor het moeilijk is verbeteringen toe te schrijven aan specifieke vaardigheden. Om deze kloof te overbruggen, stellen we een Frankenstein-stijl analysekader voor dat omvat: (i) functionele lokalisatie via causale probing; (ii) updatekarakterisering via parametervergelijking; en (iii) overdraagbaarheidstest via modelmerging. In plaats daarvan induceert RL een consistente inference-time verschuiving voornamelijk in midden tot late lagen, en deze midden-late verfijningen zijn zowel overdraagbaar (via merging) als noodzakelijk (via freezing) voor RL-winst. Over het geheel genomen suggereren onze resultaten dat RL's betrouwbare bijdrage aan visueel redeneren geen uniforme verbetering van visuele perceptie is, maar een systematische verfijning van midden-late transformerberekening die de alignatie tussen visie en redeneren en de redeneerprestatie verbetert, wat de beperkingen van uitsluitend benchmark-gebaseerde evaluatie voor het begrijpen van multimodale redeneerverbeteringen benadrukt.

Intelligente AI-delegatie
Intelligent AI Delegation

Feb 12

ByNenad Tomašev, Matija Franklin, Simon Osindero

AI-agenten zijn in staat om steeds complexere taken aan te pakken. Om ambitieuzere doelen te bereiken, moeten AI-agenten problemen op een zinvolle manier kunnen opdelen in beheersbare subcomponenten en de voltooiing ervan veilig kunnen delegeren aan andere AI-agenten én mensen. Toch baseren bestaande methoden voor taakdecompositie en delegatie zich op eenvoudige heuristieken, en zijn ze niet in staat om dynamisch aan te passen aan veranderingen in de omgeving en onverwachte fouten robuust af te handelen. Hier stellen we een adaptief raamwerk voor voor intelligente AI-delegatie: een reeks beslissingen met betrekking tot taaktoewijzing, dat ook de overdracht van autoriteit, verantwoordelijkheid, aansprakelijkheid, duidelijke specificaties over rollen en grenzen, helderheid van intentie en mechanismen voor het opbouwen van vertrouwen tussen de twee (of meer) partijen omvat. Het voorgestelde raamwerk is toepasbaar op zowel menselijke als AI-delegeerders en gedelegeerden in complexe delegatienetwerken, en beoogt de ontwikkeling van protocollen in het opkomende agentieve web te informeren.

ABot-M0: VLA-fundamentmodel voor robotmanipulatie met actiemanifold-leren
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

Feb 11

ByYandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu

Het ontwikkelen van algemene, belichaamde agenten voor uiteenlopende hardwareplatforms blijft een centrale uitdaging in de robotica, vaak omschreven als het "één-brein, vele-vormen"-paradigma. Vooruitgang wordt belemmerd door gefragmenteerde data, inconsistente representaties en niet-uitgelijnde trainingsdoelen. Wij presenteren ABot-M0, een raamwerk dat een systematische pijplijn voor datacuratie opzet, terwijl het modelarchitectuur en trainingsstrategieën gezamenlijk optimaliseert, waardoor een end-to-end transformatie van heterogene ruwe data naar uniforme, efficiënte representaties mogelijk wordt. Vanuit zes publieke datasets zuiveren, standaardiseren en balanceren we monsters om UniACT-dataset te construeren: een grootschalige dataset met meer dan 6 miljoen trajecten en 9.500 uur aan data, die diverse robotmorfologieën en taakscenario's bestrijkt. Gezamenlijke voorafgaande training verbetert kennistransfer en generalisatie over platformen en taken heen, ter ondersteuning van algemene belichaamde intelligentie. Om de efficiëntie en stabiliteit van actievoorspelling te verbeteren, stellen wij de Actie-variëteitshypothese voor: effectieve robotacties bevinden zich niet in de volledige hoogdimensionale ruimte, maar op een laagdimensionale, gladde variëteit die wordt beheerst door natuurkundige wetten en taakbeperkingen. Gebaseerd hierop introduceren we Actie-variëteitsleren (AML), dat een DiT-backbone gebruikt om direct schone, continue actievolgordes te voorspellen. Dit verschuift het leren van ruisonderdrukking naar projectie op haalbare variëteiten, wat de decodersnelheid en beleidsstabiliteit verbetert. ABot-M0 ondersteunt modulaire perceptie via een dual-stream mechanisme dat VLM-semantiek integreert met geometrische priors en multi-view invoer van plug-and-play 3D-modules zoals VGGT en Qwen-Image-Edit, waardoor het ruimtelijk begrip wordt verbeterd zonder de backbone aan te passen en de standaardbeperkingen van VLM's in 3D-redeneren worden verminderd. Experimenten tonen aan dat componenten onafhankelijk opereren met additieve voordelen. Wij zullen alle code en pijplijnen vrijgeven voor reproduceerbaarheid en toekomstig onderzoek.

RLinf-Co: Reinforcement Learning-gebaseerde Sim-Real Co-Training voor VLA-modellen
RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Feb 13

ByLiangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zhang, Weinan Zhang, Chao Yu, Yu Wang

Simulatie biedt een schaalbare en kostenefficiënte manier om vision-language-action (VLA)-training te verrijken, waardoor de afhankelijkheid van dure real-robotdemonstraties wordt verminderd. De meeste sim-real co-trainingsmethoden vertrouwen echter op supervised fine-tuning (SFT), die simulatie behandelt als een statische bron van demonstraties en geen gebruik maakt van grootschalige gesloten-lus interactie. Hierdoor zijn de verbeteringen in de echte wereld en de generalisatie vaak beperkt. In dit artikel stellen we een *RL*-gebaseerd sim-real *Co*-trainings (RL-Co) raamwerk voor dat interactieve simulatie benut terwijl het real-world capaciteiten behoudt. Onze methode volgt een generiek tweefasenontwerp: we starten eerst het beleid warm met SFT op een mix van echte en gesimuleerde demonstraties, vervolgens finetunen we het met reinforcement learning in simulatie terwijl we een auxiliary supervised loss toevoegen op real-world data om het beleid te verankeren en catastrofale vergetelheid te beperken. We evalueren ons raamwerk op vier real-world tafelmanipulatietaken met twee representatieve VLA-architecturen, OpenVLA en π_{0.5}, en observeren consistente verbeteringen ten opzichte van real-only finetuning en SFT-gebaseerde co-training, waaronder +24% real-world succes voor OpenVLA en +20% voor π_{0.5}. Naast hogere slagingspercentages levert RL co-training sterkere generalisatie naar onzichtbare taakvariaties en een aanzienlijk verbeterde real-world data-efficiëntie op, wat een praktische en schaalbare route biedt om simulatie te benutten voor het verbeteren van real-robot implementatie.

BPDQ: Bitvlakdecompositie-kwantisering op een variabel rooster voor grote taalmodel
BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

Feb 4

ByJunyu Chen, Jungang Li, Jing Xiong, Wenjie Wang, Qingyao Yang, He Xiao, Zhen Li, Taiqiang Wu, Mengzhao Chen, Zhen Peng, Chaofan Tao, Long Shi, Hongxia Yang, Ngai Wong

Het inferentieproces van grote taalmmodellen (LLM's) wordt in resourcebeperkte omgevingen vaak beperkt door het geheugengebruik en de geheugenbandbreedte, waardoor kwantisatie een fundamentele techniek is voor efficiënte inzet. Hoewel kwantisatie na training (PTQ) een hoge nauwkeurigheid behoudt bij 4 bits, verslechtert de prestatie bij 2-3 bits. Fundamenteel gezien hanteren bestaande methodes een vorminvariant kwantisatierooster (bijvoorbeeld de vaste uniforme intervallen van UINT2) voor elke groep, wat de mogelijke oplossingsruimte voor foutminimalisatie ernstig beperkt. Om dit aan te pakken, stellen we Bit-Plane Decompositie Kwantisatie (BPDQ) voor, dat een variabel kwantisatierooster construeert via bit-planes en scalaire coëfficiënten, en deze iteratief verfijnt met behulp van benaderde tweede-orde-informatie, terwijl kwantisatiefouten progressief worden gecompenseerd om de uitvoerafwijking te minimaliseren. In het 2-bits regime stelt BPDQ ons in staat om Qwen2.5-72B op een enkele RTX 3090 te draaien met een nauwkeurigheid van 83,85% op GSM8K (tegenover 90,83% bij 16 bits). Bovendien bieden we een theoretische analyse die aantoont dat het variabele rooster de mogelijke oplossingsruimte vergroot, en dat het kwantisatieproces consistent overeenkomt met het optimalisatiedoel in de door de Hessiaan geïnduceerde geometrie. Code: github.com/KingdalfGoodman/BPDQ.

Xiaomi-Robotics-0: Een open-source visie-taal-actie-model met real-time uitvoering
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Feb 13

ByRui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou

In dit rapport introduceren we Xiaomi-Robotics-0, een geavanceerd vision-language-action (VLA)-model dat is geoptimaliseerd voor hoge prestaties en een snelle en soepele uitvoering in realtime. De sleutel tot onze methode ligt in een zorgvuldig ontworpen trainingsrecept en implementatiestrategie. Xiaomi-Robotics-0 wordt eerst voorgetraind op grootschalige robottrajecten en vision-language gegevens met verschillende embodimenten, waardoor het brede en generaliseerbare actiegeneratiecapaciteiten verkrijgt, terwijl catastrofale vergetelheid van de visueel-semantische kennis van het onderliggende voorgetrainde VLM wordt voorkomen. Tijdens de natraining stellen we verschillende technieken voor om het VLA-model te trainen voor asynchrone uitvoering, om de inferentielatentie tijdens real-robot rollouts aan te pakken. Tijdens de implementatie stellen we de tijdstappen van opeenvolgende voorspelde actiebrokken zorgvuldig af om continue en naadloze real-time rollouts te garanderen. We evalueren Xiaomi-Robotics-0 uitgebreid in simulatiebenchmarks en op twee uitdagende real-robot taken die precieze en behendige bimanuele manipulatie vereisen. De resultaten tonen aan dat onze methode state-of-the-art prestaties behaalt in alle simulatiebenchmarks. Bovendien kan Xiaomi-Robotics-0 snel en soepel worden uitgerold op echte robots met behulp van een consumenten-GPU, waarbij hoge slagingspercentages en doorvoer worden bereikt op beide real-robot taken. Om toekomstig onderzoek te faciliteren, zijn code en modelcheckpoints openbaar gemaakt op https://xiaomi-robotics-0.github.io.

DICE: Diffusion Grote Taalmodellen Blinken Uit in het Genereren van CUDA-kernels
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

Feb 12

ByHaolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang

Diffusie large language models (dLLM's) zijn naar voren gekomen als een overtuigend alternatief voor autoregressieve (AR) LLM's, vanwege hun vermogen om tokens parallel te genereren. Dit paradigma is bijzonder geschikt voor codegeneratie, waarbij holistische structurele planning en niet-sequentiële verfijning cruciaal zijn. Ondanks dit potentieel blijft het aanpassen van dLLM's voor CUDA-kernelgeneratie een uitdaging, niet alleen belemmerd door de hoge specialisatie maar ook door het ernstige gebrek aan hoogwaardige trainingsdata. Om deze uitdagingen aan te pakken, construeren we CuKe, een uitgebreide supervised fine-tuning dataset geoptimaliseerd voor hoogwaardige CUDA-kernels. Daarbovenop stellen we een bi-fase curated reinforcement learning (BiC-RL) raamwerk voor, bestaande uit een CUDA-kernel-invulfase en een end-to-end CUDA-kernelgeneratiefase. Gebruikmakend van dit trainingsraamwerk introduceren we DICE, een reeks diffusie-large-language-modellen ontworpen voor CUDA-kernelgeneratie, verdeeld over drie parameterschalen: 1.7B, 4B en 8B. Uitgebreide experimenten op KernelBench tonen aan dat DICE significant beter presteert dan zowel autoregressieve als diffusie-LLM's van vergelijkbare schaal, waarmee een nieuwe state-of-the-art voor CUDA-kernelgeneratie wordt gevestigd.

SciAgentGym: Een benchmark voor multi-stap wetenschappelijk toolgebruik in LLM-agenten
SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

Feb 13

ByYujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

Wetenschappelijk redeneren vereist inherent de integratie van geavanceerde toolkits om domeinspecifieke kennis te navigeren. Toch negeren huidige benchmarks grotendeels het vermogen van agents om tools te orkestreren voor dergelijke rigoureuze workflows. Om deze kloof te overbruggen, introduceren we SciAgentGym, een schaalbare interactieve omgeving met 1.780 domeinspecifieke tools verspreid over vier natuurwetenschappelijke disciplines, ondersteund door een robuuste uitvoeringsinfrastructuur. Hieraan complementair presenteren we SciAgentBench, een gelaagde evaluatiesuite ontworpen om agent-capaciteiten stresstests te laten ondergaan, van elementaire acties tot langetermijnworkflows. Onze evaluatie identificeert een kritieke bottleneck: state-of-the-art modellen worstelen met complex wetenschappelijk toolgebruik. Zelfs voor een toonaangevend model zoals GPT-5 dalen de succespercentages sterk van 60,6% naar 30,9% naarmate de interactiehorizon zich uitstrekt, voornamelijk door falen in de uitvoering van meerstaps-workflows. Om dit aan te pakken, stellen we SciForge voor, een datasynthesemethode die de toolactieruimte modelleert als een afhankelijkheidsgraaf om logisch-bewuste trainingspaden te genereren. Door fine-tuning op deze paden presteert onze SciAgent-8B beter dan de aanzienlijk grotere Qwen3-VL-235B-Instruct en vertoont het positieve cross-domein transfer van wetenschappelijke toolgebruikscapaciteiten. Deze resultaten onderstrepen het veelbelovende potentieel van nieuwe generaties autonome wetenschappelijke agents.

Het beste van twee werelden: multimodale redenering en generatie via uniforme discrete flow matching
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Feb 12

ByOnkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou

Wij introduceren UniDFlow, een uniform raamwerk voor discrete *flow-matching* voor multimodale interpretatie, generatie en bewerking. Het ontkoppelt interpretatie en generatie via taakspecifieke *low-rank adapters*, waardoor doelconflicten en verstrengeling van representaties worden vermeden. Tegelijkertijd optimaliseert een nieuwe op referenties gebaseerde multimodale voorkeursafstemming de relatieve uitkomsten onder identieke condities, wat de nauwkeurigheid en bestuurbaarheid verbetert zonder grootschalige hertraining. UniDFlow behaalt state-of-the-art prestaties op acht benchmarks en vertoont sterke zero-shot generalisatie naar taken zoals *inpainting*, beeldgeneratie in context, op referenties gebaseerde bewerking en compositionele generatie, ondanks het ontbreken van expliciete taakspecifieke training.

Principes van synthetische data maken de eerste schaalwetten voor LLM's in aanbevelingen mogelijk
Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

Feb 7

ByBenyu Zhang, Qiang Zhang, Jianpeng Cheng, Hong-You Chen, Qifei Wang, Wei Sun, Shen Li, Jia Li, Jiahao Wu, Xiangjun Fan, Hong Yan

Grote Taalmodellen (GTM'en) vertegenwoordigen een veelbelovende grens voor aanbevelingssystemen, maar hun ontwikkeling is belemmerd door het ontbreken van voorspelbare schaalwetten, die cruciaal zijn voor het sturen van onderzoek en het optimaliseren van middelenallocatie. Wij veronderstellen dat dit kan worden toegeschreven aan de inherente ruis, vertekening en onvolledigheid van ruwe gebruikersinteractiegegevens in eerdere inspanningen voor continu vooraf trainen (CVT). Dit artikel introduceert een nieuw, gelaagd raamwerk voor het genereren van hoogwaardige synthetische gegevens die deze problemen omzeilt door een gecureerd, pedagogisch curriculum voor het GTM te creëren. Wij leveren krachtig, direct bewijs voor het nut van ons curriculum door aan te tonen dat standaard sequentiële modellen die zijn getraind op onze principiële synthetische gegevens, modellen die zijn getraind op echte gegevens significant overtreffen (+130% op recall@100 voor SasRec) in downstream rangschikkingstaken, wat de superioriteit aantoont voor het leren van generaliseerbare gebruikersvoorkeurpatronen. Voortbouwend hierop tonen wij empirisch, voor het eerst, robuuste machtswet-schaling aan voor een GTM dat continu wordt voorgetraind op onze hoogwaardige, aanbevelingsspecifieke gegevens. Onze experimenten onthullen consistente en voorspelbare perplexiteitsreductie over meerdere synthetische datamodaliteiten. Deze bevindingen vestigen een fundamentele methodologie voor betrouwbare schaalvergroting van GTM-capaciteiten in het aanbevelingsdomein, waardoor de onderzoeksfocus verschuift van het mitigeren van datatekorten naar het benutten van hoogwaardige, gestructureerde informatie.

Self-EvolveRec: Zelf-evoluerende aanbevelingssystemen met op LLM gebaseerde directionele feedback
Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback

Feb 13

BySein Kim, Sangwu Park, Hongseok Kang, Wonjoong Kim, Jimin Seo, Yeonjun In, Kanghoon Yoon, Chanyoung Park

Traditionele methoden voor het automatiseren van het ontwerp van aanbevelingssystemen, zoals Neural Architecture Search (NAS), worden vaak beperkt door een vaste zoekruimte gedefinieerd door menselijke aannames, wat innovatie beperkt tot vooraf gedefinieerde operatoren. Hoewel recente op grote taalmodellen (LLM) gebaseerde code-evolutieframeworks de focus verleggen van een vaste zoekruimte naar open programmeerruimtes, vertrouwen ze voornamelijk op scalaire metrieken (bijv. NDCG, Hit Ratio) die geen kwalitatieve inzichten bieden in modelfouten of directionele richtlijnen voor verbetering. Om dit aan te pakken, stellen wij Self-EvolveRec voor, een nieuw framework dat een directionele feedbacklus creëert door een User Simulator voor kwalitatieve kritiek te integreren met een Model Diagnosis Tool voor kwantitatieve interne verificatie. Verder introduceren we een Diagnosis Tool - Model Co-Evolutie strategie om te waarborgen dat de evaluatiecriteria zich dynamisch aanpassen naarmate de aanbevelingsarchitectuur evolueert. Uitgebreide experimenten tonen aan dat Self-EvolveRec zowel de prestaties van het aanbevelingssysteem als de gebruikers tevredenheid significant verbetert in vergelijking met state-of-the-art NAS- en LLM-gestuurde code-evolutiebaselines. Onze code is beschikbaar op https://github.com/Sein-Kim/self_evolverec.

Code2Worlds: Het Machtigen van Coderende LLM's voor 4D Wereldgeneratie
Code2Worlds: Empowering Coding LLMs for 4D World Generation

Feb 12

ByYi Zhang, Yunshuang Wang, Zeyu Zhang, Hao Tang

Het bereiken van ruimtelijke intelligentie vereist dat men verder gaat dan visuele geloofwaardigheid om wereldsimulators te bouwen die zijn gegrond in fysische wetten. Hoewel coderende LLM's de statische 3D-scènegeneratie hebben verbeterd, blijft het uitbreiden van dit paradigma naar 4D-dynamica een cruciaal onderzoeksfront. Deze taak kent twee fundamentele uitdagingen: verstrengeling van context op meerdere schalen, waarbij monolithische generatie faalt om lokale objectstructuren te balanceren met globale omgevingslay-outs; en een semantisch-fysische uitvoeringskloof, waarbij open-loop codegeneratie leidt tot fysische hallucinaties die dynamische nauwkeurigheid missen. Wij introduceren Code2Worlds, een raamwerk dat 4D-generatie formuleert als taal-naar-simulatiecodegeneratie. Ten eerste stellen we een dual-stream architectuur voor die objectgeneratie verrijkt met retrievals ontwart van hiërarchische omgevingsorchestratie. Ten tweede, om dynamische nauwkeurigheid te waarborgen, vestigen we een fysica-bewust closed-loop mechanisme waarin een PostProcess Agent dynamiek script, gekoppeld aan een VLM-Motion Critic die zelfreflectie uitvoert om simulatiewcode iteratief te verfijnen. Evaluaties op de Code4D-benchmark tonen aan dat Code2Worlds baseline-methoden overtreft met een winst van 41% in SGS en 49% hogere Rijkheid, terwijl het uniek fysica-bewuste dynamiek genereert die afwezig is in eerdere statische methoden. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

FLAC: Maximale Entropie RL via Brugmatching met Kinetische Energie Regularisatie
FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

Feb 13

ByLei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma

Iteratieve generatieve beleidsmodellen, zoals diffusiemodellen en 'flow matching', bieden superieure expressiviteit voor continue controle, maar compliceren 'Maximum Entropy Reinforcement Learning' omdat hun actie-log-dichtheden niet direct toegankelijk zijn. Om dit aan te pakken, stellen we 'Field Least-Energy Actor-Critic' (FLAC) voor, een 'likelihood-free' raamwerk dat de stochasticiteit van het beleid reguleert door de kinetische energie van het snelheidsveld te bestraffen. Onze belangrijkste inzicht is om beleidsoptimalisatie te formuleren als een 'Generalized Schrödinger Bridge' (GSB) probleem ten opzichte van een referentieproces met hoge entropie (bijvoorbeeld uniform). In dit perspectief ontstaat het maximum-entropieprincipe van nature door dicht bij een referentie met hoge entropie te blijven terwijl de opbrengst wordt geoptimaliseerd, zonder expliciete actiedichtheden te vereisen. In dit raamwerk dient kinetische energie als een fysiek gefundeerde proxy voor divergentie van de referentie: het minimaliseren van de energie in de padruimte begrenst de afwijking van de geïnduceerde terminale actieverdeling. Voortbouwend op dit inzicht leiden we een energie-gereguleerd beleidsiteratieschema en een praktisch 'off-policy' algoritme af dat de kinetische energie automatisch afstelt via een Lagrangiaans duale mechanisme. Empirisch behaalt FLAC superieure of vergelijkbare prestaties op hoogdimensionale benchmarks ten opzichte van sterke 'baselines', terwijl expliciete dichtheidsschatting wordt vermeden.

Over robuustheid en consistentie van keten-van-gedachten bij RL-gefine-tunede visueel-taalmodel(len)
On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

Feb 13

ByRosie Zhao, Anshul Shah, Xiaoyu Zhu, Xinke Deng, Zhongyu Jiang, Yang Yang, Joerg Liebelt, Arnab Mondal

Reinforcement learning (RL)-finetuning is uitgegroeid tot een belangrijke techniek voor het verbeteren van grote taalmodellen (LLM's) bij reasoning-intensieve taken, wat de uitbreiding naar vision-language modellen (VLM's) motiveert. Hoewel RL-getunede VLM's beter presteren op benchmarks voor visueel redeneren, blijven ze kwetsbaar voor zwakke visuele verankering, hallucinaties en overmatige afhankelijkheid van tekstuele aanwijzingen. Wij tonen aan dat eenvoudige, gecontroleerde tekstuele perturbaties – misleidende bijschriften of incorrecte chain-of-thought (CoT)-sporen – substantiële dalingen in robuustheid en betrouwbaarheid veroorzaken, en dat deze effecten sterker zijn wanneer CoT-consistentie in aanmerking wordt genomen bij open-source multimodale redeneermodellen. Op entropie gebaseerde metrieken tonen verder aan dat deze perturbaties de modelonzekerheid en de kansmassa op de correcte optie hervormen, waardoor modelspecifieke trends in miscalibratie blootgelegd worden. Om deze kwetsbaarheden beter te begrijpen, analyseren we verder de dynamiek van RL-finetuning en ontdekken we een nauwkeurigheid-getrouwheid trade-off: finetuning verhoogt de benchmarknauwkeurigheid, maar kan tegelijkertijd de betrouwbaarheid van de bijbehorende CoT en de robuustheid ervan tegen contextverschuivingen ondermijnen. Hoewel adversariële augmentatie de robuustheid verbetert, voorkomt het op zichzelf geen getrouwheidsdrift. Het opnemen van een getrouwheidsbewuste beloning kan de afstemming tussen antwoorden en redenering herstellen, maar wanneer het gecombineerd wordt met augmentatie, loopt de training het risico in te storten op shortcut-strategieën en blijft robuustheid ongrijpbaar. Gezamenlijk benadrukken deze bevindingen de beperkingen van uitsluitend op nauwkeurigheid gebaseerde evaluaties en motiveren ze trainings- en beoordelingsprotocollen die gezamenlijk de nadruk leggen op correctheid, robuustheid en de getrouwheid van visueel verankerd redeneren.

Light4D: Trainingsvrije 4D-videoherbelichting vanuit extreme gezichtspunten
Light4D: Training-Free Extreme Viewpoint 4D Video Relighting

Feb 12

ByZhenghuang Wu, Kang Chen, Zeyu Zhang, Hao Tang

Recente vooruitgang in diffusiegebaseerde generatieve modellen heeft een nieuw paradigma gevestigd voor herbelichting van afbeeldingen en video's. Het uitbreiden van deze mogelijkheden naar 4D-herbelichting blijft echter een uitdaging, voornamelijk vanwege de schaarste aan gepaarde 4D-herbelichtingstrainingsgegevens en de moeilijkheid om temporele consistentie te behouden bij extreme gezichtspunten. In dit werk stellen we Light4D voor, een nieuw trainingsvrij raamwerk ontworpen om consistente 4D-video's te synthetiseren onder doelbelichting, zelfs bij extreme veranderingen in gezichtspunt. Ten eerste introduceren we Disentangled Flow Guidance, een tijd-bewuste strategie die effectief belichtingscontrole injecteert in de latente ruimte terwijl de geometrische integriteit behouden blijft. Ten tweede ontwikkelen we, om temporele consistentie te versterken, Temporal Consistent Attention binnen de IC-Light-architectuur en incorporeren we verder deterministische regularisatie om verschijningsflikkeren te elimineren. Uitgebreide experimenten tonen aan dat onze methode competitieve prestaties bereikt op het gebied van temporele consistentie en belichtingsgetrouwheid, waarbij robuust omgegaan wordt met camerarotaties van -90 tot 90 graden. Code: https://github.com/AIGeeksGroup/Light4D. Website: https://aigeeksgroup.github.io/Light4D.

TADA! Afstemmen van Audio-Diffusiemodellen via Activatiesturing
TADA! Tuning Audio Diffusion Models through Activation Steering

Feb 12

ByŁukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja

Audiodiffusiemodellen kunnen hoogwaardige muziek synthetiseren vanuit tekst, maar hun interne mechanismen voor het representeren van hoogwaardige concepten blijven slecht begrepen. In dit werk gebruiken we *activation patching* om aan te tonen dat verschillende semantische muziekconcepten, zoals de aanwezigheid van specifieke instrumenten, vocalen of genrekenmerken, worden gecontroleerd door een kleine, gedeelde subset van aandachtslagen in state-of-the-art audiodiffusie-architecturen. Vervolgens laten we zien dat het toepassen van *Contrastive Activation Addition* en *Sparse Autoencoders* in deze lagen een nauwkeurigere controle over de gegenereerde audio mogelijk maakt, wat wijst op een direct voordeel van het specialisatiefenomeen. Door de activaties van de geïdentificeerde lagen te sturen, kunnen we specifieke muzikale elementen met hoge precisie aanpassen, zoals het moduleren van het tempo of het veranderen van de sfeer van een nummer.

Favia: Forensische Agent voor Identificatie en Analyse van Kwetsbaarheidsoplossingen
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis

Feb 13

ByAndré Storhaug, Jiamou Sun, Jingyue Li

Het identificeren van kwetsbaarheidsoplossingen in commits die corresponderen met openbaar gemaakte CVE's is essentieel voor veilig softwareonderhoud, maar blijft op grote schaal een uitdaging, omdat grote repositories miljoenen commits bevatten waarvan slechts een klein deel beveiligingsproblemen aanpakt. Bestaande geautomatiseerde aanpakken, inclusief traditionele machine learning-technieken en recente op grote taalmodellen (LLM) gebaseerde methoden, lijden vaak onder een zwakke precisie-recall-afweging. Veelal geëvalueerd op willekeurig geselecteerde commits, tonen wij aan dat zij de real-world moeilijkheidsgraad aanzienlijk onderschatten, waarbij kandidaat-commits reeds security-relevant en zeer vergelijkbaar zijn. Wij stellen Favia voor, een forensisch, agent-gebaseerd raamwerk voor kwetsbaarheidsfix-identificatie dat schaalbare kandidaatrangschikking combineert met diepe en iteratieve semantische redenering. Favia gebruikt eerst een efficiënte rangschikkingsfase om de zoekruimte van commits te verkleinen. Vervolgens wordt elke commit rigoureus geëvalueerd met een op ReAct gebaseerde LLM-agent. Door de agent een pre-commit repository als omgeving te bieden, samen met gespecialiseerde tools, lokaliseert de agent kwetsbare componenten, navigeert deze door de codebase en stelt causale afstemming vast tussen codewijzigingen en kwetsbaarheidsbronoorzaken. Dit op bewijzen gebaseerde proces maakt robuuste identificatie mogelijk van indirecte, multi-file en niet-triviale fixes die aan eenmalige of op gelijkenis gebaseerde methoden ontsnappen. Wij evalueren Favia op CVEVC, een grootschalige dataset die wij hebben samengesteld met meer dan 8 miljoen commits uit 3.708 real-world repositories, en tonen aan dat het consistent superieure prestaties levert vergeleken met state-of-the-art traditionele en LLM-gebaseerde baseline-methoden onder realistische kandidaatselectie, waarbij het de sterkste precisie-recall-afwegingen en hoogste F1-scores behaalt.

scPilot: Redeneren met Grote Taalmodellen voor Geautomatiseerde Enkelcelanalyse en Ontdekking
scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

Feb 12

ByYiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Jieyuan Liu, Enze Ma, Zhiting Hu, Eric P. Xing

Wij presenteren scPilot, het eerste systematische raamwerk voor *omics-native reasoning*: een groot taalmodel (LLM) voert gesprekken in natuurlijke taal terwijl het direct single-cell RNA-seq data inspecteert en on-demand bio-informatica tools gebruikt. scPilot zet kernanalyses van enkelvoudige cellen – zoals celtype-annotatie, reconstructie van ontwikkelingspaden en targeting van transcriptiefactoren – om in stapsgewijze redeneerproblemen die het model moet oplossen, rechtvaardigen en, indien nodig, herzien met nieuw bewijs. Om de vooruitgang te meten, lanceren we scBench, een reeks van 9 deskundig samengestelde datasets en beoordelaars die de *omics-native reasoning*-capaciteit van scPilot ten opzichte van verschillende LLM's nauwkeurig evalueren. Experimenten met o1 tonen aan dat iteratief *omics-native reasoning* de gemiddelde nauwkeurigheid voor celtype-annotatie met 11% verhoogt, en Gemini-2.5-Pro de grafiek-editieafstand voor ontwikkelingspaden met 30% verkleint in vergelijking met one-shot prompting, terwijl het transparante redeneersporen genereert die ambiguïteit in markergenen en regulatorische logica verklaren. Door LLM's te verankeren in ruwe omics-data, maakt scPilot controleerbare, interpreteerbare en diagnostisch informatieve single-cell analyses mogelijk. Code, data en package zijn beschikbaar op https://github.com/maitrix-org/scPilot.

Steer2Edit: Van Activatiesturing naar Componentniveau Bewerking
Steer2Edit: From Activation Steering to Component-Level Editing

Feb 10

ByChung-En Sun, Ge Yan, Zimo Wang, Tsui-Wei Weng

Stuurmethoden beïnvloeden het gedrag van grote taalmodel(len) door het identificeren van semantische richtingen in verborgen representaties, maar worden doorgaans gerealiseerd via interventies in activaties tijdens de inferentiefase, waarbij een vaste, globale modificatie wordt toegepast op de interne toestanden van het model. Hoewel effectief, veroorzaken dergelijke interventies vaak ongunstige afwegingen tussen attribuut en functionaliteit onder sterke controle, omdat ze het feit negeren dat veel gedragingen worden bepaald door een kleine en heterogene subset van modelcomponenten. Wij stellen Steer2Edit voor, een theoretisch onderbouwd, trainingsvrij raamwerk dat stuurvectoren transformeert van controle-signalen tijdens inferentie naar diagnostische signalen voor gewichtsbewerking op componentniveau (rang-1). In plaats van uniform een stuurrichting te injecteren tijdens de generatie, herverdeelt Steer2Edit selectief de gedragsbeïnvloeding over individuele aandachtskoppen en MLP-neuronen, wat interpreteerbare bewerkingen oplevert die de standaard voorwaartse pass behouden en compatibel blijven met geoptimaliseerde parallelle inferentie. Op het gebied van veiligheidsafstemming, het beperken van hallucinaties en redeneerefficiëntie behaalt Steer2Edit consistent gunstigere afwegingen tussen attribuut en functionaliteit: bij gelijke downstream-prestaties verbetert het de veiligheid met tot 17,2%, verhoogt het de waarheidsgetrouwheid met 9,8% en vermindert het de redeneerlengte gemiddeld met 12,2%. Over het algemeen biedt Steer2Edit een principiële brug tussen representatiesturing en gewichtsbewerking door stuursignalen te vertalen naar interpreteerbare, trainingsvrije parameter-updates.

Gekwantiseerde Evolutiestrategieën: Nauwkeurige Afstemming van Gekwantiseerde LLM's tegen Lage Precisiekosten
Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Feb 3

ByYinggan Xu, Risto Miikkulainen, Xin Qiu

Post-training-kwantisering (PTQ) is essentieel voor het implementeren van grote taalmodellen (LLM's) op apparaten met beperkt geheugen, maar het maakt modellen statisch en moeilijk af te stemmen. Standaard afstemmingsparadigma's, waaronder reinforcement learning (RL), zijn fundamenteel afhankelijk van backpropagatie en gewichten met hoge precisie om gradiënten te berekenen. Daarom kunnen ze niet worden gebruikt op gekwantiseerde modellen, waar de parameterruimte discreet en niet-differentieerbaar is. Hoewel evolutionaire strategieën (ES) een backpropagatie-vrij alternatief bieden, kan de optimalisatie van de gekwantiseerde parameters toch mislukken door vervagende of onnauwkeurige gradiënten. Dit artikel introduceert Gekwantiseerde Evolutionaire Strategieën (QES), een optimalisatieparadigma dat afstemming van alle parameters direct in de gekwantiseerde ruimte uitvoert. QES is gebaseerd op twee innovaties: (1) het integreert geaccumuleerde foutfeedback om gradientensignalen met hoge precisie te behouden, en (2) het gebruikt een stateless seed replay om het geheugengebruik te reduceren tot het niveau van inferentie met lage precisie. QES presteert aanzienlijk beter dan de state-of-the-art zeroth-order afstemmingsmethode voor rekenkundige redeneertaken, waardoor directe afstemming voor gekwantiseerde modellen mogelijk wordt. Het opent daarmee de mogelijkheid om LLM's volledig in de gekwantiseerde ruimte op te schalen. De broncode is beschikbaar op https://github.com/dibbla/Quantized-Evolution-Strategies.

Het leren van op afbeeldingen gebaseerde kroonsegmentatie van bomen vanuit verbeterde op lidar gebaseerde pseudo-labels
Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

Feb 13

ByJulius Pesonen, Stefan Rua, Josef Taher, Niko Koivumäki, Xiaowei Yu, Eija Honkavaara

Het in kaart brengen van individuele boomkronen is essentieel voor taken zoals het bijhouden van stedelijke bomenbestanden en het monitoren van de gezondheid van bossen, wat ons helpt ons leefmilieu te begrijpen en te verzorgen. Het automatisch van elkaar scheiden van de kronen op luchtfoto's is echter een uitdaging door factoren zoals de textuur en gedeeltelijke overlapping van boomkronen. In deze studie presenteren we een methode om deep learning-modellen te trainen die individuele bomen segmenteren en scheiden op RGB- en multispetrale beelden, met behulp van pseudo-labels afgeleid van lucht-laserscanning (ALS) data. Onze studie toont aan dat de op ALS gebaseerde pseudo-labels verbeterd kunnen worden met een zero-shot instance segmentatiemodel, Segment Anything Model 2 (SAM 2). Onze methode biedt een manier om domeinspecifieke trainingsannotaties te verkrijgen voor op optische beelden gebaseerde modellen, zonder enige kosten voor handmatige annotatie, wat leidt tot segmentatiemodellen die beter presteren dan beschikbare modellen die zijn ontwikkeld voor algemene inzet voor dezelfde taak.

GeneralVLA: Generaliseerbare Visie-Taal-Actie Modellen met Kennisgestuurde Trajectplanning
GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Feb 4

ByGuoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang

Grote foundation-modellen hebben sterke open-wereldgeneralizatie getoond voor complexe problemen in visie en taal, maar vergelijkbare generalisatieniveaus zijn nog niet bereikt in robotica. Een fundamentele uitdaging is dat de modellen beperkte zero-shot-capaciteit vertonen, wat hun vermogen om effectief te generaliseren naar onbekende scenario's belemmert. In dit werk stellen we GeneralVLA voor (Generaliseerbare Vision-Language-Action-modellen met kennisgestuurde trajectplanning), een hiërarchisch vision-language-action (VLA)-model dat effectiever gebruik kan maken van de generalisatie van foundation-modellen, waardoor zero-shot-manipulatie en automatische datageneratie voor robotica mogelijk worden. In het bijzonder bestuderen we een klasse hiërarchische VLA-modellen waarbij de hoogste laag, de ASM (Affordance Segmentation Module), wordt gefinetuned om beeldkeypoint-affordances van de scène waar te nemen; de middellaag, 3DAgent, voert taakbegrip, vaardigheidskennis en trajectplanning uit om een 3D-pad te produceren dat de gewenste trajectorie van de robotend-effector aangeeft. De tussenliggende 3D-padvoorspelling dient vervolgens als leidraad voor de laagste laag, een 3D-bewust controlebeleid dat in staat is tot precieze manipulatie. In vergelijking met alternatieve benaderingen vereist onze methode geen gegevensverzameling met echte robots of menselijke demonstraties, waardoor deze veel beter schaalbaar is voor diverse taken en gezichtspunten. Empirisch gezien genereert GeneralVLA met succes trajectorieën voor 14 taken, wat aanzienlijk beter presteert dan state-of-the-art methoden zoals VoxPoser. De gegenereerde demonstraties kunnen robuuster beleid voor gedragskloning trainen dan training met menselijke demonstraties of met gegevens gegenereerd door VoxPoser, Scaling-up en Code-As-Policies. Wij geloven dat GeneralVLA de schaalbare methode kan zijn voor zowel het genereren van data voor robotica als het oplossen van nieuwe taken in een zero-shot-setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.

OpenLID-v3: Het verbeteren van de precisie van identificatie van nauw verwante talen – Een ervaringsrapport
OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Feb 13

ByMariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer

Taalidentificatie (LID) is een essentiële stap bij het opbouwen van hoogwaardige meertalige datasets uit webgegevens. Bestaande LID-tools (zoals OpenLID of GlotLID) hebben vaak moeite met het identificeren van nauw verwante talen en het onderscheiden van geldige natuurlijke taal van ruis, wat taalspecifieke subsets verontreinigt, vooral voor talen met weinig bronnen. In dit werk breiden we de OpenLID-classificator uit door meer trainingsgegevens toe te voegen, problematische taalvariantclusters samen te voegen en een speciaal label te introduceren voor het markeren van ruis. We noemen dit uitgebreide systeem OpenLID-v3 en evalueren het tegenover GlotLID op meerdere benchmarks. Tijdens de ontwikkeling richten we ons op drie groepen nauw verwante talen (Bosnisch, Kroatisch en Servisch; Romaanse variëteiten in Noord-Italië en Zuid-Frankrijk; en Scandinavische talen) en dragen we nieuwe evaluatiedatasets bij waar bestaande ontoereikend zijn. We stellen vast dat ensemblebenaderingen de precisie verbeteren, maar ook de dekking voor talen met weinig bronnen aanzienlijk verminderen. OpenLID-v3 is beschikbaar op https://huggingface.co/HPLT/OpenLID-v3.