HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

15 papers found

Zelf-Gedistilleerd RLVR
Self-Distilled RLVR

Apr 3

ByChenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan

On-policy distillatie (OPD) is een populaire trainingsparadigma geworden in de LLM-gemeenschap. Dit paradigma selecteert een groter model als leraar om dichte, fijnmazige signalen te leveren voor elke bemonsterde traject, in tegenstelling tot reinforcement learning met verifieerbare beloningen (RLVR), dat slechts sporadische signalen verkrijgt uit verifieerbare uitkomsten in de omgeving. Recentelijk heeft de gemeenschap on-policy zelfdistillatie (OPSD) verkend, waarbij hetzelfde model zowel als leraar als leerling fungeert, waarbij de leraar extra geprivilegieerde informatie ontvangt, zoals referentieantwoorden, om zelfevolutie mogelijk te maken. Dit artikel toont aan dat leersignalen die uitsluitend zijn afgeleid van de geprivilegieerde leraar leiden tot ernstige informatielekkage en instabiele training op lange termijn. Dienovereenkomstig identificeren we de optimale niche voor zelfdistillatie en stellen we RLSD (RLVR met Zelfdistillatie) voor. Concreet benutten we zelfdistillatie om token-level beleidsverschillen te verkrijgen voor het bepalen van fijnmazige update-grootten, terwijl we RLVR blijven gebruiken om betrouwbare update-richtingen af te leiden uit omgevingsfeedback (bijvoorbeeld de correctheid van antwoorden). Hierdoor kan RLSD gelijktijdig de sterke punten van zowel RLVR als OPSD benutten, wat resulteert in een hoger convergentieplafond en superieure trainingsstabiliteit.

Een Eenvoudige Uitgangsbasis voor Stromend Videobegrip
A Simple Baseline for Streaming Video Understanding

Apr 2

ByYujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu

Recente methoden voor het begrijpen van streamende video vertrouwen steeds meer op complexe geheugenmechanismen om lange videostreams te verwerken. Wij dagen deze trend uit met een eenvoudige bevinding: een sliding-window-basislijn die alleen de meest recente N frames aan een standaard VLM aanbiedt, presteert even goed of beter dan gepubliceerde streamingmodellen. Wij formaliseren deze basislijn als SimpleStream en evalueren deze tegenover 13 belangrijke offline en online video-LLM-basislijnen op OVO-Bench en StreamingBench. Ondanks zijn eenvoud levert SimpleStream consistent sterke prestaties. Met slechts 4 recente frames bereikt het een gemiddelde nauwkeurigheid van 67,7% op OVO-Bench en 80,59% op StreamingBench. Gecontroleerde ablatiestudies tonen verder aan dat de waarde van langere context afhankelijk is van de backbone, in plaats van uniform toe te nemen met modelschaal, en onthullen een consistente perceptie-geheugenafweging: het toevoegen van meer historische context kan de herinnering verbeteren, maar verzwakt vaak de real-time perceptie. Dit suggereert dat sterkere geheugen-, retrieval- of compressiemodules niet als vooruitgang moeten worden beschouwd, tenzij ze duidelijk beter presteren dan SimpleStream onder hetzelfde protocol. Wij bepleiten daarom dat toekomstige streamingbenchmarks recente-sceneperceptie moeten scheiden van langetermijngeheugen, zodat prestatieverbeteringen door toegevoegde complexiteit duidelijker kunnen worden geëvalueerd.

Token Warping helpt MLLM's kijken vanuit nabije gezichtspunten
Token Warping Helps MLLMs Look from Nearby Viewpoints

Apr 3

ByPhillip Y. Lee, Chanho Park, Mingue Park, Seungwoo Yoo, Juil Koo, Minhyuk Sung

Kunnen getransformeerde tokens, in plaats van pixels, multimodale grote taalmodellen (MLLM's) helpen begrijpen hoe een scène eruitziet vanuit een nabij gezichtspunt? Hoewel MLLM's goed presteren op visueel redeneren, blijven ze kwetsbaar voor veranderingen in gezichtspunt, omdat pixelgewijze transformatie zeer gevoelig is voor kleine dieptefouten en vaak geometrische vervormingen introduceert. Voortbordurend op theorieën over mentale beeldvorming die structurele representaties op deel-niveau poneren als basis voor menselijke perspectiefverandering, onderzoeken we of beeldtokens in ViT-gebaseerde MLLM's dienen als een effectief substraat voor gezichtspuntwijzigingen. We vergelijken voorwaartse en achterwaartse transformatie, en concluderen dat achterwaartse token-transformatie, waarbij een dicht rooster op de doelweergave wordt gedefinieerd en voor elk roosterpunt een corresponderende token uit de bronweergave wordt opgehaald, een grotere stabiliteit bereikt en de semantische samenhang beter behoudt bij gezichtspuntverschuivingen. Experimenten op onze voorgestelde ViewBench-benchmark tonen aan dat transformatie op tokenniveau MLLM's in staat stelt betrouwbaar te redeneren vanuit nabije gezichtspunten, waarbij ze consistent alle baseline-methoden overtreffen, inclusief pixelgewijze transformatiebenaderingen, ruimtelijk afgestemde MLLM's en een generatieve transformatiemethode.

Agentic-MME: Wat brengt agentische capaciteit werkelijk bij aan multimodale intelligentie?
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Apr 3

ByQianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang

Multimodale Large Language Models (MLLMs) evolueren van passieve waarnemers naar actieve agenten, die problemen oplossen via Visuele Expansie (aanroepen van visuele tools) en Kennis Expansie (open-web zoekopdrachten). Bestaande evaluaties schieten echter tekort: ze missen flexibele toolintegratie, testen visuele en zoektools afzonderlijk, en evalueren primair op basis van eindantwoorden. Hierdoor kunnen ze niet verifiëren of tools daadwerkelijk werden aangeroepen, correct werden toegepast of efficiënt werden gebruikt. Om dit aan te pakken, introduceren wij Agentic-MME, een proces-geverifieerde benchmark voor Multimodale Agentische Capaciteiten. Deze bevat 418 real-world taken verspreid over 6 domeinen en 3 moeilijkheidsgraden om capaciteitssynergie te evalueren, met meer dan 2.000 stapsgewijze checkpoints die gemiddeld 10+ persoon-uren aan handmatige annotatie per taak vergen. Elke taak omvat een uniform evaluatieraamwerk dat sandboxed code en API's ondersteunt, naast een menselijke referentietraject geannoteerd met stapsgewijze checkpoints langs een dubbele as: de S-as en V-as. Om echte procesniveau-verificatie mogelijk te maken, auditen we fijnmazige tussenliggende staten in plaats van alleen eindantwoorden, en kwantificeren we efficiëntie via een overthinking-metric ten opzichte van menselijke trajecten. Experimentele resultaten tonen aan dat het beste model, Gemini3-pro, een algemene nauwkeurigheid van 56.3% behaalt, wat significant daalt naar 23.0% op Level-3 taken, wat de moeilijkheid van real-world multimodale agentische probleemoplossing onderstreept.

Test-Time Scaling Maakt Overtraining Compute-Optimaal
Test-Time Scaling Makes Overtraining Compute-Optimal

Apr 1

ByNicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala

Moderne LLM's schalen tijdens het testen, bijvoorbeeld via herhaalde steekproefname, waarbij de inferentiekosten toenemen met de modelgrootte en het aantal steekproeven. Dit creëert een afweging die voorafgaande schalingswetten, zoals Chinchilla, niet adresseren. Wij presenteren Train-to-Test (T^2) schalingswetten die modelgrootte, trainingsdata (tokens) en het aantal inferentiesteekproeven gezamenlijk optimaliseren binnen vaste end-to-end budgetten. T^2 moderniseert voorafgaande schalingswetten door pass@k-modellering te gebruiken voor testtijd-schaling, en optimaliseert vervolgens beslissingen over voorafgaande training en testtijd gezamenlijk. Voorspellingen van T^2 zijn robuust over verschillende modelleringsbenaderingen: ze meten het gezamenlijke schalingseffect op de taakverlies en modelleren de impact op de taaknauwkeurigheid. Over acht downstreamtaken stellen we vast dat, wanneer rekening wordt gehouden met inferentiekosten, optimale beslissingen voor voorafgaande training radicaal verschuiven naar het overtraind regime, ver buiten het bereik van standaard voorafgaande schalingssuites. We valideren onze resultaten door zwaar overtrainde modellen voor te trainen in het optimale gebied dat T^2-schaling voorspelt, en bevestigen hun aanzienlijk sterkere prestaties in vergelijking met alleen voorafgaande trainingsschaling. Ten slotte, omdat frontier-LLM's na-training ondergaan, tonen we aan dat onze bevindingen de na-trainingsfase overleven, waardoor T^2-schaling betekenisvol is in moderne implementaties.

Communiceren over Ruimte: Taal-gemedieerde Ruimtelijke Integratie over Gedeeltelijke Perspectieven
Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Mar 28

ByAnkur Sikarwar, Debangan Mishra, Sudarshan Nikhil, Ponnurangam Kumaraguru, Aishwarya Agrawal

Mensen ontwikkelen een gedeeld ruimtelijk begrip door het communiceren van partiële, gezichtspuntafhankelijke observaties. Wij onderzoeken of Multimodale Large Language Models (MLLM's) hetzelfde kunnen doen: verschillende egocentrische perspectieven uitlijnen via dialoog om een coherent, allocentrisch mentaal model van een gedeelde omgeving te vormen. Om dit systematisch te bestuderen, introduceren we COSMIC, een benchmark voor Collaboratieve Spatiale Communicatie. In deze setting observeren twee statische MLLM-agenten een 3D-binnenruimte vanuit verschillende gezichtspunten en wisselen ze natuurlijktaalberichten uit om ruimtelijke vragen op te lossen. COSMIC bevat 899 diverse scènes en 1250 vraag-antwoordparen verspreid over vijf taken. We ontdekken een consistente capaciteitshiërarchie: MLLM's zijn het meest betrouwbaar in het identificeren van gedeelde ankerobjecten tussen perspectieven, presteren slechter op relationeel redeneren, en falen grotendeels in het opbouwen van globaal consistente kaarten, waarbij de prestaties bijna op kansniveau liggen, zelfs voor de meest geavanceerde modellen. Bovendien constateren we dat denkvermogen consistente verbeteringen oplevert bij ankerplaatsbepaling, maar onvoldoende is voor ruimtelijke communicatie op hoger niveau. Om modelgedrag te contextualiseren, verzamelen we aanvullend 250 mens-mens dialogen. Mensen behalen een aggregate nauwkeurigheid van 95%, wat aanzienlijke verbeteringsruimte laat voor zelfs het best presterende model Gemini-3-Pro-Thinking, dat een aggregate nauwkeurigheid van 72% behaalt. Bovendien worden menselijke gesprekken steeds specifieker naarmate partners convergeren naar een gedeeld mentaal model, terwijl modeldialogen nieuwe mogelijkheden blijven verkennen in plaats van te convergeren, consistent met een beperkt vermogen om een robuust gedeeld mentaal model op te bouwen en te behouden. Onze code en data zijn beschikbaar op https://github.com/ankursikarwar/Cosmic.

InCoder-32B-Thinking: Industrieel Codewereldmodel voor Denkprocessen
InCoder-32B-Thinking: Industrial Code World Model for Thinking

Apr 3

ByJian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Tuney Zheng, Fanglin Xu, Weicheng Gu, Lin Jing, Yaxin Du, Joseph Li, Yizhi Li, Yan Xing, Chuan Hao, Ran Tao, Ruihao Gong, Aishan Liu, Zhoujun Li, Mingjie Tang, Chenghua Lin, Siheng Chen, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv

De ontwikkeling van industriële software op het gebied van chipontwerp, GPU-optimalisatie en ingebedde systemen kampt met een gebrek aan expert reasoning traces die laten zien hoe ingenieurs redeneren over hardwarebeperkingen en timing-semantiek. In dit werk stellen we InCoder-32B-Thinking voor, getraind op data van het Error-driven Chain-of-Thought (ECoT) syntheseframework met een industrieel codewereldmodel (ICWM) om redeneersporen te genereren. Concreet genereert ECoT redeneerketens door denkinhoud te synthetiseren uit meerluikgesprekken met omgevingsfeedback op fouten, waarbij het correctieproces expliciet wordt gemodelleerd. ICWM is getraind op domeinspecifieke uitvoeringssporen van Verilog-simulatie, GPU-profiling, enz., leert de causale dynamiek van hoe code hardwaregedrag beïnvloedt, en maakt zelfverificatie mogelijk door uitvoeringsresultaten te voorspellen vóór daadwerkelijke compilatie. Alle gesynthetiseerde redeneersporen worden gevalideerd via domeinspecifieke toolchains, waardoor trainingsdata ontstaat die overeenkomt met de natuurlijke redeneerdiepteverdeling van industriële taken. Evaluatie op 14 algemene (81,3% op LiveCodeBench v5) en 9 industriële benchmarks (84,0% op CAD-Coder en 38,0% op KernelBench) toont aan dat InCoder-32B-Thinking toonaangevende open-source resultaten behaalt in alle domeinen.

AgentSocialBench: Evaluatie van privacyrisico's in mensgerichte agentgestuurde sociale netwerken
AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Apr 1

ByPrince Zizhuang Wang, Shuli Jiang

Met de opkomst van gepersonaliseerde, persistente LLM-agentframeworks zoals OpenClaw worden mensgerichte, agent-gedreven sociale netwerken waarin teams van collaboratieve AI-agenten individuele gebruikers in een sociaal netwerk bedienen across meerdere domeinen, werkelijkheid. Deze setting creëert nieuwe privacyuitdagingen: agenten moeten coördineren over domeingrenzen heen, bemiddelen tussen mensen en interacteren met de agenten van andere gebruikers, allemaal terwijl ze gevoelige persoonlijke informatie moeten beschermen. Hoewel eerder werk multi-agentcoördinatie en privacybescherming heeft geëvalueerd, blijven de dynamiek en privacyrisico's van mensgerichte agent-gedreven sociale netwerken onontgonnen. Daartoe introduceren wij AgentSocialBench, de eerste benchmark om privacyrisico's in deze setting systematisch te evalueren, bestaande uit scenario's in zeven categorieën die dyadische en multi-party interacties omvatten, gegrond in realistische gebruikersprofielen met hiërarchische gevoeligheidsetiketten en gerichte sociale grafen. Onze experimenten tonen aan dat privacy in agent-gedreven sociale netwerken fundamenteel moeilijker is dan in single-agent settings: (1) coördinatie over domeinen en gebruikers heen creëert een aanhoudende druk op informatielekkage, zelfs wanneer agenten expliciet de instructie hebben om informatie te beschermen, (2) privacy-instructies die agenten leren gevoelige informatie te abstraheren, zorgen er paradoxaal genoeg voor dat ze er meer over discussiëren (wij noemen dit de abstractieparadox). Deze bevindingen onderstrepen dat huidige LLM-agenten robuuste mechanismen voor privacybescherming in mensgerichte agent-gedreven sociale netwerken missen, en dat nieuwe benaderingen beyond prompt engineering nodig zijn om door agenten bemiddelde sociale coördinatie veilig te maken voor inzet in de echte wereld.

Swift-SVD: Theoretisch Optimum ontmoet Praktische Efficiëntie in Low-Rank LLM-compressie
Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Apr 2

ByRuoling Qi, Yirui Liu, Xuaner Wu, Xiangyu Wang, Ming Li, Chen Chen, Jian Chen, Yin Chen, Qizhen Weng

De inzet van Large Language Models wordt beperkt door de geheugen- en bandbreedte-eisen van statische gewichten en dynamische Key-Value caches. Op SVD gebaseerde compressie biedt een hardwarevriendelijke oplossing om deze kosten te verlagen. Bestaande methoden hebben echter twee belangrijke beperkingen: sommige zijn suboptimaal wat betreft reconstructiefout, terwijl andere wel theoretisch optimaal zijn maar praktisch inefficiënt. In dit artikel stellen we Swift-SVD voor, een activatiebewust, gesloten compressieraamwerk dat gelijktijdig theoretisch optimum, praktische efficiëntie en numerieke stabiliteit garandeert. Swift-SVD aggregeert incrementeel de covariantie van outputactivaties voor een batch inputs en voert een enkele eigenwaardedecompositie uit na aggregatie, waardoor training-vrije, snelle en optimale laaggewijze laag-rang benadering mogelijk wordt. We gebruiken effectieve rang om de lokale laaggewijze comprimeerbaarheid te analyseren en ontwerpen een dynamische rangtoewijzingsstrategie die zowel rekening houdt met lokaal reconstructieverlies als end-to-end laagbelangrijkheid. Uitgebreide experimenten met zes LLM's en acht datasets tonen aan dat Swift-SVD state-of-the-art baseline-methoden overtreft, waarbij optimale compressienauwkeurigheid wordt bereikt en een 3-70x versnelling in end-to-end compressietijd wordt gerealiseerd. Onze code wordt vrijgegeven na acceptatie.

AgentHazard: Een Benchmark voor het Evalueren van Schadelijk Gedrag bij Computergebruikende Agentschappen
AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Apr 3

ByYunhao Feng, Yifan Ding, Yingshui Tan, Xingjun Ma, Yige Li, Yutao Wu, Yifeng Gao, Kun Zhai, Yanming Guo

Computer-use agents breiden taalmodellen uit van tekstgeneratie naar permanente actie op tools, bestanden en uitvoeringsomgevingen. In tegenstelling tot chatsystemen behouden ze de staat tussen interacties en vertalen ze tussentijdse uitkomsten naar concrete acties. Dit creëert een specifieke veiligheidsuitdaging, omdat schadelijk gedrag kan ontstaan via reeksen van afzonderlijk plausibele stappen, inclusief tussentijdse acties die lokaal acceptabel lijken maar gezamenlijk tot onbevoegde handelingen leiden. Wij presenteren AgentHazard, een benchmark voor het evalueren van schadelijk gedrag in computer-use agents. AgentHazard bevat 2.653 instanties die diverse risicocategorieën en aanvalsstrategieën bestrijken. Elke instantie koppelt een schadelijk doel aan een reeks operationele stappen die lokaal legitiem zijn, maar gezamenlijk onveilig gedrag veroorzaken. De benchmark evalueert of agents schade kunnen herkennen en onderbreken die voortvloeit uit geaccumuleerde context, herhaald toolgebruik, tussentijdse acties en afhankelijkheden tussen stappen. Wij evalueren AgentHazard op Claude Code, OpenClaw en IFlow met voornamelijk open of openbaar inzetbare modellen uit de Qwen3-, Kimi-, GLM- en DeepSeek-families. Onze experimentele resultaten tonen aan dat huidige systemen zeer kwetsbaar blijven. Met name wanneer aangedreven door Qwen3-Coder vertoont Claude Code een aanvalssuccespercentage van 73,63%, wat suggereert dat modelalignment alleen niet betrouwbaar de veiligheid van autonome agents garandeert.

Xpertbench: Expertniveau Taken met Beoordeling op Basis van Rubrics
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Mar 27

ByXue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

Naarmate grote taalmodellen (LLM's) een plafond bereiken in hun prestaties op conventionele benchmarks, blijft een cruciale uitdaging bestaan: het evalueren van hun bekwaamheid in complexe, open-eindige taken die kenmerkend zijn voor authentieke expertcognitie. Bestaande kaders lijden onder een smalle domeindekking, afhankelijkheid van generalistische taken, of zelfevaluatievooroordelen. Om deze kloof te overbruggen, presenteren wij XpertBench, een hoogfiduciteit benchmark die ontworpen is om LLM's te beoordelen across authentieke professionele domeinen. XpertBench bestaat uit 1.346 zorgvuldig samengestelde taken verdeeld over 80 categorieën, waaronder financiën, gezondheidszorg, juridische diensten, onderwijs en dubbelsporig onderzoek (STEM en geesteswetenschappen). Deze taken zijn afgeleid van meer dan 1.000 inzendingen door domeinexperts—inclusief onderzoekers van elite-instellingen en praktijkmensen met uitgebreide klinische of industriële ervaring—wat een superieure ecologische validiteit garandeert. Elke taak gebruikt gedetailleerde beoordelingsrubrics met overwegend 15-40 gewogen checkpoints om professionele nauwkeurigheid te beoordelen. Om schaalbare en toch menselijk-uitgelijnde beoordeling te vergemakkelijken, introduceren we ShotJudge, een nieuwe evaluatieparadigma dat gebruikmaakt van LLM-beoordelaars die zijn gekalibreerd met expert few-shot voorbeelden om zelfbelonende vooroordelen te mitigeren. Onze empirische evaluatie van state-of-the-art LLM's onthult een duidelijke prestatiegrens: zelfs toonaangevende modellen bereiken een maximaal slagingspercentage van slechts ~66%, met een gemiddelde score rond de 55%. Modellen vertonen ook domeinspecifieke divergentie, waarbij niet-overlappende sterke punten zichtbaar worden in kwantitatief redeneren versus linguïstische synthese. Deze bevindingen onderstrepen een significante "expertkloof" in huidige AI-systemen en vestigen XpertBench als een cruciaal instrument voor de transitie van algemene assistenten naar gespecialiseerde professionele collaborators.

VLMs Hebben Woorden Nodig: Vision Language Models Negeren Visueel Detail Ten Gunste van Semantische Ankers
VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Apr 2

ByHaz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong

Vision Language Models (VLMs) behalen indrukwekkende prestaties op een breed scala aan multimodale taken. Op sommige taken die een fijnmazige visuele waarneming vereisen, falen ze echter vaak, zelfs wanneer de benodigde informatie aanwezig is in hun interne representaties. In dit werk tonen we aan dat deze kloof ontstaat door hun smalle trainingspijplijn, die zich richt op het verplaatsen van visuele informatie naar de tekstuele ruimte. Hierdoor kunnen VLMs alleen redeneren over visuele entiteiten die kunnen worden gemapt naar bekende concepten in de taalkundige ruimte, waardoor visueel gerichte taken zoals visuele correspondentie en redeneren over nieuwe visuele entiteiten slecht worden ondersteund. Als gevolg daarvan zijn VLMs ernstig beperkt in verschillende belangrijke multimodale capaciteiten, omdat ze vertrouwen op broze, gehallucineerde tekstuele beschrijvingen van visuele entiteiten die ze niet kunnen mappen naar tekstuele representaties. We verifiëren dit gedrag via taken voor visuele correspondentie, waarbij VLMs overeenkomende entiteiten tussen twee afbeeldingen moeten detecteren. Testen over semantische, vorm- en gezichtscorrespondentietaken tonen aan dat VLMs veel beter presteren wanneer de relevante entiteiten een naam hebben in taal dan wanneer ze geen naam hebben. Mechanistisch bevestigen onze Logit Lens-analyses dat VLMs expliciet semantische labels toekennen aan naamloze entiteiten en meer unieke corresponderende tokens produceren in vergelijking met niet-naamloze entiteiten. Verder tonen we aan dat het aanleren van volledig willekeurige namen voor onbekende entiteiten de prestaties verbetert, maar dat taakspecifieke finetuning een nog sterkere generalisatie oplevert zonder afhankelijk te zijn van taalkundige prior kennis. Onze bevindingen suggereren dat de huidige mislukkingen van VLMs op visuele taken geleerde shortcuts uit hun training weerspiegelen, in plaats van een fundamentele beperking van multimodale architecturen.

Zout: Zelfconsistente Distributieafstemming met Cachebewuste Training voor Snelle Videogeneratie
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Apr 3

ByXingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang

Het distilleren van videogeneratiemodellen naar extreem lage inferentiebudgetten (bijv. 2-4 NFEs) is cruciaal voor real-time inzet, maar blijft een uitdaging. Traject-stijl consistentiedistillatie wordt vaak conservatief onder complexe videodynamiek, wat leidt tot een over-verzacht uiterlijk en zwakke beweging. Distributie-afstemmingsdistillatie (DMD) kan scherpe, modus-zoekende samples herstellen, maar de lokale trainingssignalen reguleren niet expliciet hoe denoiseringsupdates zich over tijdstappen samenstellen, waardoor samengestelde rollouts vatbaar zijn voor drift. Om deze uitdaging te overwinnen, stellen wij Zelf-Consistente Distributie-Afstemmingsdistillatie (SC-DMD) voor, die expliciet de eindpunt-consistente compositie van opeenvolgende denoiseringsupdates regulariseert. Voor real-time autoregressieve videogeneratie behandelen wij verder de KV-cache als een gekwalificeerde geparameteriseerde conditie en stellen Cache-Distributie-Bewuste training voor. Dit trainingsschema past SC-DMD toe over multi-step rollouts en introduceert een cache-geconditioneerd kenmerk-afstemmingsdoel dat lage-kwaliteit uitvoeren naar hoog-kwaliteit referenties stuurt. In uitgebreide experimenten op zowel niet-autoregressieve backbones (bijv. Wan~2.1) als autoregressieve real-time paradigma's (bijv. Self Forcing), verbetert onze methode, genaamd Salt, consistent de kwaliteit van lage-NFE videogeneratie, terwijl het compatibel blijft met diverse KV-cache geheugenmechanismen. Broncode zal worden vrijgegeven op https://github.com/XingtongGe/Salt.

CoME-VL: Schaalvergroting van Complementair Multi-Encoder Visie-Taal Leren
CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Apr 3

ByAnkan Deria, Komal Kumar, Xilin He, Imran Razzak, Hisham Cholakkal, Fahad Shahbaz Khan, Salman Khan

Recente vision-language modellen (VLM's) vertrouwen doorgaans op een enkele visuele encoder die is getraind met contrastieve beeld-tekstdoelstellingen, zoals CLIP-stijl pretraining. Hoewel contrastieve encoders effectief zijn voor cross-modale alignering en retrieval, vangen zelf-gesuperviseerde visuele encoders vaak rijkere, dense semantiek in en vertonen ze een sterkere robuustheid bij herkenning- en begripstaken. In dit werk onderzoeken we hoe de fusie van deze complementaire visuele representaties opgeschaald kan worden voor vision-language modellering. Wij stellen CoME-VL voor: Complementary Multi-Encoder Vision-Language, een modulair fusieraamwerk dat een contrastief getrainde visuele encoder integreert met een zelf-gesuperviseerde DINO-encoder. Onze aanpak voert fusie op representatieniveau uit door (i) entropie-geleide multi-layer aggregatie met orthogonaliteitsbeperkte projecties om redundantie te verminderen, en (ii) RoPE-verbeterde cross-attentie om heterogene tokenroosters uit te lijnen en compacte gefuseerde visuele tokens te produceren. De gefuseerde tokens kunnen met minimale aanpassingen aan standaard VLM-pipelines in een decoder-only LLM worden geïnjecteerd. Uitgebreide experimenten op diverse vision-language benchmarks tonen aan dat CoME-VL consistent beter presteert dan single-encoder basislijnen. Met name observeren we een gemiddelde verbetering van 4,9% op visuele begripstaken en 5,4% op groundingtaken. Onze methode behaalt state-of-the-art prestaties op RefCOCO voor detectie, terwijl deze de basislijn met een grote marge verbetert. Ten slotte voeren we ablatiestudies uit naar laagsamenvoeging, niet-redundante kenmerkvermenging en fusiecapaciteit om te evalueren hoe complementaire contrastieve en zelf-gesuperviseerde signalen de VLM-prestaties beïnvloeden.

Generaliseren Wereldactiemodellen Beter dan VLA's? Een Robuustheidsstudie
Do World Action Models Generalize Better than VLAs? A Robustness Study

Apr 1

ByZhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang

Robotactieplanning in de echte wereld is uitdagend, omdat het niet alleen vereist dat de huidige toestand van de omgeving wordt begrepen, maar ook dat wordt voorspeld hoe deze zal evolueren in reactie op acties. Vision-language-action (VLA)-modellen, die grootschalige vision-language-modellen hergebruiken voor het genereren van robotacties met behulp van actie-experts, hebben aanzienlijk succes geboekt bij diverse robottaken. Desalniettemin wordt hun prestatieniveau beperkt door de reikwijdte van hun trainingsdata, wat zich uit in beperkte generalisatie naar onbekende scenario's en kwetsbaarheid voor diverse contextuele verstoringen. Wereldmodellen zijn recentelijk opnieuw onderzocht als een alternatief voor VLA's. Deze modellen, wereldactiemodellen (WAMs) genoemd, zijn gebaseerd op wereldmodellen die zijn getraind op grote hoeveelheden videodata om toekomstige toestanden te voorspellen. Met kleine aanpassingen kan hun latente representatie worden gedecodeerd naar robotacties. Er wordt gesuggereerd dat hun expliciete dynamische voorspellingscapaciteit, gecombineerd met spatiotemporele voorkennis verkregen uit web-schaal videovoortraining, WAM's in staat stelt effectiever te generaliseren dan VLA's. In dit artikel voeren we een vergelijkende studie uit van prominente state-of-the-art VLA-beleidsmodellen en recent vrijgegeven WAM's. We evalueren hun prestaties op de LIBERO-Plus en RoboTwin 2.0-Plus benchmarks onder diverse visuele en taalkundige verstoringen. Onze resultaten tonen aan dat WAM's een sterke robuustheid bereiken, waarbij LingBot-VA een slagingspercentage van 74,2% haalt op RoboTwin 2.0-Plus en Cosmos-Policy 82,2% op LIBERO-Plus. Hoewel VLA's zoals π_{0,5} een vergelijkbare robuustheid kunnen bereiken bij bepaalde taken, vereisen zij typisch uitgebreide training met diverse robotdatasets en uiteenlopende leerdoelen. Hybride benaderingen die gedeeltelijk videogebaseerd dynamisch leren incorporeren, vertonen een intermediaire robuustheid, wat het belang benadrukt van hoe videovoor kennis wordt geïntegreerd.

Xpertbench: Expertniveau Taken met Beoordeling op Basis van Rubrics
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Mar 27