HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

38 papers found

STEP3-VL-10B Technisch Rapport
STEP3-VL-10B Technical Report

Jan 14

ByAilin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen, Zejia Weng, Ziyang Meng, Ang Li, Aobo Kong, Bo Dong, Changyi Wan, David Wang, Di Qi, Dingming Li, En Yu, Guopeng Li, Haiquan Yin, Han Zhou, Hanshan Zhang, Haolong Yan, Hebin Zhou, Hongbo Peng, Jiaran Zhang, Jiashu Lv, Jiayi Fu, Jie Cheng, Jie Zhou, Jisheng Yin, Jingjing Xie, Jingwei Wu, Jun Zhang, Junfeng Liu, Kaijun Tan, Kaiwen Yan, Liangyu Chen, Lina Chen, Mingliang Li, Qian Zhao, Quan Sun, Shaoliang Pang, Shengjie Fan, Shijie Shang, Siyuan Zhang, Tianhao You, Wei Ji, Wuxun Xie, Xiaobo Yang, Xiaojie Hou, Xiaoran Jiao, Xiaoxiao Ren, Xiangwen Kong, Xin Huang, Xin Wu, Xing Chen, Xinran Wang, Xuelin Zhang, Yana Wei, Yang Li, Yanming Xu, Yeqing Shen, Yuang Peng, Yue Peng, Yu Zhou, Yusheng Li, Yuxiang Yang, Yuyang Zhang, Zhe Xie, Zhewei Huang, Zhenyi Lu, Zhimin Fan, Zihui Cheng, Daxin Jiang, Qi Han, Xiangyu Zhang, Yibo Zhu, Zheng Ge

193

Wij presenteren STEP3-VL-10B, een lichtgewicht open-source foundationmodel dat is ontworpen om de afweging tussen compacte efficiëntie en grensverleggende multimodale intelligentie te herdefiniëren. STEP3-VL-10B is gerealiseerd door middel van twee strategische verschuivingen: ten eerste, een uniforme, volledig ontvroren pre-trainingsstrategie op 1,2T multimodale tokens die een taalkundig uitgelijnde Perception Encoder integreert met een Qwen3-8B-decoder om een intrinsieke visie-taal-synergie tot stand te brengen; en ten tweede, een geschaalde post-trainingpijplijn met meer dan 1k iteraties van reinforcement learning. Cruciaal is dat wij Parallel Coordinated Reasoning (PaCoRe) implementeren om de rekenkracht tijdens het testen op te schalen, waarbij middelen worden toegewezen aan schaalbare perceptuele redenering die diverse visuele hypotheses verkent en synthetiseert. Hierdoor rivaliseert of overtreft STEP3-VL-10B, ondanks zijn compacte omvang van 10B, modellen die 10 tot 20 keer groter zijn (bijv. GLM-4.6V-106B, Qwen3-VL-235B) en toonaangevende propriëtaire vlaggenschepen zoals Gemini 2.5 Pro en Seed-1.5-VL. Het levert toonaangevende prestaties met een score van 92,2% op MMBench en 80,11% op MMMU, en blinkt uit in complexe redenering met 94,43% op AIME2025 en 75,95% op MathVision. Wij geven de volledige modelsuite vrij om de gemeenschap een krachtige, efficiënte en reproduceerbare baseline te bieden.

Stedelijke Socio-Semantische Segmentatie met Vision-Language Redeneren
Urban Socio-Semantic Segmentation with Vision-Language Reasoning

Jan 15

ByYu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li

155

Als knooppunten van menselijke activiteit bestaan stedelijke oppervlakken uit een rijkdom aan semantische entiteiten. Het segmenteren van deze diverse entiteiten uit satellietbeelden is cruciaal voor een reeks downstream-toepassingen. Huidige geavanceerde segmentatiemodellen kunnen entiteiten gedefinieerd door fysieke attributen (bijvoorbeeld gebouwen, waterlichamen) betrouwbaar segmenteren, maar hebben nog steeds moeite met sociaal gedefinieerde categorieën (bijvoorbeeld scholen, parken). In dit werk bereiken we socio-semantische segmentatie door redenering met vision-language-modellen. Om dit te vergemakkelijken, introduceren we de Urban Socio-Semantic Segmentation-dataset genaamd SocioSeg, een nieuwe bron bestaande uit satellietbeelden, digitale kaarten en pixelgewijze labels van sociaal-semantische entiteiten, georganiseerd in een hiërarchische structuur. Daarnaast stellen we een nieuw vision-language-redeneerkader voor, genaamd SocioReasoner, dat het menselijke proces van identificeren en annoteren van sociaal-semantische entiteiten nabootst via cross-modale herkenning en meerfasenredenering. We gebruiken reinforcement learning om dit niet-differentieerbare proces te optimaliseren en de redeneercapaciteiten van het vision-language-model te activeren. Experimenten tonen de verbeteringen van onze aanpak ten opzichte van state-of-the-art modellen en sterke zero-shot-generalizatie aan. Onze dataset en code zijn beschikbaar op https://github.com/AMAP-ML/SocioReasoner.

Het Belonen van het Zeldzame: Uniekheidsbewuste Reinforcement Learning voor Creatief Probleemoplossen in LLM's
Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

Jan 13

ByZhiyuan Hu, Yucheng Wang, Yufei He, Jiaying Wu, Yilun Zhao, See-Kiong Ng, Cynthia Breazeal, Anh Tuan Luu, Hae Won Park, Bryan Hooi

146

Versterkend leren (RL) is een centraal paradigma geworden voor het na-trainen van grote taalmodellen (LLM's), met name voor complexe redeneertaken, maar het lijdt vaak onder verkenningscollaps: beleidsregels concentreren zich voortijdig op een kleine set dominante redeneerpatronen, wat de pass@1 verbetert maar de diversiteit op rollout-niveau en winst in pass@k beperkt. Wij stellen dat dit falen voortkomt uit het reguleren van lokaal token-gedrag in plaats van diversiteit over sets van oplossingen. Om dit aan te pakken, stellen wij Uniqueness-Aware Reinforcement Learning voor, een doelstelling op rollout-niveau die expliciet correcte oplossingen beloont die zeldzame hoog-niveau strategieën vertonen. Onze methode gebruikt een op een LLM gebaseerde beoordelaar om rollouts voor hetzelfde probleem te clusteren volgens hun hoog-niveau oplossingsstrategieën, waarbij oppervlakkige variaties worden genegeerd, en herweegt de beleidsvoordelen omgekeerd evenredig met de clustergrootte. Hierdoor ontvangen correcte maar nieuwe strategieën hogere beloningen dan redundante. Over benchmarks voor wiskundig, natuurkundig en medisch redeneren verbetert onze aanpak consistent de pass@k over grote steekproefbudgetten en verhoogt zij de oppervlakte onder de pass@k-curve (AUC@K) zonder in te leveren op pass@1, terwijl zij verkenning in stand houdt en meer diverse oplossingsstrategieën op schaal aan het licht brengt.

Collaboratieve Multi-Agent Test-Tijd Versterkingsleren voor Redeneren
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Jan 14

ByZhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park

Multi-agent systemen zijn geëvolueerd tot praktische, door LLM aangedreven samenwerkingspartners voor vele toepassingen, waarbij ze robuustheid verkrijgen door diversiteit en onderlinge controle. Echter, multi-agent RL (MARL) training is resource-intensief en instabiel: het co-adaptatieproces van teamleden veroorzaakt non-stationariteit, en beloningen zijn vaak schaars en hebben een hoge variantie. Daarom introduceren wij Multi-Agent Test-Time Reinforcement Learning (MATTRL), een raamwerk dat gestructureerde tekstuele ervaring injecteert in de beraadslaging van multi-agent systemen tijdens de inferentiefase. MATTRL vormt een multi-expertteam van specialisten voor meerronde discussies, haalt testtijd-ervaringen op en integreert deze, en bereikt consensus voor uiteindelijke besluitvorming. Wij bestuderen ook credit assignment voor het opbouwen van een ervaringspool op rondeniveau, om deze vervolgens opnieuw in de dialoog te injecteren. Over uitdagende benchmarks in de geneeskunde, wiskunde en onderwijs verbetert MATTRL de nauwkeurigheid met gemiddeld 3,67% ten opzichte van een multi-agent baseline, en met 8,67% ten opzichte van vergelijkbare single-agent baselines. Ablatiestudies onderzoeken verschillende credit-assignmentschema's en bieden een gedetailleerde vergelijking van hoe deze de trainingsresultaten beïnvloeden. MATTRL biedt een stabiel, effectief en efficiënt pad naar distributieverschuiving-robuuste multi-agent redenering zonder afstemming.

FlowAct-R1: Op weg naar interactieve humanoïde videogeneratie
FlowAct-R1: Towards Interactive Humanoid Video Generation

Jan 15

ByLizhen Wang, Yongming Zhu, Zhipeng Ge, Youwei Zheng, Longhao Zhang, Tianshu Hu, Shiyang Qin, Mingshuang Luo, Jiaxu Zhang, Xin Chen, Yulong Wang, Zerong Zheng, Jianwen Jiang, Chao Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao

Interactieve humanoïde videogeneratie heeft als doel levensechte visuele agenten te synthetiseren die via continue en responsieve video met mensen kunnen communiceren. Ondanks recente vooruitgang in videosynthese worstelen bestaande methoden vaak met de afweging tussen hoogwaardige synthese en de eisen voor realtime interactie. In dit artikel stellen we FlowAct-R1 voor, een raamwerk dat specifiek is ontworpen voor realtime interactieve humanoïde videogeneratie. Gebaseerd op een MMDiT-architectuur maakt FlowAct-R1 streamingsynthese van video met willekeurige duur mogelijk, terwijl een lage latentie-responsiviteit behouden blijft. We introduceren een chunkwise diffusie forcing-strategie, aangevuld met een nieuwe self-forcing-variant, om foutaccumulatie te verminderen en langdurige temporele consistentie tijdens continue interactie te garanderen. Door efficiënte distillatie en systeemniveau-optimalisaties te benutten, bereikt ons raamwerk een stabiele 25 fps bij 480p-resolutie met een time-to-first-frame (TTFF) van slechts ongeveer 1,5 seconde. De voorgestelde methode biedt holistische en fijnmazige volledige lichaamscontrole, waardoor de agent natuurlijk kan overgaan tussen diverse gedragstoestanden in interactieve scenario's. Experimentele resultaten tonen aan dat FlowAct-R1 uitzonderlijke gedragslevendigheid en perceptueel realisme bereikt, terwijl robuuste generalisatie over diverse karakterstijlen behouden blijft.

VIBE: Visuele Instructie Gebaseerde Editor
VIBE: Visual Instruction Based Editor

Jan 5

ByGrigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich

Instructiegestuurd beeldbewerking is een van de snelst ontwikkelende gebieden in generatieve AI. Het afgelopen jaar heeft het veld een nieuw niveau bereikt, met tientallen open-source modellen die zijn vrijgegeven naast zeer capabele commerciële systemen. Het aantal open-source benaderingen dat momenteel real-world kwaliteit bereikt, is echter beperkt. Daarnaast zijn diffusie-backbones, de dominante keuze voor deze pipelines, vaak groot en rekenkundig kostbaar voor veel implementaties en onderzoeksomgevingen, waarbij veelgebruikte varianten typisch 6B tot 20B parameters bevatten. Dit artikel presenteert een compacte, hoogdoorvoer instructiegestuurde beeldbewerkingspipeline die een modern 2B-parameter Qwen3-VL-model gebruikt om het bewerkingsproces te sturen en het 1.6B-parameter diffusiemodel Sana1.5 voor beeldgeneratie. Onze ontwerpbeslissingen op het gebied van architectuur, gegevensverwerking, trainingsconfiguratie en evaluatie richten zich op low-cost inferentie en strikte bronconsistentie, waarbij hoge kwaliteit wordt behouden across de belangrijkste bewerkingscategorieën die haalbaar zijn op deze schaal. Geëvalueerd op de ImgEdit- en GEdit-benchmarks, evenaart of overtreft de voorgestelde methode de prestaties van aanzienlijk zwaardere baselines, inclusief modellen met meerdere keren zoveel parameters en hogere inferentiekosten, en is bijzonder sterk bij bewerkingen die het behoud van de invoerafbeelding vereisen, zoals attribuutaanpassing, objectverwijdering, achtergrondbewerkingen en gerichte vervanging. Het model past binnen 24 GB GPU-geheugen en genereert bewerkte afbeeldingen met een resolutie tot 2K in ongeveer 4 seconden op een NVIDIA H100 in BF16, zonder aanvullende inferentie-optimalisaties of distillatie.

Voorbij statische tools: tool-evolutie tijdens het testen voor wetenschappelijk redeneren
Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

Jan 12

ByJiaxuan Lu, Ziyu Kong, Yemin Wang, Rong Fu, Haiyuan Wan, Cheng Yang, Wenjie Lou, Haoran Sun, Lilong Wang, Yankai Jiang, Xiaosong Wang, Xiao Sun, Dongzhan Zhou

De centrale uitdaging van AI voor de wetenschap is niet alleen redeneren, maar het vermogen om computationele methoden te creëren in een open-einde wetenschappelijke wereld. Bestaande op LLM gebaseerde agenten vertrouwen op statische, vooraf gedefinieerde toolbibliotheken, een paradigma dat fundamenteel tekortschiet in wetenschappelijke domeinen waar tools schaars, heterogeen en intrinsiek onvolledig zijn. In dit artikel stellen we Test-Time Tool Evolution (TTE) voor, een nieuw paradigma dat agenten in staat stelt om tijdens de inferentie uitvoerbare tools te synthetiseren, verifiëren en evolueren. Door tools te transformeren van vaste bronnen naar probleemgedreven artefacten, overwint TTE de rigiditeit en long-tail beperkingen van statische toolbibliotheken. Om rigoureuze evaluatie mogelijk te maken, introduceren we SciEvo, een benchmark bestaande uit 1.590 wetenschappelijke redeneertaken, ondersteund door 925 automatisch geëvolueerde tools. Uitgebreide experimenten tonen aan dat TTE state-of-the-art prestaties bereikt op zowel nauwkeurigheid als tool-efficiëntie, terwijl het effectieve cross-domein aanpassing van computationele tools mogelijk maakt. De code en benchmark zijn vrijgegeven op https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.

HeartMuLa: Een Familie van Open-Source Muziekfundatiemodellen
HeartMuLa: A Family of Open Sourced Music Foundation Models

Jan 15

ByDongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou

Wij presenteren een familie van open-source Music Foundation Models die zijn ontworpen om grootschalige muziekbegrip en -generatie voor diverse taken en modaliteiten te bevorderen. Ons raamwerk bestaat uit vier hoofdcomponenten: (1) HeartCLAP, een audio-tekst-uitlijningsmodel; (2) HeartTranscriptor, een robuust model voor tekstherkenning dat is geoptimaliseerd voor real-world muziekscenario's; en (3) HeartCodec, een muziekcodec-tokenizer met een laag frame-per-seconde (12,5 Hz) maar hoge geluidskwaliteit, die langetermijnmuziekstructuur vastlegt terwijl fijnmazige akoestische details behouden blijven en efficiënte autoregressieve modellering mogelijk wordt gemaakt; (4) HeartMuLa, een op een LLM gebaseerd liedgeneratiemodel dat in staat is om muziek van hoge kwaliteit te synthetiseren onder rijke, door de gebruiker aanstuurbare condities (bijv. tekstuele stijlbeschrijvingen, songteksten en referentie-audio). Daarnaast biedt het twee gespecialiseerde modi: (i) fijnmazige controle over muzikale attributen, waarmee gebruikers de stijl van verschillende liedsecties (bijv. intro, couplet, refrein) kunnen specificeren met behulp van natuurlijke taalprompts; en (ii) korte, boeiende muziekgeneratie, die geschikt is als achtergrondmuziek voor korte video's. Ten slotte verbetert HeartMuLa aanzienlijk wanneer het wordt opgeschaald naar 7B parameters. Voor het eerst tonen we aan dat een Suno-niveau, commercieel-kwaliteit systeem gereproduceerd kan worden met academische schaalgrootte aan data en GPU-bronnen. Wij verwachten dat deze foundation models zullen dienen als sterke uitgangspunten voor toekomstig onderzoek en zullen bijdragen aan praktische toepassingen in multimodale contentproductie.

Op Weg naar Ultra-Langetermijn Agent-gebaseerde Wetenschap: Cognitieve Accumulatie voor Machine Learning Engineering
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Jan 15

ByXinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen

De voortgang van kunstmatige intelligentie in de richting van agent-gebaseerde wetenschap wordt momenteel belemmerd door de uitdaging van ultra-langetermijnautonomie: het vermogen om strategische samenhang en iteratieve correctie te handhaven over experimentele cycli die dagen of weken beslaan. Hoewel Large Language Models (LLM's) bekwaamheid hebben getoond in kortetermijnredenering, raken ze snel overweldigd door uitvoeringsdetails in hoogdimensionale onderzoeksomgevingen met vertraagde feedback, waardoor ze niet in staat zijn schaarse feedback te consolideren tot samenhangende langetermijnrichtlijnen. Hier presenteren we ML-Master 2.0, een autonome agent die ultra-langetermijn machine learning engineering (MLE) beheerst – een representatieve microkosmos van wetenschappelijke ontdekking. Door contextmanagement te herformuleren als een proces van cognitieve accumulatie, introduceert onze aanpak Hierarchical Cognitive Caching (HCC), een gelaagde architectuur geïnspireerd op computersystemen die structurele differentiatie van ervaring over tijd mogelijk maakt. Door vluchtige uitvoeringstrajecten dynamisch te destilleren tot stabiele kennis en grensoverschrijdende wijsheid, stelt HCC agents in staat onmiddellijke uitvoering te ontkoppelen van langetermijnexperimentele strategie, waardoor de schaalbeperkingen van statische contextvensters effectief worden overwonnen. In evaluaties op OpenAI's MLE-Bench met een 24-uursbudget behaalt ML-Master 2.0 een state-of-the-art medaillescore van 56,44%. Onze bevindingen tonen aan dat ultra-langetermijnautonomie een schaalbaar blauwdruk biedt voor AI die in staat is tot autonome verkenning voorbij complexiteiten met menselijke precedenten.

DanQing：一个最新的大规模中文视觉语言预训练数据集
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Jan 15

ByHengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang

Vision-Language Pre-training (VLP)-modellen vertonen sterke prestaties in diverse downstreamtaken door middel van contrastieve voorafgaande training op grootschalige beeld-tekstparen. De beschikbaarheid van uitgebreide Engelstalige beeld-tekstdatasets (zoals COYO-700M en LAION-400M) heeft de wijdverspreide adoptie van modellen zoals CLIP en SigLIP mogelijk gemaakt voor taken zoals cross-modale retrievable en beeldonderschrijving. De vooruitgang van Chinese vision-language pretraining is echter aanzienlijk achtergebleven, voornamelijk door een gebrek aan hoogwaardige Chinese beeld-tekstgegevens. Om dit hiaat te dichten, ontwikkelden we een uitgebreide pijplijn voor de constructie van een hoogwaardige Chinese cross-modale dataset. Als resultaat presenteren we DanQing, een dataset met 100 miljoen beeld-tekstparen verzameld vanuit Common Crawl. In tegenstelling tot bestaande datasets is DanQing samengesteld via een strenger selectieproces, wat resulteert in superieure data kwaliteit. Bovendien is DanQing voornamelijk opgebouwd uit webgegevens van 2024-2025, waardoor modellen beter evoluerende semantische trends kunnen vastleggen en het zo een grotere praktische bruikbaarheid biedt. We vergelijken DanQing met bestaande datasets door continue pretraining van het SigLIP2-model. Experimentele resultaten tonen aan dat DanQing consistent superieure prestaties behaalt in een reeks Chinese downstreamtaken, inclusief zero-shot classificatie, cross-modale retrievable en evaluaties op basis van LMM's. Om verder onderzoek naar Chinese vision-language pretraining te faciliteren, zullen we de DanQing-dataset opensource beschikbaar stellen onder de Creative Commons CC-BY 4.0-licentie.

Overdracht van Transitieovereenkomst voor Snelle Videogeneratie
Transition Matching Distillation for Fast Video Generation

Jan 14

ByWeili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat

Grote videodiffusie- en flowmodellen hebben opmerkelijke successen geboekt in het genereren van hoogwaardige video's, maar hun toepassing in real-time interactieve toepassingen blijft beperkt vanwege hun inefficiënte multi-step samplingproces. In dit werk presenteren we Transition Matching Distillation (TMD), een nieuw raamwerk voor het destilleren van videodiffusiemodellen tot efficiënte few-step generatoren. Het centrale idee van TMD is om het multi-step denoising-traject van een diffusiemodel af te stemmen op een few-step waarschijnlijkheidsovergangsproces, waarbij elke overgang wordt gemodelleerd als een lichtgewicht conditionele flow. Om efficiënte distillatie mogelijk te maken, ontleden we de oorspronkelijke diffusie-backbone in twee componenten: (1) een hoofdbackbone, bestaande uit de meeste vroege lagen, die semantische representaties extraheert bij elke externe overgangsstap; en (2) een flow-head, bestaande uit de laatste paar lagen, die deze representaties benut om meerdere interne flow-updates uit te voeren. Gegeven een voorgetraind videodiffusiemodel, introduceren we eerst een flow-head in het model en passen we deze aan naar een conditionele flow-map. Vervolgens passen we distribution matching distillation toe op het studentenmodel met flow-head rollout in elke overgangsstap. Uitgebreide experimenten met het destilleren van Wan2.1 1.3B en 14B tekst-naar-videomodellen tonen aan dat TMD een flexibele en sterke afweging biedt tussen generatiesnelheid en visuele kwaliteit. In het bijzonder presteert TMD beter dan bestaande gedistilleerde modellen bij vergelijkbare inferentiekosten wat betreft visuele kwaliteit en promptnauwkeurigheid. Projectpagina: https://research.nvidia.com/labs/genair/tmd

CoF-T2I: Videomodellen als zuiver visuele redeneerders voor tekst-naar-beeldgeneratie
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

Jan 15

ByChengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang

Recente videogeneratiemodellen hebben het ontstaan van Chain-of-Frame (CoF)-redenering onthuld, wat visuele inferentie frame-voor-frame mogelijk maakt. Met deze capaciteit zijn videomodellen met succes toegepast op diverse visuele taken (bijvoorbeeld het oplossen van doolhoven, visuele puzzels). Hun potentieel om tekst-naar-beeld (T2I)-generatie te verbeteren, blijft echter grotendeels onontgonnen vanwege de afwezigheid van een duidelijk gedefinieerd startpunt voor visuele redenering en interpreteerbare tussenstadia in het T2I-generatieproces. Om deze kloof te overbruggen, stellen we CoF-T2I voor, een model dat CoF-redenering integreert in T2I-generatie via progressieve visuele verfijning, waarbij tussenliggende frames fungeren als expliciete redeneringsstappen en het laatste frame als output wordt genomen. Om een dergelijk expliciet generatieproces te creëren, hebben we CoF-Evol-Instruct samengesteld, een dataset van CoF-trajecten die het generatieproces van semantiek naar esthetiek modelleren. Om de kwaliteit verder te verbeteren en bewegingsartefacten te vermijden, maken we onafhankelijke codering per frame mogelijk. Experimenten tonen aan dat CoF-T2I de basis-videomodel significant overtreft en competitieve prestaties behaalt op uitdagende benchmarks, met een score van 0.86 op GenEval en 7.468 op Imagine-Bench. Deze resultaten wijzen op de aanzienlijke belofte van videomodellen voor het bevorderen van hoogwaardige tekst-naar-beeldgeneratie.

Alterbute: Het Bewerken van Intrinsieke Eigenschappen van Objecten in Afbeeldingen
Alterbute: Editing Intrinsic Attributes of Objects in Images

Jan 15

ByTal Reiss, Daniel Winter, Matan Cohen, Alex Rav-Acha, Yael Pritch, Ariel Shamir, Yedid Hoshen

Wij introduceren Alterbute, een op diffusie gebaseerde methode voor het bewerken van de intrinsieke eigenschappen van een object in een afbeelding. Wij maken het mogelijk om de kleur, textuur, materiaalsoort en zelfs de vorm van een object te veranderen, waarbij de waargenomen identiteit en de context van de scène behouden blijven. Bestaande benaderingen zijn ofwel afhankelijk van ongecontroleerde a priori kennis die vaak faalt in het behouden van de identiteit, of gebruiken een te restrictieve supervisie die betekenisvolle intrinsieke variaties verhindert. Onze methode steunt op: (i) een versoepeld trainingsdoel dat het model toestaat om zowel intrinsieke als extrinsieke eigenschappen te veranderen, geconditioneerd op een identiteitsreferentieafbeelding, een tekstuele prompt die de doel-intrinsieke eigenschappen beschrijft, en een achtergrondafbeelding en objectmasker die de extrinsieke context definiëren. Tijdens inferentie beperken we extrinsieke veranderingen door de originele achtergrond en het objectmasker opnieuw te gebruiken, waardoor wordt gegarandeerd dat alleen de gewenste intrinsieke eigenschappen worden gewijzigd; (ii) Visuele Genoemde Entiteiten (VNE's) - fijnmazige visuele identiteitscategorieën (bijvoorbeeld ''Porsche 911 Carrera'') die objecten groeperen die identiteitsbepalende kenmerken delen, maar wel variatie in intrinsieke eigenschappen toestaan. Wij gebruiken een vision-language-model om automatisch VNE-labels en beschrijvingen van intrinsieke eigenschappen te extraheren uit een grote openbare beelddataset, waardoor schaalbare, identiteitsbewakende supervisie mogelijk wordt. Alterbute overtreft bestaande methoden op het gebied van identiteitsbewarende bewerking van intrinsieke objecteigenschappen.

Denk-Dan-Genereer: Redeneerbewust Tekst-naar-Beeld Diffusie met LLM-Encoders
Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

Jan 15

BySiqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng

Recente vooruitgang in tekst-naar-beeld (T2I) diffusiemodellen (DM's) heeft hoogwaardige visuele synthese mogelijk gemaakt vanuit diverse tekstuele prompts. Toch zijn de meeste bestaande T2I DM's, zelfs die zijn uitgerust met tekstencoders op basis van grote taalmmodellen (LLM's), nog steeds tekst-pixel mappers – ze zetten LLM's slechts in als tekstencoders, zonder hun inherente redeneervermogen te benutten om af te leiden wat visueel weergegeven zou moeten worden gegeven de tekstuele prompt. Om verder te gaan dan dergelijke letterlijke generatie, stellen we het denk-dan-genereer (T2G) paradigma voor, waarbij de LLM-gebaseerde tekstencoder wordt aangemoedigd om te redeneren over en ruwe gebruikersprompts te herschrijven; de toestanden van de herschreven prompts dienen vervolgens als diffusie-conditionering. Om dit te bereiken, activeren we eerst het denk-dan-herschrijf patroon van de LLM-encoder met een lichtgewicht supervised fine-tuning proces. Vervolgens worden de LLM-encoder en de diffusie-backbone gezamenlijk geoptimaliseerd om een correcte redenering over de context en een accurate weergave van de semantiek te waarborgen via Dual-GRPO. In het bijzonder wordt de tekstencoder versterkt met op afbeeldingen gebaseerde beloningen om wereldkennis af te leiden en op te roepen, terwijl de diffusie-backbone wordt aangespoord om semantisch consistente en visueel coherente beelden te produceren. Experimenten tonen substantiële verbeteringen aan in feitelijke consistentie, semantische uitlijning en visuele realisme across redeneringsgebaseerde beeldgeneratie- en bewerkingsbenchmarks, met een score van 0.79 op de WISE-score, bijna gelijk aan GPT-4. Onze resultaten vormen een veelbelovende stap richting next-generation unified modellen met redeneer-, expressie- en demonstratiecapaciteiten.

Molmo2: Open Weights en Data voor Vision-Language Modellen met Videobegrip en Grounding
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Jan 15

ByChristopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna

De krachtigste video-taalmodellen (VLM's) van vandaag blijven propriëtair. De sterkste open-weight modellen zijn ofwel afhankelijk van synthetische data van propriëtaire VLM's (in feite een distillatie daarvan) of maken hun trainingsdata of -recept niet openbaar. Hierdoor ontbreekt het de open-sourcegemeenschap aan de fundamenten om verder te bouwen op de state-of-the-art video- (en beeld-)taalmodellen. Cruciaal is dat veel downstream-toepassingen meer vereisen dan alleen hoogwaardig videobegrip; ze vereisen grounding – hetzij door aanwijzing (pointing) hetzij door tracking in pixels. Zelfs propriëtaire modellen missen deze capaciteit. Wij presenteren Molmo2, een nieuwe familie VLM's die state-of-the-art zijn onder open-sourcemodellen en uitzonderlijke nieuwe capaciteiten demonstreren in point-driven grounding voor taken met enkele afbeeldingen, meerdere afbeeldingen en video. Onze belangrijkste bijdrage is een collectie van 7 nieuwe videodatasets en 2 multi-image datasets, waaronder een dataset met zeer gedetailleerde videobijschriften voor pre-training, een dataset met vrij-vorm video-vraag-en-antwoord voor fine-tuning, een nieuwe objecttracking-dataset met complexe queries, en een innovatieve nieuwe video-pointing dataset, allemaal verzameld zonder gebruik van gesloten VLM's. Wij presenteren ook een trainingsrecept voor deze data dat gebruikmaakt van een efficiënt packing- en message-tree-encodingsschema, en tonen aan dat bidirectionele aandacht op vision-tokens en een nieuwe token-weight-strategie de prestaties verbeteren. Ons beste 8B-model presteert beter dan anderen in de klasse van open-weight- en data-modellen op korte video's, tellen en bijschrijven, en is competitief op lange video's. Op het gebied van video-grounding presteert Molmo2 significant beter dan bestaande open-weight-modellen zoals Qwen3-VL (35.5 vs 29.6 nauwkeurigheid bij videotellen) en overtreft propriëtaire modellen zoals Gemini 3 Pro bij sommige taken (38.4 vs 20.0 F1 bij video-pointing en 56.2 vs 41.1 J&F bij video-tracking).

Action100M: Een grootschalige dataset voor video-acties
Action100M: A Large-scale Video Action Dataset

Jan 15

ByDelong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung

Het afleiden van fysieke handelingen uit visuele waarnemingen is een fundamentele capaciteit voor de vooruitgang van machine-intelligentie in de fysieke wereld. Het bereiken hiervan vereist grootschalige, open-vocabulary video-actiedatasets die een breed scala aan domeinen bestrijken. Wij introduceren Action100M, een grootschalige dataset samengesteld uit 1.2 miljoen instructievideo's van het internet (14.6 jaar aan totale duur), wat resulteert in O(100 miljoen) tijdelijk gelokaliseerde segmenten met open-vocabulary actiesupervisie en rijke bijschriften. Action100M wordt gegenereerd door een volledig geautomatiseerde pijplijn die (i) hiërarchische temporele segmentatie uitvoert met behulp van V-JEPA 2-embeddingen, (ii) meerniveau bijschriften voor frames en segmenten produceert, georganiseerd als een Tree-of-Captions, en (iii) bewijs aggregeert met een redeneermodel (GPT-OSS-120B) volgens een multi-round Self-Refine-procedure om gestructureerde annotaties uit te voeren (korte/gedetailleerde actie, actor, kort/gedetailleerd bijschrift). Het trainen van VL-JEPA op Action100M toont consistente verbeteringen door dataschaalvergroting en sterke zero-shot prestaties op diverse actieherkenningsbenchmarks, waarmee Action100M zich vestigt als een nieuwe basis voor schaalbare onderzoeken in videobegrip en wereldmodellering.

ToolSafe: Verbetering van Tool-aanroepveiligheid van LLM-gebaseerde agents via Proactieve Stapsgewijze Beveiliging en Feedback
ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Jan 15

ByYutao Mou, Zhangchi Xue, Lijun Li, Peiyang Liu, Shikun Zhang, Wei Ye, Jing Shao

Hoewel op LLM gebaseerde agenten kunnen interageren met omgevingen via het aanroepen van externe tools, vergroten hun uitgebreide capaciteiten ook de beveiligingsrisico's. Het realtime monitoren van toolaanroepgedrag op stapniveau en het proactief ingrijpen vóór onveilige uitvoering is cruciaal voor de inzet van agenten, maar blijft onderbelicht. In dit werk construeren we eerst TS-Bench, een nieuwe benchmark voor de detectie van toolaanroepveiligheid op stapniveau in LLM-agenten. Vervolgens ontwikkelen we een guardrail-model, TS-Guard, met behulp van multi-task reinforcement learning. Het model detecteert proactief onveilige toolaanroepacties vóór uitvoering door te redeneren over de interactiegeschiedenis. Het beoordeelt de schadelijkheid van verzoeken en actie-aanval-correlaties, en produceert interpreteerbare en generaliseerbare veiligheidsoordelen en feedback. Verder introduceren we TS-Flow, een guardrail-feedback-gestuurd redeneerkader voor LLM-agenten, dat schadelijke toolaanroepen van ReAct-stijl agenten met gemiddeld 65 procent vermindert en de voltooiing van goedaardige taken met ongeveer 10 procent verbetert onder prompt injection-aanvallen.

Veiligheidsrapport over GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro en Seedream 4.5
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

Jan 15

ByXingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang

De snelle evolutie van Large Language Models (LLM's) en Multimodale Large Language Models (MLLM's) heeft aanzienlijke vooruitgang opgeleverd in redeneervermogen, perceptie en generatieve capaciteiten binnen taal en visie. Of deze ontwikkelingen evenredige verbeteringen in veiligheid opleveren, blijft echter onduidelijk, deels door gefragmenteerde evaluatiepraktijken die beperkt zijn tot enkele modaliteiten of bedreigingsmodellen. In dit rapport presenteren we een geïntegreerde veiligheidsevaluatie van 7 frontiermodellen: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro en Seedream 4.5. We evalueren elk model in taal-, visie-taal- en beeldgeneratie-instellingen met een uniform protocol dat benchmarkevaluatie, adversariële evaluatie, meertalige evaluatie en compliance-evaluatie integreert. Door onze evaluaties samen te voegen in veiligheidsranglijsten en modelveiligheidsprofielen over meerdere evaluatiemodi ontstaat een sterk heterogeen veiligheidslandschap. Terwijl GPT-5.2 consistente, sterke en evenwichtige veiligheidsprestaties laat zien in alle evaluaties, vertonen andere modellen duidelijke afwegingen tussen benchmarkveiligheid, adversariële uitlijning, meertalige generalisatie en regelgevende naleving. Zowel taal- als visie-taalmodaliteiten vertonen aanzienlijke kwetsbaarheden onder adversariële evaluatie, waarbij alle modellen substantieel verslechteren ondanks sterke resultaten op standaardbenchmarks. Tekst-naar-beeldmodellen bereiken relatief sterkere uitlijning in gereguleerde visuele risicocategorieën, maar blijven broos onder adversariële of semantisch dubbelzinnige prompts. Al met al tonen deze resultaten aan dat veiligheid in frontiermodellen inherent multidimensionaal is – gevormd door modaliteit, taal en evaluatieschema. Dit onderstreept de noodzaak van gestandaardiseerde veiligheidsevaluaties om real-world risico's accuraat in te schatten en verantwoorde modelontwikkeling en -implementatie te begeleiden.

MatchTIR: Fijnmazig Toezicht voor Gereedschapsgeïntegreerd Redeneren via Bipartiete Matching
MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Jan 15

ByChangle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin

Tool-Integrated Reasoning (TIR) stelt grote taalmodelmodellen (LLM's) in staat om complexe taken aan te pakken door redeneerstappen af te wisselen met interacties via externe tools. Bestaande reinforcement learning-methoden vertrouwen echter doorgaans op beloningen op uitkomst- of trajectniveau, waarbij uniforme voordelen worden toegekend aan alle stappen binnen een traject. Deze grove toekenning van credits maakt geen onderscheid tussen effectieve toolaanroepen en overbodige of foutieve aanroepen, vooral niet in scenario's met een lange horizon en meerdere beurten. Om dit aan te pakken, stellen we MatchTIR voor, een raamwerk dat fijnmazige supervisie introduceert via op bipartiete matching gebaseerde toekenning van beurtniveau-beloningen en voordeelschatting op dubbel niveau. Concreet formuleren we de toekenning van credits als een bipartiet matchingprobleem tussen voorspelde en grond-waarheidstraces, waarbij we twee toekenningsstrategieën gebruiken om dichte beloningen op beurtniveau af te leiden. Verder introduceren we, om lokale stapprecisie te balanceren met globaal taaksucces, een voordeelschattingsschema op dubbel niveau dat signalen op beurtniveau en trajectniveau integreert, waarbij afzonderlijke voordeelwaarden worden toegekend aan individuele interactiebeurten. Uitgebreide experimenten op drie benchmarks tonen de superioriteit van MatchTIR aan. Opmerkelijk is dat ons 4B-model de meerderheid van de 8B-concurrenten overtreft, vooral in taken met een lange horizon en meerdere beurten. Onze code is beschikbaar op https://github.com/quchangle1/MatchTIR.

PACEvolve: Ondersteuning van Consistent Evolueren op Lange Termijn met Bewustzijn van Vooruitgang
PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution

Jan 15

ByMinghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Zhankui He, Noveen Sachdeva, Isabella Ye, Weili Wang, Chi Wang, Ed H. Chi, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang

Grote Taalmodellen (GTM'en) zijn naar voren gekomen als krachtige operatoren voor evolutionaire zoektochten, maar het ontwerp van efficiënte zoekscaffolds blijft ad hoc. Hoewel veelbelovend, ontbreekt het huidige GTM-in-de-lus-systemen aan een systematische aanpak voor het beheren van het evolutionaire proces. Wij identificeren drie verschillende faalmodi: Contextvervuiling, waarbij experimentgeschiedenis toekomstige kandidaatgeneratie bevooroordeelt; Modusinstorting, waarbij agenten stagneren in lokale minima door een slechte balans tussen exploratie en exploitatie; en Zwakke Samenwerking, waarbij rigide crossoverstrategieën er niet in slagen parallelle zoektrajecten effectief te benutten. Wij introduceren Progress-Aware Consistent Evolution (PACEvolve), een raamwerk ontworpen om de context en zoekdynamiek van de agent robuust te sturen, om deze uitdagingen aan te pakken. PACEvolve combineert hiërarchisch contextbeheer (HCM) met snoeien om contextvervuiling aan te pakken; momentumgebaseerd teruglopen (MBB) om lokale minima te ontsnappen; en een zelf-adaptieve bemonsteringspolicy die teruglopen en crossover verenigt voor dynamische zoekcoördinatie (CE), waardoor agenten interne verfijning kunnen balanceren met samenwerking tussen trajecten. Wij tonen aan dat PACEvolve een systematisch pad biedt naar consistente, langetermijn zelfverbetering, waarbij state-of-the-art resultaten worden behaald op LLM-SR en KernelBench, terwijl oplossingen worden ontdekt die het record op Modded NanoGPT overtreffen.

M^4olGen: Multi-Agent, Multi-Stadiaal Molecuulgeneratie onder Precieze Multi-Eigenschap Beperkingen
M^4olGen: Multi-Agent, Multi-Stage Molecular Generation under Precise Multi-Property Constraints

Jan 15

ByYizhan Li, Florence Cloutier, Sifan Wu, Ali Parviz, Boris Knyazev, Yan Zhang, Glen Berseth, Bang Liu

Het genereren van moleculen die voldoen aan precieze numerieke beperkingen voor meerdere fysisch-chemische eigenschappen is cruciaal en uitdagend. Hoewel grote taalmodellen (LLM's) expressief zijn, hebben ze moeite met precieze multi-objectieve controle en numeriek redeneren zonder externe structuur en feedback. Wij introduceren M olGen, een fragmentniveau, retrieval-augmented, tweestaps raamwerk voor molecuulgeneratie onder multi-eigenschap beperkingen. Fase I: Prototype-generatie: een multi-agent reasoner voert retrieval-verankerde, fragmentniveau bewerkingen uit om een kandidaat nabij het haalbare gebied te produceren. Fase II: RL-gebaseerde fijnmazige optimalisatie: een fragmentniveau optimizer getraind met Group Relative Policy Optimization (GRPO) past één- of multi-hop verfijningen toe om de eigenschapfouten expliciet te minimaliseren richting ons doel, terwijl de bewerkingscomplexiteit en afwijking van het prototype worden gereguleerd. Een grote, automatisch samengestelde dataset met redeneerketens van fragmentbewerkingen en gemeten eigenschapsdelta's ondersteunt beide fasen, waardoor deterministische, reproduceerbare supervisie en controleerbaar multi-hop redeneren mogelijk wordt. In tegenstelling tot eerder werk, redeneert ons raamwerk beter over moleculen door fragmenten te benutten en ondersteunt het controleerbare verfijning richting numerieke doelen. Experimenten met generatie onder twee sets eigenschapsbeperkingen (QED, LogP, Moleculair Gewicht en HOMO, LUMO) tonen consistente winsten in geldigheid en precieze voldoening aan multi-eigenschap doelen, waarbij sterke LLM's en op grafen gebaseerde algoritmen worden overtroffen.

TAG-MoE: Taakbewuste Poortwerking voor Verenigde Generatieve Mengsel-van-Experts
TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

Jan 12

ByYu Xu, Hongbin Yan, Juan Cao, Yiji Cheng, Tiankai Hang, Runze He, Zijin Yin, Shiyi Zhang, Yuxin Zhang, Jintao Li, Chunyu Wang, Qinglin Lu, Tong-Yee Lee, Fan Tang

Unified beeldgeneratie- en bewerkingsmodellen kampen met ernstige taakinterferentie in dense diffusion transformer-architecturen, waarbij een gedeelde parameterruimte een compromis moet sluiten tussen conflicterende doelstellingen (bijvoorbeeld lokale bewerking versus onderwerpgestuurde generatie). Hoewel het sparse Mixture-of-Experts (MoE) paradigma een veelbelovende oplossing is, blijven de gating-netwerken taakagnostisch; ze opereren op basis van lokale kenmerken en zijn zich niet bewust van globale taakintentie. Dit taakagnostische karakter verhindert zinvolle specialisatie en lost de onderliggende taakinterferentie niet op. In dit artikel stellen we een nieuw raamwerk voor om semantische intentie te injecteren in MoE-routing. We introduceren een Hiërarchisch Taaksemantisch Annotatieschema om gestructureerde taakdescriptoren (zoals reikwijdte, type, behoud) te creëren. Vervolgens ontwerpen we Predictive Alignment Regularization om interne routeringsbeslissingen af te stemmen op de hoogwaardige semantiek van de taak. Deze regularisatie transformeert het gating-netwerk van een taakagnostische uitvoerder naar een dispatchcentrum. Ons model vermindert taakinterferentie effectief, presteert beter dan dense baseline-modellen in termen van trouw en kwaliteit, en onze analyse toont aan dat experts van nature duidelijke en semantisch gecorreleerde specialisaties ontwikkelen.

Fysica-afstemming tijdens inferentie van videogeneratieve modellen met latente wereldmodellen
Inference-time Physics Alignment of Video Generative Models with Latent World Models

Jan 15

ByJianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

State-of-the-art videogeneratieve modellen produceren veelbelovende visuele inhoud, maar schenden vaak fundamentele natuurkundige principes, wat hun bruikbaarheid beperkt. Hoewel sommigen dit tekort toeschrijven aan een onvoldoende begrip van de natuurkunde door pre-training, stellen wij vast dat het gebrek aan fysische plausibiliteit ook voortkomt uit suboptimale inferentiestrategieën. Daarom introduceren wij WMReward en benaderen het verbeteren van de fysische plausibiliteit van videogeneratie als een aligneringsprobleem tijdens de inferentiefase. In het bijzonder maken wij gebruik van de sterke fysische prior van een latent wereldmodel (hier, VJEPA-2) als beloning om meerdere kandidaat-ontruisingspaden te doorzoeken en bij te sturen, waardoor het mogelijk wordt om rekenkracht tijdens de testfase op te schalen voor betere generatieprestaties. Empirisch gezien verbetert onze aanpak de fysische plausibiliteit aanzienlijk in beeld-gestuurde, multiframe-gestuurde en tekst-gestuurde generatie-instellingen, wat wordt bevestigd door een onderzoek naar menselijke voorkeur. Opmerkelijk is dat wij in de ICCV 2025 Perception Test PhysicsIQ Challenge een eindscore van 62,64% behaalden, de eerste plaats veroverden en de vorige state-of-the-art met 7,42% overtroffen. Ons werk toont de haalbaarheid aan van het gebruik van latente wereldmodellen om de fysische plausibiliteit van videogeneratie te verbeteren, los van deze specifieke instantiatie of parameterisering.

LSRIF: Logisch Gestructureerd Reinforcement Learning voor Instructievolging
LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

Jan 10

ByQingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu

Het correct opvolgen van instructies is cruciaal voor grote taalmodel(len), maar instructies in de praktijk bevatten vaak logische structuren zoals sequentiële afhankelijkheden en conditionele vertakkingen. Bestaande methoden construeren doorgaans datasets met parallelle beperkingen en optimaliseren gemiddelde beloningen, waarbij logische afhankelijkheden worden genegeerd en dit leidt tot ruis in de signaalverwerking. Wij stellen een logisch gestructureerd trainingsraamwerk voor, LSRIF, dat de logica van instructies expliciet modelleert. Eerst construeren we een dataset, LSRInstruct, met beperkingsstructuren zoals parallelle, sequentiële en conditionele typen. Vervolgens ontwerpen we een structuurbewuste beloningsmethode, LSRIF, die gemiddelde aggregatie voor parallelle structuren, fout-strafpropagatie voor sequentiële structuren en selectieve beloningen voor conditionele vertakkingen omvat. Experimenten tonen aan dat LSRIF significante verbeteringen oplevert in het opvolgen van instructies (binnen en buiten het domein) en in algemeen redeneren. Analyse toont aan dat leren met expliciete logische structuren parameterupdates in aandachtslagen teweegbrengt en de aandacht op tokenniveau voor beperkingen en logische operatoren verscherpt.

LaViT: Het Uitlijnen van Latente Visuele Denkprocessen voor Multimodaal Redeneren
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

Jan 15

ByLinquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung

Huidige multimodale latente redeneerprocessen zijn vaak afhankelijk van externe supervisie (bijvoorbeeld hulpafbeeldingen), waarbij de intrinsieke dynamiek van visuele aandacht wordt genegeerd. In dit werk identificeren we een kritieke *Perceptiekloof* in distillatie: studentmodellen bootsen vaak de tekstuele output van een leraarmodel na, terwijl ze zich richten op fundamenteel verschillende visuele regio's, waardoor ze effectief steunen op taalpriors in plaats van gegronde perceptie. Om deze kloof te overbruggen, stellen we LaViT voor, een raamwerk dat latente visuele gedachten uitlijnt in plaats van statische embeddings. LaViT dwingt het studentmodel om autoregressief de visuele semantiek en aandachttrajecten van de leraar te reconstrueren vóór tekstgeneratie, waarbij een curriculum *sensory gating*-mechanisme wordt ingezet om kortsluiting in het leerproces te voorkomen. Uitgebreide experimenten tonen aan dat LaViT de visuele verankering aanzienlijk verbetert, met verbeteringen tot +16,9% op complexe redeneertaken, en dat een compact 3B-model grotere open-source varianten en propriëtaire modellen zoals GPT-4o kan overtreffen.

RigMo: Vereniging van Rig- en Bewegingsleren voor Generatieve Animatie
RigMo: Unifying Rig and Motion Learning for Generative Animation

Jan 10

ByHao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou

Ondanks aanzienlijke vooruitgang in 4D-generatie, rigging en beweging, worden de kernstructurele en dynamische componenten van animatie doorgaans als afzonderlijke problemen gemodelleerd. Bestaande pijplijnen vertrouwen op grond-waarheid-skeletten en skinning-gewichten voor bewegingsoverdracht en behandelen auto-rigging als een onafhankelijk proces, wat de schaalbaarheid en interpreteerbaarheid ondermijnt. Wij presenteren RigMo, een verenigd generatief raamwerk dat rigging en beweging gezamenlijk leert direct uit ruwe mesh-reeksen, zonder enige door de mens verstrekte rig-annotaties. RigMo codeert vertex-specifieke vervormingen in twee compacte latente ruimten: een rig-latente ruimte die decodeert naar expliciete Gaussische botten en skinning-gewichten, en een beweging-latente ruimte die tijdsvariërende SE(3)-transformaties produceert. Samen definiëren deze uitvoer een animeerbare mesh met expliciete structuur en coherente beweging, wat voorwaartse inferentie van rigging en beweging voor vervormbare objecten mogelijk maakt. Naast het verenigd ontdekken van rigging en beweging, introduceren we een Motion-DiT-model dat opereert in RigMo's latente ruimte en tonen we aan dat deze structuurbewuste latente representaties op natuurlijke wijze downstreambewegingsgeneratietaken kunnen ondersteunen. Experimenten op DeformingThings4D, Objaverse-XL en TrueBones tonen aan dat RigMo vloeiende, interpreteerbare en fysisch plausibele rigs leert, terwijl het superieure reconstructie en generalisatie op categorieniveau bereikt in vergelijking met bestaande auto-rigging- en vervormingsbaselines. RigMo vestigt een nieuw paradigma voor verenigde, structuurbewuste en schaalbare dynamische 3D-modellering.

V-DPM: 4D-videoreconstructie met dynamische puntenkaarten
V-DPM: 4D Video Reconstruction with Dynamic Point Maps

Jan 14

ByEdgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi

Krachtige 3D-representaties zoals DUSt3R-invariante puntenkaarten, die 3D-vorm en cameraparameters coderen, hebben voorwaartse 3D-reconstructie aanzienlijk vooruitgeholpen. Hoewel puntenkaarten uitgaan van statische scènes, breiden Dynamic Point Maps (DPM's) dit concept uit naar dynamische 3D-inhoud door ook scènebeweging te representeren. Bestaande DPM's zijn echter beperkt tot beeldparen en vereisen, net als DUSt3R, nabewerking via optimalisatie wanneer meer dan twee viewpoints betrokken zijn. Wij beargumenteren dat DPM's nuttiger zijn wanneer ze op video's worden toegepast en introduceren V-DPM om dit aan te tonen. Ten eerste tonen we hoe DPM's voor video-input kunnen worden geformuleerd om de representatiekracht te maximaliseren, neurale voorspelling te vergemakkelijken en hergebruik van vooraf getrainde modellen mogelijk te maken. Ten tweede implementeren we deze ideeën bovenop VGGT, een recente en krachtige 3D-reconstructor. Hoewel VGGT werd getraind op statische scènes, tonen we aan dat een bescheiden hoeveelheid synthetische data voldoende is om het aan te passen tot een effectieve V-DPM-voorspeller. Onze aanpak behaalt state-of-the-art prestaties in 3D- en 4D-reconstructie voor dynamische scènes. In tegenstelling tot recente dynamische extensies van VGGT zoals P3, reconstrueren DPM's niet alleen dynamische diepte, maar ook de volledige 3D-beweging van elk punt in de scène.

EvasionBench: Detectie van Ontwijkende Antwoorden in Financiële Vraag-en-Antwoord via Multi-Model Consensus en LLM-als-Rechter
EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

Jan 14

ByShijian Ma, Yan Lin, Yi Yang

Het detecteren van ontwijkende antwoorden tijdens resultatenpresentaties is cruciaal voor financiële transparantie, maar de vooruitgang wordt belemmerd door het gebrek aan grootschalige benchmarks. Wij introduceren EvasionBench, bestaande uit 30.000 trainingsvoorbeelden en 1.000 door mensen geannoteerde testvoorbeelden (Cohen's Kappa 0.835) over drie ontwijkingsniveaus. Onze belangrijkste bijdrage is een multi-model annotatieraamwerk dat gebruikmaakt van een kerninzicht: onenigheid tussen geavanceerde LLM's signaleert moeilijke voorbeelden die het meest waardevol zijn voor training. We identificeren grensvoorbeelden waarbij twee sterke annotatoren van mening verschillen en gebruiken een scheidsrechter om de labels vast te stellen. Deze aanpak presteert 2,4 procent beter dan distillatie met een enkel model, waarbij de door de scheidsrechter vastgestelde voorbeelden de generalisatie verbeteren ondanks een hoger trainingsverlies (0.421 versus 0.393) - een aanwijzing dat het minen van onenigheid functioneert als impliciete regularisatie. Ons getrainde model Eva-4B (4 miljard parameters) behaalt een nauwkeurigheid van 81,3 procent, presteert 25 procentpunt beter dan zijn basismodel en benadert de prestaties van geavanceerde LLM's tegen een fractie van de inferentiekosten.

PRL: Procesbeloningsleren verbetert het redeneervermogen van LLM's en verruimt de redeneergrens
PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

Jan 15

ByJiarui Yao, Ruida Wang, Tong Zhang

Het verbeteren van de redeneervermogens van Large Language Models (LLM's) is recentelijk een voortdurend onderwerp van onderzoek geweest. De meeste relevante werken zijn echter gebaseerd op uitkomstbeloningen op trajectniveau, waarbij fijnmazige supervisie tijdens het redeneerproces ontbreekt. Andere bestaande trainingsframeworks die proberen proces-signalen te combineren om LLM's te optimaliseren, zijn ook sterk afhankelijk van omslachtige extra stappen zoals MCTS, het trainen van een apart beloningsmodel, enz., wat ten koste gaat van de trainings-efficiëntie. Bovendien ontbreekt er een rigoureuze theoretische onderbouwing voor de intuïtie achter het ontwerp van de proces-signalen, waardoor het optimalisatiemechanisme ondoorzichtig blijft. In dit artikel stellen we Process Reward Learning (PRL) voor, dat het entropie-geregulariseerde reinforcement learning-doel ontleedt in tussenstappen, met rigoureuze proces-beloningen die dienovereenkomstig aan modellen kunnen worden toegekend. Uitgaande van een theoretische motivatie, leiden we de formulering van PRL af die in essentie equivalent is aan het doel van beloningsmaximalisatie plus een KL-divergentie-strafterm tussen het beleidsmodel en een referentiemodel. PRL kan echter de uitkomstbeloning omzetten in proces-supervisiesignalen, wat helpt om de exploratie tijdens RL-optimalisatie beter te sturen. Onze experimentele resultaten tonen aan dat PRL niet alleen de gemiddelde prestaties voor het redeneervermogen van LLM's (gemeten door average @ n) verbetert, maar ook de redeneergrens verbreedt door de pass @ n-metriek te verbeteren. Uitgebreide experimenten tonen aan dat de effectiviteit van PRL kan worden geverifieerd en gegeneraliseerd.

Het Afleiden van Karakterlogica uit Verhaallijnen als Gecodificeerde Beslissingsbomen
Deriving Character Logic from Storyline as Codified Decision Trees

Jan 15

ByLetian Peng, Kun Zhou, Longfei Yun, Yupeng Hou, Jingbo Shang

Role-playing (RP)-agenten vertrouwen op gedragsprofielen om consistent te handelen in uiteenlopende narratieve contexten. Toch zijn bestaande profielem grotendeels ongestructureerd, niet-uitvoerbaar en zwak gevalideerd, wat leidt tot broos agentgedrag. Wij stellen Gecodificeerde Beslissingsbomen (Codified Decision Trees, CDT) voor, een data-gedreven raamwerk dat een uitvoerbare en interpreteerbare beslissingsstructuur induceert uit grootschalige narratieve data. CDT representeert gedragsprofielen als een boom van conditionele regels, waarbij interne knopen overeenkomen met gevalideerde scènevoorwaarden en bladeren gegronde gedragsverklaringen coderen. Dit maakt deterministische retrieval van contextgeschikte regels tijdens uitvoering mogelijk. De boom wordt geleerd door iteratief kandidaat-scène-actieregels te induceren, deze tegen data te valideren en ze te verfijnen door hiërarchische specialisatie. Dit levert profielen op die transparante inspectie en principiële updates ondersteunen. Op meerdere benchmarks presteert CDT aanzienlijk beter dan door mensen geschreven profielen en eerdere methoden voor profielinductie voor 85 personages uit 16 artefacten. Dit geeft aan dat gecodificeerde en gevalideerde gedragsrepresentaties leiden tot betrouwbaardere gronding van agenten.

Patiënt-gelijkende Cohort Redenering in Klinische Tekst-naar-SQL
Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL

Jan 14

ByYifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan

Text-naar-SQL in de klinische praktijk vereist redeneren over heterogene EHR-tabellen, temporele vensters en patiënt-gelijkende cohorten om uitvoerbare queries te produceren. Wij introduceren CLINSQL, een benchmark met 633 expert-geannoteerde taken op MIMIC-IV v3.1 die multi-tabel joins, klinisch betekenisvolle filters en uitvoerbare SQL vereisen. Het oplossen van CLINSQL vereist het navigeren door schema-metadata en klinische coderingssystemen, het verwerken van lange contexten en het samenstellen van meerstaps queries die verder gaan dan traditionele text-naar-SQL. Wij evalueren 22 propriëtaire en open-source modellen onder Chain-of-Thought zelf-verfijning en gebruiken rubriek-gebaseerde SQL-analyse met uitvoeringscontroles die kritieke klinische vereisten prioriteren. Ondanks recente vooruitgang blijft de prestaties ver verwijderd van klinische betrouwbaarheid: op de testset behaalt GPT-5-mini 74.7% uitvoeringsscore, DeepSeek-R1 leidt de open-source modellen met 69.2% en Gemini-2.5-Pro daalt van 85.5% op Makkelijk naar 67.2% op Moeilijk. Vooruitgang op CLINSQL markeert tastbare vorderingen richting klinisch betrouwbare text-naar-SQL voor real-world EHR-analyses.

Verbetering van Sentimentclassificatie en Ironiedetectie in Grote Taalmodellen door Geavanceerde Prompt Engineering-technieken
Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

Jan 13

ByMarvin Schmitt, Anne Schwerk, Sebastian Lempert

Dit onderzoek bestudeert het gebruik van promptengineering om grote taalmodellen (LLM's), specifiek GPT-4o-mini en gemini-1.5-flash, te verbeteren bij sentimentanalysetaken. Het evalueert geavanceerde promptingtechnieken zoals few-shot learning, chain-of-thought prompting en self-consistency tegen een baseline. Belangrijke taken omvatten sentimentclassificatie, aspectgebaseerde sentimentanalyse en het detecteren van subtiele nuances zoals ironie. Het onderzoek beschrijft de theoretische achtergrond, datasets en gebruikte methoden, en beoordeelt de prestaties van de LLM's gemeten aan de hand van nauwkeurigheid, recall, precisie en F1-score. De bevindingen tonen aan dat geavanceerde prompting de sentimentanalyse aanzienlijk verbetert, waarbij de few-shot-benadering uitblinkt in GPT-4o-mini en chain-of-thought prompting de ironiedetectie in gemini-1.5-flash met tot 46% verhoogt. Hoewel geavanceerde promptingtechnieken de prestaties over het algemeen verbeteren, suggereert het feit dat few-shot prompting het beste werkt voor GPT-4o-mini en chain-of-thought uitblinkt in gemini-1.5-flash voor ironiedetectie dat promptingstrategieën moeten worden afgestemd op zowel het model als de taak. Dit benadrukt het belang van het afstemmen van promptontwerp op zowel de architectuur van het LLM als de semantische complexiteit van de taak.

Vaardigheden van Agents in het Wild: Een Empirische Studie naar Beveiligingskwetsbaarheden op Grote Schaal
Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

Jan 15

ByYi Liu, Weizhe Wang, Ruitao Feng, Yao Zhang, Guangquan Xu, Gelei Deng, Yuekang Li, Leo Zhang

De opkomst van AI-agentframeworks heeft agent skills geïntroduceerd: modulaire pakketten met instructies en uitvoerbare code die de mogelijkheden van agents dynamisch uitbreiden. Hoewel deze architectuur krachtige aanpassing mogelijk maakt, worden skills uitgevoerd met impliciet vertrouwen en minimale controle, wat een significant maar nog niet gekarakteriseerd aanvalsoppervlak creëert. Wij voeren de eerste grootschalige empirische beveiligingsanalyse uit van dit opkomende ecosysteem, verzamelen 42.447 skills van twee grote marktplaatsen en analyseren er systematisch 31.132 met SkillScan, een multi-stagedetectieframework dat statische analyse integreert met op LLM gebaseerde semantische classificatie. Onze bevindingen onthullen alomtegenwoordige beveiligingsrisico's: 26,1% van de skills bevat ten minste één kwetsbaarheid, verspreid over 14 verschillende patronen in vier categorieën: prompt injection, data-exfiltratie, privilege escalation en supply chain-risico's. Data-exfiltratie (13,3%) en privilege escalation (11,8%) komen het meest voor, terwijl 5,2% van de skills patronen met hoge ernst vertoont die sterk op kwaadwillige intentie wijzen. Wij constateren dat skills die uitvoerbare scripts bundelen 2,12 keer meer kans hebben op kwetsbaarheden dan skills die alleen instructies bevatten (OR=2,12, p<0,001). Onze bijdragen omvatten: (1) een gefundeerde taxonomie van kwetsbaarheden afgeleid van 8.126 kwetsbare skills, (2) een gevalideerde detectiemethodologie met een precisie van 86,7% en een recall van 82,5%, en (3) een open dataset en detectietoolkit om toekomstig onderzoek te ondersteunen. Deze resultaten tonen een dringende behoefte aan op capaciteiten gebaseerde permissiesystemen en verplichte beveiligingscontroles voordat dit aanvalsvector verder wordt uitgebuit.

Kamelen Kunnen Ook Computers Gebruiken: Systeemniveau Beveiliging voor Computergebruik-Agenten
CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Jan 14

ByHanna Foerster, Robert Mullins, Tom Blanchard, Nicolas Papernot, Kristina Nikolić, Florian Tramèr, Ilia Shumailov, Cheng Zhang, Yiren Zhao

AI-agenten zijn kwetsbaar voor prompt injection-aanvallen, waarbij kwaadaardige inhoud het gedrag van de agent kaapt om credentials te stelen of financiële schade te veroorzaken. De enige bekende robuuste verdediging is architecturale isolatie die vertrouwde taakplanning strikt scheidt van niet-vertrouwde omgevingsobservaties. Het toepassen van dit ontwerp op Computer Use Agents (CUA's) – systemen die taken automatiseren door schermen te bekijken en acties uit te voeren – vormt echter een fundamentele uitdaging: huidige agenten vereisen continue observatie van de UI-toestand om elke actie te bepalen, wat in conflict komt met de voor beveiliging vereiste isolatie. Wij lossen deze spanning op door aan te tonen dat UI-workflows, hoewel dynamisch, structureel voorspelbaar zijn. Wij introduceren Single-Shot Planning voor CUA's, waarbij een vertrouwde planner een volledige uitvoeringsgraaf met conditionele vertakkingen genereert vóór enige observatie van mogelijk kwaadaardige inhoud. Dit biedt aantoonbare garanties voor control flow-integriteit tegen willekeurige instructie-injecties. Hoewel deze architecturale isolatie instructie-injecties succesvol voorkomt, tonen wij aan dat aanvullende maatregelen nodig zijn om Branch Steering-aanvallen te voorkomen, waarbij UI-elementen worden gemanipuleerd om onbedoelde geldige paden binnen het plan te activeren. Wij evalueren ons ontwerp op OSWorld en behouden tot 57% van de prestaties van frontier-modellen, terwijl de prestaties van kleinere open-sourcemodellen met tot 19% verbeteren. Dit demonstreert dat rigoureuze beveiliging en functionaliteit kunnen samenwerken in CUA's.

WildRayZer: Zelf-gesuperviseerde Synthese van Grote Beeldhoeken in Dynamische Omgevingen
WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

Jan 15

ByXuweiyi Chen, Wentao Zhou, Zezhou Cheng

Wij presenteren WildRayZer, een zelf-gesuperviseerd raamwerk voor novel view synthesis (NVS) in dynamische omgevingen waar zowel de camera als objecten bewegen. Dynamische inhoud verbreekt de multi-view consistentie waarop statische NVS-modellen vertrouwen, wat leidt tot ghosting, gehallucineerde geometrie en onstabiele pose-schatting. WildRayZer lost dit op door een analyse-door-synthese test uit te voeren: een statische renderer die alleen de camera beweegt, verklaart de rigide structuur, en de residuen daarvan onthullen transiënte regio's. Uit deze residuen construeren we pseudo-bewegingsmaskers, destilleren we een bewegingsschatter en gebruiken we deze om invoertokens te maskeren en verliesgradiënten te sturen, zodat supervisie zich richt op het aanvullen van de achtergrond over verschillende viewpoints heen. Om grootschalige training en evaluatie mogelijk te maken, stellen we Dynamic RealEstate10K (D-RE10K) samen, een real-world dataset met 15K informeel vastgelegde dynamische sequenties, en D-RE10K-iPhone, een gekoppelde benchmark met transiënte en schone beelden voor sparse-view, transiënt-bewuste NVS. Experimenten tonen aan dat WildRayZer met een enkele feed-forward pass consistent beter presteert dan op optimalisatie gebaseerde en feed-forward baseline-methoden, zowel in het verwijderen van transiënte regio's als in de kwaliteit van full-frame NVS.

VQ-Seg: Vector-gekwantiseerde Tokenperturbatie voor Semi-gestuurd Medisch Beeldsegmentatie
VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

Jan 15

BySicheng Yang, Zhaohu Xing, Lei Zhu

Consistentieleren met feature-perturbatie is een veelgebruikte strategie bij semi-gesuperviseerde medische beeldsegmentatie. Veel bestaande perturbatiemethoden zijn echter gebaseerd op dropout, waardoor een zorgvuldige handmatige afstemming van de dropout-rate nodig is – een gevoelige hyperparameter die vaak moeilijk te optimaliseren is en kan leiden tot suboptimale regularisatie. Om deze beperking te overwinnen, stellen we VQ-Seg voor, de eerste aanpak die vectorquantisatie (VQ) gebruikt om de feature-ruimte te discretiseren en een nieuwe, controleerbare Quantized Perturbation Module (QPM) introduceert die dropout vervangt. Onze QPM verstoort discrete representaties door de ruimtelijke posities van codeboek-indices te shuffelen, wat effectieve en controleerbare regularisatie mogelijk maakt. Om mogelijk informatieverlies door quantisatie tegen te gaan, ontwerpen we een dual-branch architectuur waarin de post-quantisatie-featureruimte gedeeld wordt door zowel beeldreconstructie- als segmentatietaken. Bovendien introduceren we een Post-VQ Feature Adapter (PFA) om begeleiding van een foundation model (FM) in te bouwen, zodat hoogwaardige semantische informatie die tijdens quantisatie verloren gaat, wordt aangevuld. Verzamelen we een grootschalige Longkanker (LC) dataset met 828 CT-scans geannoteerd voor centraal type longcarcinoom. Uitgebreide experimenten op de LC-dataset en andere publieke benchmarks tonen de effectiviteit van onze methode aan, die state-of-the-art benaderingen overtreft. Code beschikbaar op: https://github.com/script-Yang/VQ-Seg.

Demystificatie van het slash-patroon in aandacht: de rol van RoPE
Demystifying the Slash Pattern in Attention: The Role of RoPE

Jan 13

ByYuan Cheng, Fengzhuo Zhang, Yunlong Hou, Cunxiao Du, Chao Du, Tianyu Pang, Aixin Sun, Zhuoran Yang

Grote Taalmodellen (LLM's) vertonen vaak schuine-attentiepatronen, waarbij de aandachtsscores zich concentreren langs de Δ-de subdiagonaal voor een bepaalde offset Δ. Deze patronen spelen een cruciale rol bij het doorgeven van informatie tussen tokens. Maar waarom ontstaan ze? In dit artikel ontrafelen we het ontstaan van deze Schuin-Dominante Hoofden (SDH's) vanuit zowel empirisch als theoretisch perspectief. Ten eerste, door analyse van open-source LLM's, stellen we vast dat SDH's intrinsiek zijn aan de modellen en generaliseren naar prompts buiten de verdeling. Om het intrinsieke ontstaan te verklaren, analyseren we de queries, keys en Rotary Position Embedding (RoPE), die gezamenlijk de aandachtsscores bepalen. Onze empirische analyse onthult twee kenmerkende condities voor SDH's: (1) Queries en keys zijn bijna rang-één, en (2) RoPE wordt gedomineerd door midden- en hoogfrequente componenten. Onder deze condities zijn queries en keys nagenoeg identiek tussen tokens, en zorgen interacties tussen de midden- en hoogfrequente componenten van RoPE voor het ontstaan van SDH's. Naast empirisch bewijs tonen we theoretisch aan dat deze condities voldoende zijn om het ontstaan van SDH's te garanderen door ze te formaliseren als onze modelaannames. In het bijzonder analyseren we de traindynamiek van een ondiepe Transformer uitgerust met RoPE onder deze condities, en bewijzen we dat modellen getraind via gradient descent SDH's vertonen. De SDH's generaliseren naar prompts buiten de verdeling.

Geheugenbankcompressie voor continue aanpassing van grote taalmodel(len)
Memory Bank Compression for Continual Adaptation of Large Language Models

Jan 2

ByThomas Katraouras, Dimitrios Rafailidis

Grote Taalmodellen (GTM'en) zijn een vaste waarde geworden in veel alledaagse toepassingen. Naarmate gegevens zich echter ontwikkelen, raakt hun kennis snel verouderd. Continu leren heeft als doel GTM'en bij te werken met nieuwe informatie zonder eerder verworven kennis te wissen. Hoewel methoden zoals volledige *fine-tuning* nieuwe gegevens kunnen integreren, zijn ze rekenkundig kostbaar en gevoelig voor catastrofaal vergeten, waarbij eerdere kennis wordt overschreven. Geheugen-aangevulde benaderingen pakken dit aan door GTM'en uit te rusten met een geheugenbank, een externe geheugenmodule die informatie opslaat voor toekomstig gebruik. Deze methoden kampen echter met een kritische beperking: met name in een real-world scenario groeit de geheugenbank constant wanneer grootschalige gegevensstromen arriveren. In dit artikel stellen we MBC voor, een model dat de geheugenbank comprimeert via een *codebook*-optimalisatiestrategie tijdens online adaptatieleren. Om stabiel leren te garanderen, introduceren we ook een online reset-mechanisme dat *codebook*-collaps voorkomt. Daarnaast passen we Key-Value Low-Rank Adaptation toe in de aandachtslagen van het GTM, waardoor efficiënt gebruik van de gecomprimeerde geheugenrepresentaties mogelijk wordt. Experimenten met benchmark vraag-antwoorddatasets tonen aan dat MBC de grootte van de geheugenbank reduceert tot 0.3% in vergelijking met de meest competitieve baseline, terwijl een hoge retentie-accuraatheid tijdens online adaptatieleren behouden blijft. Onze code is openbaar beschikbaar op https://github.com/Thomkat/MBC.