HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

32 papers found

Zijn we klaar voor een agent-native geheugensysteem?
Are We Ready For An Agent-Native Memory System?

Jun 23

ByWei Zhou, Xuanhe Zhou, Shaokun Han, Hongming Xu, Guoliang Li, Zhiyu Li, Feiyu Xiong, Fan Wu

Geheugen voor grote taalmodellen (LLM)-agenten is snel geëvolueerd van eenvoudige retrieval-augmentatiemechanismen naar een datamanagementsysteem dat persistente informatieopslag, -opvraging, -update, -consolidatie en dynamisch levenscyclusbeheer gedurende agentuitvoering ondersteunt. Ondanks deze evolutie benchmarken bestaande evaluaties agentgeheugen nog steeds voornamelijk via eind-tot-eind taaksuccesmetrics (bijv. F1, BLEU), terwijl het onderliggende systeem als een monolithische zwarte doos wordt behandeld. Als gevolg hiervan blijven kritische systeemniveau-overwegingen, waaronder operationele kosten, architecturale afwegingen tussen geheugenmodules en robuustheid onder dynamische kennisupdates, onvoldoende onderzocht. In dit artikel presenteren we een systematische experimentele studie van agentgeheugen vanuit een datamanagementperspectief. We stellen een analytisch kader voor dat agentgeheugen ontleedt in vier kernmodules: geheugenrepresentatie en -opslag, extractie, opvraging en routing, en onderhoud. Binnen dit kader evalueren we 12 representatieve geheugensystemen en twee referentiebaselines over vijf benchmarkwerklasten die 11 datasets bestrijken. Onze uitgebreide eind-tot-eind evaluatie toont aan dat geen enkele architectuur in alle scenario's domineert; in plaats daarvan hangt de effectiviteit sterk af van hoe goed de geheugenstructuur aansluit bij de werklastflessenhals. Verder kwantificeren we via fijnmazige ablatiestudies hun individuele effecten op representatiegetrouwheid, opvraagprecisie, updatecorrectheid en stabiliteit op lange termijn. Tot slot onthullen we kosten-prestatie afwegingen onder realistische werklasten, waaruit blijkt dat gelokaliseerd onderhoud kostenefficiënter is dan globale reorganisatie. Op basis van deze bevindingen identificeren we veelbelovende richtingen voor het bouwen van echt agent-native geheugensystemen. De code is openbaar beschikbaar op https://github.com/OpenDataBox/MemoryData.

DomainShuttle: vrijvormige open-domein onderwerpgestuurde tekst-naar-video generatie
DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Jun 24

ByNan Chen, Yiyang Cai, Rongchang Xie, Junwen Pan, Cheng Chen, Weinan Jia, Zhuowei Chen, Wen Zhou, Zhenbang Sun, Wenhan Luo

Open-domein subject-gestuurde tekst-naar-video (S2V) generatie heeft aanzienlijke belangstelling getrokken in de academische wereld en de industrie. Open-domein S2V omvat hoofdzakelijk twee scenario's: binnen-domein, waarbij de kenmerken van het referentie-subject zoveel mogelijk behouden moeten blijven, en kruis-domein, waarbij de intrinsieke kenmerken van het subject behouden blijven maar niet-subject-gerelateerde eigenschappen flexibel kunnen variëren volgens de tekstprompt. Bestaande methoden richten zich voornamelijk op het maximaliseren van subject-getrouwheid in binnen-domein scenario's, wat hun bewerkbaarheid en aanpasbaarheid in kruis-domein scenario's, zoals nieuwe stijlen, semantische combinaties of domeinkenmerken, beperkt. In deze studie stellen we voor dat een ideale S2V-methode flexibel moet kunnen schakelen tussen verschillende domeinen, en sterke prestaties moet leveren in zowel binnen-domein als kruis-domein scenario's. Daartoe introduceren we DomainShuttle, dat hoge getrouwheid en generatieve flexibiliteit kan bereiken voor open-domein videopersonalisatie. Specifiek introduceren we Domain-MoT, dat video's en referentiekenmerken ontkoppelt en het domeinbewuste AdaLN introduceert voor domeinspecifieke modellering van referentieafbeeldingen. Vervolgens introduceren we het Video-Reference DualRoPE schema, dat referentieafbeeldingstokens en videotokens in afzonderlijke RoPE-ruimtes plaatst om nauwkeurige subject-niveau ruimtelijke modellering mogelijk te maken, en Cross-Pair Consistent Loss, dat gericht is op het extraheren van intrinsieke subjectkenmerken die niet worden beïnvloed door irrelevante kenmerken. Uitgebreide experimenten tonen aan dat DomainShuttle aanzienlijke prestatieverbeteringen behaalt ten opzichte van bestaande methoden, met een hoge subject-getrouwheid en generatieve flexibiliteit in uiteenlopende open-domein toepassingsscenario's.

Wan-Streamer v0.1: End-to-end real-time interactieve foundationmodellen
Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

Jun 23

ByLianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

We presenteren Wan-Streamer, een native-streaming, end-to-end interactief fundamentmodel dat vanaf de basis is ontworpen voor real-time, lage-latentie, full-duplex audio-visuele interactie. Wan-Streamer modelleert naadloos taal, audio en video als zowel input als output binnen één enkele Transformer, waarbij de sequentie wordt gerepresenteerd als afgewisselde visuele, audio- en tekstinputtokens samen met visuele, audio- en tekstoutputtokens, gecoördineerd door blok-causale aandacht voor incrementele streaming. In tegenstelling tot gecascadeerde interactieve systemen die vertrouwen op afzonderlijke VAD-, ASR-, taal-, TTS-, audio-gestuurde animatie- of videogeneratiemodules, vertrouwt Wan-Streamer niet op externe taal-, spraak-, avatar- of videogeneratiemodules: perceptie, redenering, generatie, reactietiming, gespreksbeheer en cross-modale synchronisatie worden gezamenlijk aangeleerd binnen één verenigd model, waardoor pijplijnlatentie en foutaccumulatie worden verminderd. Om natuurlijke audio-visuele responsiviteit te ondersteunen, herontwerpen we de gehele stack rondom streamability, met inbegrip van causale encoders, causale decoders, blok-causale aandacht en lage-latentie multimodale tokenplanning, waardoor streamingeenheden zo kort als 160 ms bij 25 fps mogelijk worden. Wan-Streamer bereikt een modelzijde responslatentie van ongeveer 200 ms en een totale interactielatentie van ongeveer 550 ms in combinatie met 350 ms bidirectionele netwerklatentie, waarmee subsecondes duplex audio-visuele communicatie wordt ondersteund. Deze resultaten positioneren Wan-Streamer als een verenigd, end-to-end, multimodaal interactief fundamentmodel voor laag-latentie streaming interactie.

ShutterMuse: Real-time fotografiebegeleiding met MLLM's
ShutterMuse: Capture-Time Photography Guidance with MLLMs

Jun 24

ByJiayu Li, Yixiao Fang, Tianyu Hu, Wei Cheng, Ping Huang, Zheheng Fan, Gang Yu, Xingjun Ma

Realistische fotografie vereist begeleiding tijdens het vastleggen voor zowel de camerakadrering als de houding van het onderwerp. Toch evalueren bestaande esthetische bijsnijdbenchmarks voornamelijk post-hoc bijsnijdvoorspellingen en zien ze aanbevelingen voor de onderwerpkant over het hoofd, waardoor de mogelijkheden van multimodale grote taalmodellen (MLLM's) voor begeleiding tijdens het vastleggen onderbelicht blijven. Om deze leemte aan te pakken introduceren we CaptureGuide-Bench, een benchmark met twee complementaire taken: compositiebeslissing en -verfijning aan de fotograafkant, en scène-afhankelijke pose-aanbeveling aan de onderwerpkant. Onze evaluatie toont beperkingen aan: algemeen bruikbare MLLM's kunnen compositiebeslissingen nemen, maar missen precieze verfijningslocalisatie, terwijl gespecialiseerde esthetische bijsnijdmodellen effectief bijsnijden lokaliseren, maar beperkt zijn tot verfijning; geen van beide biedt bruikbare pose-begeleiding. Ter ondersteuning van modelontwikkeling hebben we verder CaptureGuide-Dataset geconstrueerd, bestaande uit 130K monsters met tekstuele onderbouwing en gestructureerde visuele annotaties, en hebben we ShutterMuse ontwikkeld, een uniform MLLM getraind met begeleide en versterkingsverfijning. Experimenten op CaptureGuide-Bench tonen aan dat ShutterMuse de beste algehele prestatie aan de fotograafkant behaalt onder de geëvalueerde baselines en concurrerende pose-aanbeveling aan de onderwerpkant levert met aanzienlijk lagere inferentiekosten, wat het potentieel van MLLM's als interactieve assistenten voor fotografie tijdens het vastleggen aantoont.

Verbeterde Grote Taaldiffusiemodellen
Improved Large Language Diffusion Models

Jun 24

ByShen Nie, Qiyang Min, Shaoxuan Xu, Zihao Huang, Yuxuan Song, Yong Shan, Yankai Lin, Wayne Xin Zhao, Chongxuan Li, Ji-Rong Wen

Moderne grote taalmodellen worden overwegend getraind met autoregressieve factorisatie en causale aandacht. Wij presenteren iLLaDA, een 8B gemaskeerd diffusie-taalmodel dat volledig van scratch is getraind met volledig bidirectionele aandacht. iLLaDA behoudt de gemaskeerde diffusiedoelstelling gedurende pre-training en supervised fine-tuning (SFT), waarbij pre-training wordt opgeschaald naar 12T tokens en fine-tuning op een instructiecorpus van 25B tokens gedurende 12 epochs. Verder gebruiken we generatie met variabele lengte voor efficiëntie en introduceren we op vertrouwen gebaseerde scoring voor meerkeuzeevaluatie. Vergeleken met LLaDA presteert iLLaDA breed beter op algemene, wiskundige en code-benchmarks; bijvoorbeeld, iLLaDA-Base verbetert met 21.6 punten op BBH en 14.9 punten op ARC-Challenge, terwijl iLLaDA-Instruct verbetert met 14.5 punten op MATH en 16.5 punten op HumanEval. Ondanks de niet-autoregressieve training blijft iLLaDA ook concurrerend met Qwen2.5 7B op verschillende benchmarks. Deze resultaten tonen aan dat volledig bidirectionele diffusietraining vanaf scratch een concurrerende weg is naar sterke taalmodellen. Modelgewichten en codes: https://github.com/ML-GSAI/LLaDA.

Voorbij NL2Code: Een Gestructureerd Overzicht van Multimodale Code Intelligentie
Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

Jun 16

ByXuanle Zhao, Qiushi Sun, Jingyu Xiao, Xuexin Liu, Haoyue Yang, Qiaosheng Chen, Xianzhen Luo, Jing Huang, Yufeng Zhong, Lei Chen, Shuai Fu, Zhenlin Wei, Jinhe Bi, Lei Jiang, Haibo Qiu, Siqi Yang, Peng Shi, Jian Hu, Zhixiong Zeng

Hoewel Grote Taalmodellen (LLM's) de synthese van tekst naar code aanzienlijk hebben verbeterd, specificeren veel echte programmeertaken intentie via visuele artefacten zoals schermafbeeldingen, grafieken, vectortekeningen, video's en interactieve toestanden. Deze taken vereisen dat modellen visuele perceptie koppelen aan uitvoerbare programma's, omdat correctheid niet alleen afhangt van syntaxis, maar ook van lay-out, datasemantiek, interactiegedrag en domeinspecifieke beperkingen die na uitvoering van toepassing zijn. Dit overzicht onderzoekt Multimodale Code-Intelligentie en behandelt systemen die code genereren, bewerken, verfijnen of redeneren met visueel onderbouwde invoer en uitvoer. We formuleren het veld eerst aan de hand van de rol die code speelt in elke taak, waarbij we code onderscheiden als een gerenderd artefact, een bewerkbare symbolische structuur, een wetenschappelijke representatie, een tussentijds redeneerspoor, of een uitvoerbaar beleid of toolinterface. Vervolgens ordenen we benchmarks en methoden in vier domeinen: Grafische Gebruikersinterface, Wetenschappelijke Visualisatie, Gestructureerde Grafieken, en Grensverleggende Taken en Raamwerken. Deze taxonomie verbindt volwassen artefactgeneratieproblemen met opkomende agentische en geünificeerde omgevingen en stelt ons in staat te vergelijken hoe verschillende taken omgaan met bewijs van correctheid. Vooruitkijkend stellen we dat toekomstig onderzoek baat kan hebben bij vier verificatiegerichte richtingen. Multisignaalvalidatie kan complementair bewijs van correctheid combineren, multitoestandsverificatie kan gedrag over uitvoeringstrajecten testen, kruistaakoverdrachtstesten kunnen herbruikbare visueel-codevaardigheden onderzoeken, en verifieerbare agenttraces kunnen onthullen of agentacties zijn onderbouwd met visueel bewijs. Samen kunnen deze richtingen dit veld verplaatsen van éénuitvoerimitatie naar bewijsgebaseerde uitvoerbare systemen. Een lopend project en bronnen zijn beschikbaar op https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}.

MVTrack4Gen: multi-view punt tracking als geometrische supervisie voor 4D-videogeneratie
MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

Jun 24

ByJoungBin Lee, Jaewoo Jung, Jongmin Lee, Tongmin Kim, Hyunsung Kim, Takuya Narihira, Kazumi Fukuda, Jahyeok Koo, Jisang Han, Yuki Mitsufuji, Seungryong Kim

Het synthetiseren van een nieuw-perspectiefvideo vanuit een monoculaire referentievideo langs een doelcameratraject vereist zowel geometrische consistentie als bewegingsgetrouwheid ten opzichte van de referentievideo. Bestaande methoden die gebaseerd zijn op expliciete 3D-representaties worden beperkt door de nauwkeurigheid van kant-en-klare reconstructiemodules, die vaak onnauwkeurige geometrie produceren voor dynamische objecten in monoculaire video's. Daarentegen kunnen methoden die uitsluitend op cameraconditionering zijn gebaseerd een hoge visuele kwaliteit bereiken, maar hebben ze vaak moeite om geometrische en bewegingsconsistentie te behouden. In dit werk introduceren we MVTrack4Gen (Multi-View point Tracking for Novel-View Generation), een bewegingsbewust trainingsraamwerk dat multi-view punttracking gebruikt als een aanvullend geometrisch en bewegingssupervisiesignaal voor nieuw-perspectiefvideo-diffusiemodellen die uitsluitend op cameraconditionering zijn gebaseerd. Onze belangrijkste bevinding is dat specifieke attentielagen sterke correspondentie-aanwijzingen coderen, waarbij querykenmerken aandacht besteden aan sleutelkenmerken op geometrisch corresponderende locaties over aanzichten en over tijd, en dat de misalignatie van deze correspondenties bewegingsinconsistentie veroorzaakt. Op basis van deze observatie leiden we deze kenmerken naar een hulp-multi-view trackingkop en trainen we gezamenlijk het diffusiemodel met een punttrackingdoelstelling. Door deze bewegingsbewuste correspondenties expliciet te versterken, verbetert MVTrack4Gen bestaande modellen om de beweging in het referentieaanzicht beter te volgen en cross-view geometrische consistentie te behouden. Over diverse benchmarks heen bereikt onze methode state-of-the-art geometrische consistentie en concurrerende cameranauwkeurigheid.

V-Zero: Antwoordlabelvrije On-Policy Destillatie met Contrastieve Bewijspoort voor Fijnmazig Visueel Redeneren
V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning

Jun 24

ByHaoxiang Sun, Zhihang Yi, Langxuan Deng, Yuhao Zhou, Peiqi Jia, Jian Zhao, Li Yuan, Jiancheng Lv, Tao Wang

Fijnkorrelig visueel redeneren vereist dat multimodale grote taalmodellen (MLLM's) taakrelevante visuele aanwijzingen identificeren en hun redenering baseren op lokale beeldgebieden. Bestaande agentische methoden vertrouwen doorgaans op bekrachtigingsleren met verifieerbare beloningen of op gesuperviseerde fine-tuning op grootschalige geannoteerde redeneersporen, wat leidt tot kostbare verkenning, handmatig ontworpen verificatieregels of een sterke afhankelijkheid van tekstuele supervisie. Een natuurlijke manier om dergelijke externe antwoordlabels te vermijden, is door te leren van trajecten die door de student zelf zijn gesampled, wat verwijst naar On-Policy Distillation (OPD). Om te begrijpen wat OPD wel en niet kan bieden voor visueel redeneren, bekijken we het opnieuw als negatieve-vrije stop-gradient-uitlijning. Dit perspectief laat zien dat, hoewel OPD effectieve token-niveau correctie biedt, het plafond ervan wordt beperkt door het ontbreken van discriminatie op trajectniveau. Gedreven door deze observaties stellen we V-Zero voor, een antwoordlabelvrij raamwerk voor visueel redeneren met contrastieve bewijsselectie. V-Zero gebruikt geen geannoteerde tekstuele antwoordlabels; in plaats daarvan combineert het tijdens de training een vraagrelevante regionale uitsnede met een negatief visueel aanzicht om door de student gesamplede trajecten te evalueren en dichte token-niveau distillatie te sturen. Experimenten op meerdere visuele redeneerbenchmarks tonen aan dat V-Zero consistent fijnkorrelig visueel redeneren verbetert, terwijl sterke generalisatie behouden blijft. Opmerkelijk is dat V-Zero meer dan 5 keer sneller is dan eerdere gesuperviseerde fine-tuning methoden en meer dan 10 keer sneller dan bekrachtigingsleren baselines. Code en dataset worden gepubliceerd op https://github.com/eVI-group-SCU/V-Zero

UnityShots: Geheugengedreven Multi-Shot Audio-Video Generatie met Grensbewuste Gating
UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

Jun 19

ByJiehui Huang, Yuechen Zhang, Bin Xia, Jiahao Wang, Xu He, Zhenchao Tang, Meng Chu, Xin Tao, Pengfei Wan, Jiaya Jia

Het genereren van een coherente multi-shot video vereist een gestructureerd cross-shot geheugen. Het uiterlijk van het onderwerp, de scènecontext en de identiteit van de spreker moeten over cuts heen behouden blijven. Bestaande benaderingen trainen óf end-to-end over sequenties met vaste lengte, wat niet schaalbaar is, óf genereren shot-voor-shot met geheugenbanken die lineair groeien, óf orkestreren voorgetrainde generatoren onder een LLM-planner zonder een multi-shot-bewuste backbone. We presenteren UnityShots, een geheugengestuurd multi-shot audio-video generatiesysteem gebouwd op LTX-2.3, getraind op geannoteerde film- en muziekvideoshots. De videostream onderhoudt twee vaste geheugenslots: een langetermijngeheugenslot (LTM) verankerd aan het openingsshot en een kortetermijngeheugenslot (STM) met de direct voorafgaande staart, beide bij elke cut bijgewerkt door een grensvoorwaardegestuurde poort die visuele cut-kans en beat-tracker signalen combineert. De audiostream injecteert bij elk shot een referentiesprekertoken om de vocale timbre te behouden, zonder een verschuivende audiobank. Een discrete cut-type prior, geleerd via AdaLN, fungeert als een inferentie-tijdregelknop voor overgangssterkte. We brengen een benchmark uit van 200 multiculturele multi-shot sequenties uit zes etnische regio's en tien of meer talen, met per-shot referentie-identiteiten, referentieaudio en per-grens transitielabels. Geëvalueerd over I2V-, T2V- en R2V-conditioneringsmodi verslaat UnityShots open-source baselines op elke cross-shot coherentiemetriek en evenaart het sterkste closed-source systeem op de multi-shot assen.

Causal-rCM: Een verenigd open recept voor teacher-forcing en self-forcing voor autoregressieve diffusiedestillatie in streaming videogeneratie en interactieve wereldmodellen
Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive World Models

Jun 24

ByKaiwen Zheng, Guande He, Min Zhao, Jintao Zhang, Huayu Chen, Jianfei Chen, Chen-Hsuan Lin, Ming-Yu Liu, Jun Zhu, Qianli Ma

Autoregressieve videodiffusie met causale diffusietransformers is naar voren gekomen als een belangrijk paradigma voor real-time streaming videogeneratie en actie-geconditioneerde interactieve wereldmodellen. In dit werk breiden we rCM, een geavanceerd raamwerk voor diffusiedestillatie, uit naar autoregressieve videodiffusie. De kernfilosofie van rCM ligt in de complementariteit tussen voorwaartse en achterwaartse divergentie, respectievelijk vertegenwoordigd door consistentiemodellen (CMs) en distributiematchingdestillatie (DMD), in diffusiedestillatie. Deze filosofie gaat van nature over naar de autoregressieve setting, waar teacher-forcing (TF) een offline, voorwaartse divergentie causaal trainingsparadigma biedt, terwijl self-forcing (SF) overeenkomt met een on-policy, achterwaartse divergentieverfijning. Onze bijdragen zijn: (1) door uitgebreide experimenten tonen we aan dat teacher-forcing CM momenteel de beste aanvulling is op self-forcing DMD als initialisatiestrategie; (2) we presenteren de eerste implementatie van op teacher-forcing gebaseerde continue-tijd CMs (bijv. sCM/MeanFlow) voor autoregressieve videodiffusie, mogelijk gemaakt door onze op maat gemaakte FlashAttention-2 JVP kernel, die een 10 keer snellere convergentie bereikt in vergelijking met discrete-tijd CMs (dCMs); (3) we introduceren Causal-rCM, een toonaangevend, uniform en schaalbaar algoritme-infrastructuur open recept voor diffusiedestillatie en causale training; (4) we bereiken state-of-the-art prestaties in streaming videogeneratie, zowel in frame-gewijze als chunk-gewijze instellingen, waarbij we alleen synthetische data gebruiken voor training. Opmerkelijk is dat ons gedestilleerde 2-staps causale Wan2.1-1.3B model een VBench-T2V score van 84,63 behaalt met slechts 1 of 2 samplingstappen. We passen Causal-rCM verder toe op Cosmos 3, een geavanceerd omnimodaal wereldfundamentmodel voor fysieke AI met actie-geconditioneerde generatiecapaciteit, waarmee een interactief wereldmodel mogelijk wordt.

IV-CoT: Impliciete Visuele Chain-of-Thought voor Structuurbewuste Tekst-naar-Afbeelding Generatie
IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation

Jun 23

ByZixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun

Unified multi-modale grote taalmodellen (MLLMs) hebben een sterke kwaliteit in tekst-naar-beeld generatie bereikt, maar worstelen nog steeds met structuurbewuste promptvolging, waarbij objectaantallen, ruimtelijke relaties, attribuutbindingen en grove layout behouden moeten blijven. Wij schrijven deze beperking gedeeltelijk toe aan de verstrengeling van structurele planning en uiterlijkweergave binnen een enkele conditioneringsstroom. Om dit probleem aan te pakken, stellen we Implicit Visual Chain-of-Thought (IV-CoT) voor, een latent visueel redeneerframework voor query-geconditioneerde beeldgeneratie. IV-CoT ontleedt de visuele conditioneringsqueries in een structurele-naar-semantische cascade, waarbij structurele queries eerst een latent visueel plan vormen en semantische queries vervolgens uiterlijk weergeven, geconditioneerd op dit plan. Om de structurele queries te begeleiden, introduceren we alleen-trainings schets supervisie, die hen aanmoedigt om structuur uit schetsen vast te leggen zonder dat schetsextractie of tussentijdse decodering nodig is tijdens inferentie. IV-CoT voert impliciete CoT-redenering uit in een enkele voorwaartse doorgang en behaalt superieure resultaten op GenEval en T2I-CompBench. Visualisaties en analyses tonen aan dat de geleerde structurele en semantische queries complementaire rollen spelen in structuurbewuste generatie.

EBench: Elementaire Diagnose van Generalistisch Mobiel Manipulatiebeleid
EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

Jun 20

ByNing Gao, Jinliang Zheng, Xing Gao, Haoxiang Ma, Hanqing Wang, Yukai Wang, Jiantong Chen, Zanxin Chen, Shujie Zhang, Mingda Jia, Xuekun Jiang, Zihou Zhu, Xinyu Li, Shuai Wang, Hao Li, Wenzhe Cai, Yuqiang Yang, Xudong Xu, Zhaoyang Lyu, Yao Mu, Tai Wang, Jiangmiao Pang, Jia Zeng, Weinan Zhang, Chunhua Shen

We presenteren EBench, een simulatiebenchmark die generalistische mobiele manipulatiebeleidsstrategieën diagnosticeert voorbij een enkele succespercentagescalair. EBench omvat 26 diverse en uitdagende manipulatie taken die zijn geannoteerd langs 5 capaciteitsdimensies en 4 generalisatiedimensies. We evalueren state-of-the-art generalistische manipulatiemodellen, waaronder π_0, π_{0.5}, XVLA en InternVLA-A1, en onthullen dat modellen met vergelijkbare succespercentages opvallend verschillende capaciteitsprofielen vertonen: π_{0.5} behaalt het hoogste testsuccespercentage en de beste train-test retentie, terwijl InternVLA-A1 domineert in mobiele manipulatie maar faalt bij behendigheidstaken, en XVLA sterke punten vertoont in een disjuncte set van atomaire vaardigheden vergeleken met andere beleidsvormen. Naast capaciteitsprofilering analyseert EBench het generalisatievermogen vanuit 4 representatieve perspectieven, waarbij de impact van verschillende distributieverschuivingsfactoren wordt geïdentificeerd. De resultaten onthullen sterke en zwakke punten van modellen achter een algemene score. We hopen dat deze benchmark een brede set diagnostische signalen biedt om iteratie op generalistische manipulatiemodellen te begeleiden.

De Hitchhiker's Guide naar Agentische AI: Van fundamenten tot systemen
The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

Jun 22

ByHaggai Roitman

De Lifter's Gids voor Agentische AI is een uitgebreid naslagwerk voor praktijkmensen die autonome AI-systemen willen bouwen. Het boek behandelt de volledige stapeling van basisprincipes tot productie-implementatie, georganiseerd rond een centrale stelling: het bouwen van goede agentische systemen vereist inzicht in elke laag van de pijplijn, niet slechts één. Het boek opent met het LLM-substraat – transformatorarchitectuur, GPU-systemen, training en finetuning (SFT, LoRA, MoE), modelcompressie en inferentieoptimalisatie – behandeld als essentiële fundamenten in plaats van het primaire focuspunt. Vervolgens wordt de laag van afstemming en redenering ontwikkeld: versterkend leren van menselijke feedback (RLHF), PPO, DPO en zijn varianten, GRPO, beloningsmodellering en RL voor grote redeneermodellen, inclusief chain-of-thought en test-tijdsschaling. De tweede helft is gewijd aan agentische AI als zodanig. Onderwerpen zijn onder meer agentische training en trajectgebaseerd RL, retrieval-verrijkte generatie (RAG en Agentische RAG), geheugensystemen (in-context, extern, episodisch en semantisch), ontwerp van agentharnassen en contextbeheer, en een taxonomie van agentontwerppatronen. Inter-agentcoördinatie wordt diepgaand behandeld: het Model Context Protocol (MCP), agentvaardigheden en toolgebruik, het Agent-naar-Agent (A2A)-communicatieprotocol, en multi-agentarchitecturen die centrale, gedecentraliseerde en hiërarchische topologieën omvatten. Het boek sluit af met agentontwikkelingsframeworks, agentische UI-ontwerp, evaluatiemethodologie voor agentische taken en productie-implementatie. Elk hoofdstuk combineert rigoureuze theoretische fundamenten met implementatierichtlijnen, codevoorbeelden en verwijzingen naar de primaire literatuur.

Licht kijken, zwaar denken: Wat multimodale chain-of-thought redeneren wel en niet kan
Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

Jun 21

ByZhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Chain-of-Thought (CoT) is een standaardmethode geworden om de redeneervaardigheden van grote taalmodellen (LLM's) te verbeteren door stapsgewijs denken uit te lokken, maar de effectiviteit ervan bij multimodale taken blijft onduidelijk. In dit artikel streven we ernaar om de belangrijkste vraag systematisch te onderzoeken: Wat kan multimodale Chain-of-Thought-redenering doen, en waar en waarom schiet het tekort? Daartoe evalueren we 12 multimodale taken uit de categorieën perceptie en redeneren, waarbij we zowel 14 niet-redenerende modellen als 8 redenerende modellen gebruiken. Onze analyse onthult verschillende belangrijke bevindingen: (1) CoT is geen gratis lunch en moet selectief worden gebruikt, afhankelijk van de specifieke vereisten van elke taak. Bij perceptietaken kan CoT leiden tot ongewenste bijwerkingen, zoals verminderde prestaties bij visuele grounding en objecttelling. Daarentegen blijkt het effectief voor redeneertaken waarbij wiskundig, wetenschappelijk en multi-image redeneren betrokken is; (2) In vergelijking met originele modellen leveren bestaande open-source multimodale redeneermodellen vaak slechts marginale algemene verbeteringen op, mogelijk als gevolg van een te grote nadruk op wiskundig redeneren ten koste van bredere capaciteiten; (3) Visueel redeneren blijft een belangrijk knelpunt voor huidige multimodale CoT, omdat modellen een 'Look Light, Think Heavy'-patroon vertonen waarbij verbale reflectie tijdens het redeneren stijgt en daalt, terwijl visuele reflectie consistent afneemt. Deze bevindingen suggereren dat multimodale CoT verbale reflectie relatief goed aankan, maar niet in staat is om diepgaande visuele introspectie gedurende het hele redeneerproces te behouden.

Autodata: Een agentische datawetenschapper voor het creëren van hoogwaardige synthetische data.
Autodata: An agentic data scientist to create high quality synthetic data

Jun 24

ByIlia Kulikov, Chenxi Whitehouse, Tianhao Wu, Yixin Nie, Swarnadeep Saha, Eryk Helenowski, Weizhe Yuan, Olga Golovneva, Jack Lanchantin, Yoram Bachrach, Jakob Foerster, Xian Li, Han Fang, Sainbayar Sukhbaatar, Jason Weston

We introduceren Autodata, een algemene methode die AI-agenten in staat stelt om als datawetenschappers op te treden die hoogwaardige trainings- en evaluatiedata creëren. We laten zien hoe we zo'n datawetenschapper-agent kunnen trainen (meta-optimaliseren), zodat deze leert om nog sterkere data te genereren. We beschrijven de algemene formulering en een specifieke praktische implementatie, Agentic Self-Instruct. We voeren experimenten uit op taken in computerwetenschappelijk onderzoek, juridische redeneertaken en redeneren met wiskundige objecten, waarbij we verbeterde resultaten behalen in vergelijking met klassieke methoden voor het creëren van synthetische datasets. Bovendien levert het meta-optimaliseren van de datawetenschapper-agent zelf een nog grotere prestatieverbetering op. Agentische datacreatie biedt een manier om toegenomen inferentierekenkracht om te zetten in training van hogere kwaliteit. Al met al geloven we dat deze richting de potentie heeft om de manier waarop we AI-data bouwen te veranderen.

TryOnCrafter: het benutten van cameratrajecten voor realistisch virtueel passen in video via een renderbare 4D-pasproxy
TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy

Jun 24

ByHao Sun, Hao Yan, Mengting Chen, Quanjian Song, Yu Li, Juan Cao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Sheng Tang

Hoewel Video Virtueel Passen (VVT) opmerkelijke vooruitgang heeft geboekt in het synthetiseren van realistische kledingoverlays op dynamische personen, blijven bestaande paradigma's fundamenteel beperkt door een passieve afhankelijkheid van broncameratrajecten, die niet voldoen aan de vereiste interactieve vrijheid voor omnidirectionele gezichtspuntexploratie. Om deze beperking aan te pakken, definiëren we een grensverleggend onderzoeksfrontier: Camera-gestuurde Video Virtueel Passen (CaM-VVT). In tegenstelling tot conventionele VVT vereist CaM-VVT niet alleen gezichtspunt-agnostische texturenhallucinatie, maar ook strikte structurele synchronisatie tussen niet-starre menselijke dynamiek en achtergrondcontexten onder willekeurige, onbeperkte camerabewegingen. Om deze uitdagingen aan te gaan, presenteren we TryOnCrafter, het eerste uniforme DiT-gebaseerde raamwerk dat specifiek is ontworpen voor de CaM-VVT-taak. Afwijkend van impliciete pixelruimte-manipulatie introduceren we een weergavebare 4D Pas-proxy die het menselijke subject expliciet loskoppelt van de omgeving. Dit wordt bereikt door hifi 2D-pas-prioriteiten te destilleren in een geklede 3DGS-gebaseerde avatar, die vervolgens wordt geanimeerd via SMPL-X-reeksen en metrische uitlijning in een gereconstrueerde achtergrondpuntenwolk. Deze proxy legt een robuuste structurele basis met superieure textuurdichtheid en bewegingsintegriteit. Onze Proxy-verankerde Video DiT gebruikt deze robuuste structurele basis als een primair geometrisch anker, waardoor wordt verzekerd dat de gesynthetiseerde fotorealistische video's strikt worden beperkt door voorgeschreven trajecten en fysiek plausibele vervormingen. Profiterend van de inherente bewerkbaarheid van de 4D-proxy, faciliteert TryOnCrafter diverse downstream-toepassingen, waaronder herlokalisatie van de mens, 'bullet time'-effecten en 360-graden orbitale weergave.

Vooruitgang in WordArt-georiënteerde scène-tekstherkenning: datasets en methoden
Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods

Jun 23

ByXingsong Ye, Yongkun Du, Jiaxin Zhang, Haojie Zhang, Chong Sun, Chen Li, Jing Lyu, Zhineng Chen

WordArt (artistieke tekst) kenmerkt zich door zeer aangepaste lettertypen, texturen en lay-outs, waardoor WordArt-gerichte scènetekstherkenning (WATER) aanzienlijk uitdagender is dan algemene scènetekstherkenning (STR). Bestaande STR-datasets en -methoden, die doorgaans zijn gebouwd rond reguliere scènetekst en invoer met vaste sjablonen, kunnen moeilijk opschalen naar WATER. Daarom streven we ernaar deze taak te verbeteren vanuit zowel data- als modelperspectief. Aan de datakant construeren we een synthetische dataset van 2M, WATER-S, waarvan de schaal honderden keren groter is dan bestaande artistieke tekstgegevens. WATER-S bestaat uit twee complementaire subsets. Eén gerenderd door een verbeterde renderingpijplijn (SynthWordArt), die zeer nauwkeurige en controleerbare synthetische WordArt-gegevens levert. De andere wordt gegenereerd door Qwen3-VL te combineren voor promptmining en Z-Image voor beeldsynthese, wat de dekking van realistische en diverse gegevens verbetert. Aan de modelkant stellen we WATERec voor. Het maakt gebruik van een visuele encoder die invoer met willekeurige vormen ondersteunt en een autoregressieve decoder om complexe lay-outs te modelleren, waardoor structureel de bottleneck van vaste-sjabloon STR op WordArt wordt doorbroken. Experimenten tonen aan dat deze architectuur eerdere STR-methoden overtreft en state-of-the-art prestaties levert op onregelmatige teksten zoals WordArt. Samen met WATER-R, zorgvuldig gereorganiseerd uit bestaande echte STR-gegevens, bereikt onze sterke basislijn met de nieuwe synthetische gegevens en modelontwerp 90,40% nauwkeurigheid op WordArt-Bench, waarmee zowel algemene als OCR-gespecialiseerde visie-taalmodelen met een ruime marge worden overtroffen. Code en gegevens zijn beschikbaar op https://github.com/YesianRohn/WATER.

ReNIO: Herweging van het belang van negatieve trajecten voor on-policy destillatie van LLM's
ReNIO: Reweighting Negative Trajectory Importance for LLM On-Policy Distillation

Jun 22

ByChen Lin, Kedi Chen, Wei Zhang

On-policy distillatie (OPD) verbetert het redeneren van grote taalmodellen (LLM's) door een studentmodel te trainen op zijn eigen gegenereerde outputs, maar standaard OPD behandelt alle door de student gegenereerde outputs (SGO's) gelijk, ongeacht hun informatief gehalte. We observeren een consistente asymmetrie in gecontroleerde filterexperimenten: zowel bij OPD als bij on-policy zelfdistillatie (OPSD) presteert training alleen op incorrecte SGO's beter dan training alleen op correcte. Onze verdere analyse suggereert dat modellen getraind op alleen correcte SGO's de neiging hebben kortere redeneersporen te genereren en zwakker reflectiegedrag vertonen, terwijl incorrecte SGO's beter exploratief redeneren nabij de grenzen van het modelvermogen behouden. Om dit signaal te benutten zonder volledige antwoordbevattende rollouts nodig te hebben, introduceren we ReNIO, dat het belang van negatieve trajecten herweegt voor on-policy distillatie van LLM's. Door gebruik te maken van de student-leraar waarschijnlijkheidsratio identificeert ReNIO cruciale tokens die leiden tot foutieve redeneersporen en aggregeert hun informatie in een genormaliseerd samplegewicht, waarbij inherent grotere gewichten worden toegekend aan waarschijnlijk negatieve trajecten zonder de correctheid van het uiteindelijke antwoord te observeren. Aangezien ReNIO alleen prefix-geconditioneerde tokenwaarschijnlijkheden gebruikt, behoudt het het prefixtrainingsvoordeel van OPD ten opzichte van volledige-rollout reinforcement learning. Zowel bij wiskundige redeneertaken als codegeneratietaken verbetert ReNIO zowel OPD als OPSD, met representatieve relatieve winsten tot 8.90% voor Qwen3-1.7B en 10.00% voor R1-Distill-Qwen-7B op wiskundige redeneerbenchmarks. Code repository: https://github.com/BDML-lab/ReNIO.

RL-Index: Reinforcement Learning voor Retrieval Index Redeneren
RL-Index: Reinforcement Learning for Retrieval Index Reasoning

Jun 15

ByYongjia Lei, Nedim Lipka, Zhisheng Qi, Utkarsh Sahu, Koustava Goswami, Franck Dernoncourt, Ryan A. Rossi, Yu Wang

Het ophalen van externe kennis is essentieel voor het oplossen van realistische taken, maar blijft uitdagend wanneer de relatie tussen een query en de relevante kennis verder gaat dan oppervlakkige semantische of lexicale matching (bijvoorbeeld wiskundige problemen die afhankelijk zijn van dezelfde stelling of codeerwerk die diepgaand redeneren vereist). Bestaande benaderingen zijn voornamelijk gebaseerd op redenering aan de query-zijde (bijv. herschrijven van queries), wat aanzienlijke online latentie introduceert en de mogelijkheid onderbenut om over de kennisverzameling zelf te redeneren (d.w.z. index-zijde redenering). In dit artikel stellen we RL-Index voor, een agentisch indexeringsraamwerk dat redenering in de retrieval-index als een versterkend leerprobleem formuleert. In plaats van redenering op het moment van de query uit te voeren, verplaatst RL-Index de redenering naar de indexeringsfase door documenten aan te vullen met LLM-gegenereerde redeneringen die de latente query-kennisrelatie expliciet coderen. Om de kwaliteit van deze redeneringen te optimaliseren, gebruiken we Group Relative Policy Optimization (GRPO) en retrieval-similariteit als een verifieerbaar beloningssignaal, waardoor directe optimalisatie van indexeringsbeslissingen voor retrieval-effectiviteit mogelijk wordt. Uitgebreide experimenten op de BRIGHT-benchmark tonen aan dat RL-Index zowel de retrieval-prestaties als de prestaties van downstream vraagbeantwoording consequent verbetert, terwijl de online inferentie-latentie aanzienlijk wordt verminderd. Bovendien generaliseert de geleerde redeneringsaanvulling over diverse retrievers en generatoren, wat de robuustheid ervan als een plug-and-play-indexeringsstrategie over verschillende retrievalsystemen benadrukt.

CAVEWOMAN: Hoe Grote Taalmodellen Zich Gedragen Bij Linguïstische Invoer- en Uitvoercompressie
CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression

Jun 23

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

"Praat kort. Laat grammatica vallen. Bespaar tokens." Deze holbewoner-stijl wordt breed gepromoot als een manier om inferentiekosten te verlagen, maar of het daadwerkelijk iets bespaart, hangt af van welk kanaal (de prompt van de gebruiker of de respons van het model) wordt gecomprimeerd. We presenteren Cavewoman, een twee-kanaals evaluatieprotocol dat elke generatie beoordeelt op taaknauwkeurigheid, gerealiseerde kosten per item en overeenstemming met de referentietekst ten opzichte van de onbeperkte referentie van het model. We evalueren acht modellen op vijf datasets op vijf reductieniveaus, waarbij beide kanalen op dezelfde items worden gemeten. Uitvoercompressie verlaagt de gerealiseerde kosten bij de meeste API-modellen (1,4–2,4x per model, tot 3x in het beste geval) en bij alle vier open-gewichtenmodellen onder prijzen op openbaar niveau. Invoercompressie heeft het tegenovergestelde effect, een strikt verlies-verlies: het verhoogt de nettokosten in plaats van ze te verlagen (~1,15x op het gemiddelde van vijf benchmarks, tot 1,8x op de slechtste dataset en 2,7x bij sterkere compressie), omdat modellen compenseren met langere responsen, zelfs terwijl de nauwkeurigheid instort. Onder dezelfde instelling wijkt de oppervlakte-tekst af van de onbeperkte referentie: bij de niet-redenerende modellen is ongeveer de helft van alle generaties correct, maar hun oppervlakte-tekst impliceert niet langer de eigen onbeperkte basislijn van het model. De divergentie blijft bestaan na herbeoordeling met lengtecontrole, correctie voor meervoudige vergelijkingen en replicatie onder complementaire semantische metingen. Code en gegevens zijn beschikbaar op https://github.com/danielle34/cavewoman.

RoPE-bewuste bitallocatie voor KV-cache kwantisering
RoPE-Aware Bit Allocation for KV-Cache Quantization

Jun 23

ByFengfeng Liang, Yuechen Zhang, Jiaya Jia

Bestaande laag-bit KV-cache quantizers behandelen elke gecachete sleutel vaak als een platte vector. Onder RoPE decomposeert de bijdrage van een sleutel aan een toekomstige attention logit echter in een positie-afhankelijke som over tweedimensionale frequentieblokken. Dit maakt key-cache kwantisatie een bloksgewijs bit-toewijzingsprobleem: hoogenergetische RoPE-blokken zijn gevoeliger voor kwantiseringsfouten en zouden meer bits moeten krijgen. We introduceren Block-GTQ, een RoPE-bewuste bit-toewijzer voor key-cache kwantisatie gebouwd op TurboQuant-MSE (TQ-MSE). Voor elke laag en KV-kop berekent Block-GTQ een labelvrije energiescore voor elk RoPE-blok en kent op hebberige wijze gehele bitbreedtes toe op basis van marginale winst. Onder gelijke K/V-bitbudgetten behoudt Block-GTQ de RoPE query-key logits beter op een tien-model diagnostisch paneel, met een verlaging van de per-laag MAE met 32-80% bij 2 en 3 b/dim K-only kwantisatie, en wint het alle 367/367 laagvergelijkingen tegen uniforme TQ-MSE. Deze getrouwheidswinsten vertalen zich naar sterkere downstream lange-context retrieval, begrip en redeneren. Bij K2V2 op Llama-3.1-8B-Instruct verhoogt Block-GTQ het zes-taak NIAH-gemiddelde van 70,6 naar 97,4, en het LongBench-EN-gemiddelde van 36,87 naar 53,31. Op AIME 2024/2025 met DeepSeek-R1-Distill-Qwen-7B, zonder een fp16 recent-key buffer, scoort Block-GTQ bij K3V2 51,7/37,5, dicht bij fp16's 54,2/37,9, terwijl uniforme TQ-MSE instort tot 0,0/0,0. We implementeren verder een packed-cache serving pad. Op een enkele H800 GPU met Qwen2.5-3B-Instruct bereikt packed K3V3 3,24x KV-cache compressie met fp16-vergelijkbare kwaliteit, draait 1,34x sneller dan fp16 FlashAttention2 bij 128K context, vermindert piekgeheugen van 56,31 GB naar 19,85 GB, en blijft haalbaar bij 256K en 512K waar fp16 OOM geeft. Code is beschikbaar op https://github.com/JIA-Lab-research/blockgtq.

Wanneer Lagere Privileges Volstaan: Onderzoek naar Overgeprivilegieerde Toolselectie in LLM-agenten
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

Jun 18

ByKaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang

Nu LLM-agenten steeds vaker zelfstandig tools selecteren, worden hun keuzes tussen tools met verschillende privileges veiligheidsrelevant. Eerdere onderzoeken naar toolselectie richten zich echter op veiligheidsagnostische metadatavoorkeuren, waardoor privilegegevoelige keuzes onderbelicht blijven. Om deze leemte aan te pakken, bestuderen we overgeprivilegieerde toolselectie, waarbij een agent een tool met hogere privileges selecteert of escaleert, ondanks een voldoende alternatief met lagere privileges. We introduceren ToolPrivBench om te evalueren of agenten tools met hogere privileges kiezen ondanks voldoende alternatieven met lagere privileges, waarbij zowel de initiële selectie als de escalatie na tijdelijke toolstoringen worden gemeten. Over acht domeinen en vijf terugkerende risicopatronen heen zien we dat overgeprivilegieerde toolselectie veelvoorkomend is bij gangbare LLM-agenten en verder wordt versterkt door tijdelijke storingen. We vinden verder dat algemene veiligheidsafstemming niet betrouwbaar overgaat naar toolkeuze met de minste privileges, terwijl aanwijzingen op promptniveau slechts beperkte mitigatie bieden bij tijdelijke storingen. Daarom introduceren we een privilegebewuste post-training-verdediging die agenten leert om de voorkeur te geven aan voldoende tools met lagere privileges en alleen te escaleren wanneer nodig. Onze mitigatie-experimenten tonen aan dat deze verdediging het onnodige gebruik van tools met hoge privileges aanzienlijk vermindert, terwijl algemene capaciteiten behouden blijven.

PrivacyAlign: Contextuele Privacy-afstemming voor LLM-agenten
PrivacyAlign: Contextual Privacy Alignment for LLM Agents

Jun 19

ByManveer Singh Tamber, Abhay Puri, Marc-Etienne Brunet, Perouz Taslakian, Jimmy Lin, Spandana Gella

AI-agenten die namens gebruikers handelen, nemen voortdurend beslissingen. Om ervoor te zorgen dat gebruikers hun agenten vertrouwen, moeten deze beslissingen overeenkomen met wat gebruikers werkelijk willen. Privacy is een belangrijk afstemmingsprobleem voor agenten: elk bericht, elke post of tool-aanroep die een agent doet, is een contextueel oordeel over wat gepast is om te delen, met wie, en onder welke omstandigheden. Omdat dergelijke oordelen afhangen van sociale verwachtingen en normen, labelt een menselijk oordeel niet alleen privacyschendingen, maar helpt het ook om ze te definiëren. Terwijl bestaand werk vertrouwt op onbetrouwbare proxy's voor zowel training als evaluatie, plaatsen wij het menselijk oordeel centraal in de privacyafstemming van agenten. We introduceren PrivacyAlign, een dataset van 1.350 samples met 3.516 gedetailleerde annotaties van 599 unieke annotators in diverse scenario's waarin huidige LLM's daadwerkelijk lekken, en gebruiken deze om zowel afstemmingstraining als geautomatiseerde evaluatie te baseren op menselijke privacynormen. Voortbouwend op deze annotaties laten we eerst zien dat het conditioneren van LLM-beoordelaars op menselijke annotaties en uitleg voor referentie-antwoorden op dezelfde prompt hun oordelen betrouwbaarder maakt. Vervolgens introduceren we annotatie-geconditioneerde beloningsmodellering, die deze annotaties gebruikt om nieuwe antwoorden te scoren tijdens RL, en tonen aan dat kleine open-gewicht agenten die met deze beloning worden getraind beter aansluiten bij menselijke privacynormen, met sterke verbeteringen op PrivacyAlign en bestaande privacymaatstaven voor agenten.

Lite Any Stereo V2: Sneller en sterker – efficiënte zero-shot stereomatching
Lite Any Stereo V2: Faster and Stronger Efficient Zero-Shot Stereo Matching

Jun 23

ByJunpeng Jing, Ronglai Zuo, Zhelun Shen, Shangchen Zhou, Rolandos Alexandros Potamias, Stefanos Zafeiriou, Krystian Mikolajczyk, Jiankang Deng

Recente vooruitgang in stereomatching heeft opmerkelijke nauwkeurigheid bereikt, maar gaat vaak gepaard met grote modellen, zware berekeningen of extra prior kennis van funderingsmodellen, waardoor ze moeilijk inzetbaar zijn op platforms met beperkte resources. Efficiënte stereomodellen bieden daarentegen snellere inferentie, maar worden doorgaans beschouwd als minder geschikt voor sterke nul-shot generalisatie. In dit artikel dagen we deze aanname uit door de introductie van Lite Any Stereo V2 (LAS2), een ultrasnelle modellenserie ontworpen voor efficiënte nul-shot stereomatching. LAS2 is ontwikkeld vanuit zowel architectuur- als trainingsperspectief. Qua architectuur herzien we efficiënt stereo-ontwerp onder praktische implementatieomstandigheden en stellen we een uitsluitend 2D-kostenaggregatiekader voor, geoptimaliseerd voor werkelijke inferentielatentie in plaats van alleen theoretische MACs. Voor de training ontwikkelen we een driefasige strategie die synthetische supervisie, zelfdistillatie en distillatie van kennis uit de echte wereld combineert. Om de betrouwbaarheid van pseudo-supervisie uit de echte wereld te verbeteren, introduceren we bovendien pseudo-labelfiltering en een foutclampbewerking, waardoor een vloeiendere synthetisch-naar-echt transfer mogelijk wordt. We concretiseren LAS2 als een familie van modellen, waaronder feed-forward varianten voor verschillende efficiëntiebudgetten en een iteratieve variant voor hogere nauwkeurigheid. Uitgebreide experimenten tonen aan dat LAS2 state-of-the-art nauwkeurigheid bereikt onder efficiënte stereomethoden, terwijl het een aanzienlijk lagere latentie handhaaft. Specifiek behaalt LAS2-H sterkere algehele nul-shot prestaties dan de iteratieve methode Fast-FoundationStereo, met 1,8x en 2,7x snellere inferentie op respectievelijk H200 en Orin. De projectpagina, demo's en code zijn beschikbaar op https://tomtomtommi.github.io/LiteAnyStereoV2/.

Wat Tussenliggende Lagen Weten: Detecteren van Jailbreaks vanuit Entropiedynamica
What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

Jun 23

BySofiia Nikolenko, Michele Papucci, Mina Rezaei, Shireen Kudukkil Manchingal

Jailbreak-aanvallen onthullen een aanhoudende zwakte in afgestemde grote taalmodellen: zorgvuldig geconstrueerde prompts kunnen beleidsovertredende reacties uitlokken, ondanks veiligheidstraining. Hoewel de meeste verdedigingen werken op prompt- of outputniveau, blijft het onduidelijk hoe schadelijke intentie wordt gecodeerd in de interne representaties van het model. We onderzoeken deze vraag door token-niveau voorspellende entropietrajecten over lagen van een bevroren LLM te analyseren met behulp van de logit-lens. We ontdekken dat statische geaggregeerde statistieken van entropie op promptniveau (bijv. gemiddelde, variantie) weinig discriminerend signaal bevatten, terwijl kenmerken die vastleggen hoe entropie evolueert over tokenposities, zoals monotone op rang gebaseerde trendscores, aanzienlijk informatiever zijn. Belangrijk is dat dit signaal niet uniform is over de diepte van het model: het is geconcentreerd in tussenliggende lagen en neemt af in de laatste laag, wat aangeeft dat jailbreak-relevante structuur het meest uitgesproken is in representaties midden in het netwerk in plaats van aan de uitgangskop. Over meerdere modellen (Llama, Qwen, Gemma) en adversariële benchmarks bieden deze entropiedynamieken architectuur-consistente scheiding zonder extra training. Samen tonen onze bevindingen aan dat jailbreak-gedrag wordt weerspiegeld in gestructureerde tussentijdse onzekerheidsdynamieken, wat verduidelijkt zowel welke van entropie afgeleide kenmerken schadelijke intentie coderen als waar in het netwerk dat signaal het meest uitgesproken is.

Helpen denktokens met veiligheid?
Do Thinking Tokens Help with Safety?

Jun 23

ByNarutatsu Ri, Abhishek Panigrahi, Sanjeev Arora

De hedendaagse redeneermodellen gebruiken denktokens om sterkere prestaties te behalen op benchmarks dan hun instructie-afgestemde tegenhangers. Er wordt ook algemeen aangenomen dat deze meer 'deliberatieve' modus de afstemming en veiligheid zou moeten verbeteren, doordat het model een veilige ruimte krijgt om te overwegen of zijn geplande antwoord op een verzoek zijn veiligheidsprincipes schendt. Wij presenteren bewijs dat deze intuïtie niet altijd correct is. Bij geavanceerde open-gewichtsredeneermodellen uit de GPT-OSS-, Qwen-, Olmo- en Phi-families zien we dat de uiteindelijke uitkomst van weigering/instemming al sterk voorspelbaar is via een getrainde kop op de verborgen representatie van het eerste token (0,84-0,95 AUROC en ca. 88% gebalanceerde nauwkeurigheid voor het voorspellen van weigering/instemming) voordat er enige zichtbare denkactiviteit plaatsvindt. Het denkproces blijkt meer op prefix-aanvulling te lijken dan op deliberatieve herziening, waarbij de uiteindelijke uitkomst zelden verandert na de eerste ca. 20% van het denkproces, ondanks de schijn van deliberatie op tekstniveau (ca. 74% van de deliberaties op tekstniveau vinden plaats wanneer de responsverdeling al is vastgelegd op één kant van weigering/instemming). We ontdekken ook dat bestaande interventies voor veiligheid tijdens inferentie en training, hoewel gemotiveerd door het doel om deliberatie te induceren, het modelgedrag grotendeels verschuiven naar overmatige weigering, terwijl reeds schaarse deliberatiesignalen worden onderdrukt. Onze resultaten suggereren dat veiligheidsgedrag in huidige redeneermodellen veel minder deliberatief is dan algemeen wordt aangenomen, en benadrukken de noodzaak van methoden die echte veiligheidsdeliberatie induceren.

Fysica-vragenscenegraaf: Fijnmazige Evaluatie van Fysische Plausibiliteit in Tekst-naar-Video Generatie
Physics Question Scene Graph: Fine-grained Evaluation of Physical Plausibility in Text-to-Video Generation

Jun 24

ByAtin Pothiraj, Jaemin Cho, Yue Zhang, Elias Stengel-Eskin, Mohit Bansal

Videogeneratiemodellen worden steeds beter in het produceren van realistische video's, maar ze hebben nog steeds moeite met het genereren van video's die de basiswetten van de natuurkunde volgen. Dit wordt verergerd door een gebrek aan betrouwbare, gedetailleerde evaluatiemethoden om schendingen van natuurkundige wetten in video's te lokaliseren en te specificeren. We pakken dit aan door de Physics Question Scene Graph (PQSG) te introduceren, een hiërarchische, op vragen gebaseerde evaluatiepijplijn. PQSG evalueert gegenereerde video's door hun trouw aan een prompt te controleren op het gebied van objecten, acties en naleving van natuurkundige wetten, gebruikmakend van een grafiekgebaseerde hiërarchie van vragen gegenereerd door een visie-taalmodel (VLM), begeleid door hoogwaardige in-context voorbeelden. Door vragen als een grafiek weer te geven, introduceert PQSG logische afhankelijkheden binnen vragen, waardoor elke vraag contextueel valide is. Bovendien biedt PQSG gedetailleerde beoordelingen van welke kwaliteiten van de video de beperkingen van fysieke plausibiliteit schenden. We valideren PQSG door FinePhyEval te creëren, een dataset met op natuurkunde gebaseerde prompts en bijbehorende gegenereerde video's van diverse geavanceerde videogeneratiemodellen (Sora 2, Veo 3 en Wan 2.1), waarbij elke video door mensen op meerdere categorieën is geannoteerd. Met behulp van FinePhyEval meten we de correlatie tussen de gedetailleerde scores van PQSG en menselijke oordelen, wat hogere algemene correlaties laat zien dan eerder werk. We vinden ook dat PQSG closed-source modellen hoger rangschikt dan Wan 2.1 op fysiek realisme. Tot slot tonen we aan dat de annotaties die we in FinePhyEval leveren ook kunnen worden gebruikt voor subtakevaluatie: we benchmarken twee sterke VLM's op het genereren en beantwoorden van vragen, waarbij we vinden dat modellen wel mensachtige vragen kunnen creëren, maar nog steeds tekortschieten in het beantwoorden ervan vergeleken met menselijke prestaties.

Plannen blijven niet bestaan: waarom contextbeheer dragend is voor LLM-agenten
Plans Don't Persist: Why Context Management Is Load Bearing for LLM Agents

Jun 22

ByAman Mehta, Anupam Datta

Agenten met een lange horizon zijn afhankelijk van contextbeheer: systemen comprimeren, samenvatten en verwijderen oude tokens, zodat taken kunnen doorgaan voorbij eindige vensters. Dit is alleen veilig wanneer verwijderde informatie niet langer nodig is of is geïnternaliseerd. Plannen zijn het stressgeval: ze worden vroeg opgesteld, voor veel stappen gebruikt en als eerste verwijderd. Wij introduceren replay-pairing, een diagnostiek die dezelfde trajectorie uitvoert met en zonder het plan in de geschiedenis en de cosinusafstand van de verborgen toestand meet. Op Llama-3.1-70B stijgt het plansignaal tot 0,453 één stap na het plan, en daalt vervolgens 4,1x in een enkele actie-waarnemingsstap; HotpotQA daalt 12,4x. Dit is bewijs dat standaard LLM-agenten plannen niet als persistente toestand vooruit dragen, maar in plaats daarvan afhankelijk zijn van het plan dat in de context blijft. Een laag-L32-probe detecteert dit verval als diagnostiek, niet als bewijs dat het zelf planinhoud leest. Redeneringsmodellen voegen een meetverstorende factor toe: hun `<think>`-sporen leiden planinhoud opnieuw af, zodat standaard stripping planbewijs achterlaat in de gestripte conditie. We noemen dit de redeneringsspoor-verstorende factor en lossen het op met strikte stripping, die alleen eerdere `<think>`-blokken verwijdert uit de gestripte uitvoering. Het herstelt +163% van het stap+1-signaal in-sample en +153% out-of-sample, terwijl het niet-renderende Llama niet significant verandert (+4,8%). Op DeepSeek-R1-Distill-Llama-70B transfereert een op Llama getrainde probe met AUROC 0,748 (p=6e-4), terwijl R1-specifieke probes 1,000 bereiken, wat suggereert dat R1 plansignaal codeert in een andere richting van de verborgen toestand. Tot slot toont een compressie-stresstest de praktische kosten: naïeve planverwijdering verlaagt het ALFWorld-succes met 34,7 procentpunt, terwijl probe-gestuurde heraanbieding dit niet herstelt. De bijdrage is een meet- en stresstestkader dat aantoont dat agent-kritieke informatie contextresident kan zijn in plaats van persistent. Contextbeheer is dragend, maar alleen planbescherming is niet genoeg.

Eenmalig distilleren, levenslang aanpassen: Onderzoek naar datasetdistillatie voor continue testtijdadaptatie
Distill Once, Adapt Life-Long: Exploring Dataset Distillation for Continual Test-Time Adaptation

Jun 18

ByHyun-Kurl Jang, Jihun Kim, Hyeokjun Kweon, Kuk-Jin Yoon

Continue Testtijdadaptatie (CTTA) heeft als doel de modelprestaties te handhaven onder evoluerende doeldomeinen door online aan te passen zonder gelabelde data. In de praktijk kan de brondataset echter vaak niet worden bewaard vanwege privacy- of licentiebeperkingen, en zuiver bronvrije CTTA-methoden worden doorgaans instabiel bij langdurige distributieverschuivingen, waarbij ze lijden onder cumulatieve zelfleringsfouten en catastrofaal vergeten. We introduceren DO-ALL (Distilleer eenmalig, pas levenslang aan), een plug-and-play-raamwerk dat broninformatie hergebruikt in een compacte en privacybewuste vorm via Datasetdestillatie (DD). Voorafgaand aan de implementatie voert DO-ALL DD uit om een kleine set synthetische gedistilleerde ankers te produceren die de brondistributie samenvatten. Tijdens de adaptatie wordt elk doelmonster gekoppeld aan het meest semantisch overeenkomende anker, dat een stabiele referentie biedt voor diverse CTTA via bronherhaling, representatie-uitlijning en manifold-gladmakende regularisatie. DO-ALL kan naadloos worden geïntegreerd in bestaande CTTA-algoritmen, waarbij het de langetermijnrobuustheid consistent verbetert op CIFAR100-C, ImageNet-C en de CCC-benchmark. Dit toont de potentie aan van het inzetten van DD om stabiele en continue adaptatie mogelijk te maken zonder het bewaren van ruwe brondata. De code is beschikbaar op https://github.com/blue-531/DOALL.

Beperkingskosten in open-gewicht LLM's: Een empirische studie naar onderdrukking van tool calling onder gestructureerde uitvoerbeperkingen
Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints

Jun 24

ByFangzheng Li, Aimin Zhang, Chen Lv

Tool Calling en Structured Output zijn twee kernmogelijkheden van moderne agentsystemen, maar hun interactie onder gezamenlijke implementatieomstandigheden is nog onvoldoende begrepen. Dit artikel rapporteert een reproduceerbaar fenomeen dat is waargenomen in een productie-agentsysteem: wanneer Tool Calling en JSON Schema-beperkingen gelijktijdig worden ingeschakeld, stoppen meerdere open-weight modellen met het aanroepen van tools, ondanks dat ze een hoge schema-naleving behouden. We verwijzen naar dit gedrag als Tool Suppression. Door gecontroleerde experimenten met meerdere modelfamilies en implementatie-instellingen reproduceren we consequent Tool Suppression onder gezamenlijke beperkingen, terwijl tooluitvoering en schema-naleving functioneel blijven wanneer ze onafhankelijk worden geëvalueerd. Verdere analyse onthult dat JSON Schema-beperkingen worden gecompileerd in op grammatica gebaseerde tokenmaskers, waardoor toolaanroeptokens ontoegankelijk worden tijdens decodering. Dit biedt een verklaring op implementatieniveau voor het waargenomen gedrag. Om het fenomeen te interpreteren, formuleren we de Constraint Priority Inversion (CPI)-hypothese, die suggereert dat schemavoldoening het actieselectiegedrag kan domineren onder meerdere gelijktijdige beperkingen. We presenteren CPI als een gedragshypothese die consistent is met het waargenomen bewijs, in plaats van een geverifieerd intern mechanisme. Om het probleem te mitigeren, stellen we Transparent Two-Pass Execution voor, een inferentie-tijdstrategie die tooluitvoering ontkoppelt van schema-gebonden responsgeneratie. Experimentele resultaten tonen aan dat deze aanpak toolaanroeping herstelt terwijl gestructureerde uitvoergaranties behouden blijven, zonder dat modelhertraining nodig is. Deze bevindingen suggereren dat het afzonderlijk evalueren van toolgebruik en gestructureerde uitvoer belangrijke betrouwbaarheidskwesties in productie-agentsystemen over het hoofd kan zien. Code, data en documentatie worden vrijgegeven op https://github.com/Fzsama/Constrain-Tax-26-06.git.

Het voorspellen van toekomstig gedrag als een leertaak
Forecasting Future Behavior as a Learning Task

Jun 9

ByMosh Levy, Yoav Goldberg, Asa Cooper Stickland

Vertrouwen in een AI-systeem wordt vaak verankerd door uitleg over hoe het werkt, die men vervolgens gebruikt om zijn gedrag op nieuwe invoergegevens te voorspellen. Voor grote redeneermodellen (LRM's) is deze conventionele weg bijzonder moeilijk te volgen: uitlegmethoden voor enkele token-generaties generaliseren niet van nature naar lange trajecten, en de trajecten zelf zijn vaak niet getrouw wanneer ze als natuurlijke taal worden gelezen. Wij stellen een alternatief voor dat de uitlegstap omzeilt: behandel gedragsvoorspelling als een leerbare taak en train Gedragsvoorspellers die op een enkel redeneertraject werken om dezelfde voorspellingen te maken die men normaliter van een uitleg zou verwachten. De trainingsgegevens van de voorspeller worden verkregen door het LRM te bevragen zonder menselijke annotatie, en de inferentie wordt uitgevoerd in één enkele forwardpass. We implementeren deze benadering op twee taken: hoe waarschijnlijk het is dat het LRM zijn antwoord herhaalt bij herhaalde runs, en hoe het verwijderen van delen van de invoer het antwoord verandert. We evalueren deze benadering op beide taken over drie diverse redeneerdatasets en vinden dat getrainde Gedragsvoorspellers nauwkeuriger zijn dan GPT-5.4 en Claude Opus-4.6 die dezelfde trajecten lezen als naïeve lezers, tegen een klein deel van hun inferentiekosten. We vinden dat het end-to-end finetunen van de backbone en het initialiseren ervan vanuit het doel-LRM elk noodzakelijk zijn voor sterke prestaties. Deze resultaten tonen aan dat het redeneertraject informatie draagt over het toekomstige gedrag van het LRM die verder gaat dan wat naïeve lezing overbrengt.

Sprekeridentiteit in niet-verbale vocalisaties: conditionele distillatie en de 'Mixture of Experts'-benadering
Speaker Identity in Non-Verbal Vocalizations: Conditional Distillation and Mixture of Experts Approach

Jun 19

ByTzu-Chieh Wei, Yi-Cheng Lin, Huang-Cheng Chou, Kuan-Yu Chen, Hsin-Yen Sung, Shrikanth Narayanan, Hung-yi Lee

Naarmate expressieve tekst-naar-spraak (TTS) en stemconversie (VC)-systemen steeds vaker non-verbale vocalisaties (NVVs) genereren om de natuurlijkheid te verbeteren, wordt betrouwbare sprekerverificatie (SV) essentieel om de consistentie van identiteit objectief te beoordelen over zowel verbale als non-verbale segmenten. Toch generaliseren huidige SV-systemen slecht naar NVVs, en leidt finetunen op NVV-data tot catastrofaal vergeten van spraakprestaties. Wij presenteren de eerste systematische studie over 10 NVV-types en stellen een raamwerk voor dat bevroren Data2Vec-zelfgecontroleerde kenmerken combineert met ECAPA-TDNN, verbeterd door een Mixture of Experts (MoE)-module met aangeleerde domeinbewuste routering. Een conditioneel distillatieverlies op spraakinvoer via een voorgetrainde leraar behoudt de spraak-tot-spraaknauwkeurigheid, terwijl een contrastief verlies de kloof tussen het spraak- en NVV-domein overbrugt. Onze methode reduceert de spraak-NVV EER van 38,93% naar 22,66% ten opzichte van een voorgetrainde basislijn, en verbetert de spraak-EER van 13,17% naar 9,24% via distillatie.