HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

37 papers found

HopChain: Multi-Hop Gegevenssynthese voor Generaliseerbaar Redeneren tussen Beeld en Taal
HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Mar 17

ByShenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

VLMs vertonen sterke multimodale capaciteiten, maar worstelen nog steeds met fijnmazige visueel-taalkundige redenering. Wij constateren dat lange Chain-of-Thought-redenering diverse faalmodi blootlegt, waaronder perceptie-, redeneer-, kennis- en hallucinatiefouten, die zich kunnen opstapelen over tussenliggende stappen. De meeste bestaande visueel-taalkundige data die voor RLVR wordt gebruikt, omvat echter geen complexe redeneerketens die volledig op visueel bewijs steunen, waardoor deze zwaktes grotendeels onzichtbaar blijven. Daarom stellen wij HopChain voor, een schaalbaar raamwerk voor het synthetiseren van multi-hop visueel-taalkundige redeneerdata, specifiek voor RLVR-training van VLMs. Elke gesynthetiseerde multi-hop query vormt een logisch afhankelijke keten van op instanties gebaseerde hops, waarbij eerdere hops de instanties, sets of voorwaarden vestigen die nodig zijn voor latere hops, terwijl het uiteindelijke antwoord een specifiek, eenduidig getal blijft dat geschikt is voor verifieerbare beloningen. Wij voegen de door HopChain gesynthetiseerde multi-hop data toe aan de oorspronkelijke RLVR-data die werd gebruikt om Qwen3.5-35B-A3B en Qwen3.5-397B-A17B te trainen, en vergelijken dit met RLVR op alleen de oorspronkelijke RLVR-data over 24 benchmarks die STEM en puzzels, algemene VQA, tekstherkenning en documentbegrip, en videobegrip beslaan. Hoewel deze multi-hop data niet is gesynthetiseerd om zich op een specifieke benchmark te richten, verbetert de toevoeging ervan 20 van de 24 benchmarks voor beide modellen, wat wijst op brede en generaliseerbare winst. Om aan te tonen dat volledige geketende queries belangrijk zijn, vervangen we deze door half-multi-hop of single-hop varianten, wat de gemiddelde nauwkeurigheid over de 24 benchmarks respectievelijk met 5.3 en 7.0 punten verlaagt. Multi-hop training versterkt ook lange-CoT visueel-taalkundige redenering, met winsten die pieken op meer dan 50 nauwkeurigheidspunten in het ultra-lange-CoT regime. Deze experimenten vestigen HopChain als een effectief, schaalbaar raamwerk voor het synthetiseren van multi-hop data die generaliseerbare visueel-taalkundige redenering verbetert.

Astrolabe: Sturing van Forward-Process Reinforcement Learning voor Gedistilleerde Autoregressieve Videomodellen
Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Mar 17

BySongchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao

Gedistilleerde autoregressieve (AR) videomodellen maken efficiënte streaming-generatie mogelijk, maar komen vaak niet overeen met menselijke visuele voorkeuren. Bestaande reinforcement learning (RL) frameworks zijn niet van nature geschikt voor deze architecturen; ze vereisen doorgaans ofwel kostbare her-distillatie, of optimalisatie van de omgekeerde proces gekoppeld aan een solver, wat aanzienlijke geheugen- en rekenoverhead met zich meebrengt. Wij presenteren Astrolabe, een efficiënt online RL-framework dat is toegesneden op gedistilleerde AR-modellen. Om bestaande knelpunten te overwinnen, introduceren we een RL-formulering voor het voorwaartse proces, gebaseerd op *negative-aware fine-tuning*. Door positieve en negatieve voorbeelden direct op de inferentie-eindpunten te contrasteren, vestigt deze aanpak een impliciete richting voor beleidsverbetering zonder dat het uitrollen van het omgekeerde proces vereist is. Om deze afstemming naar lange video's op te schalen, stellen we een *streaming* trainingsschema voor dat sequenties progressief genereert via een rollende KV-cache, waarbij RL-updates uitsluitend worden toegepast op lokale clipvensters, terwijl wordt geconditioneerd op eerdere context om coherentie op lange termijn te waarborgen. Ten slotte, om *reward hacking* tegen te gaan, integreren we een multi-reward doelstelling die wordt gestabiliseerd door onzekerheidsbewuste selectieve regularisatie en dynamische referentie-updates. Uitgebreide experimenten tonen aan dat onze methode de generatiekwaliteit consistent verbetert bij meerdere gedistilleerde AR-videomodellen, en fungeert als een robuuste en schaalbare afstemmingsoplossing.

TerraScope: Visueel Redeneren op Pixelbasis voor Aardobservatie
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Mar 19

ByYan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota

Vision-language models (VLMs) tonen veelbelovende resultaten in aardobservatie (EO), maar hebben moeite met taken die complexe ruimtelijke redenering vereisen die verankerd is in precieze pixelgebaseerde visuele representaties. Om dit probleem aan te pakken, introduceren we TerraScope, een uniforme VLM die pixelgegronde geo-ruimtelijke redenering biedt met twee belangrijke capaciteiten: (1) modaal-flexibele redenering: het verwerkt invoer van één modaliteit (optisch of SAR) en fuseert verschillende modaliteiten adaptief in het redeneerproces wanneer beide beschikbaar zijn; (2) multi-temporele redenering: het integreert temporele sequenties voor veranderingsanalyse over meerdere tijdstippen. Daarnaast hebben we Terra-CoT samengesteld, een grootschalige dataset met 1 miljoen samples met pixelgebaseerde maskers die zijn ingebed in redeneerketens uit meerdere bronnen. We stellen ook TerraScope-Bench voor, de eerste benchmark voor pixelgegronde geo-ruimtelijke redenering met zes sub-taken die zowel de nauwkeurigheid van het antwoord als de maskerkwaliteit evalueert om authentieke pixelgegronde redenering te waarborgen. Experimenten tonen aan dat TerraScope aanzienlijk beter presteert dan bestaande VLMs op het gebied van pixelgegronde geo-ruimtelijke redenering, terwijl het interpreteerbaar visueel bewijs levert.

ProactiveBench: Het Benchmarken van Proactiviteit in Multimodale Grote Taalmodellen
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Mar 19

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

Effectieve samenwerking begint met het weten wanneer om hulp te vragen. Wanneer een mens bijvoorbeeld een verborgen object probeert te identificeren, zou hij iemand vragen de obstructie te verwijderen. Kunnen MLLM's een soortgelijk "proactief" gedrag vertonen door eenvoudige gebruikersinterventies aan te vragen? Om dit te onderzoeken, introduceren we ProactiveBench, een benchmark opgebouwd uit zeven hergebruikte datasets die proactiviteit test bij verschillende taken, zoals het herkennen van verborgen objecten, het verbeteren van de beeldkwaliteit en het interpreteren van grove schetsen. We evalueren 22 MLLM's op ProactiveBench en tonen aan dat (i) ze over het algemeen proactiviteit missen; (ii) proactiviteit niet correleert met modelcapaciteit; (iii) een "hint" naar proactiviteit slechts marginale verbeteringen oplevert. Verrassend genoeg ontdekten we dat gespreksgeschiedenissen en in-context learning negatieve vooroordelen introduceren, wat de prestaties belemmert. Ten slotte onderzoeken we een eenvoudige fine-tuningstrategie gebaseerd op reinforcement learning: de resultaten suggereren dat proactiviteit kan worden aangeleerd, en zelfs generaliseert naar onbekende scenario's. We maken ProactiveBench openbaar beschikbaar als een eerste stap naar het bouwen van proactieve multimodale modellen.

FlowScene: Stijlconsistente Generatie van Binnenruimtes met Multimodale Grafiek Gerechtificeerde Flow
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Mar 20

ByZhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang

Scènegeneratie kent uitgebreide industriële toepassingen, waarbij zowel hoge realisme als precieze controle over geometrie en uiterlijk vereist zijn. Taalgestuurde retrievalmethoden componeren plausibele scènes uit een grote objectendatabase, maar negeren objectniveau-controle en slagen er vaak niet in stilistische coherentie op scèneniveau af te dwingen. Op grafen gebaseerde formuleringen bieden hogere beheersbaarheid over objecten en waarborgen holistische consistentie door relaties expliciet te modelleren, maar bestaande methoden slagen er niet in hoogwaardige getextureerde resultaten te produceren, wat hun praktische bruikbaarheid beperkt. Wij presenteren FlowScene, een driedelig scènegeneratief model, geconditioneerd op multimodale grafen, dat gezamenlijk scène-indelingen, objectvormen en objecttexturen genereert. De kern bestaat uit een sterk gekoppeld gerectificeerd stromingsmodel dat objectinformatie uitwisselt tijdens de generatie, waardoor gezamenlijke redenering over de graaf heen mogelijk wordt. Dit maakt fijnmazige controle van objectvormen, texturen en relaties mogelijk, terwijl tegelijkertijd stilistische coherentie op scèneniveau wordt afgedwongen voor zowel structuur als uiterlijk. Uitgebreide experimenten tonen aan dat FlowScene zowel taal- als grafgeconditioneerde baseline-methoden overtreft op het gebied van generatierealisme, stijlconsistentie en afstemming met menselijke voorkeuren.

De Y-Combinator voor LLM's: Het oplossen van lang-context verval met λ-calculus
The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Mar 20

ByAmartya Roy, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer, Haitham Bou-Ammar

LLM's worden steeds vaker gebruikt als algemene redeneerders, maar lange invoer wordt nog steeds beperkt door een vaste contextvenster. Recursieve Taalmodellen (RLM's) pakken dit aan door de prompt te externaliseren en subproblemen recursief op te lossen. Toch zijn bestaande RLM's afhankelijk van een open read-eval-print loop (REPL) waarin het model willekeurige controlecode genereert, wat de uitvoering moeilijk verifieerbaar, voorspelbaar en analyseerbaar maakt. Wij introduceren λ-RLM, een raamwerk voor redeneren met lange context dat vrije-vorm recursieve codegeneratie vervangt door een getypeerde functionele runtime gebaseerd op λ-calculus. Het voert een compacte bibliotheek van vooraf geverifieerde combinatoren uit en gebruikt neurale inferentie alleen voor begrensde leaf-subproblemen, waardoor recursief redeneren verandert in een gestructureerd functioneel programma met expliciete control flow. Wij tonen aan dat λ-RLM formele garanties biedt die ontbreken in standaard RLM's, waaronder terminatie, gesloten kostenlimieten, gecontroleerde nauwkeurigheidsschaling met recursiediepte, en een optimale partitieregel onder een eenvoudig kostenmodel. Empirisch gezien presteert λ-RLM, over vier redeneertaken met lange context en negen basismodellen, beter dan standaard RLM in 29 van de 36 model-taakvergelijkingen, verbetert de gemiddelde nauwkeurigheid met tot +21,9 punten over modelniveaus heen, en vermindert de latentie met tot 4,1x. Deze resultaten tonen aan dat getypeerde symbolische controle een betrouwbaarder en efficiënter fundament biedt voor redeneren met lange context dan open-einde recursieve codegeneratie. De volledige implementatie van λ-RLM is opensource beschikbaar voor de gemeenschap op: https://github.com/lambda-calculus-LLM/lambda-RLM.

Hyperagenten
Hyperagents

Mar 19

ByJenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina

Zelfverbeterende AI-systemen streven ernaar de afhankelijkheid van menselijk ingrijpen te verminderen door te leren hun eigen leer- en probleemoplossingsprocessen te verbeteren. Bestaande benaderingen voor zelfverbetering steunen op vaste, handmatig ontworpen meta-mechanismen, wat fundamenteel beperkt hoe snel dergelijke systemen kunnen verbeteren. De Darwin Gödel Machine (DGM) demonstreert open-einde zelfverbetering in programmeren door herhaaldelijk zelf-gemodificeerde varianten te genereren en te evalueren. Omdat zowel evaluatie als zelfmodificatie programmeertaken zijn, kunnen verbeteringen in programmeervaardigheid vertaald worden naar verbeteringen in zelfverbeteringsvermogen. Deze afstemming geldt echter over het algemeen niet buiten programmeerdomeinen. Wij introduceren hyperagents, zelf-referentiële agents die een taakagent (die de doeltaak oplost) en een meta-agent (die zichzelf en de taakagent wijzigt) integreren in één enkel bewerkbaar programma. Cruciaal is dat de meta-procedure voor modificatie zelf ook bewerkbaar is, waardoor metacognitieve zelfmodificatie mogelijk wordt, wat niet alleen het taakoplossend gedrag verbetert, maar ook het mechanisme dat toekomstige verbeteringen genereert. Wij concretiseren dit raamwerk door de DGM uit te breiden om DGM-Hyperagents (DGM-H) te creëren, waarbij de aanname van domeinspecifieke afstemming tussen taakprestatie en zelfmodificatievaardigheid wordt geëlimineerd om mogelijk zelfversnellende vooruitgang op elke berekenbare taak te ondersteunen. In diverse domeinen verbetert de DGM-H de prestaties in de loop der tijd en presteert het beter dan baseline-systemen zonder zelfverbetering of open-einde exploratie, evenals eerdere zelfverbeterende systemen. Bovendien verbetert de DGM-H het proces waarmee het nieuwe agents genereert (bijvoorbeeld persistente geheugen, prestatievolging), en deze meta-verbeteringen transfereren tussen domeinen en accumuleren over runs heen. DGM-Hyperagents bieden een glimp van open-einde AI-systemen die niet slechts zoeken naar betere oplossingen, maar continu hun zoektocht verbeteren naar hoe ze kunnen verbeteren.

LumosX: Koppel Identiteiten aan Hun Attributen voor Gepersonaliseerde Videogeneratie
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Mar 20

ByJiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu

Recente vooruitgang in diffusiemodellen heeft tekst-naar-video-generatie aanzienlijk verbeterd, waardoor gepersonaliseerde contentcreatie met fijnmazige controle over zowel voorgrond- als achtergrondelementen mogelijk is geworden. Precieze uitlijning van gezichtskenmerken tussen verschillende subjecten blijft echter een uitdaging, omdat bestaande methoden expliciete mechanismen missen om intra-groepsconsistentie te garanderen. Het oplossen van deze kloof vereist zowel expliciete modelleerstrategieën als gegevensbronnen die bewust zijn van gezichtskenmerken. Daarom stellen wij LumosX voor, een raamwerk dat zowel de gegevens- als de modelontwerpkant vooruithelpt. Aan de gegevenskant organiseert een toegesneden verzamelpijplijn bijschriften en visuele aanwijzingen uit onafhankelijke video's, terwijl multimodale grote taalmodellen (MLLM's) subjectspecifieke afhankelijkheden afleiden en toewijzen. Deze geëxtraheerde relationele prioriteiten leggen een fijnmazigere structuur op die de expressieve controle van gepersonaliseerde videogeneratie versterkt en de constructie van een uitgebreide benchmark mogelijk maakt. Aan de modelkant verweven Relationele Zelf-Aandacht en Relationele Kruis-Aandacht positiebewuste inbeddingen met verfijnde aandacht-dynamiek om expliciete subject-kenmerk-afhankelijkheden in te schrijven, waardoor gedisciplineerde intra-groepssamenhang wordt afgedwongen en de scheiding tussen verschillende subjectclusters wordt vergroot. Uitgebreide evaluaties op onze benchmark tonen aan dat LumosX state-of-the-art prestaties bereikt in fijnmazige, identiteitsconsistente en semantisch uitgelijnde gepersonaliseerde video-generatie met meerdere subjecten. Code en modellen zijn beschikbaar op https://jiazheng-xing.github.io/lumosx-home/.

Redeneren als Compressie: Unificatie van Budget Forcing via het Conditionele Informatie Bottleneck
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Mar 9

ByFabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

Chain-of-Thought (CoT) prompting verbetert de nauwkeurigheid van grote taalmodel(len) bij complexe taken, maar leidt vaak tot een hoger tokenverbruik en inferentiekosten. Bestaande "Budget Forcing"-methoden, die de kosten verlagen via fine-tuning met heuristische lengtestraffen, onderdrukken zowel essentiële redenering als overbodige opvulling. Wij herformuleren efficiënte redenering als een verliesachtig compressieprobleem volgens het Information Bottleneck (IB)-principe en identificeren een belangrijk theoretisch hiaat bij de toepassing van een naïeve IB op transformers: aandacht schendt de Markov-eigenschap tussen prompt, redeneerspoor en respons. Om dit probleem op te lossen, modelleren we CoT-generatie volgens het Conditional Information Bottleneck (CIB)-principe, waarbij het redeneerspoor Z fungeert als een computationele brug die alleen de informatie over de respons Y bevat die niet direct toegankelijk is vanuit de prompt X. Dit leidt tot een algemeen Reinforcement Learning-doel: maximaliseer de taakbeloning terwijl de voltooiingen worden gecomprimeerd onder een prior over redeneersporen, waarbij veelvoorkomende heuristieken (bijv. lengtestraffen) als speciale gevallen (bijv. uniforme priors) worden ondergebracht. In tegenstelling tot naïeve op tokenaantallen gebaseerde benaderingen, introduceren we een semantische prior die de tokenkosten meet aan de hand van surprisal onder een taalmodelprior. Empirisch gezien snoeit ons CIB-doel cognitieve overdaad weg terwijl vlotheid en logica behouden blijven, wat de nauwkeurigheid verbetert bij matige compressie en agressieve compressie mogelijk maakt met een minimale daling in nauwkeurigheid.

Een subdoelgestuurd raamwerk voor het verbeteren van LLM-agents met lange tijdshorizon
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Mar 20

ByTaiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette

Op grote taalmodel (LLM) gebaseerde agents zijn opgekomen als krachtige autonome controllers voor digitale omgevingen, waaronder mobiele interfaces, besturingssystemen en webbrowsers. Webbrowsing vereist bijvoorbeeld het verwerken van dynamische inhoud en lange actievolgordes, wat het bijzonder uitdagend maakt. Bestaande LLM-gebaseerde agents worstelen met planning op lange termijn op twee belangrijke manieren. Tijdens online uitvoering raken ze vaak het spoor bijster wanneer nieuwe informatie binnenkomt, omdat ze een duidelijke en adaptieve route naar het uiteindelijke doel missen. Dit probleem wordt verder verergerd tijdens reinforcement learning (RL)-fine-tuning, waar schaarse en vertraagde beloningen het moeilijk maken voor agents om te identificeren welke acties tot succes leiden, waardoor ze geen coherente redenering kunnen behouden bij langdurige taken. Om deze uitdagingen aan te pakken, doen we twee voorstellen. Ten eerste introduceren we een agentframework dat gebruikmaakt van propriëtaire modellen voor online planning via subdoeldecompositie. Ten tweede presenteren we MiRA (Milestoning your Reinforcement Learning Enhanced Agent), een RL-trainingsframework dat gebruikmaakt van dense, op mijlpalen gebaseerde beloningssignalen. Het realtime planningsmechanisme verbetert propriëtaire modellen zoals Gemini met een absolute stijging van ongeveer 10% in succespercentage (SR) op de WebArena-Lite-benchmark. Ondertussen verhoogt het toepassen van MiRA op het open Gemma3-12B-model het succespercentage van 6,4% naar 43,0%. Deze prestatie overtreft propriëtaire systemen zoals GPT-4-Turbo (17,6%) en GPT-4o (13,9%), evenals het vorige state-of-the-art open model, WebRL (38,4%). Over het geheel genomen tonen onze bevindingen aan dat het combineren van expliciete planning tijdens inferentie met op mijlpalen gebaseerde beloningen de langetermijncapaciteiten van een agent aanzienlijk verbetert, waardoor de weg wordt geëffend voor robuustere en algemenere autonome systemen.

Veelzijdig bewerken van video-inhoud, acties en dynamiek zonder training
Versatile Editing of Video Content, Actions, and Dynamics without Training

Mar 18

ByVladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli

Gecontroleerde videogeneratie heeft de afgelopen jaren een drastische vooruitgang geboekt. Het bewerken van acties en dynamische gebeurtenissen, of het invoegen van inhoud die het gedrag van andere objecten in real-world video's zou moeten beïnvloeden, blijft echter een grote uitdaging. Bestaande getrainde modellen worstelen met complexe bewerkingen, waarschijnlijk vanwege de moeilijkheid om relevante trainingsdata te verzamelen. Evenzo zijn bestaande trainingsvrije methoden inherent beperkt tot bewerkingen die structuur en beweging behouden en ondersteunen zij geen wijziging van beweging of interacties. Hier introduceren wij DynaEdit, een trainingsvrije bewerkingsmethode die veelzijdige videobewerkingsmogelijkheden ontsluit met vooraf getrainde tekst-naar-video flowmodellen. Onze methode steunt op de recent geïntroduceerde inversievrije aanpak, die niet ingrijpt in de interne werking van het model en dus model-agnostisch is. Wij tonen aan dat een naïeve poging om deze aanpak aan te passen voor algemene, onbeperkte bewerking resulteert in ernstige low-frequency uitlijningfouten en high-frequency jitter. Wij verklaren de bronnen van deze fenomenen en introduceren nieuwe mechanismen om ze te overwinnen. Door middel van uitgebreide experimenten tonen wij aan dat DynaEdit state-of-the-art resultaten behaalt voor complexe op tekst gebaseerde videobewerkingstaken, waaronder het wijzigen van acties, het invoegen van objecten die interacteren met de scène, en het introduceren van globale effecten.

Diepgaand Tabelonderzoek via Continue Ervaringsgestuurde Uitvoering
Deep Tabular Research via Continual Experience-Driven Execution

Mar 10

ByJunnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Qiufeng Wang, Yinghui Li, Siyu An, Di Yin, Xing Sun, Feiyue Huang

Grote taalmodellen worstelen vaak met complexe analytische taken met een lange horizon over ongestructureerde tabellen, die doorgaans hiërarchische en bidirectionele koppen en niet-standaard lay-outs hebben. Wij formaliseren deze uitdaging als Deep Tabular Research (DTR), wat multi-stap redeneren vereist over onderling afhankelijke tabelregio's. Om DTR aan te pakken, stellen we een nieuw agent-gebaseerd raamwerk voor dat tabelredenering behandelt als een closed-loop besluitvormingsproces. We ontwerpen zorgvuldig een gekoppeld vraag- en tabelbegrip voor padbesluitvorming en operationele uitvoering. Specifiek: (i) DTR construeert eerst een hiërarchische metagraaf om bidirectionele semantiek vast te leggen, waarbij natuurlijke taalvragen worden gemapt naar een operationele zoekruimte; (ii) Om door deze ruimte te navigeren, introduceren we een verwachtingsbewust selectiebeleid dat uitvoeringspaden met hoge bruikbaarheid prioriteert; (iii) Cruciaal is dat historische uitvoeringsresultaten worden samengevoegd tot een siamese gestructureerd geheugen, d.w.z. geparametriseerde updates en geabstraheerde teksten, wat continue verfijning mogelijk maakt. Uitgebreide experimenten op uitdagende ongestructureerde tabelbenchmarks verifiëren de effectiviteit en benadrukken de noodzaak om strategische planning te scheiden van low-level uitvoering voor tabelredenering met een lange horizon.

WorldAgents: Kunnen foundation-beeldmodellen als agents fungeren voor 3D-wereldmodellen?
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Mar 20

ByZiya Erkoç, Angela Dai, Matthias Nießner

Gezien de opmerkelijke capaciteit van 2D-fundamentmodellen voor beeldgeneratie om hoogwaardige resultaten te produceren, onderzoeken we een fundamentele vraag: beschikken 2D-fundamentmodellen voor beeld van nature over mogelijkheden voor 3D-wereldmodellering? Om dit te beantwoorden, evalueren we systematisch meerdere state-of-the-art beeldgeneratiemodellen en Vision-Language Models (VLM's) voor de taak van 3D-wereldsynthese. Om hun potentiële impliciete 3D-capaciteit te benutten en te benchmarken, stellen we een agent-gebaseerde aanpak voor om 3D-wereldgeneratie te vergemakkelijken. Onze methode gebruikt een multi-agentarchitectuur: een VLM-gestuurde regisseur die prompts formuleert om de beeld synthese te sturen, een generator die nieuwe beeldaanzichten synthetiseert, en een VLM-gestuurde tweestapsverifier die gegenereerde frames evalueert en selectief curaat, zowel vanuit de 2D-beeld- als de 3D-reconstructieruimte. Cruciaal is dat we aantonen dat onze agent-gebaseerde aanpak coherente en robuuste 3D-reconstructies oplevert, waarbij outputscènes worden geproduceerd die verkend kunnen worden door het renderen van nieuwe aanzichten. Door middel van uitgebreide experimenten met diverse fundamentmodellen tonen we aan dat 2D-modellen inderdaad een begrip van 3D-werelden bevatten. Door dit begrip te exploiteren, synthetiseert onze methode met succes uitgebreide, realistische en 3D-consistente werelden.

BEAVER: Een Trainingsvrije Hiërarchische Promptcompressiemethode via Structuurbewuste Paginaselectie
BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Mar 20

ByZhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang

De exponentiële uitbreiding van contextvensters in LLM's heeft mogelijkheden voor het begrijpen van lange documenten ontsloten, maar heeft ook ernstige knelpunten geïntroduceerd in de inferentielatentie en het informatiegebruik. Bestaande compressiemethoden kampen vaak met hoge trainingskosten of semantische fragmentatie als gevolg van agressieve tokenverwijdering. In dit artikel stellen we BEAVER voor, een nieuw trainingsvrij raamwerk dat compressie verschuift van lineaire tokenverwijdering naar structuurbewuste hiërarchische selectie. BEAVER maximaliseert hardwareparallelisme door contexten met variabele lengte af te beelden naar dichte pagina-level tensoren via dual-path pooling, en behoudt discoursintegriteit door een hybride planner die semantische en lexicale dual-branch selectie combineert met zinsafvlakking. Uitgebreide evaluaties op vier lange-context benchmarks tonen aan dat BEAVER vergelijkbare prestaties bereikt als state-of-the-art (SOTA) methoden zoals LongLLMLingua. Opmerkelijk is dat BEAVER op de RULER-benchmark een hoge nauwkeurigheid behoudt bij multi-needle retrieval, waar baseline-methoden verslechteren. Wat efficiëntie betreft, reduceert BEAVER de latentie met 26,4x op 128k contexten, en biedt zo een schaalbare oplossing voor high-throughput toepassingen. Onze code is beschikbaar op https://cslikai.cn/BEAVER/.

HiMu: Hiërarchische Multimodale Frame-selectie voor Vragen Beantwoorden over Lange Video's
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Mar 19

ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

Langdurige video-vraagantwoording vereist redeneren over uitgebreide temporele contexten, waardoor frameselectie cruciaal is voor grote visie-taalmodellen (LVLM's) die gebonden zijn aan beperkte contextvensters. Bestaande methoden kampen met een scherpe afweging: op gelijkenis gebaseerde selectors zijn snel maar verkleinen compositionele vragen tot een enkele dichte vector, waarbij subgebeurtenisvolgorde en cross-modale bindingen verloren gaan; op agenten gebaseerde methoden herstellen deze structuur via iteratieve LVLM-inferentie, maar tegen onbetaalbare kosten. Wij introduceren HiMu, een trainingsvrij raamwerk dat deze kloof overbrugt. Eén tekstuele LLM-aanroep decomposeert de vraag in een hiërarchische logische boom waarvan de bladeren atomaire predicaten zijn, elk gerouteerd naar een lichtgewicht expert die visie (CLIP, open-vocabulary-detectie, OCR) en audio (ASR, CLAP) omspant. De resulterende signalen worden genormaliseerd, temporeel gladgestreken om verschillende modaliteiten uit te lijnen, en van onderaf samengesteld via fuzzy-logica-operatoren die temporele volgorde en adjacentie afdwingen, wat een continue satisfactiecurve oplevert. Evaluaties op Video-MME, LongVideoBench en HERBench-Lite tonen aan dat HiMu het efficiëntie-nauwkeurigheid-Pareto-front verbetert: bij 16 frames met Qwen3-VL 8B presteert het beter dan alle concurrerende selectors, en met GPT-4o overtreft het agent-gebaseerde systemen die opereren op 32-512 frames, terwijl het ongeveer 10x minder FLOPs vereist.

Hoe Goed Generaliseert Generatieve Aanbeveling?
How Well Does Generative Recommendation Generalize?

Mar 20

ByYijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou

Een veelgehoorde hypothese waarom generatieve aanbevelingsmodellen (GR) conventionele op item-ID gebaseerde modellen overtreffen, is dat ze beter generaliseren. Er bestaat echter weinig systematische manier om deze hypothese te verifiëren, behalve door een oppervlakkige vergelijking van de algehele prestaties. Om deze leemte te adresseren, categoriseren we elke datainstantie op basis van de specifieke vaardigheid die nodig is voor een correcte voorspelling: ofwel memorisatie (het hergebruiken van itemovergangspatronen die tijdens de training zijn waargenomen) ofwel generalisatie (het combineren van bekende patronen om onzichtbare itemovergangen te voorspellen). Uitgebreide experimenten tonen aan dat GR-modellen beter presteren op instanties die generalisatie vereisen, terwijl op item-ID gebaseerde modellen beter presteren wanneer memorisatie belangrijker is. Om deze divergentie te verklaren, verschuiven we de analyse van het itemniveau naar het tokenniveau en tonen we aan dat wat lijkt op generalisatie op itemniveau voor GR-modellen vaak neerkomt op memorisatie op tokenniveau. Ten slotte tonen we aan dat de twee paradigma's complementair zijn. We stellen een eenvoudige, memorisatiebewuste indicator voor die ze adaptief combineert per instantie, wat leidt tot verbeterde algehele aanbevelingsprestaties.

LoopRPT: Reinforcement Pre-training voor Geluspte Taalmodellen
LoopRPT: Reinforcement Pre-Training for Looped Language Models

Mar 20

ByGuo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin

Geloopte taalmodelarchitecturen (LoopLMs) voeren iteratieve latente berekeningen uit om interne representaties te verfijnen, wat een veelbelovend alternatief biedt voor expliciete redeneerketens (chain-of-thought, CoT). Bestaande paradigma's voor reinforcement learning (RL) richten zich echter voornamelijk op uitvoertokens, wat een structurele mismatch creëert met geloopte architecturen waarvan de redenering impliciet verloopt. In dit werk stellen we LoopRPT voor, een raamwerk voor reinforcement pre-training dat is toegesneden op LoopLMs. Door next-token-voorspelling te herformuleren als een next-token-redeneertaak, wijst LoopRPT reinforcement-signalen direct toe aan latente stappen met behulp van een EMA-leraarsreferentie en ruwe latente rollouts. Deze formulering stelt RL in staat om intermediaire representaties direct vorm te geven, waardoor effectief redeneren in minder iteraties wordt gecomprimeerd. We implementeren LoopRPT op de Ouro-architectuur op verschillende modelschalen. Resultaten tonen aan dat LoopRPT consistent de kwaliteit van de representatie per stap verbetert en Pareto-dominantie bereikt in de nauwkeurigheid-berekeningsafweging. Opmerkelijke significante verbeteringen op moeilijke tokens geven aan dat LoopRPT de redenering in vroege fasen verbetert in plaats van slechts vroegtijdige exits aan te moedigen. Onze bevindingen benadrukken reinforcement pre-training als een principieel paradigma voor het leren van efficiënte latente redenering in LoopLMs.

Het doorbreken van de capaciteitslimiet van LLM's na training door het opnieuw introduceren van Markov-toestanden
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Mar 20

ByYurun Yuan, Tengyang Xie

Versterkend leren (RL) is een standaardparadigma geworden voor het na-trainen en afstemmen van grote taalmmodellen (LLM's), maar recent bewijs suggereert dat het een hardnekkig "vermogensplafond" tegenkomt: in tegenstelling tot klassieke RL-systemen die nieuwe strategieën ontdekken, fungeert RL voor LLM's vaak slechts als een verfijner van patronen die al latent aanwezig zijn in de vooraf getrainde gewichten. In dit werk identificeren we een fundamenteel structureel knelpunt: waar klassiek RL vertrouwt op compacte, informatieve Markov-toestanden, zijn huidige formuleringen voor het na-trainen van LLM's geketend aan een steeds uitdijende geschiedenis van acties. Wij herbezien een klassiek principe dat lang centraal stond in RL maar afwezig is bij het na-trainen van LLM's: expliciete Markov-toestanden. Theoretisch voorzien we rigoureuze garanties die aantonen dat het benutten van geschatte Markov-toestanden de samplecomplexiteit aanzienlijk kan verminderen. Empirisch tonen we aan dat de introductie van Markov-toestanden consistent de prestatiegrenzen van standaard RL na-training doorbreekt in een reeks complexe logische puzzels. Onze bevindingen suggereren dat het voorbijgaan aan "geschiedenis-als-toestand" modellering ten gunste van gestructureerde Markov-representaties essentieel is voor het ontsluiten van open-ended ontdekking en echt nieuwe redeneervermogens in Generatieve AI.

Voorbij Enkele Tokens: Destillatie van Discrete Diffusiemodellen via Discrete MMD
Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Mar 20

ByEmiel Hoogeboom, David Ruhe, Jonathan Heek, Thomas Mensink, Tim Salimans

Momenteel is het lastig om discrete diffusiemodellen te destilleren. In tegenstelling tot de literatuur over continue diffusie zijn er veel destillatiemethoden beschikbaar die het aantal benodigde samplingstappen kunnen terugbrengen tot een handvol. Onze methode, Discrete Moment Matching Distillation (D-MMD), maakt gebruik van ideeën die in het continue domein zeer succesvol zijn gebleken. Waar eerdere discrete destillatiemethoden falen, behoudt D-MMD een hoge kwaliteit en diversiteit (mits voldoende samplingstappen worden gebruikt). Dit wordt aangetoond op zowel tekst- als beelddatasets. Bovendien kunnen de nieuw gedistilleerde generatoren superieure prestaties leveren ten opzichte van hun leraren.

EgoForge: Doelgericht Egocentrisch Wereldsimulator
EgoForge: Goal-Directed Egocentric World Simulator

Mar 20

ByYifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou

Generatieve wereldmodellen hebben potentie getoond voor het simuleren van dynamische omgevingen, maar egocentrische video blijft een uitdaging vanwege snelle gezichtspuntveranderingen, frequente hand-objectinteracties en doelgerichte procedures waarvan de evolutie afhangt van latente menselijke intentie. Bestaande benaderingen richten zich ofwel op hand-gecentreerde instructiesynthese met beperkte scène-evolutie, voeren statische beeldvertaling uit zonder actiedynamica te modelleren, of steunen op dichte supervisie, zoals cameratrajecten, lange videoprefixen, gesynchroniseerde multicamera-opnames, enz. In dit werk introduceren we EgoForge, een egocentrische, doelgerichte wereldsimulator die coherente, first-person videoreeksen genereert vanuit minimale statische inputs: een enkele egocentrische afbeelding, een hoogwaardige instructie en een optioneel auxilliair exocentrisch beeld. Om intentie-afstemming en temporele consistentie te verbeteren, stellen we VideoDiffusionNFT voor, een trajectniveau-verfijning met beloningsgeleiding die doelvoltooiing, temporele causaliteit, scène-consistentie en perceptuele geloofwaardigheid optimaliseert tijdens diffusie-sampling. Uitgebreide experimenten tonen aan dat EgoForge consistente verbeteringen bereikt in semantische afstemming, geometrische stabiliteit en bewegingsgeloofwaardigheid ten opzichte van sterke baseline-methoden, en robuuste prestaties levert in real-world experimenten met slimme brillen.

Een agent leren om één onderdeel per keer te schetsen
Teaching an Agent to Sketch One Part at a Time

Mar 19

ByXiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich

Wij ontwikkelen een methode voor het stapsgewijs produceren van vector schetsen. Hiertoe trainen wij een multimodaal taalmodel-gebaseerde agent met een nieuwe multi-turn reinforcement learning aanpak met procesbeloning, na supervised fine-tuning. Onze methode wordt mogelijk gemaakt door een nieuwe dataset genaamd ControlSketch-Part, die rijke deelniveau annotaties voor schetsen bevat. Deze annotaties worden verkregen via een nieuwe, generieke automatische annotatiepijplijn die vector schetsen segment

DROID-SLAM in het Wild
DROID-SLAM in the Wild

Mar 19

ByMoyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath

Wij presenteren een robuust, realtime RGB SLAM-systeem dat dynamische omgevingen verwerkt door gebruik te maken van differentieerbare onzekerheidsbewuste bundelbepaling (Uncertainty-aware Bundle Adjustment). Traditionele SLAM-methoden gaan doorgaans uit van statische scènes, wat leidt tot trackingfouten bij beweging in de omgeving. Recente dynamische SLAM-benaderingen proberen deze uitdaging aan te pakken met vooraf gedefinieerde dynamische prioriteiten of onzekerheidsbewuste modellering, maar zij blijven beperkt bij onbekende dynamische objecten of sterk rommelige scènes waar geometrische modellering onbetrouwbaar wordt. In tegenstelling daarmee schat onze methode de onzekerheid per pixel door gebruik te maken van inconsistentie van visuele features in meerdere views, wat robuuste tracking en reconstructie mogelijk maakt, zelfs in real-world omgevingen. Het voorgestelde systeem behaalt state-of-the-art cameraposes en scènegeometrie in rommelige dynamische scenario's en functioneert in realtime met ongeveer 10 FPS. Code en datasets zijn beschikbaar op https://github.com/MoyangLi00/DROID-W.git.

AgentDS Technisch Rapport: Het Benchmarken van de Toekomst van Mens-AI-Samenwerking in Domeinspecifieke Data Science
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Mar 19

ByAn Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

Data science speelt een cruciale rol bij het omzetten van complexe data in bruikbare inzichten in tal van domeinen. Recente ontwikkelingen in grote taalmmodellen (LLM's) en kunstmatige-intelligentiegents (AI-agents) hebben de data science-workflow aanzienlijk geautomatiseerd. Het blijft echter onduidelijk in hoeverre AI-agents de prestaties van menselijke experts kunnen evenaren op domeinspecifieke data science-taken, en op welke aspecten menselijke expertise voordelen blijft bieden. Wij introduceren AgentDS, een benchmark en competitie die is ontworpen om zowel de prestaties van AI-agents als van mens-AI-samenwerking in domeinspecifieke data science te evalueren. AgentDS bestaat uit 17 uitdagingen verspreid over zes industrieën: handel, voedselproductie, gezondheidszorg, verzekeringen, productie en retailbankieren. Wij organiseerden een open competitie met 29 teams en 80 deelnemers, waardoor een systematische vergelijking mogelijk werd tussen mens-AI-samenwerkingsaanpakken en AI-only-basislijnen. Onze resultaten tonen aan dat huidige AI-agents moeite hebben met domeinspecifiek redeneren. De AI-only-basislijnen presteren op of onder het mediane niveau van de deelnemers, terwijl de sterkste oplossingen voortkomen uit mens-AI-samenwerking. Deze bevindingen dagen het narratief van volledige automatisering door AI uit en benadrukken het blijvende belang van menselijke expertise in data science, terwijl ze richting wijzen voor de volgende generatie AI. Bezoek de AgentDS-website hier: https://agentds.org/ en de open source datasets hier: https://huggingface.co/datasets/lainmn/AgentDS.

Samenwerking en Uitbuiting in LLM-beleidssynthese voor Sequentiele Sociale Dilemma's
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Mar 19

ByVíctor Gallego

Wij bestuderen LLM-beleidssynthese: het gebruik van een groot taalmodel om iteratief programmatische agentenbeleidsregels te genereren voor multi-agent omgevingen. In plaats van neurale beleidsregels te trainen via reinforcement learning, laat ons framework een LLM Python-beleidsfuncties genereren, evalueert ze in zelf-play, en verfijnt ze met behulp van prestatiefeedback over iteraties heen. Wij onderzoeken feedback-engineering (het ontwerp van welke evaluatie-informatie aan de LLM wordt getoond tijdens de verfijning) door schaarse feedback (alleen een scalaire beloning) te vergelijken met gedetailleerde feedback (beloning plus sociale metrieken: efficiëntie, gelijkheid, duurzaamheid, vrede). In twee canonieke Sequentiele Sociale Dilemma's (Gathering en Cleanup) en twee frontier-LLM's (Claude Sonnet 4.6, Gemini 3.1 Pro) presteert gedetailleerde feedback consistent gelijk of beter dan schaarse feedback op alle metrieken. Het voordeel is het grootst in het Cleanup publieke goederen spel, waar het verstrekken van sociale metrieken de LLM helpt om de kosteneffectieve afweging tussen opruimen en oogsten te kalibreren. In plaats van overoptimalisatie van eerlijkheid te triggeren, dienen sociale metrieken als een coördinatiesignaal dat de LLM leidt naar effectievere coöperatieve strategieën, waaronder territoriumverdeling, adaptieve roltoewijzing en het vermijden van zinloze agressie. Wij voeren verder een adversarieel experiment uit om te bepalen of LLM's deze omgevingen kunnen 'reward hacken'. Wij karakteriseren vijf aanvalsklassen en bespreken mitigerende maatregelen, waarbij een inherente spanning in LLM-beleidssynthese tussen expressiviteit en veiligheid wordt belicht. Code beschikbaar op https://github.com/vicgalle/llm-policies-social-dilemmas.

Hebben VLMs Visie Transformers Nodig? Evaluatie van State Space Models als Visuele Encoders
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Mar 19

ByShang-Jui Ray Kuo, Paola Cascante-Bonilla

Grootschalige visueel-taalmodelen (VLM's) gebruiken vaak een bevroren visuele backbone, waarvan de beeldkenmerken via een lichtgewicht connector in een groot taalmodel worden gemapt. Hoewel op transformers gebaseerde encoders de standaard visuele backbone vormen, onderzoeken wij of visuele backbones op basis van state space modellen (SSM) een sterke alternatief kunnen zijn. Wij evalueren SSM-visuele backbones voor VLM's systematisch in een gecontroleerde setting. Onder gelijke ImageNet-1K initialisatie behaalt de SSM-backbone de sterkste algehele prestaties op zowel VQA als grounding/localisatie. Wij passen zowel SSM- als ViT-familie backbones verder aan met detectie- of segmentatietraining en constateren dat tuning voor dense taken over het algemeen de prestaties binnen beide families verbetert; na deze aanpassing blijft de SSM-backbone concurrerend, terwijl deze werkt op een aanzienlijk kleinere modelschaal. Wij observeren verder dat (i) hogere ImageNet-nauwkeurigheid of grotere backbones niet betrouwbaar vertalen naar betere VLM-prestaties, en (ii) sommige visuele backbones instabiel zijn bij lokalisatie. Gebaseerd op deze bevindingen stellen wij stabilisatiestrategieën voor die de robuustheid voor beide backbone-families verbeteren en benadrukken SSM-backbones als een sterk alternatief voor op transformers gebaseerde visuele encoders in VLM's.

Taal op Aanvraag, Kennis als Kern: Het Combineren van LLM's met Encoder-Decoder Vertaalmodellen voor Uitbreidbare Meertaligheid
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mar 18

ByMengyu Bu, Yang Feng

Grote taalmodellen (LLM's) vertonen sterke algemene intelligentie, maar hun meertalige prestaties blijven zeer onevenwichtig. Hoewel LLM's aanzienlijke cross-linguale kennis coderen in een uniforme semantische ruimte, hebben ze vaak moeite om deze kennis betrouwbaar te koppelen aan talen met weinig bronnen of onbekende talen. Gelukkig beschikken vooraf getrainde encoder-decoder-vertaalmodellen reeds over een gebalanceerde meertalige capaciteit, wat een natuurlijke aanvulling op LLM's suggereert. In dit werk stellen we XBridge voor, een compositionele encoder-LLM-decoder-architectuur die meertalig begrip en generatie delegeert aan externe, vooraf getrainde vertaalmodellen, terwijl de LLM behouden blijft als een Engelstalige kern voor algemene kennisverwerking. Om de resulterende representatie-uitlijning tussen modellen aan te pakken, introduceren we lichtgewicht cross-model mapping-lagen en een op optimaal transport gebaseerd aligneringsdoel, waardoor fijnmazige semantische consistentie voor meertalige generatie mogelijk wordt. Experimenten met vier LLM's op het gebied van meertalig begrip, redeneren, samenvatten en genereren tonen aan dat XBridge sterke baseline-methoden overtreft, vooral voor talen met weinig bronnen en voorheen onbekende talen, zonder de LLM opnieuw te trainen.

Mens-AI-synergie in agentgestuurde codebeoordeling
Human-AI Synergy in Agentic Code Review

Mar 16

BySuzhen Zhong, Shayan Noei, Ying Zou, Bram Adams

Code review is een essentiële software-engineeringpraktijk waarbij ontwikkelaars codewijzigingen beoordelen vóór integratie om de codekwaliteit te waarborgen, defecten op te sporen en de onderhoudbaarheid te verbeteren. De laatste jaren worden AI-agenten die codecontext kunnen begrijpen, reviewacties kunnen plannen en met ontwikkelomgevingen kunnen interacteren, steeds vaker geïntegreerd in het code review-proces. Er is echter beperkt empirisch bewijs om de effectiviteit van AI-agenten en menselijke reviewers in collaboratieve workflows te vergelijken. Om deze leemte aan te pakken, voeren we een grootschalige empirische analyse uit van 278.790 code review-gesprekken in 300 open-source GitHub-projecten. In onze studie streven we ernaar de feedbackverschillen van menselijke reviewers en AI-agenten te vergelijken. We onderzoeken mens-AI-samenwerkingspatronen in reviewgesprekken om te begrijpen hoe interactie de reviewresultaten vormgeeft. Bovendien analyseren we de adoptie van codesuggesties van menselijke reviewers en AI-agenten in de codebase, en hoe geadopteerde suggesties de codekwaliteit veranderen. We constateren dat menselijke reviewers aanvullende feedback geven dan AI-agenten, waaronder begrip, testen en kennisoverdracht. Menselijke reviewers wisselen 11,8% meer interactieronden uit bij het reviewen van AI-gegenereerde code dan bij door mensen geschreven code. Bovendien worden codesuggesties van AI-agenten aanzienlijk minder vaak in de codebase geadopteerd dan suggesties van menselijke reviewers. Meer dan de helft van de niet-geadopteerde suggesties van AI-agenten is incorrect of wordt door ontwikkelaars via alternatieve oplossingen aangepakt. Wanneer ze worden geadopteerd, leiden suggesties van AI-agenten tot een significant grotere toename van codecomplexiteit en codegrootte dan suggesties van menselijke reviewers. Onze bevindingen suggereren dat hoewel AI-agenten defectenscreening kunnen opschalen, menselijk toezicht cruciaal blijft om de kwaliteit van suggesties te waarborgen en contextuele feedback te geven die AI-agenten ontbreekt.

TAPESTRY: Van geometrie naar uiterlijk via consistente draaitafelvideo's
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Mar 18

ByYan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu

Het automatisch genereren van fotorealistische en zelfconsistente verschijningen voor ongetextureerde 3D-modellen is een cruciale uitdaging in digitale contentcreatie. De vooruitgang in grootschalige videogeneratiemodellen biedt een natuurlijke aanpak: het direct synthetiseren van 360-graden draaitafelvideo's (TTV's), die niet alleen kunnen dienen als hoogwaardige dynamische voorvertoningen, maar ook als een intermediaire representatie om texturesynthese en neurale rendering aan te sturen. Echter, bestaande algemene videodiffusiemodellen hebben moeite om strikte geometrische consistentie en verschijningsstabiliteit over het volledige gezichtsveld te behouden, waardoor hun uitvoer ongeschikt is voor hoogwaardige 3D-reconstructie. Daarom introduceren wij TAPESTRY, een raamwerk voor het genereren van hoogfideliteit TTV's, geconditioneerd op expliciete 3D-geometrie. Wij herformuleren de taak van 3D-verschijningsgeneratie als een geometrie-geconditioneerd videodiffusieprobleem: gegeven een 3D-mesh, renderen en encoderen wij eerst multimodale geometrische kenmerken om het videogeneratieproces te sturen met pixelprecisie, waardoor de creatie van hoogwaardige en consistente TTV's mogelijk wordt. Hierop voortbouwend, ontwerpen wij ook een methode voor downstream-reconstructietaken vanuit de TTV-input, met een meerfasige pijplijn met 3D-bewust Inpainting. Door het model te roteren en een contextbewuste secundaire generatie uit te voeren, voltooit deze pijplijn effectief zelf-occluded regio's om volledige oppervlaktedekking te bereiken. De door TAPESTRY gegenereerde video's zijn niet alleen hoogwaardige dynamische voorvertoningen, maar dienen ook als een betrouwbare, 3D-bewuste intermediaire representatie die naadloos kan worden teruggeprojecteerd in UV-textures of gebruikt kan worden om neurale renderingsmethoden zoals 3DGS te superviseren. Dit maakt de geautomatiseerde creatie van productieklare, complete 3D-assets vanuit ongetextureerde meshes mogelijk. Experimentele resultaten tonen aan dat onze methode bestaande benaderingen overtreft in zowel videoconsistentie als uiteindelijke reconstructiekwaliteit.

ReLi3D: Herbelichtbare multiview 3D-reconstructie met ontvlochten belichting
ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Mar 20

ByJan-Niklas Dihlmann, Mark Boss, Simon Donne, Andreas Engelhardt, Hendrik P. A. Lensch, Varun Jampani

Het reconstrueren van 3D-assets uit afbeeldingen vereiste lange tijd gescheiden pijplijnen voor geometriereconstructie, materiaalschatting en illuminatieherstel, elk met eigen beperkingen en rekenkosten. Wij presenteren ReLi3D, de eerste geünificeerde end-to-end pijplijn die gelijktijdig complete 3D-geometrie, ruimtelijk variërende fysiek gebaseerde materialen en omgevingsverlichting reconstrueert uit schaarse multi-view afbeeldingen in minder dan één seconde. Onze belangrijkste inzicht is dat multi-view beperkingen de ontwarring van materialen en verlichting aanzienlijk kunnen verbeteren, een probleem dat fundamenteel slecht gesteld blijft voor single-view methoden. De kern van onze aanpak is de fusie van de multi-view invoer via een transformer cross-conditioning architectuur, gevolgd door een nieuwe geünificeerde tweesporen voorspellingsstrategie. Het eerste pad voorspelt de structuur en het uiterlijk van het object, terwijl het tweede pad de omgevingsverlichting voorspelt uit de achtergrond van de afbeelding of reflecties van het object. Dit, gecombineerd met een differentieerbare Monte Carlo multiple importance sampling renderer, creëert een optimale trainingspijplijn voor illuminatie-ontwarring. Daarnaast bereiken we met ons mixed-domain trainingsprotocol, dat synthetische PBR-datasets combineert met real-world RGB-opnames, generaliseerbare resultaten op het gebied van geometrie, materiaalnauwkeurigheid en verlichtingskwaliteit. Door voorheen gescheiden reconstructietaken te verenigen in een enkele voorwaartse pass, maken we bijna onmiddellijke generatie van complete, herbelichtbare 3D-assets mogelijk. Projectpagina: https://reli3d.jdihlmann.com/

CurveStream: Verbetering van Streamend Videobegrip in MLLM's via Krommingbewust Hiërarchisch Visueel Geheugenbeheer
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Mar 20

ByChao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen

Multimodale Large Language Models hebben aanzienlijk succes geboekt bij offline videobegrip, maar hun toepassing op streamingvideo's wordt ernstig beperkt door de lineaire explosie van visuele tokens, wat vaak leidt tot Out-of-Memory (OOM) fouten of catastrofale vergetelheid. Bestaande methoden voor visueel geheugenbeheer zijn typisch afhankelijk van uniforme sampling, fysieke metrieken op laag niveau, of passieve cache-vervanging. Deze strategieën missen echter vaak intrinsiek semantisch bewustzijn, wat de contextuele samenhang kan verstoren en vluchtige maar kritieke semantische overgangen kan vervagen. Om deze beperkingen aan te pakken, stellen wij CurveStream voor, een trainingsvrij, kromming-bewust hiërarchisch raamwerk voor visueel geheugenbeheer. Onze aanpak wordt gemotiveerd door de kernobservatie dat regio's met hoge kromming langs continue featuretrajectoren nauw aansluiten bij kritieke globale semantische overgangen. Gebaseerd op dit geometrische inzicht, evalueert CurveStream de semantische intensiteit in real-time via een Krommingsscore en integreert het een online K-Sigma dynamische drempelwaarde om frames adaptief te routeren naar heldere en vage geheugenstatussen binnen een strikt tokenbudget. Evaluaties over diverse temporele schalen bevestigen dat dit lichtgewicht raamwerk, CurveStream, consistente absolute prestatieverbeteringen van meer dan 10% oplevert (bijvoorbeeld 10.69% op StreamingBench en 13.58% op OVOBench) ten opzichte van respectievelijke basislijnen, waarmee nieuwe state-of-the-art resultaten voor streaming videobegrip worden gevestigd. De code zal worden vrijgegeven op https://github.com/streamingvideos/CurveStream.

Het Onderzoeken van Culturele Signalen in Grote Taalmodellen via Auteurprofilering
Probing Cultural Signals in Large Language Models through Author Profiling

Mar 17

ByValentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes

Grote taalmodellen (LLM's) worden steeds vaker ingezet in toepassingen met maatschappelijke impact, wat zorgen oproept over de culturele vooroordelen die zij coderen. Wij onderzoeken deze representaties door te evalueren of LLM's auteurprofilering kunnen uitvoeren op basis van songteksten in een zero-shot setting, waarbij ze het geslacht en de etniciteit van zangers afleiden zonder taakspecifieke fine-tuning. Over verschillende open-source modellen geëvalueerd op meer dan 10.000 songteksten, constateren we dat LLM's een niet-triviale profileringprestatie leveren, maar systematische culturele afstemming vertonen: de meeste modellen neigen standaard naar Noord-Amerikaanse etniciteit, terwijl DeepSeek-1.5B sterker afgestemd is op Aziatische etniciteit. Deze bevinding komt naar voren uit zowel de voorspellingsdistributies van de modellen als een analyse van hun gegenereerde rechtvaardigingen. Om deze verschillen te kwantificeren, introduceren we twee billijkheidsmaten, Modality Accuracy Divergence (MAD) en Recall Divergence (RD), en tonen we aan dat Mistral-8B de sterkste etniciteitsbias vertoont onder de geëvalueerde modellen, terwijl Gemma-12B het meest gebalanceerde gedrag vertoont. Onze code is beschikbaar op GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Adaptieve Laaggewijze Perturbatie: Unificatie van Off-Policy Correcties voor LLM RL
Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Mar 19

ByChenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang

Off-policy-problemen zoals *policy staleness* (verouderd beleid) en de mismatch tussen training en inferentie zijn een grote bottleneck geworden voor de trainingsstabiliteit en verdere exploratie bij LLM RL. Om de inferentie-efficiëntie te verbeteren, groeit de distributiekloof tussen het inferentie- en het bijgewerkte beleid, wat leidt tot zwaarstaartige importantieverhoudingen. Zwaarstaartige verhoudingen ontstaan wanneer het beleid lokaal scherp is, wat de scherpe gradiënten verder opblaast en updates buiten het vertrouwensgebied kan duwen. Om dit aan te pakken, stellen we Adaptive Layerwise Perturbation (ALP) voor door kleine leerbare perturbaties toe te voegen aan de verborgen toestandsvectoren van de invoer in elke laag tijdens updates. Deze perturbaties worden gebruikt als de teller van de importantieverhouding tegen het ongewijzigde inferentiebeleid in de doelfunctie. Intuïtief gezien voorkomt ALP, door gecontroleerde ruis aan tussenliggende representaties toe te voegen, dat het bijgewerkte beleid te scherp afwijkt van het inferentiebeleid, en vergroot het de beleidsfamilie om de inferentiebeleidsfamilie te omvatten, inclusief mismatch-ruis. Hierdoor kan de afgevlakte distributie de kloof tussen het bijgewerkte en het inferentiebeleid van nature verkleinen en de staart van de importantieverhoudingen verminderen, waardoor de trainingsstabiliteit behouden blijft. Dit wordt verder empirisch gevalideerd. Experimenten op taken met enkelvoudige wiskundige redenering en meervoudige tool-geïntegreerde redenering tonen aan dat ALP niet alleen de uiteindelijke prestaties verbetert, maar ook een explosie van de importantieverhoudingsstaart en KL-pieken tijdens iteratieve training vermijdt, samen met een verbeterde exploratie. Ablatiestudies tonen aan dat perturbaties op representatieniveau over alle lagen het meest effectief zijn, wat aanzienlijk beter presteert dan varianten met gedeeltelijke lagen of alleen logits.

s2n-bignum-bench: Een praktische benchmark voor het evalueren van laag-niveau codebegrip van LLM's
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

Mar 15

ByBalaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi

Neurosymbolische benaderingen die Large Language Models (LLMs) combineren met formele methoden hebben onlangs sterke resultaten behaald op wiskundig georiënteerde theorem-proving benchmarks. Succes op competitieachtige wiskunde toont echter op zichzelf niet het vermogen aan om bewijzen te construeren over real-world implementaties. Wij voorzien in deze leemte met een benchmark afgeleid van een industriële cryptografische bibliotheek waarvan de assembleroutines reeds zijn geverifieerd in HOL Light. s2n-bignum is een bibliotheek die bij AWS wordt gebruikt voor het leveren van snelle assembleroutines voor cryptografie, en de correctheid ervan is vastgesteld door formele verificatie. De taak om deze bibliotheek formeel te verifiëren was een belangrijke prestatie voor de Automated Reasoning Group. Het omvatte twee taken: (1) het precies specificeren van het correcte gedrag van een programma als een wiskundige propositie, en (2) het bewijzen dat de propositie correct is. In het geval van s2n-bignum werden beide taken uitgevoerd door menselijke experts. In s2n-bignum-bench verstrekken wij de formele specificatie en vragen wij de LLM om een proof-script te genereren dat wordt geaccepteerd door HOL Light binnen een vaste time-out voor proof-checking. Voor zover wij weten, is s2n-bignum-bench de eerste openbare benchmark die zich richt op machine-controleerbare proof-synthese voor industriële low-level cryptografische assembleroutines in HOL Light. Deze benchmark biedt een uitdagende en praktisch relevante testomgeving voor het evalueren van op LLM gebaseerd theorem proving, voorbij competitiewiskunde. De code om de benchmark op te zetten en te gebruiken is hier beschikbaar: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.

Van Maskers naar Pixels en Betekenis: Een Nieuwe Taxonomie, Benchmark en Metrieken voor VLM-beeldmanipulatie
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Mar 20

ByXinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen

Bestaande benchmarks voor manipulatie-detectie vertrouwen grotendeels op objectmaskers, wat ernstig niet overeenkomt met het werkelijke bewerksignaal: veel pixels binnen een masker zijn onaangeroerd of slechts triviaal aangepast, terwijl subtiele maar significante bewerkingen buiten het masker als natuurlijk worden behandeld. Wij herformuleren VLM-beeldmanipulatie van grove regiolabels naar een pixelgebaseerde, betekenis- en taalbewuste taak. Ten eerste introduceren we een taxonomie die bewerkingsprimitieven (vervangen/verwijderen/splitsen/inpainten/attribuut/kleuring, etc.) en hun semantische klasse van gemanipuleerde objecten omvat, waardoor low-level veranderingen worden gekoppeld aan high-level begrip. Ten tweede lanceren we een nieuwe benchmark met per-pixel manipulatiekaarten en gekoppelde categorie-supervisie om detectie en classificatie binnen een uniform protocol te evalueren. Ten derde stellen we een trainingsraamwerk en evaluatiemetrieken voor die pixel-level nauwkeurigheid kwantificeren met lokalisatie om de betrouwbaarheid of voorspelling van de werkelijke bewerkingsintensiteit te beoordelen, en meten we verder het begrip van manipulatiebetekenis via semantiekbewuste classificatie en natuurlijke-taalbeschrijvingen voor de voorspelde regio's. We her-evalueren ook de bestaande sterke segmentatie/lokalisatie-baselines op recente sterke manipulatiedetectoren en onthullen aanzienlijke over- en onderwaardering met uitsluitend maskermetrieken, en leggen faalmodi bloot bij micro-bewerkingen en veranderingen buiten het masker. Ons raamwerk verplaatst het vakgebied van maskers naar pixels, betekenissen en taalbeschrijvingen, en stelt een rigoureuze standaard in voor manipulatielokalisatie, semantische classificatie en beschrijving. Code en benchmarkgegevens zijn beschikbaar op https://github.com/VILA-Lab/PIXAR.

Automatische detectie van Gen-AI-teksten: Een vergelijkend kader van neurale modellen
Automatic detection of Gen-AI texts: A comparative framework of neural models

Mar 19

ByCristian Buttaro, Irene Amerini

De snelle opkomst van grootschalige taalmodel(len) heeft de moeilijkheid om door mensen geschreven teksten van AI-gegenereerde teksten te onderscheiden aanzienlijk vergroot, wat kritieke vraagstukken op academisch, redactioneel en sociaal gebied met zich meebrengt. Dit artikel onderzoekt het probleem van het detecteren van AI-gegenereerde tekst door het ontwerp, de implementatie en de vergelijkende evaluatie van meerdere op machine learning gebaseerde detectoren. Vier neurale architecturen worden ontwikkeld en geanalyseerd: een Multilayer Perceptron, een eendimensionaal Convolutioneel Neuraal Netwerk, een op MobileNet gebaseerd CNN en een Transformer-model. De voorgestelde modellen worden getoetst aan veelgebruikte online detectoren, waaronder ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase en Writer. Experimenten worden uitgevoerd op de COLING Multilingual Dataset, waarbij zowel Engelse als Italiaanse configuraties worden overwogen, evenals op een originele thematische dataset gericht op Kunst en Geestelijke Gezondheid. Resultaten tonen aan dat supervised detectoren stabielere en robuustere prestaties leveren dan commerciële tools in verschillende talen en domeinen, wat de belangrijkste sterke punten en beperkingen van huidige detectiestrategieën benadrukt.

Meerschalige Schakelaar voor Semi-gesuperviseerd en Contrastief Leren bij Segmentatie van Medische Echobeelden
Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Mar 19

ByJingguo Qu, Xinyang Han, Yao Pu, Man-Lik Chui, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying

Medische ultrasone beeldsegmentatie wordt geconfronteerd met aanzienlijke uitdagingen als gevolg van beperkte gelabelde data en karakteristieke beeldartefacten, waaronder speckle-ruis en grenzen met laag contrast. Hoewel semi-gesuperviseerde leerbenaderingen (SSL) zijn ontstaan om het datatekort aan te pakken, lijden bestaande methoden onder suboptimale benutting van ongelabelde data en ontbreekt het hen aan robuuste mechanismen voor feature-representatie. In dit artikel stellen we Switch voor, een nieuw SSL-raamwerk met twee belangrijke innovaties: (1) een Multischaal Switch (MSS)-strategie die hiërarchische patch-mixing gebruikt om uniforme ruimtelijke dekking te bereiken; (2) Frequentiedomein Switch (FDS) met contrastief leren dat amplitude-switching uitvoert in de Fourier-ruimte voor robuuste feature-representaties. Ons raamwerk integreert deze componenten binnen een leraar-leerlingarchitectuur om zowel gelabelde als ongelabelde data effectief te benutten. Een uitgebreide evaluatie over zes diverse ultrasone datasets (lymfeklieren, borstlaesies, schildklierknobbels en prostaat) toont consistente superioriteit ten opzichte van state-of-the-art methoden. Bij een labelratio van 5% behaalt Switch opmerkelijke verbeteringen: 80,04% Dice op LN-INT, 85,52% Dice op DDTI en 83,48% Dice op de Prostate-datasets, waarbij onze semi-gesuperviseerde aanpak zelfs volledig gesuperviseerde basislijnen overtreft. De methode behoudt parameter-efficiëntie (1,8M parameters) en levert superieure prestaties, wat de effectiviteit ervan voor resource-beperkte medische beeldvormingstoepassingen valideert. De broncode is openbaar beschikbaar op https://github.com/jinggqu/Switch.

ReLMXEL: Adaptieve op Reinforcement Learning gebaseerde Geheugencontroller met Uitlegbare Optimalisatie van Energie en Latentie
ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Mar 18

ByPanuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma, Venkata Kalyan Tavva, Naveen M

Het verminderen van latentie en energieverbruik is cruciaal voor het verbeteren van de efficiëntie van geheugensystemen in moderne computing. Dit werk introduceert ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization), een uitlegbare multi-agent online reinforcement learning-framework die geheugencontrollerparameters dynamisch optimaliseert met behulp van beloningsdecompositie. ReLMXEL opereert binnen de geheugencontroller en benut gedetailleerde metrieken van geheugengedrag om besluitvorming te sturen. Experimentele evaluaties over diverse workloads tonen consistente prestatieverbeteringen aan ten opzichte van baselineconfiguraties, met verfijningen gedreven door workloadspecifiek geheugentoegangsgedrag. Door uitlegbaarheid in het leerproces te integreren, verbetert ReLMXEL niet alleen de prestaties, maar vergroot het ook de transparantie van controlebeslissingen, waardoor de weg wordt geëffend voor meer verantwoordelijke en adaptieve geheugensysteemontwerpen.