HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

44 papers found

DataFlex: Een Uniform Raamwerk voor Data-Gecentreerde Dynamische Training van Grote Taalmodellen
DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Mar 27

ByHao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui Chen, Lu Ma, Rongyi Yu, Hengyi Feng, Shixuan Sun, Zimo Meng, Xiaochen Ma, Xuanlin Yang, Qifeng Cai, Ruichuan An, Bohan Zeng, Zhen Hao Wong, Chengyu Shen, Runming He, Zhaoyang Han, Yaowei Zheng, Fangcheng Fu, Conghui He, Bin Cui, Zhiyu Li, Weinan E, Wentao Zhang

139

Data-centrisch traineren is naar voren gekomen als een veelbelovende richting voor het verbeteren van grote taalmmodellen (LLM's) door niet alleen modelparameters te optimaliseren, maar ook de selectie, samenstelling en weging van trainingsgegevens tijdens het optimalisatieproces. Bestaande benaderingen voor gegevensselectie, optimalisatie van gegevensmengsels en herweging van gegevens worden echter vaak ontwikkeld in geïsoleerde codebibliotheken met inconsistente interfaces, wat reproduceerbaarheid, eerlijke vergelijking en praktische integratie belemmert. In dit artikel presenteren we DataFlex, een uniform data-centrisch dynamisch trainingsframework gebouwd op LLaMA-Factory. DataFlex ondersteunt drie belangrijke paradigma's van dynamische gegevensoptimalisatie: voorbeeldselectie, aanpassing van domeinmengsels en herweging van voorbeelden, terwijl het volledig compatibel blijft met de oorspronkelijke trainingsworkflow. Het biedt uitbreidbare trainerabstracties en modulaire componenten, waardoor het een directe vervanging vormt voor standaard LLM-training, en het verenigt cruciale modelafhankelijke operaties zoals embedding-extractie, inferentie en gradientberekening, met ondersteuning voor grootschalige settings inclusief DeepSpeed ZeRO-3. We voeren uitgebreide experimenten uit met meerdere data-centrische methoden. Dynamische gegevensselectie presteert consistent beter dan statische training met volledige gegevens op MMLU voor zowel Mistral-7B als Llama-3.2-3B. Voor gegevensmengsels verbeteren DoReMi en ODM zowel de MMLU-nauwkeurigheid als de perplexiteit op corpusniveau ten opzichte van standaardverhoudingen bij het vooraf trainen van Qwen2.5-1.5B op SlimPajama op schalen van 6B en 30B tokens. DataFlex behaalt ook consistente verbeteringen in looptijd ten opzichte van originele implementaties. Deze resultaten tonen aan dat DataFlex een effectieve, efficiënte en reproduceerbare infrastructuur biedt voor data-centrische dynamische training van LLM's.

De Latente Ruimte: Fundament, Evolutie, Mechanisme, Mogelijkheden en Toekomstperspectief
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Apr 2

ByXinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan

De latente ruimte ontwikkelt zich snel als een natuurlijk substraat voor op taal gebaseerde modellen. Hoewel moderne systemen nog vaak worden begrepen via expliciete token-gebaseerde generatie, toont een groeiend aantal onderzoeken aan dat veel kritieke interne processen natuurlijker plaatsvinden in de continue latente ruimte dan in menselijk leesbare verbale sporen. Deze verschuiving wordt gedreven door de structurele beperkingen van expliciete-ruimteberekeningen, waaronder linguïstische redundantie, discretisatieknelpunten, sequentiële inefficiëntie en semantisch verlies. Dit overzicht heeft tot doel een verenigd en actueel landschap te bieden van de latente ruimte in op taal gebaseerde modellen. We organiseren het overzicht in vijf opeenvolgende perspectieven: Fundament, Evolutie, Mechanisme, Vermogen en Vooruitblik. We beginnen met het afbakenen van het domein van de latente ruimte, waarbij we deze onderscheiden van expliciete of verbale ruimtes en van de latente ruimtes die vaak worden bestudeerd in generatieve visuele modellen. Vervolgens volgen we de evolutie van het vakgebied van vroege verkennende inspanningen tot de huidige grootschalige expansie. Om het technische landschap te structureren, onderzoeken we bestaand werk door de complementaire lenzen van mechanisme en vermogen. Vanuit het perspectief van Mechanisme identificeren we vier belangrijke ontwikkellijnen: Architectuur, Representatie, Berekenen en Optimalisatie. Vanuit het perspectief van Vermogen tonen we aan hoe de latente ruimte een breed scala aan capaciteiten ondersteunt, waaronder Redeneren, Plannen, Modelleren, Perceptie, Geheugen, Samenwerking en Belichaming. Naast consolidatie bespreken we de belangrijkste open uitdagingen en schetsen we veelbelovende richtingen voor toekomstig onderzoek. We hopen dat dit overzicht niet alleen dient als referentie voor bestaand werk, maar ook als fundament voor het begrijpen van de latente ruimte als een algemeen computationeel en systeemparadigma voor next-generation intelligentie.

Generatieve Wereldweergave
Generative World Renderer

Apr 2

ByZheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang

Het opschalen van generatieve inverse en forward rendering naar realistische scenario's wordt belemmerd door de beperkte realiteitsgetrouwheid en temporele coherentie van bestaande synthetische datasets. Om deze hardnekkige domeinkloof te overbruggen, introduceren we een grootschalige, dynamische dataset samengesteld uit visueel complexe AAA-games. Met behulp van een nieuwe opname methode met dubbele schermen hebben we 4 miljoen continue frames (720p/30 FPS) geëxtraheerd van gesynchroniseerde RGB- en vijf G-bufferkanalen, afkomstig uit diverse scènes, visuele effecten en omgevingen, inclusief varianten met extreem weer en bewegingsonscherpte. Deze dataset bevordert bidirectioneel renderen op unieke wijze: het maakt robuuste geometrie- en materiaaldecompositie in de praktijk mogelijk en vergemakkelijkt hoogwaardige G-buffer-gestuurde videogeneratie. Verder stellen we, om de prestaties van inverse rendering in de praktijk te evalueren zonder grondwaarheid, een nieuw op VLM gebaseerd beoordelingsprotocol voor dat semantische, ruimtelijke en temporele consistentie meet. Experimenten tonen aan dat inverse renderers die zijn afgestemd op onze data superieure cross-dataset generalisatie en controleerbare generatie bereiken, terwijl onze VLM-evaluatie sterk correleert met menselijke beoordeling. In combinatie met onze toolkit stelt onze forward renderer gebruikers in staat om stijlen van AAA-games te bewerken vanuit G-buffers met behulp van tekstprompts.

VAARDIGHEID0: In-Context Agentisch Versterkend Leren voor Vaardigheidinternalisatie
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Apr 2

ByZhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

Agentvaardigheden, gestructureerde pakketten van procedurele kennis en uitvoerbare hulpbronnen die agents dynamisch laden tijdens inferentie, zijn een betrouwbaar mechanisme geworden voor het uitbreiden van LLM-agents. Toch kent inference-time vaardigheidsuitbreiding fundamentele beperkingen: retrievalruis introduceert irrelevante richtlijnen, geïnjecteerde vaardigheidsinhoud legt een aanzienlijke token-overhead op, en het model verwerft de kennis die het slechts volgt nooit echt. Wij vragen ons af of vaardigheden instead kunnen worden geïnternaliseerd in modelparameters, waardoor zero-shot autonoom gedrag mogelijk wordt zonder enige runtime-vaardigheidsretrieval. Wij introduceren SKILL0, een in-context reinforcement learning-raamwerk ontworpen voor vaardigheidsinternalisatie. SKILL0 introduceert een curriculum tijdens de training dat begint met volledige vaardigheidscontext en deze geleidelijk afbouwt. Vaardigheden worden offline gegroepeerd per categorie en samen met interactiegeschiedenis weergegeven in een compacte visuele context, waardoor het model toolaanroeping en multiturn-taakvoltooiing leert. Een Dynamisch Curriculum evalueert vervolgens de on-policy nuttigheid van elk vaardigheidsbestand, waarbij alleen die worden behouden waarvan het huidige beleid nog profiteert binnen een lineair afnemende budgettering, totdat de agent opereert in een volledig zero-shot setting. Uitgebreide agent-experimenten tonen aan dat SKILL0 substantiële verbeteringen bereikt ten opzichte van de standaard RL-baseline (+9,7% voor ALFWorld en +6,6% voor Search-QA), waarbij een zeer efficiënte context van minder dan 0,5k tokens per stap wordt aangehouden. Onze code is beschikbaar op https://github.com/ZJU-REAL/SkillZero.

EgoSim: Egocentrische Wereldsimulator voor de Generatie van Belichaamde Interactie
EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Apr 1

ByJinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu

Wij introduceren EgoSim, een gesloten-lus egocentrische wereldsimulator die ruimtelijk consistente interactievideo's genereert en de onderliggende 3D-scènetoestand voortdurend bijwerkt voor continue simulatie. Bestaande egocentrische simulators missen ofwel expliciete 3D-verankering, wat structurele drift bij viewpointveranderingen veroorzaakt, of behandelen de scène als statisch, waardoor wereldtoestanden niet worden bijgewerkt tijdens meerstapsinteracties. EgoSim lost beide beperkingen op door 3D-scènes te modelleren als bijwerkbare wereldtoestanden. Wij genereren belichamingsinteracties via een Geometry-action-aware Observation Simulation-model, met ruimtelijke consistentie afkomstig van een Interaction-aware State Updating-module. Om het kritieke dataknelpunt op te lossen dat wordt veroorzaakt door de moeilijkheid om dicht uitgelijnde scène-interactietrainingsparen te verkrijgen, ontwerpen we een schaalbare pijplijn die statische puntenwolken, cameratrajecten en belichamingsacties extraheert uit in-the-wild grootschalige monocular egocentrische video's. We introduceren verder EgoCap, een capturesysteem dat low-cost datacollectie in de echte wereld mogelijk maakt met ongekalibreerde smartphones. Uitgebreide experimenten tonen aan dat EgoSim bestaande methoden significant overtreft op het gebied van visuele kwaliteit, ruimtelijke consistentie en generalisatie naar complexe scènes en in-the-wild behendige interacties, terwijl het cross-embodiment transfer naar robotmanipulatie ondersteunt. Code en datasets worden binnenkort openbaar gemaakt. De projectpagina staat op egosimulator.github.io.

Stuurbaar Visuele Representaties
Steerable Visual Representations

Apr 2

ByJona Ruthardt, Manu Gaur, Deva Ramanan, Makarand Tapaswi, Yuki M. Asano

Voorgetrainde Vision Transformers (ViT's) zoals DINOv2 en MAE bieden generieke beeldkenmerken die kunnen worden toegepast op diverse downstreamtaken zoals retrieval, classificatie en segmentatie. Dergelijke representaties hebben echter de neiging zich te richten op de meest opvallende visuele aanwijzingen in de afbeelding, zonder mogelijkheid om ze te sturen naar minder prominente concepten van interesse. Multimodale LLM's daarentegen kunnen met tekstuele prompts worden gestuurd, maar de resulterende representaties zijn vaak taalkundig centrisch en verliezen hun effectiviteit voor generieke visuele taken. Om dit aan te pakken, introduceren we Stuurbare Visuele Representaties, een nieuwe klasse van visuele representaties waarvan de globale en lokale kenmerken kunnen worden gestuurd met natuurlijke taal. Terwijl de meeste vision-languagemodellen (bijvoorbeeld CLIP) tekst samensmelten met visuele kenmerken na de codering (late fusie), injecteren wij tekst direct in de lagen van de visuele encoder (vroege fusie) via lichtgewicht cross-attention. We introduceren benchmarks voor het meten van representatie-stuurbaarheid en tonen aan dat onze stuurbare visuele kenmerken zich kunnen richten op elk gewenst object in een afbeelding, waarbij de onderliggende representatiekwaliteit behouden blijft. Onze methode evenaart of overtreft ook gespecialiseerde benaderingen op het gebied van anomaliedetectie en gepersonaliseerde objectdiscriminatie, en vertoont zero-shotgeneralizatie naar out-of-distributiontaken.

NearID: Identiteitsrepresentatieleren via Near-identity Distractors
NearID: Identity Representation Learning via Near-identity Distractors

Apr 2

ByAleksandar Cvejic, Rameen Abdal, Abdelrahman Eldesokey, Bernard Ghanem, Peter Wonka

Bij de evaluatie van identiteitsgerichte taken zoals gepersonaliseerde generatie en beeldbewerking, vertonen bestaande vision-encoders een verstrengeling van objectidentiteit met achtergrondcontext, wat leidt tot onbetrouwbare representaties en metrieken. Wij introduceren het eerste principiële framework om deze kwetsbaarheid aan te pakken met behulp van Near-identity (NearID) distractors, waarbij semantisch vergelijkbare maar distinctieve instanties op exact dezelfde achtergrond worden geplaatst als een referentiebeeld. Dit elimineert contextuele shortcuts en isoleert identiteit als enige discriminerende signaal. Gebaseerd op dit principe presenteren we de NearID-dataset (19K identiteiten, 316K matched-context distractors) samen met een strikt margin-gebaseerd evaluatieprotocol. In deze setting presteren voorgetrainde encoders slecht, met Sample Success Rates (SSR) – een strikte margin-gebaseerde identiteitsdiscriminatiemetriek – die slechts 30.7% bedragen, waarbij distractors vaak hoger worden gerangschikt dan echte cross-view matches. Wij lossen dit op door identiteitsbewuste representaties aan te leren op een bevroren backbone met een tweelaags contrastief doel dat de hiërarchie afdwingt:zelfde identiteit > NearID-distractor > willekeurige negatieve. Dit verbetert de SSR tot 99.2%, verhoogt part-level discriminatie met 28.0%, en resulteert in een sterkere afstemming met menselijke oordelen op DreamBench++, een menselijk afgestelde benchmark voor personalisatie. Projectpagina: https://gorluxor.github.io/NearID/

LatentUM: Het Vrijmaken van het Potentieel van Verweven Cross-Modale Redenering via een Latente-Ruimte Geünificeerd Model
LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Apr 2

ByJiachun Jin, Zetong Zhou, Xiao Yang, Hao Zhang, Pengfei Liu, Jun Zhu, Zhijie Deng

Unificatiemodellen (UM's) zijn veelbelovend vanwege hun vermogen om inhoud over heterogene modaliteiten heen te begrijpen en te genereren. In vergelijking met het louter genereren van visuele inhoud is het gebruik van UM's voor door elkaar heen gewoven cross-modale redenering veelbelovender en waardevoller, bijvoorbeeld voor het oplossen van begripsproblemen die intensief visueel denken vereisen, het verbeteren van visuele generatie door zelfreflectie, of het modelleren van visuele dynamiek in de fysieke wereld geleid door stapsgewijze actie-interventies. Bestaande UM's vereisen echter pixeldecodering als brug vanwege hun gescheiden visuele representaties voor begrip en generatie, wat zowel inefficiënt als ondoeltreffend is. In dit artikel introduceren we LatentUM, een nieuw unificatiemodel dat alle modaliteiten representeert binnen een gedeelde semantische latente ruimte, waardoor bemiddeling via de pixelruimte tussen visueel begrip en generatie overbodig wordt. Dit ontwerp maakt op natuurlijke wijze flexibele, door elkaar heen gewoven cross-modale redenering en generatie mogelijk. Naast verbeterde computationele efficiëntie verlicht de gedeelde representatie codec-bias aanzienlijk en versterkt het de cross-modale afstemming, waardoor LatentUM state-of-the-art prestaties kan bereiken op de Visual Spatial Planning-benchmark, de grenzen van visuele generatie kan verleggen door zelfreflectie, en wereldmodellering kan ondersteunen door toekomstige visuele toestanden binnen de gedeelde semantische latente ruimte te voorspellen.

Omni-SimpleMem: Autoresearch-gestuurde Ontdekking van Levenslang Multimodaal Agentgeheugen
Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Apr 2

ByJiaqi Liu, Zipeng Ling, Shi Qiu, Yanqing Liu, Siwei Han, Peng Xia, Haoqin Tu, Zeyu Zheng, Cihang Xie, Charles Fleming, Mingyu Ding, Huaxiu Yao

AI-agenten opereren steeds vaker over langere tijdshorizons, maar hun vermogen om multimodale ervaringen vast te houden, te organiseren en op te roepen blijft een kritieke bottleneck. Het opbouwen van effectief levenslang geheugen vereist navigatie door een uitgebreide ontwerpruimte die architectuur, retrievestrategieën, prompt engineering en datapijplijnen omspant; deze ruimte is te groot en onderling verbonden voor handmatige exploratie of traditionele AutoML om effectief te verkennen. Wij zetten een autonoom onderzoekspijplijn in om Omni-SimpleMem te ontdekken, een uniform multimodaal geheugenkader voor levenslange AI-agenten. Uitgaande van een naïeve baseline (F1=0.117 op LoCoMo) voert de pijplijn autonoom ~50 experimenten uit over twee benchmarks, diagnosticeert faalmodi, stelt architectuurwijzigingen voor en repareert bugs in datapijplijnen, allemaal zonder menselijk ingrijpen in de binnenlus. Het resulterende systeem behaalt state-of-the-art op beide benchmarks, met een F1-verbetering van +411% op LoCoMo (0.117 naar 0.598) en +214% op Mem-Gallery (0.254 naar 0.797) ten opzichte van de initiële configuraties. Cruciaal is dat de meest impactvolle ontdekkingen geen hyperparameteraanpassingen zijn: bugfixes (+175%), architectuurwijzigingen (+44%) en prompt engineering (+188% op specifieke categorieën) overstijgen elk afzonderlijk de cumulatieve bijdrage van alle hyperparameterafstemming, wat vermogens demonstreert die fundamenteel buiten het bereik van traditionele AutoML vallen. Wij presenteren een taxonomie van zes ontdekkingstypen en identificeren vier eigenschappen die multimodaal geheugen bijzonder geschikt maken voor autonoom onderzoek, en bieden zo richtlijnen voor het toepassen van autonome onderzoekspijplijnen op andere AI-systeemdomeinen. Code is beschikbaar op https://github.com/aiming-lab/SimpleMem.

VOID: Video Object en Interactie Verwijdering
VOID: Video Object and Interaction Deletion

Apr 2

BySaman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng

Bestaande methoden voor het verwijderen van objecten uit video's blinken uit in het inpainten van inhoud "achter" het object en het corrigeren van artefacten op verschijningsniveau, zoals schaduwen en reflecties. Wanneer het verwijderde object echter significantere interacties heeft, zoals botsingen met andere objecten, slagen huidige modellen er niet in deze te corrigeren en produceren ze ongeloofwaardige resultaten. Wij presenteren VOID, een raamwerk voor het verwijderen van objecten uit video's dat ontworpen is om fysisch plausibele inpainting uit te voeren in dergelijke complexe scenario's. Om het model te trainen, genereren we een nieuwe gepaarde dataset van contrafeitelijke objectverwijderingen met behulp van Kubric en HUMOTO, waarbij het verwijderen van een object vereist dat downstream fysische interacties worden aangepast. Tijdens inferentie identificeert een vision-language model de delen van de scène die beïnvloed zijn door het verwijderde object. Deze regio's worden vervolgens gebruikt om een videodiffusiemodel aan te sturen dat fysisch consistente contrafeitelijke uitkomsten genereert. Experimenten op zowel synthetische als echte data tonen aan dat onze aanpak de consistente scènedynamiek na objectverwijdering beter behoudt in vergelijking met eerdere methoden. Wij hopen dat dit raamwerk inzicht biedt in hoe videobewerkingsmodellen betere simulators van de wereld kunnen worden door hoogwaardige causaal redeneren.

Ik denk, dus ik ben.
Therefore I am. I Think

Apr 2

ByEsakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani

Wij onderzoeken de vraag: wanneer een groot taalmodel een keuze maakt, dacht het eerst en besloot het daarna, of besloot het eerst en dacht het daarna? In dit artikel presenteren we bewijs dat detecteerbare, vroeg gecodeerde beslissingen de gedachtegang (chain-of-thought) in redeneermodellen vormgeven. Concreet tonen we aan dat een eenvoudige lineaire probe beslissingen voor tool-aanroeping met zeer hoge betrouwbaarheid kan decoderen uit activaties vóór de generatie, en in sommige gevallen zelfs voordat een enkele redeneertoken wordt geproduceerd. Activatiesturing ondersteunt dit causaal: het verstoren van de beslissingsrichting leidt tot opgeblazen beraadslaging en keert het gedrag in veel voorbeelden om (tussen 7 - 79%, afhankelijk van model en benchmark). Gedragsanalyse toont verder aan dat, wanneer sturing de beslissing verandert, de gedachtegang vaak de omslag rationaliseert in plaats van ertegen te weerstaan. Gezamenlijk suggereren deze resultaten dat redeneermodellen actiekeuzes kunnen coderen voordat ze tekstueel gaan delibereren.

UniDriveVLA: Unificatie van Begrip, Waarneming en Actieplanning voor Autonoom Rijden
UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Apr 2

ByYongkang Li, Lijun Zhou, Sixu Yan, Bencheng Liao, Tianyi Yan, Kaixin Xiong, Long Chen, Hongwei Xie, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Haiyang Sun, Xinggang Wang

Vision-Language-Action (VLA)-modellen zijn recentelijk opgekomen in het domein van autonoom rijden, met de belofte om rijke wereldkennis te benutten om de cognitieve capaciteiten van rijsystemen te verbeteren. Het aanpassen van dergelijke modellen voor rijtaken wordt echter geconfronteerd met een cruciaal dilemma tussen ruimtelijke perceptie en semantisch redeneren. Als gevolg daarvan worden bestaande VLA-systemen gedwongen tot suboptimale compromissen: het direct overnemen van 2D Vision-Language Models levert beperkte ruimtelijke perceptie op, terwijl het versterken ervan met 3D-ruimtelijke representaties vaak de inherente redeneercapaciteit van VLMs aantast. Wij stellen dat dit dilemma grotendeels voortkomt uit de gekoppelde optimalisatie van ruimtelijke perceptie en semantisch redeneren binnen gedeelde modelparameters. Om dit te overwinnen, stellen we UniDriveVLA voor, een Unified Driving Vision-Language-Action model gebaseerd op Mixture-of-Transformers, dat het perceptie-redeneerconflict aanpakt via expert-ontkoppeling. Concreet bestaat het uit drie experts voor rijbegrip, scèneperceptie en actieplanning, die worden gecoördineerd door middel van gemaskeerde joint attention. Daarnaast combineren we een sparse perception-paradigma met een driestaps progressieve trainingsstrategie om de ruimtelijke perceptie te verbeteren terwijl de semantische redeneercapaciteit behouden blijft. Uitgebreide experimenten tonen aan dat UniDriveVLA state-of-the-art prestaties bereikt in open-loop evaluatie op nuScenes en closed-loop evaluatie op Bench2Drive. Bovendien laat het sterke prestaties zien over een breed scala aan perceptie-, voorspellings- en begripstaken, waaronder 3D-detectie, online mapping, motion forecasting en rij-gerichte VQA, wat de brede toepasbaarheid ervan als een unified model voor autonoom rijden benadrukt. Code en model zijn vrijgegeven op https://github.com/xiaomi-research/unidrivevla.

ASI-Evolve: AI Versnelt AI
ASI-Evolve: AI Accelerates AI

Mar 31

ByWeixian Xu, Tiantian Mi, Yixiu Liu, Yang Nan, Zhimeng Zhou, Lyumanshan Ye, Lin Zhang, Yu Qiao, Pengfei Liu

Kan AI de ontwikkeling van AI zelf versnellen? Hoewel recente agent-systemen sterke prestaties hebben getoond bij goed afgebakende taken met snelle feedback, is het nog onduidelijk of zij de kostbare, langetermijn- en zwak begeleide onderzoekscycli aankunnen die echte AI-vooruitgang aandrijven. Wij presenteren ASI-Evolve, een agent-raamwerk voor AI-voor-AI-onderzoek dat deze cyclus sluit via een leer-ontwerp-experimenteer-analyseer-proces. ASI-Evolve versterkt standaard evolutionaire agenten met twee cruciale componenten: een cognitiebasis die opgebouwde menselijke aannames injecteert in elke ronde van exploratie, en een speciale analyzer die complexe experimentele uitkomsten destilleert tot herbruikbare inzichten voor toekomstige iteraties. Voor zover wij weten is ASI-Evolve het eerste verenigde raamwerk dat AI-gedreven ontdekking aantoont over drie centrale componenten van AI-ontwikkeling: data, architecturen en leeralgorithmen. Bij het ontwerpen van neurale architecturen ontdekte het 105 state-of-the-art lineaire aandacht-architecturen, waarbij het beste ontdekte model DeltaNet overtrof met +0,97 punten – bijna 3x de winst van recente door mensen ontworpen verbeteringen. Bij het cureren van pretrainingsdata verbetert de geëvolueerde pijplijn de gemiddelde benchmarkprestatie met +3,96 punten, met winsten boven de 18 punten op MMLU. Bij het ontwerpen van reinforcement learning-algorithmen presteren de ontdekte algoritmen tot +12,5 punten beter dan GRPO op AMC32, +11,67 punten op AIME24 en +5,04 punten op OlympiadBench. Wij leveren verder eerste bewijzen dat dit AI-voor-AI-paradigma kan worden overgedragen buiten de AI-stack via experimenten in wiskunde en biomedische wetenschappen. Gezamenlijk suggereren deze resultaten dat ASI-Evolve een veelbelovende stap vertegenwoordigt naar AI die AI kan versnellen over de fundamentele ontwikkelingsfasen heen, en bieden ze vroeg bewijs voor de haalbaarheid van gesloten-lus AI-onderzoek.

Onderzoek naar Bijdragen van Autonome Agents in de Wildernis: Activiteitenpatronen en Codeveranderingen in de Tijd
Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Apr 1

ByRazvan Mihai Popescu, David Gros, Andrei Botocan, Rahul Pandita, Prem Devanbu, Maliheh Izadi

De opkomst van grote taalmodellen voor code heeft de softwareontwikkeling hervormd. Autonome coderingsagenten, die in staat zijn om branches aan te maken, pull requests te openen en codebeoordelingen uit te voeren, dragen nu actief bij aan projecten in de praktijk. Hun groeiende rol biedt een unieke en tijdige mogelijkheid om AI-gedreven bijdragen en hun effecten op codekwaliteit, teamdynamiek en softwareonderhoudbaarheid te onderzoeken. In dit werk construeren we een nieuwe dataset van ongeveer 110.000 open-source pull requests, inclusief bijbehorende commits, opmerkingen, reviews, issues en bestandswijzigingen, die gezamenlijk miljoenen regels broncode vertegenwoordigen. We vergelijken vijf populaire coderingsagenten, waaronder OpenAI Codex, Claude Code, GitHub Copilot, Google Jules en Devin, en onderzoeken hoe hun gebruik verschilt in diverse ontwikkelingsaspecten zoals mergefrequentie, bewerkte bestandstypen en signalen van ontwikkelaarsinteractie, inclusief opmerkingen en reviews. Verder benadrukken we dat het schrijven en reviewen van code slechts een klein onderdeel is van het bredere software-engineeringproces, aangezien de resulterende code ook in de tijd onderhouden en geüpdatet moet worden. Daarom bieden we verschillende longitudinale schattingen van overlevings- en verlooppercentages voor door agenten gegenereerde code versus door mensen geschreven code. Uiteindelijk tonen onze bevindingen een toenemende agentactiviteit in open-sourceprojecten aan, hoewel hun bijdragen in vergelijking met door mensen geschreven code over tijd gepaard gaan met meer verloop.

CORAL: Op Weg Naar Autonome Multi-Agent Evolutie voor Open-Einde Ontdekking
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Apr 2

ByAo Qu, Han Zheng, Zijian Zhou, Yihao Yan, Yihong Tang, Shao Yong Ong, Fenglu Hong, Kaichen Zhou, Chonghe Jiang, Minwei Kong, Jiacheng Zhu, Xuan Jiang, Sirui Li, Cathy Wu, Bryan Kian Hsiang Low, Jinhua Zhao, Paul Pu Liang

Evolutionaire aanpak op basis van grote taalmodel(len) (LLM's) is een veelbelovende methode voor open-ended discovery, waarbij vooruitgang blijvende zoektochten en kennisaccumulatie vereist. Bestaande methoden vertrouwen echter nog sterk op vaste heuristieken en hardgecodeerde verkenningregels, wat de autonomie van LLM-agenten beperkt. Wij presenteren CORAL, het eerste raamwerk voor autonome multi-agent evolutie bij open-ended problemen. CORAL vervangt rigide controle door langlopende agenten die verkennen, reflecteren en samenwerken via gedeeld persistent geheugen, asynchrone multi-agent uitvoering en interventies op basis van hartslagen. Het biedt ook praktische veiligheidsmaatregelen, waaronder geïsoleerde werkruimten, scheiding van evaluatoren, resourcebeheer, en beheer van agentsessies en -gezondheid. Bij evaluatie op uiteenlopende wiskundige, algoritmische en systeemoptimalisatietaken behaalt CORAL nieuwe state-of-the-art resultaten op 10 taken, met 3-10 keer hogere verbeteringspercentages en aanzienlijk minder evaluaties dan vaste evolutionaire zoekbaselines. Op de kernel engineering-taak van Anthropic verbeterden vier co-evoluerende agenten de beste bekende score van 1363 naar 1103 cycli. Mechanistische analyses tonen verder aan hoe deze winsten voortkomen uit hergebruik van kennis en multi-agent verkenning en communicatie. Gezamenlijk suggereren deze resultaten dat grotere agentautonomie en multi-agent evolutie open-ended discovery aanzienlijk kunnen verbeteren. Code is beschikbaar op https://github.com/Human-Agent-Society/CORAL.

GPA: Leren van GUI-procesautomatisering vanuit demonstraties
GPA: Learning GUI Process Automation from Demonstrations

Apr 2

ByZirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li

GUI-procesautomatisering (GPA) is een lichtgewicht maar algemene, op visie gebaseerde robotprocesautomatisering (RPA), waarmee processen snel en stabiel kunnen worden afgespeeld met slechts een enkele demonstratie. Om de kwetsbaarheid van traditionele RPA en de niet-deterministische risico's van huidige op visie-taalmodellen gebaseerde GUI-agents aan te pakken, introduceert GPA drie kernvoordelen: (1) Robuustheid via op Sequentiële Monte Carlo gebaseerde lokalisatie om herschaling en detectieonzekerheid te hanteren; (2) Determinisme en Betrouwbaarheid gewaarborgd door gereedheidskalibratie; en (3) Privacy door snelle, volledig lokale uitvoering. Deze aanpak biedt de aanpasbaarheid, robuustheid en beveiliging die nodig zijn voor enterprise-workflows. Het kan ook worden gebruikt als een MCP/CLI-tool door andere agents met codeercapaciteiten, zodat de agent alleen redeneert en orchestreert terwijl GPA de GUI-uitvoering afhandelt. We voerden een proefexperiment uit om GPA te vergelijken met Gemini 3 Pro (met CUA-tools) en ontdekten dat GPA een hoger slagingspercentage bereikt met een 10 keer snellere uitvoeringssnelheid bij het voltooien van GUI-taken met een lange tijdshorizon.

Tex3D: Objecten als Aanvalsoppervlakken via Adversariële 3D-Texturen voor Visie-Taal-Actie-Modellen
Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Apr 2

ByJiawei Chen, Simin Huang, Jiawei Du, Shuaihang Chen, Yu Tian, Mingjie Wei, Chao Yu, Zhaoxia Yin

Vision-language-action (VLA)-modellen tonen sterke prestaties bij robotmanipulatie, maar hun robuustheid tegen fysiek realiseerbare adversariële aanvallen is nog onvoldoende onderzocht. Bestaande onderzoeken onthullen kwetsbaarheden via taalkundige perturbaties en 2D-visuele aanvallen, maar deze aanvalsoppervlakken zijn minder representatief voor echte inzet of beperkt in fysieke realistischheid. Daarentegen vormen adversariële 3D-textures een fysiek plausibelere en schadelijkere dreiging, omdat ze van nature aan gemanipuleerde objecten zijn bevestigd en eenvoudiger in fysieke omgevingen kunnen worden ingezet. Het toepassen van adversariële 3D-textures op VLA-systemen is echter niet triviaal. Een centrale hindernis is dat standaard 3D-simulators geen differentieerbaar optimalisatiepad bieden van de VLA-doelfunctie terug naar het objectuiterlijk, wat end-to-end optimalisatie bemoeilijkt. Om dit op te lossen introduceren we Foreground-Background Decoupling (FBD), dat differentieerbare textuuroptimalisatie mogelijk maakt door dual-renderer-alignment, terwijl de oorspronkelijke simulatieomgeving behouden blijft. Om verder te garanderen dat de aanval effectief blijft over lange tijdsperioden en diverse gezichtspunten in de fysieke wereld, stellen we Trajectory-Aware Adversarial Optimization (TAAO) voor, die gedragskritieke frames prioriteert en de optimalisatie stabiliseert met een op hoekpunten gebaseerde parameterisatie. Gebaseerd op deze ontwerpen presenteren we Tex3D, het eerste raamwerk voor end-to-end optimalisatie van 3D-adversariële textures rechtstreeks in de VLA-simulatieomgeving. Experimenten in zowel simulatie- als echte robotomgevingen tonen aan dat Tex3D de VLA-prestaties bij meerdere manipulatietaken significant verslechtert, met taakfoutpercentages tot 96,7%. Onze empirische resultaten leggen kritieke kwetsbaarheden van VLA-systemen voor fysiek verankerde 3D-adversariële aanvallen bloot en benadrukken de noodzaak van robuustheidsbewuste training.

Video-modellen redeneren vroeg: gebruikmaken van plancommitment voor doolhofoplossing
Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Mar 31

ByKaleb Newman, Tyler Zhu, Olga Russakovsky

Videodiffusiemodellen vertonen opkomende redeneervaardigheden, zoals het oplossen van doolhoven en puzzels, maar er is weinig bekend over hoe ze redeneren tijdens de generatie. Wij zetten een eerste stap om dit te begrijpen en bestuderen de interne planningsdynamiek van videomodellen met behulp van 2D-doolhofoplossing als gecontroleerde testomgeving. Ons onderzoek levert twee bevindingen op. Onze eerste bevinding is *vroege planningsvastlegging*: videodiffusiemodellen leggen een hoogwaardig bewegingsplan vast binnen de eerste paar denoiseringsstappen, waarna verdere denoisering visuele details wijzigt maar niet de onderliggende trajectorie. Onze tweede bevinding is dat *padlengte*, niet obstakeldichtheid, de dominante voorspeller is van doolhofmoeilijkheid, met een scherpe faaldrempel bij 12 stappen. Dit betekent dat videomodellen alleen over lange doolhoven kunnen redeneren door meerdere opeenvolgende generaties aan elkaar te ketenen. Om de praktische voordelen van onze bevindingen aan te tonen, introduceren wij *Chaining with Early Planning*, ofwel ChEaP, dat alleen rekentijd besteedt aan startsituaties met veelbelovende vroege plannen en deze aaneenketent om complexe doolhoven aan te pakken. Dit verbetert de nauwkeurigheid van 7% naar 67% voor doolhoven met een lange horizon en met 2,5x algemeen voor moeilijke taken in Frozen Lake en VR-Bench bij Wan2.2-14B en HunyuanVideo-1.5. Onze analyse laat zien dat huidige videomodellen diepere redeneervaardigheden bezitten dan voorheen erkend, welke betrouwbaarder naar voren kunnen worden gebracht met betere schaalvergroting tijdens inferentie.

AIBench: Evaluatie van visueel-logische consistentie bij het genereren van academische illustraties
AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

Mar 31

ByZhaohe Liao, Kaixun Jiang, Zhihang Liu, Yujie Wei, Junqiu Yu, Quanhao Li, Hong-Tao Yu, Pandeng Li, Yuzheng Wang, Zhen Xing, Shiwei Zhang, Chen-Wei Xie, Yun Zheng, Xihui Liu

Hoewel beeldgeneratie diverse toepassingen heeft gestimuleerd door zijn snelle evolutie, is het nog grotendeels ononderzoek of de state-of-the-art modellen in staat zijn direct bruikbare academische illustraties voor artikelen te produceren. Het direct vergelijken of evalueren van de illustratie met een VLM is intuïtief, maar vereist een orakelachtig multimodaal begripsvermogen, wat onbetrouwbaar is voor lange en complexe teksten en illustraties. Om dit aan te pakken, stellen we AIBench voor, de eerste benchmark die VQA gebruikt om de logische correctheid van academische illustraties te evalueren en VLMs om de esthetiek te beoordelen. Concreet hebben we vier niveaus van vragen ontworpen, gebaseerd op een logisch diagram samengesteld uit de methodesectie van het artikel, die nagaan of de gegenereerde illustratie op verschillende schalen overeenkomt met het artikel. Onze VQA-gebaseerde aanpak leidt tot nauwkeurigere en gedetailleerdere evaluaties van visueel-logische consistentie, terwijl deze minder afhankelijk is van het beoordelingsvermogen van de VLM. Met onze hoogwaardige AIBench voeren we uitgebreide experimenten uit en concluderen we dat de prestatiekloof tussen modellen voor deze taak aanzienlijk groter is dan voor algemene taken, wat hun uiteenlopende vermogen tot complex redeneren en hoogwaardige dichtheidsgeneratie weerspiegelt. Bovendien zijn logica en esthetiek moeilijk gelijktijdig te optimaliseren, zoals ook bij handgemaakte illustraties het geval is. Aanvullende experimenten tonen verder aan dat test-time scaling van beide vermogens de prestaties voor deze taak aanzienlijk verbetert.

VideoZeroBench: Het Onderzoeken van de Grenzen van Video MLLM's met Ruimtelijk-Temporeel Bewijsverificatie
VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Apr 2

ByJiahao Meng, Tan Yue, Qi Xu, Haochen Wang, Zhongwei Ren, Weisong Liu, Yuhao Wang, Renrui Zhang, Yunhai Tong, Haodong Duan

Recente multimodale grote taalmodellen voor video behalen indrukwekkende resultaten op diverse benchmarks. Huidige evaluaties kampen echter met twee kritieke beperkingen: (1) opgeblazen scores kunnen tekortkomingen in fijnmazig visueel begrip en redeneren maskeren, en (2) de correctheid van antwoorden wordt vaak gemeten zonder te verifiëren of modellen het precieze spatio-temporele bewijs dat hun voorspellingen ondersteunt, identificeren. Om dit aan te pakken, presenteren we VideoZeroBench, een hiërarchische benchmark ontworpen voor uitdagende vraag-antwoordtaken op lange video's die spatio-temporeel bewijs rigoureus verifieert. De benchmark omvat 500 handmatig geannoteerde vragen uit 13 domeinen, gekoppeld aan temporele intervallen en ruimtelijke begrenzingskaders als bewijs. Om antwoordgeneratie, temporele lokalisatie en ruimtelijke lokalisatie te ontwarren, introduceren we een vijfdelig evaluatieprotocol dat de bewijseisen progressief aanscherpt. Experimenten tonen aan dat zelfs Gemini-3-Pro minder dan 17% van de vragen correct beantwoordt onder de standaard end-to-end QA-instelling (Niveau-3). Wanneer lokalisatie-eisen worden opgelegd, daalt de prestaties sterk: geen enkel model haalt meer dan 1% nauwkeurigheid wanneer zowel correct antwoorden als accurate spatio-temporele lokalisatie vereist zijn (Niveau-5), waarbij de meeste modellen erin falen ook maar één correct gelokaliseerde voorspelling te doen. Deze resultaten leggen een significante kloof bloot tussen oppervlakkige antwoordcorrectheid en daadwerkelijk op bewijs gebaseerd redeneren, en onthullen dat gegrond videobegrip een bottleneck blijft voor QA op lange video's. We analyseren verder de prestaties op minimale bewijsspannen, atomaire vaardigheden en inferentieparadigma's, wat inzichten biedt voor toekomstig onderzoek in gegrond videoredeneren. De benchmark en code zullen openbaar beschikbaar worden gesteld.

AutoMIA: Verbeterde uitgangspunten voor lidmaatschapsinferentieaanvallen via agentische zelfverkenning
AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

Apr 1

ByRuhao Liu, Weiqi Huang, Qi Li, Xinchao Wang

Membership Inference Attacks (MIA's) vormen een fundamenteel auditinstrument voor het evalueren van lekken van trainingsgegevens in machine learning-modellen. Bestaande methodologieën zijn echter voornamelijk gebaseerd op statische, handmatig gemaakte heuristieken die aanpasbaarheid missen, wat vaak leidt tot suboptimale prestaties bij overdracht tussen verschillende grote modellen. In dit werk stellen we AutoMIA voor, een agent-gebaseerd raamwerk dat membership inference herformuleert als een geautomatiseerd proces van zelfexploratie en strategie-evolutie. Op basis van hoogwaardige scenariospecificaties verkent AutoMIA zelf de aanvalsruimte door uitvoerbare logits-niveau strategieën te genereren en deze progressief te verfijnen via gesloten-lus evaluatiefeedback. Door abstracte strategieredenering te ontkoppelen van laagwaardige uitvoering, stelt ons raamwerk een systematische, model-agnostische verkenning van de zoekruimte voor aanvallen in staat. Uitgebreide experimenten tonen aan dat AutoMIA consistent even goed presteert of beter presteert dan state-of-the-art referentiemethoden, terwijl de noodzaak voor handmatige feature engineering wordt geëlimineerd.

LinguDistill: Herstel van Linguïstisch Vermogen in Visie-Taalmodellen via Selectieve Cross-Modale Distillatie
LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Apr 1

ByPatrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva

Het aanpassen van voorgetrainde taalmodel(len) (TM's) naar visueel-taalmodel(len) (VTM's) kan hun oorspronkelijke linguïstische vermogen aantasten als gevolg van representatieverschuiving en cross-modale interferentie die tijdens multimodale adaptatie wordt geïntroduceerd. Dit verlies is moeilijk te herstellen, zelfs met gerichte taakspecifieke fine-tuning met standaarddoelstellingen. Bestaande herstelmethode(n) introduceren typisch extra modules die fungeren als intermediare alignatielagen om modalitiespecifieke deelruimtes te behouden of isoleren, wat de architecturale complexiteit verhoogt, parameters toevoegt tijdens inferentie en de flexibiliteit tussen modellen en instellingen beperkt. Wij stellen LinguDistill voor, een adapter-vrije distillatiemethode die linguïstisch vermogen herstelt door het oorspronkelijke bevroren TM als teacher te gebruiken. Wij overwinnen de kernuitdaging van vision-gestuurde teacher-supervisie door de introductie van gelaagsgewijze KV-cache-deling, waardoor de teacher wordt blootgesteld aan de multimodale representaties van de student zonder de architectuur van een van beide modellen aan te passen. Vervolgens distilleren we selectief het sterke linguïstische signaal van de teacher op taalintensieve data om taalvermogen te herstellen, terwijl de visuele verankering van de student op multimodale taken behouden blijft. Hierdoor herstelt LinguDistill ongeveer 10% van het verloren prestatieniveau op taal- en kennisbenchmarks, met behoud van vergelijkbare prestaties op visueel zware taken. Onze bevindingen tonen aan dat linguïstisch vermogen kan worden hersteld zonder extra modules, wat een efficiënte en praktische oplossing biedt voor modalitiespecifieke degradatie in multimodale modellen.

Voorspellen van Supply Chain-verstoringen met Foresight Learning
Forecasting Supply Chain Disruptions with Foresight Learning

Apr 1

ByBenjamin Turtel, Paul Wilczewski, Kris Skotheim

Het anticiperen op verstoringen in de toeleveringsketen voordat deze zich voordoen, is een centrale uitdaging voor bedrijven en beleidsmakers. Een belangrijke moeilijkheid is het leren van betrouwbare redeneringen over zeldzame, hoogimpactvolle gebeurtenissen op basis van ruisvolle en ongestructureerde invoer - een context waarin algemene modellen moeite hebben zonder taakspecifieke aanpassing. Wij introduceren een end-to-end raamwerk dat grote taalmodellen traint om gekalibreerde probabilistische voorspellingen te produceren met gerealiseerde verstoringsuitkomsten als supervisie. Het resulterende model presteert aanzienlijk beter dan sterke baseline-modellen - inclusief GPT-5 - op nauwkeurigheid, kalibratie en precisie. Wij tonen ook aan dat training leidt tot meer gestructureerd en betrouwbaar probabilistisch redeneren zonder expliciete prompting. Deze resultaten suggereren een algemene route voor het trainen van domeinspecifieke voorspellingsmodellen die besluit-klare signalen produceren. Ter ondersteuning van transparantie maken wij de evaluatiedataset die in deze studie is gebruikt openbaar. Dataset: https://huggingface.co/datasets/LightningRodLabs/supply-chain-predictions

MDPBench: Een Benchmark voor Multidocument Parsing in Realistische Scenario's
MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Mar 30

ByZhang Li, Zhibo Lin, Qiang Liu, Ziyang Zhang, Shuo Zhang, Zidun Guo, Jiajun Song, Jiarui Zhang, Xiang Bai, Yuliang Liu

Wij introduceren de Multilingual Document Parsing Benchmark (MDPBench), de eerste benchmark voor meertalige parsing van zowel digitale als gefotografeerde documenten. Documentparsing heeft opmerkelijke vooruitgang geboekt, maar vindt vrijwel uitsluitend plaats op schone, digitale, goed opgemaakte pagina's in een handvol dominante talen. Er bestaat geen systematische benchmark om te evalueren hoe modellen presteren op digitale en gefotografeerde documenten in diverse schriften en talen met weinig bronnen. MDPBench omvat 3.400 documentafbeeldingen verspreid over 17 talen, diverse schriften en uiteenlopende fotografische omstandigheden, met hoogwaardige annotaties die zijn geproduceerd via een rigoureus proces van expertmodel-labeling, handmatige correctie en menselijke verificatie. Om een eerlijke vergelijking te garanderen en datalekken te voorkomen, hanteren we gescheiden openbare en privé-evaluatiesets. Onze uitgebreide evaluatie van zowel open-source als closed-source modellen onthult een opvallende bevinding: hoewel closed-source modellen (met name Gemini3-Pro) relatief robuust blijken, lijden open-source alternatieven onder een dramatische prestatie-inval, vooral voor niet-Latijnse schriften en in het wild gefotografeerde documenten, met een gemiddelde daling van 17,8% op gefotografeerde documenten en 14,0% op niet-Latijnse schriften. Deze resultaten onthullen aanzienlijke prestatieonevenwichtigheden tussen talen en condities, en wijzen concrete richtingen aan voor het bouwen van meer inclusieve, implementatiegerechte parsingsystemen. Bron beschikbaar op https://github.com/Yuliang-Liu/MultimodalOCR.

Apriel-Reasoner: RL Post-Training voor Algemeen Toepasbare en Efficiënte Redeneervaardigheid
Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Apr 2

ByRafael Pardinas, Ehsan Kamalloo, David Vazquez, Alexandre Drouin

Het trainen van algemene redeneermodellen met reinforcement learning met verifieerbare beloningen (RLVR) over diverse domeinen wordt veel toegepast door toonaangevende open-weight modellen. Hun trainingsrecepten en domeinmengsels worden echter vaak niet openbaar gemaakt. Gezamenlijke optimalisatie over meerdere domeinen brengt aanzienlijke uitdagingen met zich mee: domeinen verschillen sterk in rollout-lengte, probleemcomplexiteit en sample-efficiëntie. Bovendien verhogen modellen met lange chain-of-thought-traces de inferentiekosten en latentie, waardoor efficiëntie cruciaal is voor praktische inzet. Wij presenteren Apriel-Reasoner, getraind met een volledig reproduceerbaar multi-domein RL-post-trainingrecept op Apriel-Base, een open-weight LLM met 15B parameters, over vijf domeinen met publieke datasets: wiskunde, codegeneratie, instructieopvolging, logische puzzels en functie-aanroeping. Wij introduceren een adaptief domeinbemonsteringsmechanisme dat de doelverhoudingen tussen domeinen handhaaft ondanks heterogene rollout-dynamiek, en een moeilijkheidsgraadbewuste extensie van de standaard lengtestraf die, zonder extra trainingsoverhead, langer redeneren aanmoedigt voor moeilijke problemen en kortere traces voor eenvoudige. Getraind met een strikt uitvoerbudget van 16K tokens, generaliseert Apriel-Reasoner naar 32K tokens tijdens inferentie en presteert beter dan Apriel-Base op AIME 2025, GPQA, MMLU-Pro en LiveCodeBench, terwijl het 30-50% kortere redeneertraces produceert. Het evenaart sterke open-weight modellen van vergelijkbare grootte tegen lagere tokenkosten, en verschuift daarmee de Pareto-grens van nauwkeurigheid versus tokenbudget.

FlowSlider: Trainingsvrije Continue Beeldbewerking via Trouw-Sturende Ontbinding
FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

Apr 2

ByTaichi Endo, Guoqing Hao, Kazuhiko Sumi

Continueel beeldbewerken heeft als doel een schuifregelaarachtige controle over de bewerkingssterkte te bieden, terwijl de bronbeeldgetrouwheid behouden blijft en een consistente bewerkingsrichting wordt aangehouden. Bestaande op leren gebaseerde schuifregelaarmethoden vertrouwen doorgaans op hulpmodules die zijn getraind met synthetische of indirecte supervisie. Dit introduceert extra trainingsbelasting en koppelt het gedrag van de schuifregelaar aan de trainingsverdeling, wat de betrouwbaarheid kan verminderen bij verschuivingen in de verdeling van bewerkingen of domeinen. Wij stellen FlowSlider voor, een trainingsvrije methode voor continue beeldbewerking in Rectified Flow die geen nabehandeling vereist. FlowSlider ontbindt de update van FlowEdit in (i) een getrouwheidsterm, die fungeert als een bron-geconditioneerde stabilisator die identiteit en structuur behoudt, en (ii) een stuurterm die de semantische overgang naar de doelbewerking aandrijft. Geometrische analyse en empirische metingen tonen aan dat deze termen bijna orthogonaal zijn, wat stabiele sterkteregeling mogelijk maakt door alleen de stuurterm te schalen terwijl de getrouwheidsterm ongewijzigd blijft. Hierdoor biedt FlowSlider soepele en betrouwbare controle zonder nabehandeling, wat de kwaliteit van continue beeldbewerking verbetert voor diverse taken.

Technisch Rapport T5Gemma-TTS
T5Gemma-TTS Technical Report

Apr 2

ByChihiro Arata, Kiyoshi Kurihara

Autoregressieve neurale codec-taalmodellen hebben een sterke zero-shot stemklonering getoond, maar decoder-only architecturen behandelen invoertekst als een voorvoegsel dat concurreert met de groeiende audiosequentie voor positionele capaciteit, wat de tekstconditionering bij lange uitingen verzwakt. Wij presenteren T5Gemma-TTS, een encoder-decoder codec-taalmodel dat persistente tekstconditionering behoudt door bidirectionele tekstrepresentaties via cross-attention naar elke decoderlaag te routeren. Gebouwd op de T5Gemma vooraf getrainde encoder-decoder-backbone (2B encoder + 2B decoder; 4B parameters), erft het rijke linguïstische kennis over zonder foneemconversie en verwerkt tekst direct op subwoordniveau. Om de duurcontrole te verbeteren, introduceren we Progress-Monitoring Rotary Position Embedding (PM-RoPE) in alle 26 cross-attention lagen, waarbij genormaliseerde voortgangssignalen worden geïnjecteerd die de decoder helpen de doelspraaklengte bij te houden. Getraind op 170.000 uur meertalige spraak in Engels, Chinees en Japans, behaalt T5Gemma-TTS een statistisch significante spreker-gelijkeniswinst voor Japans ten opzichte van XTTSv2 (0,677 vs. 0,622; niet-overlappende 95% betrouwbaarheidsintervallen) en de hoogste numerieke Koreaanse spreker-gelijkenis (0,747) ondanks dat Koreaans niet in de training was opgenomen, hoewel deze marge ten opzichte van XTTSv2 (0,741) niet statistisch conclusief is. Het behaalt ook de laagste numerieke Japanse karakterfoutratio onder vijf baseline-modellen (0,126), hoewel deze rangschikking voorzichtig geïnterpreteerd moet worden vanwege gedeeltelijke overlap van betrouwbaarheidsintervallen met Kokoro. Engelse resultaten op LibriSpeech moeten worden gezien als een bovengrens schatting omdat LibriHeavy een superset van LibriSpeech is. Met dezelfde checkpoint veroorzaakt het uitschakelen van PM-RoPE tijdens inferentie een bijna volledige synthesefout: CER verslechtert van 0,129 naar 0,982 en de duurnauwkeurigheid daalt van 79% naar 46%. Code en gewichten zijn beschikbaar op https://github.com/Aratako/T5Gemma-TTS.

DynaVid: Het genereren van hoog-dynamische video's leren met behulp van synthetische bewegingsdata
DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Apr 2

ByWonjoon Jin, Jiyun Won, Janghyeok Han, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho

Ondanks recente vooruitgang worstelen videodiffusiemodellen nog steeds met het synthetiseren van realistische video's die hoogdynamische bewegingen bevatten of fijnmazige bewegingsbestuurbaarheid vereisen. Een centrale beperking ligt in de schaarste van dergelijke voorbeelden in veelgebruikte trainingsdatasets. Om dit aan te pakken, introduceren we DynaVid, een videosynthese-framework dat gebruikmaakt van synthetische bewegingsdata tijdens de training, welke wordt gerepresenteerd als optische stroming en gerenderd met behulp van computer graphics-pipelines. Deze aanpak biedt twee belangrijke voordelen. Ten eerste biedt synthetische beweging diverse bewegingspatronen en precieze controle-signalen die moeilijk uit echte data te verkrijgen zijn. Ten tweede, in tegenstelling tot gerenderde video's met kunstmatige aanzichten, codeert gerenderde optische stroming alleen beweging en is deze ontkoppeld van het aanzicht, waardoor wordt voorkomen dat modellen het onnatuurlijke uiterlijk van synthetische video's reproduceren. Voortbouwend op dit idee hanteert DynaVid een tweestaps-generatieframework: een bewegingsgenerator synthetiseert eerst de beweging, waarna een beweging-gestuurde videogenerator videoframes produceert geconditioneerd op die beweging. Deze ontkoppelde formulering stelt het model in staat om dynamische bewegingspatronen aan te leren van synthetische data, terwijl de visuele realiteit van real-world video's behouden blijft. We valideren ons framework op twee uitdagende scenario's: krachtige menselijke bewegingsgeneratie en extreme camerabewegingscontrole, waar bestaande datasets bijzonder beperkt zijn. Uitgebreide experimenten tonen aan dat DynaVid de realiteit en bestuurbaarheid verbetert bij dynamische bewegingsgeneratie en camerabewegingscontrole.

Omni123: Verkenning van 3D Native Foundation Models met Beperkte 3D-gegevens door Unificatie van Tekst naar 2D- en 3D-generatie
Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Apr 2

ByChongjie Ye, Cheng Cao, Chuanyu Pan, Yiming Hao, Yihao Zhi, Yuanming Hu, Xiaoguang Han

Recente multimodale grote taalmodellen hebben sterke prestaties bereikt in geünificeerde tekst- en beeldbegrip en -generatie, maar het uitbreiden van deze native capaciteit naar 3D blijft een uitdaging vanwege beperkte data. In vergelijking met overvloedige 2D-beelden zijn hoogwaardige 3D-assets schaars, waardoor 3D-synthese onderbepaald is. Bestaande methodes vertrouwen vaak op indirecte pijplijnen die in 2D bewerken en resultaten via optimalisatie naar 3D tillen, wat ten koste gaat van geometrische consistentie. Wij presenteren Omni123, een 3D-native foundation-model dat tekst-naar-2D- en tekst-naar-3D-generatie verenigt binnen een enkel autoregressief raamwerk. Onze belangrijkste inzicht is dat cross-modale consistentie tussen beelden en 3D kan dienen als een impliciete structurele beperking. Door tekst, beelden en 3D voor te stellen als discrete tokens in een gedeelde sequentieruimte, benut het model overvloedige 2D-data als een geometrische prior om 3D-representaties te verbeteren. Wij introduceren een interleaved X-to-X trainingsparadigma dat diverse cross-modale taken coördineert over heterogene gepaarde datasets zonder volledig uitgelijnde tekst-beeld-3D-triplets te vereisen. Door semantisch-visueel-geometrische cycli (bijvoorbeeld tekst naar beeld naar 3D naar beeld) af te leggen binnen autoregressieve sequenties, handhaaft het model gezamenlijk semantische uitlijning, uiterlijke getrouwheid en multi-view geometrische consistentie. Experimenten tonen aan dat Omni123 tekstgestuurde 3D-generatie en -bewerking aanzienlijk verbetert, wat een schaalbare weg naar multimodale 3D-wereldmodellen demonstreert.

Efficiënte en Principesvolle Wetenschappelijke Ontdekking door Bayesian Optimalisatie: Een Tutorial
Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

Apr 1

ByZhongwei Yu, Rasul Tutunov, Alexandre Max Maraval, Zikai Xie, Zhenzhi Tan, Jiankang Wang, Zijing Li, Liangliang Xu, Qi Yang, Jun Jiang, Sanzhong Luo, Zhenxiao Guo, Haitham Bou-Ammar, Jun Wang

Traditionele wetenschappelijke ontdekking berust op een iteratieve hypothese-experiment-verfijn cyclus die de vooruitgang eeuwenlang heeft aangedreven. De intuïtieve, ad-hoc implementatie ervan leidt echter vaak tot verspilling van middelen, inefficiënte ontwerpen en het missen van cruciale inzichten. Deze tutorial presenteert Bayesiaanse Optimalisatie (BO), een principieel, op waarschijnlijkheid gebaseerd raamwerk dat deze kernwetenschappelijke cyclus formaliseert en automatiseert. BO gebruikt surrogaatmodellen (zoals Gaussische processen) om empirische observaties te modelleren als evoluerende hypothesen, en acquisitiefuncties om de experimentselectie te sturen. Dit alles om het benutten van bekende kennis en het verkennen van onbekende domeinen in evenwicht te brengen, waardoor gegok en handmatig trial-and-error worden geëlimineerd. We plaatsen eerst wetenschappelijke ontdekking in een optimalisatiekader, waarna we de kerncomponenten van BO, end-to-end werkstromen en de effectiviteit in de praktijk ontleden aan de hand van casestudies in katalyse, materiaalwetenschappen, organische synthese en molecuulontdekking. We behandelen ook cruciale technische uitbreidingen voor wetenschappelijke toepassingen, zoals batch-experimenten, heteroscedasticiteit, contextuele optimalisatie en integratie van de mens-in-de-lus. Deze tutorial, afgestemd op een breed publiek, overbrugt de kloof tussen AI-ontwikkelingen in BO en praktische toepassingen in de natuurwetenschappen. Door de inhoud in lagen aan te bieden, stelt het onderzoekers uit verschillende disciplines in staat om efficiëntere experimenten te ontwerpen en principiële wetenschappelijke ontdekking te versnellen.

Gegatingde Conditie-injectie zonder Multimodale Aandacht: Op Weg naar Beheerbare Lineaire-Aandacht-Transformers
Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

Mar 29

ByYuhe Liu, Zhenxiong Tan, Yujia Hu, Songhua Liu, Xinchao Wang

Recente vooruitgang in diffusiegebaseerde, stuurbare visuele generatie heeft geleid tot opmerkelijke verbeteringen in beeldkwaliteit. Deze krachtige modellen worden echter doorgaans op cloudservers geïmplementeerd vanwege hun grote rekenbehoefte, wat ernstige zorgen over de privacy van gebruikersgegevens met zich meebrengt. Om veilige en efficiënte generatie op het apparaat zelf mogelijk te maken, onderzoeken we in dit artikel stuurbare diffusiemodellen die zijn gebouwd op lineaire aandacht-architecturen. Deze bieden superieure schaalbaarheid en efficiëntie, zelfs op edge-apparaten. Onze experimenten tonen echter aan dat bestaande frameworks voor stuurbare generatie, zoals ControlNet en OminiControl, ofwel de flexibiliteit missen om meerdere heterogene conditietypen te ondersteunen, of te kampen hebben met een trage convergentie op dergelijke lineaire-aandacht-modellen. Om deze beperkingen aan te pakken, stellen we een nieuw kader voor stuurbare diffusie voor, afgestemd op lineaire aandacht-backbones zoals SANA. De kern van onze methode ligt in een uniforme, gegate conditioneringmodule die werkt in een dual-path pijplijn. Deze integreert effectief meerdere typen conditionele invoer, zoals ruimtelijk uitgelijnde en niet-uitgelijnde signalen. Uitgebreide experimenten op meerdere taken en benchmarks tonen aan dat onze aanzet state-of-the-art prestaties levert voor stuurbare generatie op basis van lineaire-aandacht-modellen, en daarbij bestaande methoden overtreft op het gebied van nauwkeurigheid en stuurbaarheid.

Werkaantekeningen over Laat-Interactie Dynamiek: Analyse van Gerichte Gedragingen van Laat-Interactiemodellen
Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models

Mar 27

ByAntoine Edy, Max Conti, Quentin Macé

Hoewel Late Interaction-modellen sterke retrievalprestaties vertonen, blijven veel van hun onderliggende dynamieken onderbelicht, wat mogelijk prestatieknelpunten verbergt. In dit werk richten we ons op twee aspecten van Late Interaction-retrieval: een lengtebias die ontstaat bij het gebruik van multi-vector scoring, en de gelijkenisverdeling voorbij de beste scores die door de MaxSim-operator worden gepoold. We analyseren dit gedrag voor state-of-the-art modellen op de NanoBEIR-benchmark. Resultaten tonen aan dat hoewel de theoretische lengtebias van causale Late Interaction-modellen in de praktijk standhoudt, bidirectionele modellen er in extreme gevallen eveneens onder kunnen lijden. We merken ook op dat er geen significante gelijkenistrend bestaat voorbij het top-1 documenttoken, wat valideert dat de MaxSim-operator de token-level gelijkenisscores efficiënt benut.

Geheugen-versterkte Visueel-Taal Agents voor Persistente en Semantisch Consistente Objectbeschrijving
Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

Mar 30

ByTommaso Galliena, Stefano Rosa, Tommaso Apicella, Pietro Morerio, Alessio Del Bue, Lorenzo Natale

Vision-Language Models (VLMs) produceren vaak inconsistente beschrijvingen van hetzelfde object vanuit verschillende gezichtspunten, wat het vermogen van belichaamde agents belemmert om consistente semantische representaties in de tijd op te bouwen. Eerdere methoden losten inconsistenties op door offline multi-view aggregatie of meerfasige pijplijnen die verkenning, data-associatie en caption-learning ontkoppelen, maar met een beperkt vermogen om te redeneren over eerder waargenomen objecten. In dit artikel introduceren we een uniforme, met geheugen versterkte Vision-Language agent die gelijktijdig data-associatie, objectbeschrijving en verkenning-beleid aanpakt binnen een enkel autoregressief raamwerk. Het model verwerkt de huidige RGB-waarneming, een verkende top-down kaart en een episodisch geheugen op objectniveau dat geserialiseerd is in tokens op objectniveau, waardoor persistente objectidentiteit en semantische consistentie over langere sequenties worden gewaarborgd. Om het model op een zelfgesuperviseerde manier te trainen, verzamelen we een dataset in fotorealistische 3D-omgevingen met behulp van een op onenigheid gebaseerd beleid en een pseudo-captioning model dat consistentie afdwingt over multi-view caption-geschiedenissen. Uitgebreide evaluatie op een handmatig geannoteerde testset op objectniveau toont verbeteringen aan van tot +11,86% in standaard captioning-scores en +7,39% in caption-zelfsimilariteit ten opzichte van baseline-modellen, terwijl schaalbare prestaties mogelijk worden gemaakt door een compacte scène-representatie. Code, modelgewichten en data zijn beschikbaar op https://hsp-iit.github.io/epos-vlm/.

UniRecGen: Unificatie van Multi-View 3D-reconstructie en -generatie
UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

Apr 1

ByZhisheng Huang, Jiahao Chen, Cheng Lin, Chenyu Hu, Hanzhuo Huang, Zhengming Yu, Mengfei Li, Yuheng Liu, Zekai Gu, Zibo Zhao, Yuan Liu, Xin Li, Wenping Wang

Sparse-view 3D-modellering belichaamt een fundamentele spanning tussen reconstructietrouw en generatieve geloofwaardigheid. Hoewel voorwaartse reconstructie uitblinkt in efficiëntie en inputovereenstemming, ontbreekt het vaak aan de globale prior kennis die nodig is voor structurele volledigheid. Omgekeerd biedt diffusiegebaseerde generatie rijke geometrische details, maar worstelt het met multi-view consistentie. Wij presenteren UniRecGen, een unified framework dat deze twee paradigma's integreert in een enkel coöperatief systeem. Om inherente conflicten in coördinaatruimten, 3D-representaties en trainingsdoelen te overwinnen, aligneren we beide modellen binnen een gedeelde canonieke ruimte. Wij passen ontvlochten coöperatief leren toe, wat een stabiele training handhaaft terwijl het naadloze samenwerking tijdens inferentie mogelijk maakt. Specifiek is de reconstructiemodule aangepast om canonieke geometrische ankers te bieden, terwijl de diffusiegenerator gebruikmaakt van latent-augmented conditioning om de geometrische structuur te verfijnen en te voltooien. Experimentele resultaten tonen aan dat UniRecGen superieure trouw en robuustheid bereikt, en daarmee bestaande methoden overtreft in het creëren van complete en consistente 3D-modellen uit schaarse observaties.

Uitvoeren terwijl je genereert: Het verbergen van uitvoeringslatentie bij codegeneratie met grote taalmodellen
Executing as You Generate: Hiding Execution Latency in LLM Code Generation

Apr 1

ByZhensu Sun, Zhihao Lin, Zhi Chen, Chengran Yang, Mingyi Zhou, Li Li, David Lo

Huidige op LLM gebaseerde codeeragenten volgen een paradigma van seriële uitvoering: het model genereert eerst de volledige code, waarna het een interpreter aanroept om deze uit te voeren. Deze opeenvolgende werkstroom laat de uitvoerder inactief tijdens de generatie en de generator inactief tijdens de uitvoering, wat resulteert in onnodige end-to-end latentie. Wij observeren dat, in tegenstelling tot menselijke ontwikkelaars, LLMs codetokens sequentieel produceren zonder revisie, waardoor het mogelijk is om code uit te voeren terwijl deze wordt gegenereerd. Wij formaliseren dit parallelle uitvoeringsparadigma door het te modelleren als een drietraps pijplijn van generatie, detectie en uitvoering, en leiden gesloten latentiegrenzen af die de snelheidspotentie en werkingsgebieden karakteriseren. Vervolgens presenteren we Eager, een concrete implementatie met AST-gebaseerd chunking, dynamische batchverwerking met 'gated execution' en vroege foutonderbreking. Wij evalueren Eager over vier benchmarks, zeven LLMs en drie uitvoeringsomgevingen. Resultaten tonen aan dat Eager de niet-overlappende uitvoeringslatentie met tot 99,9% vermindert en de end-to-end latentie met tot 55% over zeven LLMs en vier benchmarks.

Woosh: Een Foundation Model voor Geluidseffecten
Woosh: A Sound Effects Foundation Model

Apr 2

ByGaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji

De audiogemeenschap vertrouwt op open generatieve modellen als fundamentele instrumenten voor het ontwikkelen van nieuwe aanpakken en het vaststellen van ijkpunten. In dit rapport presenteren we Woosh, Sony AI's openbaar vrijgegeven foundation-model voor geluidseffecten, waarbij we de architectuur, het trainingsproces en een evaluatie in vergelijking met andere populaire open modellen gedetailleerd beschrijven. Geoptimaliseerd voor geluidseffecten, bieden we (1) een encoder/decoder-model voor hoogwaardige audio en (2) een tekst-audio-aligneringsmodel voor conditionering, samen met (3) tekst-naar-audio en (4) video-naar-audio generatieve modellen. Gedistilleerde tekst-naar-audio en video-naar-audio modellen zijn eveneens opgenomen in de release, wat gebruik met beperkte middelen en snelle inferentie mogelijk maakt. Onze evaluatie op zowel publieke als private data toont competitieve of betere prestaties voor elke module in vergelijking met bestaande open alternatieven zoals StableAudio-Open en TangoFlux. Inferentiecode en modelgewichten zijn beschikbaar op https://github.com/SonyResearch/Woosh. Demosamples zijn te vinden op https://sonyresearch.github.io/Woosh/.

ActionParty: Multi-Subjectieve Actieverbinding in Generatieve Videogames
ActionParty: Multi-Subject Action Binding in Generative Video Games

Apr 2

ByAlexander Pondaven, Ziyi Wu, Igor Gilitschenski, Philip Torr, Sergey Tulyakov, Fabio Pizzati, Aliaksandr Siarohin

Recente vooruitgang in videodiffusie heeft de ontwikkeling mogelijk gemaakt van "wereldmodellen" die interactieve omgevingen kunnen simuleren. Deze modellen zijn echter grotendeels beperkt tot settings met één agent, waarbij het niet lukt om meerdere agenten gelijktijdig in een scène aan te sturen. In dit werk pakken we een fundamenteel probleem aan van actie-binding in bestaande videodiffusiemodellen, die moeite hebben om specifieke acties aan hun bijbehorende subjecten te koppelen. Hiertoe stellen we ActionParty voor, een actiebestuurbaar wereldmodel voor meerdere subjecten voor generatieve videospellen. Het introduceert subject-toestandstokens, latente variabelen die de toestand van elk subject in de scène persistent vastleggen. Door staatstokens en videolatenten gezamenlijk te modelleren met een ruimtelijk bias-mechanisme, ontwarren we het globaal renderen van videoframes van individuele, actiegestuurde subjectupdates. We evalueren ActionParty op de Melting Pot-benchmark en tonen het eerste videowereldmodel aan dat tot zeven spelers gelijktijdig kan aansturen in 46 diverse omgevingen. Onze resultaten tonen significante verbeteringen in actie-opvolgingsnauwkeurigheid en identiteitsconsistentie, terwijl robuuste autoregressieve tracking van subjecten door complexe interacties mogelijk wordt.

Vragen of Aannemen? Onzekerheidsbewuste Verduidelijking Zoeken bij Codeer-Agents
Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

Mar 27

ByNicholas Edwards, Sebastian Schuster

Naarmate Large Language Model (LLM)-agenten steeds vaker worden ingezet in open domeinen zoals software-engineering, krijgen zij regelmatig te maken met onvolledige instructies die essentiële context missen. Terwijl menselijke ontwikkelaars onvolledigheid vanzelfsprekend oplossen door verhelderende vragen te stellen, zijn huidige agenten grotendeels geoptimaliseerd voor autonome uitvoering. In dit werk evalueren we systematisch de vraagstellende vermogens van LLM-agenten op een onvolledige variant van SWE-bench Verified. Wij stellen een onzekerheidsbewust multi-agent raamwerk voor dat het detecteren van onvolledigheid expliciet ontkoppelt van code-uitvoering. Onze resultaten tonen aan dat dit multi-agent systeem, gebruikmakend van OpenHands + Claude Sonnet 4.5, een taakoplossingspercentage van 69,40% bereikt, wat aanzienlijk beter is dan een standaard single-agent opzet (61,20%) en de prestatiekloof verkleint met agenten die werken met volledig gespecificeerde instructies. Verder constateren we dat het multi-agent systeem goed gekalibreerde onzekerheid vertoont: het spaart vragen uit op eenvoudige taken, maar zoekt proactief naar informatie bij complexere problemen. Deze bevindingen geven aan dat huidige modellen kunnen worden omgevormd tot proactieve collaborateurs, waarbij agenten zelfstandig herkennen wanneer zij vragen moeten stellen om ontbrekende informatie op te halen in real-world, onvolledig gespecificeerde taken.

Signalen: Trajectoriebemonstering en Triage voor Agent-Interacties
Signals: Trajectory Sampling and Triage for Agentic Interactions

Apr 1

ByShuguang Chen, Adil Hafeez, Salman Paracha

Agentapplicaties op basis van grote taalmodellen maken steeds vaker gebruik van meerstaps interactielussen met planning, actie-uitvoering en omgevingsfeedback. Hoewel dergelijke systemen inmiddels op grote schaal worden ingezet, blijft het verbeteren ervan na implementatie een uitdaging. Agenttrajecten zijn omvangrijk en niet-deterministisch, en het beoordelen van elk traject – via menselijke beoordeling of ondersteunende LLM's – is traag en kostentechnisch onhaalbaar. Wij stellen een lichtgewicht, signaalgebaseerd raamwerk voor voor de triage van agentinteractietrajecten. Onze aanpak berekent goedkope, breed toepasbare signalen uit live interacties en koppelt deze als gestructureerde attributen voor trajecttriage, waarbij interacties worden geïdentificeerd die waarschijnlijk informatief zijn zonder het online gedrag van de agent te beïnvloeden. We ordenen signalen in een grofkorrelige taxonomie die zich uitstrekt over interactie (misalignering, stagnatie, disengagement, tevredenheid), uitvoering (falen, looping) en omgeving (uitputting), ontworpen voor berekening zonder modelaanroepen. In een gecontroleerde annotatiestudie op τ-bench, een veelgebruikte benchmark voor de evaluatie van tool-augmented agents, tonen we aan dat signaalgebaseerde steekproefname een informatiefheidspercentage van 82% bereikt, vergeleken met 74% voor heuristische filtering en 54% voor aselecte steekproefname, met een efficiëntiewinst van 1,52x per informatief traject. Het voordeel is robuust over verschillende beloningsniveaus en taakdomeinen, wat bevestigt dat signalen echte per-traject informatiefheidswinsten opleveren in plaats van alleen duidelijke mislukkingen te overrepresenteren. Deze resultaten tonen aan dat lichtgewicht signalen kunnen dienen als praktische steekproefinfrastructuur voor agentsystemen, en wijzen een pad naar voorkeursdataconstructie en optimalisatie na implementatie.

Vrienden en Grootmoeders in Silico: Het Lokaliseren van Entiteitscellen in Taalmodellen
Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Apr 1

ByItay Yona, Dan Barzilay, Michael Karasik, Mor Geva

Taalmodellen kunnen veel feitelijke vragen over entiteiten beantwoorden, maar het blijft onduidelijk welke interne mechanismen bij dit proces betrokken zijn. Wij bestuderen deze vraag bij meerdere taalmodellen. We lokaliseren entiteit-selectieve MLP-neuronen met behulp van getemplateerde prompts voor elke entiteit, en valideren ze vervolgens met causale interventies op PopQA-gebaseerde vraag-antwoordvoorbeelden. Op een gecureerde set van 200 entiteiten uit PopQA concentreren gelokaliseerde neuronen zich in de vroege lagen. Negatieve ablatie veroorzaakt entiteit-specifieke amnesie, terwijl gecontroleerde injectie bij een placeholder-token de antwoordretrieval verbetert ten opzichte van gemiddelde-entiteit- en verkeerde-cel-controles. Voor veel entiteiten is het activeren van één gelokaliseerd neuron voldoende om entiteit-consistente voorspellingen te herstellen zodra de context is geïnitialiseerd, in overeenstemming met compacte entiteitretrieval in plaats van puur geleidelijke verrijking over de diepte heen. Robuustheid tegen aliassen, acroniemen, spelfouten en meertalige vormen ondersteunt een canonicalisatie-interpretatie. Het effect is sterk maar niet universeel: niet elke entiteit laat een betrouwbaar enkel-neuron-handvat toe, en de dekking is hoger voor populaire entiteiten. Over het algemeen identificeren deze resultaten schaarse, causaal inzetbare toegangspunten voor het analyseren en moduleren van entiteit-geconditioneerd feitelijk gedrag.

Automatische annotatie van morfologische kenmerken op beeldniveau voor organismebeelden
Automatic Image-Level Morphological Trait Annotation for Organismal Images

Apr 2

ByVardaan Pahuja, Samuel Stevens, Alyson East, Sydne Record, Yu Su

Morfologische kenmerken zijn fysieke eigenschappen van biologische organismen die cruciale aanwijzingen geven over hoe organismen interageren met hun omgeving. Het extraheren van deze kenmerken blijft echter een traag, door experts gedreven proces, wat hun toepassing in grootschalige ecologische studies beperkt. Een belangrijke bottleneck is het ontbreken van hoogwaardige datasets die biologische afbeeldingen koppelen aan annotaties op kenmerkniveau. In dit werk tonen we aan dat sparse auto-encoders, getraind op kenmerken van foundation-modellen, monosemantische, ruimtelijk gelokaliseerde neuronen opleveren die consistent activeren bij betekenisvolle morfologische onderdelen. Gebruikmakend van deze eigenschap introduceren we een pijplijn voor kenmerkannotatie die salientie regio's lokaliseert en vision-language prompting gebruikt om interpreteerbare kenmerkbeschrijvingen te genereren. Met deze aanleggen construeren we Bioscan-Traits, een dataset van 80.000 kenmerkannotaties verspreid over 19.000 insectenafbeeldingen uit BIOSCAN-5M. Menselijke evaluatie bevestigt de biologische plausibiliteit van de gegenereerde morfologische beschrijvingen. We beoordelen de ontwerpgevoeligheid via een uitgebreide ablatiestudie, waarbij we systematisch belangrijke ontwerpkeuzes variëren en hun impact op de kwaliteit van de resulterende kenmerkbeschrijvingen meten. Door kenmerken te annoteren met een modulaire pijplijn in plaats van met prohibitief dure handmatige inspanningen, bieden we een schaalbare manier om biologisch betekenisvolle supervisie in foundation-modellen te injecteren, grootschalige morfologische analyses mogelijk te maken, en de kloof te overbruggen tussen ecologische relevantie en machinelearning-praktijk.

Brainstacks: Cross-domein cognitieve capaciteiten via bevroren MoE-LoRA-stacks voor continu LLM-leren
Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Apr 1

ByMohammad R. Abu Ayyash

Wij presenteren Brainstacks, een modulaire architectuur voor continue multi-domein fine-tuning van grote taalmodellen, die domeinexpertise verpakt als bevroren adapterstapels die tijdens de inferentie additief worden samengesteld op een gedeelde, bevroren basis. Vijf in elkaar grijpende componenten: (1) MoE-LoRA met Shazeer-stijl noisy top-2 routing over alle zeven transformer-projecties onder QLoRA 4-bit kwantisatie met rsLoRA-schaling; (2) een innerlijke lus die residual boosting uitvoert door getrainde stapels te bevriezen en nieuwe toe te voegen; (3) een outer loop die sequentiële domeinspecifieke stapels traint met curriculum-geordende afhankelijkheden; (4) null-ruimteprojectie via gerandomiseerde SVD, die nieuwe stapels beperkt tot deelruimten orthogonaal aan eerdere richtingen, waardoor in isolatie nul vergeten wordt bereikt; (5) een op uitkomsten gebaseerde sigmoïde meta-router, getraind op empirisch ontdekte domeincombinatiedoelen, die stapels selectief gewicht geeft en kruis-domeincompositie mogelijk maakt. Twee grensexperimenten: (6) PSN-pre-training op een willekeurig geïnitialiseerd model; (7) per-domein RL (DPO/GRPO) die de compatibiliteit met post-SFT-afstemming valideert. Geverifieerd op TinyLlama-1.1B (4 domeinen, 9 stapels) en Gemma 3 12B IT (5 domeinen, 10 stapels): MoE-LoRA bereikt 2,5x snellere convergentie dan een parameter-gematchte enkele LoRA, residual boosting doorbreekt het plafond van een enkele stapel, en het gerouteerde systeem herstelt de generatiekwaliteit die vernietigd werd door ongegate stapelaccumulatie. De centrale bevinding: de op uitkomsten gebaseerde router ontdekt dat domeinstapels overdraagbare cognitieve primitieven coderen (instructievolgzaamheid, numeriek redeneren, procedurele logica, chain-of-thought-structuur) in plaats van domeinspecifieke kennis, waarbij medische prompts in 97% van de gevallen doorgeleid worden naar chat- en rekenstapels, ondanks de afwezigheid van medische data in die stapels.

MultiGen: Niveau-ontwerp voor bewerkbare multiplayer-werelden in diffusion-game-engines
MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Mar 30

ByRyan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz

Videowereldmodellen hebben een enorm potentieel getoond voor interactieve simulatie en entertainment, maar huidige systemen worstelen nog steeds met twee belangrijke aspecten van interactiviteit: gebruikerscontrole over de omgeving voor reproduceerbare, bewerkbare ervaringen, en gedeelde inferentie waarbij spelers invloed uitoefenen op een gemeenschappelijke wereld. Om deze beperkingen aan te pakken, introduceren we een expliciet extern geheugen in het systeem, een persistente toestand die onafhankelijk opereert van de contextvenster van het model, en die continu wordt bijgewerkt door gebruikersacties en wordt geraadpleegd gedurende de generatieroll-out. In tegenstelling tot conventionele diffusie-game-engines die functioneren als volgende-frame-voorspellers, ontleedt onze aanpak de generatie in Geheugen-, Observatie- en Dynamiekmodules. Dit ontwerp geeft gebruikers directe, bewerkbare controle over de omgevingsstructuur via een bewerkbare geheugenrepresentatie, en het breidt zich natuurlijk uit naar real-time multiplayer roll-outs met coherente gezichtspunten en consistente kruis-spelerinteracties.

Een Empirisch Recept voor Universele Fonemherkenning
An Empirical Recipe for Universal Phone Recognition

Mar 30

ByShikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi, Eunjung Yeo, William Chen, Shinji Watanabe, David R. Mortensen

Fonemherkenning (PR) is een cruciale aanjager voor meertalige en data-arme spraakverwerkingstaken, maar robuuste prestaties blijven moeilijk te bereiken. Hoogpresterende modellen die op Engels zijn gericht, generaliseren niet over talen heen, terwijl meertalige modellen vooraf getrainde representaties onvoldoende benutten. Ook is het nog onduidelijk hoe de schaal van data, architectuur en trainingsdoel bijdragen aan meertalige PR. Wij presenteren PhoneticXEUS – getraind op grootschalige meertalige data en met state-of-the-art prestaties op zowel meertalige (17,7% PFER) als Engels met een accent (10,6% PFER). Via gecontroleerde ablatiestudies met evaluaties in meer dan 100 talen onder een uniform schema, leggen we ons trainingsrecept empirisch vast en kwantificeren we de impact van SSL-representaties, dataschaal en verliesfuncties. Daarnaast analyseren we foutpatronen per taalfamilie, bij spraak met een accent, en aan de hand van articulatorische kenmerken. Alle data en code worden openbaar vrijgegeven.