HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

48 papers found

ResearchClawBench: Een benchmark voor end-to-end autonoom wetenschappelijk onderzoek
ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

May 28

ByWanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang

AI-codeeragents worden steeds vaker ingezet voor wetenschappelijk werk, maar hun end-to-end autonome onderzoekscapaciteit blijft moeilijk te verifiëren. We presenteren ResearchClawBench, een benchmark voor het evalueren van autonoom wetenschappelijk onderzoek aan de hand van 40 taken uit 10 wetenschappelijke domeinen. Elke taak is gebaseerd op een echte gepubliceerde paper, biedt gerelateerde literatuur en ruwe data, en verbergt de doelpapier tijdens de evaluatie. Door experts samengestelde multimodale rubrics ontleden de beoogde wetenschappelijke artefacten in gewogen criteria, waardoor herontdekking op het niveau van de doelpapier mogelijk wordt beoordeeld, terwijl er ruimte blijft voor nieuwe ontdekkingen. We evalueren zeven autonome onderzoeksagents (auto-research agents) onder een uniform protocol en zeventien native LLM's via het lichte ResearchHarness. Huidige systemen zijn nog ver verwijderd van betrouwbare herontdekking: de sterkste autonome agent, Claude Code, behaalt gemiddeld 21,5, en de sterkste ResearchHarness LLM, Claude-Opus-4.7, gemiddeld 20,7, met een LLM-frontiergemiddelde van slechts 26,5. Foutenanalyse toont aan dat mislukkingen zich concentreren in mismatch van experimenteel protocol, mismatch van bewijs en ontbrekende wetenschappelijke kern. ResearchClawBench biedt een reproduceerbare evaluatiegrens voor het meten van vooruitgang richting autonoom wetenschappelijk onderzoek.

Imaginatieve perceptietokens verbeteren ruimtelijk redeneren in multimodale taalmodellen.
Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

Jun 3

ByMahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna

Visie-taalmodellen (VLM’s) excelleren in veel taken, maar hebben nog steeds moeite met ruimtelijk redeneren wanneer kritieke informatie niet direct waarneembaar is. Veel van dergelijke problemen vereisen een verbeeldend waarnemingsvermogen: het afleiden wat men zou zien vanuit een niet-geziene gezichtshoek, het volgen van paden door geoccludeerde ruimtes, of het integreren van gedeeltelijke waarnemingen in een coherente ruimtelijke representatie. We introduceren Imaginatieve Perceptie-Tokens (IPT), intermediaire perceptuele representaties die externaliseren wat een VLM zou waarnemen onder alternatieve ruimtelijke configuraties, terwijl ze consistent blijven met de waargenomen invoer. Om dit vermogen te bestuderen, formuleren we drie taken: Perspectief Nemen (PET), Padvolgen (PT) en Multiview Tellen (MVC), en construeren we datasets van ongeveer 20.000 voorbeelden met grondwaarheidsimaginaties, antwoorden en evaluatiebenchmarks. Met behulp van het uniforme VLM BAGEL als ruggengraat, verbetert IPT-supervisie consequent het ruimtelijk redeneren en presteert het vaak beter dan tekstuele gedachteketentraining, zelfs zonder het genereren van afbeeldingen tijdens de inferentie. Op MVC verbetert IPT de nauwkeurigheid met 3,4% en behaalt het concurrerende prestaties met sterke closed-source modellen op PT. Verder vinden we dat het combineren van IPT en label-only supervisie extra winst oplevert, terwijl tekstuele gedachteketen de prestaties aanzienlijk kan verslechteren, wat wijst op een modaliteitsmismatch wanneer ruimtelijke berekening door taal wordt geforceerd. Over het geheel genomen biedt IPT een principieel supervisiesignaal voor het redeneren over niet-waargenomen ruimtelijke structuur, wat de generalisatie verbetert terwijl er interpreteerbare intermediaire representaties worden geproduceerd.

Uw UnEmbedding Matrix is in het geheim een Feature Lens voor Tekstembeddingen
Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

Jun 5

BySonghao Wu, Zhongxin Chen, Yuxuan Liu, Heng Cui, Cong Li, Rui Yan

Grote taalmodellen vertonen indrukwekkende nul-shot capaciteiten over een breed scala aan downstreamtaken. Ze hebben echter moeite om te functioneren als kant-en-klare inbeddingsmodellen, wat leidt tot suboptimale prestaties op grootschalige tekstinbeddingsbenchmarks. In dit artikel identificeren we een mogelijke oorzaak die aan dit tekort ten grondslag ligt. Onze motivatie komt voort uit een onverwachte observatie: tekstinbeddingen hebben de neiging om uit te lijnen met frequente maar niet-informatieve tokens wanneer ze worden geprojecteerd op de vocabulaire ruimte. Wij beargumenteren dat deze overmatige expressie van hoogfrequente tokens het vermogen van het model om genuanceerde semantiek te vatten onderdrukt. Om dit aan te pakken introduceren we EmbedFilter, een eenvoudige lineaire transformatie die is ontworpen om tekstinbeddingen die direct van LLMs zijn afgeleid te verfijnen. Specifiek ontdekken we dat de 'unembedding' matrix in LLMs een latente ruimte codeert die actief deze frequente tokens in de inbeddingsruimte schrijft. Door deze deelruimte uit te filteren, onderdrukt EmbedFilter de invloed van hoogfrequente tokens, waardoor semantische representaties worden verbeterd. Als overtuigend bijproduct maakt dit een inherente dimensionaliteitsreductie mogelijk, waardoor de indexopslag wordt verlaagd en het ophalen wordt versneld, terwijl de verfijnde inbeddingskwaliteit volledig behouden blijft. Onze experimenten over meerdere LLM-backbones tonen aan dat LLMs uitgerust met EmbedFilter superieure nul-shot downstreamprestaties behalen, zelfs met aanzienlijk gereduceerde inbeddingsdimensies. We hopen dat onze bevindingen diepere inzichten bieden in de mechanismen van op LLM gebaseerde representaties en inspireren tot meer principiële ontwerpen om de training van tekstinbeddingen te verbeteren. Onze code is beschikbaar op https://github.com/CentreChen/EmbFilter.

SoCRATES: Naar betrouwbare geautomatiseerde evaluatie van proactieve LLM-mediatie over domeinen en sociaal-cognitieve variaties
SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

Jun 4

ByTaewon Yun, Hyeonseong Park, Jeonghwan Choi, Hayoon Park, Yeeun Choi, Hwanjun Song

Het evalueren van LLM-bemiddelaars blijft uitdagend, omdat bemiddeling zich ontvouwt als een real-time traject dat wordt gevormd door de veranderende emoties, intenties en context van de partijen in conflict. Bestaande testomgevingen vertrouwen op een paar door experts geschreven domeinen, variëren voornamelijk in strategische houding en beoordelen elke beurt op elk onderwerp, wat ruis buiten het onderwerp introduceert. Wij introduceren SoCRATES, een benchmark voor het evalueren van proactieve LLM-bemiddelaars in realistische, multidomein-testomgevingen. Het construeert scenario's uit echte conflicten via een agentische pipeline over acht domeinen, onderzoekt vijf sociaal-cognitieve aanpassingsassen (strategische houding, partijsamenstelling, geschiedenislengte, emotionele reactiviteit en culturele identiteit) en beoordeelt elk onderwerp alleen op de beurten die het vooruithelpen via een onderwerpsgelokaliseerde beoordelaar. De beoordelaar bereikt een overeenstemming van 0,82 met menselijke experts, meer dan een verdubbeling van een per-beurt baseline. Bij het benchmarken van acht geavanceerde LLM's vinden we dat zelfs de sterkste bemiddelaar slechts ongeveer een derde van de onbemiddelde consensuskloof overbrugt in diverse en realistische testomgevingen, met prestaties die sterk variëren per sociaal-cognitieve as, wat benadrukt dat vooruitgang ligt in sociale aanpassing aan diverse omstandigheden.

GENEB: Waarom genomische modellen moeilijk te vergelijken zijn
GENEB: Why Genomic Models Are Hard to Compare

Jun 3

ByDaria Ledneva, Mikhail Nuridinov, Denis Kuznetsov

Vooruitgang in genomische funderingsmodellen is moeilijk te beoordelen vanwege gefragmenteerde benchmarks, incompatibele evaluatieprotocollen en taakspecifieke rapportage. Hierdoor zijn claims van superioriteit of algemeenheid over modellen heen vaak niet direct vergelijkbaar. We introduceren GENEB, een grootschalige diagnostische benchmark die bevroren representaties van 40 genomische funderingsmodellen evalueert over 100 taken verspreid over 13 functionele categorieën, onder een uniform, op probing gebaseerd protocol, inclusief few-shot-regimes. GENEB maakt gecontroleerde vergelijking mogelijk op het gebied van modelschaal, architectuur, tokenisatie en pretrainingdata, terwijl taakniveau-afwegingen expliciet worden blootgelegd. Onze analyse toont aan dat geaggregeerde ranglijsten instabiel zijn: modelrangschikkingen variëren sterk per taakcategorie, schaal levert slechts bescheiden en inconsistente winsten op, en architectuur- en pretraining-alignment weegt vaak zwaarder dan het aantal parameters. Deze resultaten benadrukken de beperkingen van huidige evaluatiepraktijken en positioneren GENEB als een referentiekader voor principieel vergelijken en categoriebewuste modelselectie in genomisch machinaal leren.

MMAE: Een grootschalige multitaak benchmark voor audiobewerking
MMAE: A Massive Multitask Audio Editing Benchmark

Jun 5

ByZiyang Ma, Ruiqi Yan, Ruiyang Xu, Jie Fang, Zhikang Niu, Yi-Wen Chao, Wenming Tu, Tianrui Wang, Auden, Qi Chen, Wenxi Chen, Jiaying Chi, Yanru Huo, Zixuan Jiang, Xiquan Li, Yalin Li, Junxi Liu, Minghao Liu, Binghao Qiang, Yijia Shan, Zheshu Song, Tian Tan, Zixiang Wang, Zeyu Xie, Zhifei Xie, Xiaoyu Xing, Qixiang Xu, Chen Yang, Guanrou Yang, Shan Yang, Yifan Yang, Steve Yves, Haotian Zhang, Haina Zhu, Kai Yu, Liefeng Bo, Eng-Siong Chng, Xie Chen

Wij introduceren MMAE, een Massive Multitask Audio Editing benchmark, die fungeert als het eerste uitgebreide evaluatie-testbed ontworpen voor algemene, instructiegebaseerde audiobewerking. Gestimuleerd door de verschuiving naar intelligente creatie, heeft interactieve bewerking zich snel uitgebreid van visuele domeinen, geïnitieerd door modellen zoals Nano-banana 2 voor afbeeldingen en Gemini-Omni voor video, naar audio. De huidige evaluatie-infrastructuur loopt echter ernstig achter en blijft sterk gefragmenteerd, beperkt tot specifieke subdomeinen of basisbewerkingen. In tegenstelling tot bestaande benchmarks die beperkt zijn in reikwijdte, breidt MMAE zich uit naar een breed spectrum van realistische scenario's, waarbij 7 verschillende audiomodaliteiten worden omvat, waaronder geluid, spraak, muziek en hun mengsels. Verder stellen we een uitgebreide taxonomie op die 6 niveaus van taakcomplexiteit omvat, van basisaanpassingen tot meerstapsredenering en meerrondebewerking, 2 granulariteitsniveaus en 8 verschillende bewerkingstypen. Zorgvuldig samengesteld door mens-agent samenwerking, omvat MMAE 2.000 high-fidelity samples, gekoppeld aan een baanbrekend rubric-gebaseerd evaluatiekader. Door vrije-vorm taken te ontleden in 17.741 verifieerbare criteria, maakt dit robuuste rubric-gebaseerde paradigma een precieze, multidimensionale beoordeling mogelijk van zowel instructievolging als contextconsistentie. Onze uitgebreide evaluatie van toonaangevende modellen laat zien dat huidige systemen nog ver verwijderd zijn van betrouwbare bewerkingen. Opvallend is dat de Exact Match Rate (EMR) consequent onder de 5% ligt en in complexe, gemengde-modaliteitstaken daalt tot een absolute 0%, wat kritieke knelpunten blootlegt in precieze uitvoering en structurele robuustheid. We hopen dat MMAE zal dienen als een katalysator voor toekomstige vooruitgang in de intelligente creatiegemeenschap, door een duidelijke diagnostische routekaart te bieden en een gestandaardiseerd, langdurig evaluatieparadigma te vestigen voor audiobewerkingssystemen van de volgende generatie.

AnchorWorld: Belichaamde Egocentrische Wereldsimulatie met Zichtgebaseerde Evolutieaanpassing
AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

Jun 5

ByYu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang

Ondanks dat het een cruciaal grensvlak is, blijft interactieve wereldmodellering onderbelicht wat betreft de veelzijdige controleerbaarheid die vereist is in praktische scenario's. Om deze kloof te overbruggen, presenteren we AnchorWorld, een raamwerk dat egocentrische simulatie bevordert door verbeterde interactie-integriteit en een flexibel mechanisme voor wereldaanpassing. Ten eerste gebruiken we 3D menselijke beweging als primaire interactiemodaliteit. Om de buiten beeld of afgekapte lichaamsdelen in egocentrische aanzichten aan te vullen, introduceren we een extra trainingssupervisie die exogene gezichtspunten omvat, losgekoppeld van het eerstepersoons sensorium van de agent. Hierdoor kan het model de volledige lichaamspositionering van de agent ten opzichte van de omgeving observeren, wat een robuustere ruimtelijke verankering van mens-wereldinteracties mogelijk maakt. Verder stellen we een eenvoudig maar effectief mechanisme voor voor het aanpassen van zelf-evoluerende werelden. Dit wordt bereikt door ankerbeelden te definiëren binnen een uniform wereldcoördinatensysteem, gekoppeld aan tekstuele beschrijvingen die de dynamische evolutie van lokale scènes voorschrijven. Experimentele resultaten tonen aan dat AnchorWorld significant beter presteert dan state-of-the-art basislijnen, terwijl ablatiestudies de effectiviteit van onze sleutelontwerpen valideren. Met name vertoont ons aanpassingsschema veelbelovende ruimtelijk-temporele geometrische consistentie en voldoet het strikt aan de voorgeschreven evolutionaire dynamiek.

Robots hebben meer nodig dan VLA en wereldmodellen
Robots Need More than VLA and World Models

Jun 4

ByElis Karcini, Faisal Mehrban, Quang Nguyen, Mac Schwager, Arash Ajoudani, Cesar Cadena, Jan Peters, Marco Hutter, Haitham Bou-Ammar

Algemene robotintelligentie wordt vaak gezien als een beleidsschalingsprobleem: verzamel meer robotdemonstraties, train grotere Visie-Taal-Actie (VTA)-modellen en verwacht bredere generalisatie. In dit standpuntartikel stellen wij dat deze framing onvolledig is. De centrale bottleneck is niet alleen het leren van beleid, maar de afwezigheid van mechanismen die de overvloedige ongestructureerde gedragsgegevens van de wereld omzetten in verankerde robotsupervisie. Menselijke beweging, internetvideo, simulatie-uitrols en interactieve demonstraties bevatten rijke informatie over taken, doelen, contacten, mislukkingen en fysieke beperkingen, maar het meeste van deze informatie is niet direct bruikbaar door robotbeleid omdat het ontbreekt aan belichaamingspecifieke actielabels, taaksemantiek en beloningsstructuur. Wij identificeren vier ontbrekende componenten voor de volgende generatie robotica: data-interfaces voor automatische labeling van ongestructureerd gedrag, belichamingsinterfaces voor het omzetten van menselijke beweging naar robotacties, wereldmodel-interfaces voor natuurkundig onderbouwde 3D-redenering en beloningsinterfaces voor het afleiden van taakvoortgang en -succes uit video en taal. Wij overzien de recente vooruitgang in robotfundamentmodellen, cross-belichamingsdatasets, leren van video, wereldmodellen en beloningsmodellering, en stellen een onderzoeksagenda voor voor het bouwen van robotsystemen die niet alleen kunnen leren van robotdemonstraties, maar van de bredere fysieke wereld.

Directe 3D-bewuste Objectinsertie via Gedecomponeerde Visuele Proxies
Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

Jun 4

ByJingbo Gong, Yikai Wang, Yushi Lan, Yuhao Wan, Ziheng Ouyang, Rui Zhao, Ming-Ming Cheng, Qibin Hou, Chen Change Loy

Objectinvoeging heeft als doel om een referentieobject naadloos te componeren in een gespecificeerd gebied van een achtergrondafbeelding. Recente diffusiegebaseerde methoden behalen een hoge visuele kwaliteit, maar formuleren invoeging als een eenvoudige 2D-inpaint-taak, zonder expliciete controle over de 3D-pose van het object, wat hun praktische toepasbaarheid beperkt. Wij stellen DIRECT (Decomposed Injection for Reference Composition and Target-integration) voor, een nieuw raamwerk dat interactieve posemanipulatie integreert met hoogwaardige 2D-beeldsynthese om pose-controleerbare objectinvoeging mogelijk te maken. Onze methode ontleedt de invoegingscondities in drie complementaire componenten: uiterlijkheidsgeleiding die visuele details uit het referentieobject vastlegt, geometriegeleiding afgeleid van de door de gebruiker aangepaste 3D-proxy, en contextgeleiding vanuit de doelachtergrond. Door deze via aparte paden te injecteren, vermijdt DIRECT kenmerkenverstrengeling en behoudt het tegelijkertijd het referentie-uiterlijk, volgt het de door de gebruiker gespecificeerde pose, en past het het object aan de doelscène aan. We introduceren ook een geautomatiseerde dataconstructiepijplijn om de diversiteit en kwaliteit van trainingsdata te verbeteren. Experimenten tonen aan dat DIRECT eerdere methoden overtreft in zowel geometrische controleerbaarheid als visuele kwaliteit.

OpenSkill: Open-Wereld Zelfevolutie voor LLM-Agenten
OpenSkill: Open-World Self-Evolution for LLM Agents

Jun 4

ByZhiling Yan, Dingjie Song, Hanrong Zhang, Wei Liang, Yuxuan Zhang, Yutong Dai, Lifang He, Philip S. Yu, Ran Xu, Xiang Li, Lichao Sun

Zelf-evoluerende agenten vereisen aanpassing na implementatie, maar bestaande benaderingen gaan uit van een bruikbare leerlus, zoals samengestelde vaardigheden, succesvolle trajecten of verificateursignalen. Echte open-wereldimplementaties bieden mogelijk geen van deze, maar alleen een taakprompt. In dit werk bestuderen we open-wereldzelfevolutie, waarbij een agent zowel zijn vaardigheden als zijn eigen verificatiesignalen vanaf nul moet opbouwen, gebruikmakend van open-wereldbronnen maar zonder supervisie voor de doeltaak. We stellen OpenSkill voor, een raamwerk dat deze lus bootstrapt: het verkrijgt gefundeerde kennis en verificatieankers uit documentatie, repositories en het web, synthetiseert deze tot overdraagbare vaardigheden en verfijnt die vaardigheden aan de hand van zelfgebouwde virtuele taken die zijn gefundeerd in de ankers in plaats van in doelantwoorden. De open wereld levert dus zowel de te leren kennis als een supervisie-onafhankelijke oefenomgeving, waarbij supervisie voor de doeltaak alleen wordt gebruikt voor de uiteindelijke evaluatie. Over drie benchmarks en twee doelagenten heen behaalt OpenSkill het beste geautomatiseerde slagingspercentage, terwijl het voldoet aan de geen-toezichtbeperking. Analyse toont aan dat de vaardigheden overdraagbaar zijn tussen modellen zonder modelspecifieke aanpassingen, en dat de zelfgebouwde verificateur overeenstemt met de grondwaarheidsuitkomsten, hoewel hij daar nooit toegang toe heeft gehad.

Wanneer Tools falen: Benchmarken van dynamische herplanning en anomalieherstel in LLM-agenten
When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

Jun 4

ByDongsheng Zhu, Xuchen Ma, Yucheng Shen, Xiang Li, Yukun Zhao, Shuaiqiang Wang, Lingyong Yan, Dawei Yin

Bestaande benchmarks evalueren gereedschapsgeïntegreerd redeneren (TIR) in LLM's op basis van geïdealiseerde 'ideaalpaden', waarbij grotendeels wordt voorbijgegaan aan realistische gereedschapsfouten. We introduceren ToolMaze, een benchmark voor dynamische padontdekking en foutherstel in TIR-agenten. Om systematische herplanning te onderscheiden van blinde trial-and-error, hanteert ToolMaze een tweedimensionaal ontwerp: op DAG gebaseerde topologische complexiteit en een 2 × 2-taxonomie van gereedschapsverstoringen (expliciet/impliciet, tijdelijk/blijvend). Evaluaties tonen aan dat verstoringen de prestaties van bijna alle modellen aantasten, met de scherpste dalingen bij impliciete semantische fouten. Gedreven door systemisch overmatig vertrouwen in gecorrumpeerde outputs daalt het herstelpercentage na verstoring (PRR) in deze scenario's met ongeveer 37%, terwijl complexe topologieën agenten in vruchteloze trial-and-error-lussen vastzetten. Cruciaal is dat agentische fouttolerantie 3,66 keer langzamer verbetert met modelschaal dan basale taakuitvoering, wat aantoont dat dynamische herplanning een apart knelpunt vormt dat niet wordt aangepakt door modelschaling of prompting. Gegevens en code zijn beschikbaar op https://github.com/Zhudongsheng75/ToolMaze.

Kijken, Onthouden, Redeneren: Videobegrip vanuit Menselijk Perspectief met MLLMs
Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Jun 5

ByJiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang

Videobegrip wordt snel getransformeerd door multimodale grote taalmodellen (MLLM's), naarmate onderzoek verschuift van korte clips naar lange, multimodale en kennisintensieve videoscenario's. Deze scenario's vereisen dat modellen omgaan met schaars bewijs, afhankelijkheden over grote afstanden, multimodale afstemming en betrouwbare inferentie onder beperkte rekenbudgetten. Dit werk presenteert een mensperspectief op LLM-gebaseerd videobegrip, georganiseerd rond drie functionele vaardigheden: kijken, onthouden en redeneren. In plaats van videotaken te behandelen als geïsoleerde benchmarks, biedt deze visie een uniforme structuur voor het analyseren hoe video-MLLM's bewijs verzamelen, context behouden en gegronde outputs produceren. We introduceren een formulering die videobegripsystemen karakteriseert door hun perceptuele representaties, geheugentoestanden, redeneersporen en uiteindelijke voorspellingen. Op basis van deze formulering identificeren we uitdagingen in ruimtelijk-temporele perceptie, efficiënte verwerking van lange video's, geheugenmodellering, streamingbegrip en betrouwbaar redeneren. Representatieve methoden worden georganiseerd op basis van hun rol in video-MLLM-systemen. Kijken omvat fijnmazige, uitgebreide, audiovisuele en efficiënte perceptie. Onthouden omvat offline en streaminggeheugen, terwijl redeneren tekst-only redeneren en denken met video's omvat. We onderzoeken verder toepassingsdomeinen zoals egocentrische, sport-, instructie-, medische en narratieve video's, en behandelen trainingsdatasets en evaluatiebenchmarks over taaktypen, supervisieformaten, modaliteiten en capaciteitsdimensies. Tot slot schetsen we open problemen en toekomstige richtingen voor schaalbare, geheugenbewuste en op bewijs gebaseerde video-intelligentie. Gerelateerde werken zullen continu worden bijgehouden op https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.

SubtleMemory: Een Benchmark voor Fijnmazige Relationele Geheugendiscriminatie in AI-agenten met Lange Horizon
SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

Jun 4

ByWenxuan Wang, Haoyu Sun, Fukuan Hou, Mingyang Song, Weinan Zhang, Yu Cheng, Yang Yang

Aanhoudende AI-assistenten, zoals OpenClaw, accumuleren tijdens langdurige interacties grote verzamelingen gerelateerde herinneringen. Naarmate deze herinneringen groeien, kunnen ze elkaar versterken, divergeren in verschillende contexten, of direct met elkaar conflicteren, waardoor correcte ondersteuning afhangt van geheugenrelaties in plaats van geïsoleerde herinnering. Bestaande benchmarks voor langetermijngeheugen onderzoeken zelden hoe agenten dergelijke relaties tijdens stroomafwaartse taken behouden en benutten. Om deze kloof aan te pakken, introduceren we SubtleMemory, een benchmark voor fijnmazig relationeel geheugenonderscheid in langlopende AI-agenten. SubtleMemory construeert relatiegestuurde latente semantische artefacten waarvan varianten complementaire, genuanceerde of tegenstrijdige relaties instantiëren, en integreert deze in realistische gebruikers-agentgeschiedenissen, waardoor agenten tijdens latere vragen en instructies gedistribueerde relationele structuren moeten herstellen. De benchmark bevat 1.522 evaluatie-instanties over 10 lange geschiedenissen, gebaseerd op 1.090 relatiegestuurde geheugenvariantensets, en omvat zowel gebruikersgerelateerde als niet-gebruikersgerelateerde vragen. Bij het evalueren van zes op zichzelf staande geheugensystemen, twee Claw-achtige agenten met native geheugenmodules, en drie Claw-achtige agenten met plugin-geheugenmodules, stellen we vast dat huidige systemen zwak blijven op het gebied van fijnmazig relationeel geheugenonderscheid. We introduceren verder diagnostische protocollen die verschillende capaciteitsprofielen blootleggen in de fasen van geheugenbehoud, -ophaling en stroomafwaarts redeneren.

UnpredictaBench: een benchmark voor het evalueren van distributionele willekeur in LLM's
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

Jun 4

ByAmirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

We introduceren UnpredictaBench, een evaluatiemethode die het vermogen van grote taalmodellen (LLM's) om ware onderliggende verdelingen te vatten test. Nu LLM's steeds vaker worden ingezet als vervangers voor andere entiteiten (bijvoorbeeld voor mensen in economische simulaties), leidt de neiging van veel modellen om naar één enkel plausibel antwoord te convergeren tot een onvermogen om de onvoorspelbaarheid van echte systemen vast te leggen. Recent werk aan het verbeteren van outputdiversiteit is ontoereikend voor deze context: simulatie vereist steekproeven die zijn gekalibreerd op een doelverdeling, niet louter gevarieerde outputs. UnpredictaBench isoleert een vereenvoudigde maar fundamentele versie van dit probleem: het trekken van uitkomsten uit individuele doelverdelingen, waaronder canonieke statistische verdelingen, verdelingen geïnduceerd door stochastische programma's, en natuurlijke-taal-scenario's die willekeurige processen beschrijven. We introduceren 448 van dergelijke problemen samen met KS@N, een algemene evaluatiemetriek die kwantificeert hoe goed een model bij benadering black-box-doelverdelingen output via de Kolmogorov-Smirnov-statistische toets. Dit is de snelheid waarmee we modelsteekproeven van omvang N niet verwerpen tegenover grondwaarheidssteekproeven, waarbij een grotere N een grotere moeilijkheidsgraad aangeeft. Getest op open en propriëtaire modellen vinden we een grote spreiding in distributionele vermogens. Zo variëren scores van bijna 0 tot meer dan 20% wanneer modellen steekproeven van omvang 100 genereren (KS@100, onze standaardmetriek). Geen enkel model haalt meer dan 40% op KS@100, wat wijst op aanzienlijke ruimte voor verbetering van distributionele steekproeftrekking als vaardigheid. Hoewel het toevoegen van redenering de scores enigszins kan verhogen, vinden we geen onmiddellijke oplossing voor dit probleem. UnpredictaBench toont aan dat zelfs eenvoudige distributionele simulatie uitdagend blijft, wat het een noodzakelijke eerste stap maakt naar het gebruik van LLM's als plaatsvervangers voor complexe systemen.

LLM-uitlegbaarheid met contrafeitelijke ketens en causale grafen
LLM Explainability with Counterfactual Chains and Causal Graphs

Jun 4

ByNirit Nussbaum-Hoffer, Nitay Calderon, Liat Ein-Dor, Roi Reichart

Causale grafieken bieden een taal op hoog niveau om mechanismen transparant te maken. Recent werk gebruikt grote taalmodellen (LLM's) om causale grafieken van processen in de buitenwereld te achterhalen. In dit artikel gebruiken we in plaats daarvan causale grafieken om de inferentie van LLM's zelf te modelleren, waardoor belanghebbenden een transparant beeld krijgen van hoe het model concepten op hoog niveau waarneemt en organiseert om een voorspelling te produceren. We stellen een vierfasige methode voor om dergelijke grafieken te construeren. Gegeven een doel-LLM en een reeks tekstuele voorbeelden ontdekt onze methode klasse-discriminatieve, menselijk interpreteerbare concepten en brengt elke invoer in kaart naar door de LLM waargenomen concepttoestanden. Vervolgens introduceren we een op MCMC geïnspireerde contrafactuele augmentatieprocedure die de schaarse observationele gegevens uitbreidt via ketens van contrafacten. Dit maakt stabiele causale ontdekking met σ-CG mogelijk, wat leidt tot informatieve, interpreteerbare grafieken. We passen onze methode toe op drie LLM's op het gebied van ziektediagnose, sentimentanalyse en LLM-als-rechter-classificatietaken. We evalueren de geleerde grafieken op voorspellingsgetrouwheid en structurele stabiliteit, en de op MCMC geïnspireerde augmentatie op convergentie en nut in downstream-toepassingen. Onze resultaten tonen aan dat de ontdekte causale grafieken betekenisvolle afhankelijkheden vastleggen die consistent zijn met de redenering van LLM's. Tezamen biedt dit artikel een basis voor verklaarbaarheid op conceptniveau van LLM's.

Denken met verbeelding: agentisch visueel-ruimtelijk redeneren met wereldsimulatoren
Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

Jun 4

ByChenming Zhu, Jingli Lin, Yilin Long, Peizhou Cao, Tai Wang, Jiangmiao Pang, Xihui Liu

Hoewel visie-taalmodellen (Vision-Language Models, VLM's) sterke visuele redeneervaardigheden vertonen, blijft hun ruimtelijk redeneervermogen grotendeels beperkt tot waargenomen beelden en tekstgeoriënteerde ketens van gedachten. Ze hebben vaak moeite om niet-waargenomen lay-outs af te leiden, consistentie tussen aanzichten te handhaven, en te redeneren vanuit alternatieve gezichtspunten wanneer slechts beperkte egocentrische waarnemingen beschikbaar zijn. In dit werk bestuderen we dit probleem als denken met verbeelding, waarbij een VLM actief verbeeld visueel bewijs vergaart door tijdens het redeneren te interacteren met een wereldsimulator. We stellen Astra voor, een agentisch ruimtelijk redeneerraamwerk dat VLM's uitrust met actie-geconditioneerde visuele verbeelding. Specifiek koppelt Astra Astra-VL, een RL-getraind VLM-beleid, aan Astra-WM, een Bagel-gebaseerde wereldsimulator die nieuw-aanzicht waarnemingen genereert op basis van contextbeelden en natuurlijke-taal camerabewegingen. Om betrouwbaar verbeeld bewijs te leveren, wordt Astra-WM getraind met aanzichtsconsistentieafstemming om de pose- en inhoudsconsistentie tussen aanzichten te verbeteren. In de RL-fase stellen we een tweefasig RL-curriculum met de wereldsimulator in de lus voor om de verkenning van gereedschapsgebruik te stabiliseren en het vermogen van het model te bevorderen om de simulator alleen aan te roepen wanneer verbeeldde waarnemingen een verbetering vormen ten opzichte van direct antwoorden. Experimenten tonen aan dat zowel de wereldsimulator als het agentische beleid noodzakelijk zijn: Astra-WM verbetert simulator-verrijkte Gemini-3-Flash op MMSI-Bench van 45,1 naar 49,5, terwijl Astra-VL de Qwen3-VL backbone verbetert van 29,8 naar 38,8 op MMSI-Bench en van 36,8 naar 42,7 op MindCube. Deze resultaten laten zien dat verbeeldde waarnemingen nuttig ruimtelijk bewijs kunnen leveren, maar effectief wereldmodel-verrijkt redeneren vereist dat geleerd wordt wanneer, waar en hoe te verbeelden.

UniSHARP: Universele Scherpe Monoculaire Aanzichtsynthese
UniSHARP: Universal Sharp Monocular View Synthesis

Jun 5

ByMeixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi

In dit werk richten we ons op het uitbreiden van SHARP, de populaire fotorealistische beeldweergavemethode, voor universele monoculaire weergave over een continuüm van camerasystemen, van conventionele perspectivische camera's tot groothoek-, fisheye- en omnidirectionele panoramische instellingen. Om de pinhole-specifieke aannames van SHARP te overwinnen, is ons belangrijkste idee om verschillende afbeeldingen te aligneren in een uniforme omnidirectionele latentieruimte. Daarom stellen we UniSHARP voor, welke impliciete alignering uitvoert in zowel de kenmerk- als de Gaussische ruimte. Specifiek worden Gaussische primitieven gerangschikt langs stralen en radiale afstanden in een straalgebaseerde universele representatie, terwijl 2D-semantische en 3D-ruimtelijke kenmerken, geëxtraheerd uit UniK3D-geïnspireerde encoders, gezamenlijk worden gedecodeerd om de volledige Gaussische wolk te genereren. Om onze methode uitgebreid te evalueren, hebben we een benchmark samengesteld die diverse beeldvormingssystemen over verschillende scènes omvat. De benchmark wordt verder gestratificeerd per gezichtsveld (FoV) om een fijnmazige beoordeling van de universele monoculaire weergavetaak mogelijk te maken. Uitgebreide experimenten op de voorgestelde benchmark tonen de effectiviteit van UniSHARP aan, met een aanzienlijke marge beter dan alternatieve methoden. De projectpagina is te vinden op: https://insta360-research-team.github.io/Unisharp-website/

LIMMT: Minder is Meer voor Motion Tracking
LIMMT: Less is More for Motion Tracking

Jun 5

ByYu Guan, Zekun Qi, Chenghuai Lin, Xuchuan Chen, Dairu Liu, Wenyao Zhang, Jilong Wang, Xinqiang Yu, He Wang, Li Yi

Wij stellen dat hoogwaardige bewegingsdata trackingbeleid al vroeg in de training naar betere optimalisatietrajecten kan sturen. In dit werk introduceren wij LIMMT (Less Is More for Motion Tracking). Voor zover wij weten is dit de eerste data-gerichte studie naar fysica-gebaseerde mensachtige bewegingsregistratie. Wij gaan verder dan het simpelweg verwijderen van laagwaardige en foutieve clips, maar definiëren de kwaliteit van bewegingsdata via drie dimensies: fysische haalbaarheid, diversiteit en complexiteit. Wij tonen aan dat zelfs trainen met minder dan 3% van AMASS betere trackingprestaties oplevert dan trainen met de volledige dataset. Verder voeren wij datareiniging uit op de geschatte, van internet afkomstige mocap-data. Uitgebreide experimenten en analyses bevestigen de effectiviteit van ons raamwerk.

dots.tts Technisch Rapport
dots.tts Technical Report

Jun 5

ByShi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu

We presenteren dots.tts, een continu autoregressief tekst-naar-spraak (TTS) fundamentmodel met 2 miljard parameters dat spraak modelleert in een continue latente ruimte. Vergeleken met bestaande continue autoregressieve modellen zijn onze belangrijkste innovaties drievoudig. Ten eerste trainen we een AudioVAE met meerdere doelstellingen om een semantisch gestructureerde en voorspellingsvriendelijke continue spraakruimte op te bouwen. Ten tweede gebruiken we volledige-geschiedenisconditionering in de flow-matching-kop om consistentie op lange termijn te behouden en drift tijdens generatie te verminderen. Ten derde passen we beloningsvrije zelfcorrigerende post-training toe op de flow-matching-kop om de robuustheid en akoestische kwaliteit verder te verbeteren. Na training op een grootschalig meertalig corpus behaalt dots.tts de beste gemiddelde prestaties op Seed-TTS-Eval, met WER-waarden van 0,94%/1,30%/6,60% en SIM-scores van 81,0/77,1/79,5 op respectievelijk de zh/en/zh-hard-testreeksen. Op andere benchmarks toont dots.tts consequent state-of-the-art prestaties in open source, met sterke generatiestabiliteit, stemkloningscapaciteit en emotionele expressiviteit. Voor efficiënte inferentie passen we verder CFG-bewuste MeanFlow-distillatie toe, wat leidt tot spraakgeneratie met lage latentie met eerste-pakketlatenties van respectievelijk 85/54 ms in uitvoerstreaming- en dual-streamingmodi. Om reproduceerbaar onderzoek en praktische implementatie te vergemakkelijken, publiceren we de trainings- en inferentiecode, samen met de voorgetrainde, nage trainde en MeanFlow-gedistilleerde checkpoints, onder de Apache 2.0-licentie.

Fysica in 2 stappen: Het fixeren van bewegingspriors voordat visuele verfijning ze uitwist
Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

Jun 4

ByWoojung Han, Seil Kang, Youngjun Jun, Min-Hung Chen, Fu-En Yang, Seong Jae Hwang

Beeld-naar-video diffusiemodellen gebruiken invoerbeelden om visueel verbluffende inhoud te genereren, maar produceren vaak beweging die de natuurwetten schendt. We onthullen een verrassende bevinding: een 2-staps generatie vertoont vaak betere fysische consistentie dan een 50-staps uitvoer van hetzelfde model. Door spectrale analyse herleiden we dit tot fase-erosie tijdens het ontruisen; de fase verslechtert aanzienlijk (met ongeveer 18% daling van stap 2 naar stap 50), terwijl de magnitude relatief stabiel blijft. Voortbouwend op dit inzicht stellen we PhaseLock voor, een trainingsvrij raamwerk dat de geldige bewegingspriors uit een inferentie met weinig stappen behoudt gedurende het gehele ontruisingstraject. In plaats van te vertrouwen op volledige stapsgewijze inferentie voor fysische consistentie, haalt PhaseLock een bewegingsprior uit slechts 2 stappen en dwingt deze af op generatie met hoge betrouwbaarheid via Latent Delta Guidance. Onze aanpak beperkt effectief fase-afbraak, verbetert de fysische consistentie met gemiddeld 6,2 punten over diverse modellen, terwijl de visuele betrouwbaarheid grotendeels behouden blijft, met verwaarloosbare overhead (1,06× tijd, 1,02× geheugen) en verminderde afhankelijkheid van dure externe begeleidingsmethoden (ongeveer 5× tijd).

SIA: Zelfverbeterende AI met Harness en Gewichtsupdates
SIA: Self Improving AI with Harness & Weight Updates

May 26

ByPrannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran

Mensen vormen de bottleneck bij het bouwen en verbeteren van AI. Zowel de modellen als de agents die ze omhullen, worden geschreven, afgesteld en gecorrigeerd door mensen. Het langetermijndoel van een AI die zelf kan uitvinden hoe het zichzelf kan verbeteren, blijft onopgelost. Twee grotendeels onsamenhangende onderzoekslijnen pakken deze bottleneck aan. De 'harness-update'-school laat een meta-agent de scaffold van een taakspecifieke agent herschrijven (diens tools, prompts, retry-logica en zoekprocedure), terwijl de modelgewichten vast blijven. De 'test-time training'-school gebruikt handgeschreven RL-pipelines om de gewichten van het model zelf bij te werken op basis van taakfeedback, terwijl de harness vast blijft. Deze twee silo's opereren geïsoleerd. Wij stellen SIA voor, een zelfverbeterende lus waarin een taalmodel-agent (de Feedback-Agent) zowel de harness als de gewichten van een taakspecifieke agent bijwerkt. We evalueren dit op drie contrasterende domeinen: Chinese juridische aanklachtclassificatie, optimalisatie van laagniveau-GPU-kernels en ruisonderdrukking van enkelcellige RNA. Het combineren van beide hefbomen overtreft alleen scaffold-iteratie op alle drie de benchmarks. De winsten bedragen 56,6% op LawBench, 91,9% looptijdreductie op GPU-kernels en 502% op ruisonderdrukking ten opzichte van de oorspronkelijke baseline. Harness-updates maken de model-agent agentisch en bepalen hoe deze zoekt en handelt, terwijl gewichtsupdates de domeinintuïtie opbouwen die geen enkele prompt of scaffold kan bijbrengen.

PaperFlow: Profileren, Aanbevelen en Aanpassen in Dagelijkse Paperstromen
PaperFlow: Profiling, Recommending, and Adapting Across Daily Paper Streams

Jun 5

ByFuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan

Aanbeveling van wetenschappelijke artikelen wordt doorgaans geëvalueerd als een statische rangschikking over een vaste kandidaatset, maar het echte wetenschappelijke lezen verloopt als een dagelijks, longitudinaal proces waarin interesses verschuiven en feedback accumuleert. We introduceren PaperFlow, een raamwerk dat dit organiseert in drie gekoppelde fasen: Profileren, dat een gestructureerd, inspecteerbaar wetenschappelijk profiel opbouwt en onderhoudt op basis van heterogeen koude-start bewijs; Aanbevelen, dat elke datumspecifieke artikelstroom rangschikt via multi-signaal aggregatie onder een vast weergavebudget; en Aanpassen, dat de gebruikerstoestand bijwerkt op basis van semantisch verschillende feedbacksignalen en interesseverschuiving over dagen modelleert. We definiëren verder een longitudinale gebruiker-dag benchmark die gebruikers, data, kandidaatsets, zichtbare inputs en verborgen gesimuleerde relevantielabels vastlegt onder een gedeelde temporele informatiegrens. De benchmark bevat 24 gesimuleerde onderzoekers, 50 dagelijkse artikelstromen, 1 200 gebruiker-dag episoden, 20 727 unieke artikelen en 497 448 episode-artikel records. We specificeren daarnaast een blind menselijk evaluatieprotocol om de afstemming tussen automatische metrieken en oordelen van experts te valideren. Experimenten tegen vijf basislijnen voor wetenschappelijke aanbevelingen tonen aan dat PaperFlow de sterkste orakelgebaseerde rangschikking, de hoogste gedragsafstemming met gesimuleerde leesselecties en de beste blinde menselijke evaluatiescore behaalt.

Socratic-SWE: Zelf-evoluerende codeeragenten via trace-afgeleide agentvaardigheden
Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

Jun 5

ByChuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

LLM-gestuurde software-engineeringagenten zijn een centraal testveld geworden voor realistische taalmodelcapaciteit, maar hun training blijft beperkt door de beschikbaarheid van hoogwaardige SWE-taken. Bestaande methoden voor synthetische data creëren doorgaans taken via vaste mutatie- of buginjectieprocedures, waardoor de resulterende distributies grotendeels onafhankelijk zijn van de eigen zwaktes en trainingsvoortgang van de agent. Wij introduceren Socratic-SWE, een gesloten-lus zelfevolutieraamwerk dat de historische oplossingstraces van de agent hergebruikt als een bron van trainingssignaal. In plaats van traces alleen te behandelen als bewijs voor beloningsberekening, destilleert Socratic-SWE ze tot gestructureerde agentvaardigheden die terugkerende fouten en effectieve reparatiepatronen samenvatten. Deze vaardigheden sturen vervolgens het genereren van gerichte reparatietaken in echte repositories. Kandidaattaken worden gecontroleerd via executiegebaseerde validatie en gescoord met een solver-gradientaligmentbeloning, zodat de behouden taken zowel verifieerbaar als nuttig zijn voor het verbeteren van de Solver. De bijgewerkte Solver produceert nieuwe traces, waardoor het taakcurriculum zich in opeenvolgende rondes kan aanpassen. Op SWE-bench Verified, SWE-bench Lite, SWE-bench Pro en Terminal-Bench 2.0 verbetert Socratic-SWE consequent ten opzichte van zelfevoluerende basislijnen onder hetzelfde rekenbudget, en bereikt het na drie iteraties 50,40% op SWE-bench Verified. Deze resultaten suggereren dat oplossingstraces kunnen dienen als een schaalbaar substraat voor zelfevoluerende SWE-agenten.

HarnessForge: gezamenlijke harness- en beleidsevolutie voor adaptieve agentsystemen
HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems

Jun 1

ByMingju Chen, Can Lv, Guibin Zhang, Heng Chang, Shiji Zhou

LLM-agenten worden steeds vaker verwacht te opereren over heterogene taakregimes die verschillende uitvoeringsparadigma's vereisen. Dit vormt een uitdaging voor vaste agentsystemen en motiveert systeem-niveau meta-adaptatie die verder gaat dan geïsoleerde componentupdates. Hoewel bestaande werken externe harness hebben aangepast of onderliggende redeneerbeleid hebben getraind, blijft volledige systeemadaptatie onvoldoende gekarakteriseerd. De adaptatieruimte tussen structuur en uitvoering wordt zelden expliciet gemaakt, en de compatibiliteit tussen de externe harness en de interne redeneerder wordt niet gezamenlijk geoptimaliseerd. Wij stellen HarnessForge voor, een meta-adaptief raamwerk voor het evolueren van LLM-agentsystemen. HarnessForge formuleert een agentsysteem als een harness–beleidspaar, en definieert een stabiele adaptatieruimte die de uitvoeringsstructuur op harness-niveau scheidt van het redeneergedrag op beleidsniveau. Vervolgens voert het harness–beleid co-evolutie uit via foutgeleide harness-aanpassing en harness-afhankelijke beleidsuitlijning. Experimenten over vijf benchmarks uit diverse domeinen tonen aan dat HarnessForge zowel Qwen3-4B als Qwen3-8B backbones consistent verbetert, waarbij het beter presteert dan harness-only en policy-only baselines met winsten tot 12,0% ten opzichte van de sterkste baseline en gunstige rollout-efficiëntie-afwegingen realiseert. Dit toont aan dat harness–beleid co-evolutie effectief is en dat uitvoerbare compatibiliteit tussen de harness en het redeneerbeleid essentieel is voor agentsysteemadaptatie. De code is beschikbaar op https://github.com/mingju-c/HarnessForge.

Almieyar-Oryx-BloomBench: Een tweetalige multimodale benchmark voor cognitief geïnformeerde evaluatie van visie-taalmodellen
Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

Jun 4

ByMohammad Mahdi Abootorabi, Omid Ghahroodi, Anas Madkoor, Marzia Nouri, Doratossadat Dastgheib, Mohamed Hefeeda, Ehsaneddin Asgari

Ondanks de snelle vooruitgang van Visie-Taalmodellen (VLM's) ontbreekt het het veld aan benchmarks die hun ware redeneervermogen rigoureus diagnosticeren en zinvolle vooruitgang in de richting van mensachtige multimodale intelligentie in kaart brengen. De meeste bestaande evaluaties richten zich op versnipperde of onsamenhangende taken, waardoor kritische cognitieve zwakheden worden verhuld en er weinig inzicht wordt geboden voor gerichte verbetering. Om deze leemte aan te pakken, introduceren we BloomBench, onderdeel van de Almieyar-benchmarkreeks, de eerste cognitief menselijk gefundeerde, tweetalige (Engels-Arabisch) multimodale benchmark voor VLM's. Gebaseerd op Blooms taxonomie evalueert BloomBench systematisch zes cognitieniveaus (Onthouden, Begrijpen, Toepassen, Analyseren, Evalueren, Creëren) aan de hand van zorgvuldig ontworpen afbeelding-vraag-antwoordtaken. Gebouwd met een semi-geautomatiseerde pijplijn en gevalideerd via een gestratificeerd hybride kwaliteitsborgingsprotocol, garandeert het schaalbaarheid, culturele inclusiviteit en taalkundige getrouwheid. Door gebruik te maken van dit raamwerk voeren we een uitgebreid onderzoek uit naar state-of-the-art VLM's om hun cognitieve profielen te diagnosticeren. Onze analyse onthult een scherpe cognitieve asymmetrie: hoewel state-of-the-art modellen sterke prestatieplafonds behalen op het gebied van semantisch begrip, hebben ze aanzienlijke moeite met feitelijke herinnering en creatieve synthese. Dit toont aan dat de huidige algemene multimodale bekwaamheid diepere beperkingen op specifieke cognitieve lagen maskeert. Bovendien benadrukt onze studie een kritieke prestatiekloof tussen Arabisch en Engels, wat beperkingen in het huidige cross-linguale multimodale redeneren blootlegt. Deze bevindingen leggen een basis voor de ontwikkeling van meer cognitief afgestemde en inclusieve VLM's. Het benchmarkraamwerk en de dataset zijn beschikbaar op: https://github.com/qcri/Almieyar-Oryx-BloomBench.

SPACENUM: Het ruimtelijk numeriek begrip in VLM's opnieuw bekeken
SPACENUM: Revisiting Spatial Numerical Understanding in VLMs

May 22

ByJianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

Visie-Taalmodellen (VTM's) worden steeds vaker ingezet in belichaamde omgevingen, waar zij numerieke outputs moeten produceren zoals actie-omvangen en ruimtelijke coördinaten. Hoewel deze getallen betekenisvol lijken, blijft het onduidelijk of deze numerieke outputs werkelijk geworteld zijn in ruimtelijke perceptie. Daarom herzien we in dit werk het ruimtelijk numeriek begrip via SpaceNum, een uniform raamwerk dat twee complementaire instellingen omvat: getallen als dynamische overgangen tijdens ruimtelijke verkenning, en getallen als statische lay-outs in ruimtelijk redeneren. We formuleren twee bidirectionele taken, Getal2Ruimte en Ruimte2Getal, om te evalueren hoe goed VTM's kaarten tussen ruimtelijke structuur aan de visiezijde en numerieke representaties aan de taalzijde. We bestuderen systematisch of huidige VTM's werkelijk numerieke waarden in ruimtelijke contexten begrijpen. Over dynamische overgangen en statische lay-outs heen vinden we dat modellen grotendeels falen om getallen in ruimtelijke betekenis te verankeren en vaak presteren dicht bij willekeurige gok. Door foutenanalyse, redeneerspooranalyse en gecontroleerde interventies tonen we aan dat huidige VTM's sterk leunen op ondiepe ruimtelijke aanwijzingen, moeite hebben met het opbouwen van stabiele coördinaatbewuste representaties, en falen in het abstraheren van gestructureerde ruimtelijke lay-outs uit visuele waarnemingen. We tonen verder aan dat expliciet redeneren slechts marginale winst oplevert, terwijl afstemming het ruimtelijk numeriek begrip gedeeltelijk kan verbeteren en kan overdragen naar externe ruimtelijke redeneerbenchmarks.

Stream3D-VLM: Online 3D-ruimtelijk begrip met incrementele geometrische priors
Stream3D-VLM: Online 3D Spatial Understanding with Incremental Geometry Priors

Jun 5

ByHanxun Yu, Xuan Qu, Lei Ke, Boqiang Zhang, Yuxin Wang, Jianke Zhu, Dong Yu

Ondanks vooruitgang in 3D-scènebegrip werken bestaande 3D-grote multimodale modellen in offline omgevingen, waarbij volledige scèneobservaties of vooraf gedefinieerde videoclips vereist zijn. In dit artikel presenteren we een online 3D-visie-taalmodel dat real-time ruimtelijk begrip mogelijk maakt vanuit streaming video. Onze aanpak hanteert een autoregressieve streaming control modellering gebaseerd op de next-token predictiedoelstelling van de LLM om te leren wanneer te reageren, en maakt gebruik van een lichtgewicht Visual-Spatial Feature Integration (VSFI)-module om stapsgewijs temporeel uitgelijnde geometriepriori's in de visuele stroom te injecteren. Om de overhead van decoderen met lange context te verlichten, stellen we een plug-and-play Geometry-Adaptive Voxel Compression (GAVC)-module voor voor efficiënte compressie van visuele tokens. Om de schaarste aan streaming 3D-taaldat aan te pakken, ontwikkelen we verder een schaalbare datageneratiepijplijn die meer dan 1M online spatio-temporele 3D QA-paren samenstelt en een uitgebreide benchmark opzet die 29 taken omvat. Uitgebreide experimenten tonen aan dat onze aanpak zowel propriëtaire als open-source modellen aanzienlijk overtreft op het gebied van online en offline 3D-ruimtelijk begrip, redeneren en grounding taken. De projectpagina is beschikbaar op https://stream3d-vlm.github.io/

Een kookboek van 3D-visie: Data, leerparadigma's en toepassing
A Cookbook of 3D Vision: Data, Learning Paradigms, and Application

Jun 2

ByHongyang Du, Zongxia Li, Dawei Liu, Runhao Li, Haoyuan Song, Qingyu Zhang, Yubo Wang, Jingcheng Ni, Shihang Gui, Congchao Dong, Tao Hu

3D-visie heeft zich snel ontwikkeld, gedreven door steeds diversere datarepresentaties, leerparadigma’s en modelleerstrategieën. Toch blijft het veld gefragmenteerd over representaties en benchmarks heen, wat het moeilijk maakt om uniforme perspectieven te ontwikkelen op efficiëntie, getrouwheid en schaalbaarheid. Dit werk biedt een data-gecentreerde taxonomie van 3D-visie die geometrische representaties, datasets, leerkaders en toepassingen verbindt binnen één conceptuele kaart. We beginnen met het analyseren van de voornaamste structurele representaties van 3D-data—puntenwolken, meshes, voxels en 3D-Gaussianen—samen met hun acquisitiepijplijnen. Vervolgens onderzoeken we hoe datasetontwerp, benchmarkconstructie en supervisie-regimes de recente vooruitgang vormgeven, variërend van 2D-gesuperviseerd 3D-leren, impliciete neurale representaties tot 4D-wereldmodellering. Door deze integrerende lens verduidelijken we de relaties tussen representaties, leerparadigma’s en downstream taken op het gebied van reconstructie, generatie en videomodellering, en bieden we een samenvattend overzicht van opkomende trends in het balanceren van efficiëntie en getrouwheid en in multimodale geometrische verankering.

Naar het ophalen van interactieruimtes voor agentisch zoeken
Towards Retrieving Interaction Spaces for Agentic Search

Jun 5

ByShengyao Zhuang, Yuansheng Ni, Hengxin Fun, Jimmy Lin, Xueguang Ma

Retrieval voor zoekagenten wordt nog steeds overgenomen van niet-agentische informatieopvraging: een retriever rangschikt het corpus en de agent leest een kleine set geretourneerde documenten. Recent werk aan directe corpusinteractie (DCI) laat zien dat agenten in plaats daarvan kunnen interacteren met het ruwe corpus via shell-hulpmiddelen zoals grep en bestandsleesacties. Maar onbegrensde interactie schaalt niet: elke brede shell-opdracht is een scan van het gehele corpus, en de latentie verslechtert sterk naarmate het corpus groeit. Wij stellen dat de rol van retrieval voor agentisch zoeken niet alleen is om documenten te selecteren die in het LLM-contextvenster passen, maar om een interactieruimte te construeren: een begrensde deelverzameling van het corpus die de agent kan verkennen met bijbehorende tools. Twee ontwerpconsequenties volgen hieruit. De ruimte heeft een grens nodig die door retrieval wordt geleverd, en de objecten erbinnen moeten worden verwerkt voor interactie. Als proof of concept stellen we RISE (Retrieving Interaction SpacE) voor: we gebruiken BM25 om de interactieruimte te construeren; tegelijkertijd worden de documenten tijdens het indexeren verwerkt voor shell-achtige navigatie. Op BrowseComp-Plus evenaart RISE de zuivere shell DCI-baseline met 78% nauwkeurigheid met gpt-5.4-mini tegen ongeveer een kwart van de kosten per query. Bij 1 miljoen documenten bereikt RISE-BM25 81% op gpt-5.4-mini, terwijl DCI op gpt-5.4-nano degradeert tot 60% met 33 van de 100 kloktijd-mislukkingen.

Entropie als structurele prior: Hoe een log-barrière op de DiT-geloofsruimte muzikale diversiteit en ontwikkeling aanstuurt
Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

Jun 5

ByZixi Li, Youzhen Li

Op vertrouwen gebaseerde verliesweging wordt doorgaans vermeden in generatieve modellen omdat het fouten versnelt wanneer het model met overtuiging fout zit, maar deze intuïtie gaat niet op bij gesuperviseerde diffusietraining. Wij introduceren de Eisbach-logbarrière, een parameterloze weging afgeleid van de entropie van de ruimtelijke energieverdeling van de DiT-output: hoge entropie dempt de gradiënt, terwijl lage entropie deze behoudt. Toegepast op LoRA-fijnafstemming van Stable Audio 3 Medium op MusicCaps levert dit onverwacht een sterkere thematische ontwikkeling, duidelijkere akoestische differentiatie en hogere textuurdiversiteit dan ongewogen training, het tegenovergestelde van modusinstorting. Dit werkt omdat bij gesuperviseerde diffusie de gradiëntrichting is vastgelegd op de grondwaarheid, zodat vertrouwen alleen de stapgrootte schaalt, en omdat temporele entropie vlakke monsters onderdrukt terwijl contrastrijke behouden blijven. Het resultaat is een online, zelfreferentieel datacurriculum dat puur uit de voorwaartse doorgang voortkomt, met geanalyseerde ruisniveaudynamiek en toetsbare voorspellingen.

CORE: Contrastieve reflectie maakt snelle verbeteringen in redeneren mogelijk.
CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning

May 27

ByLinas Nasvytis, Simon Jerome Han, Ben Prystawski, Satchel Grant, Noah D. Goodman, Judith E. Fan

Taalmodellen kunnen verifieerbare beloningen gebruiken om te verbeteren in een breed scala aan redeneertaken. Zowel parametrische (bijv. RLVR) als niet-parametrische (bijv. promptoptimalisatie) benaderingen om dit te bereiken vereisen echter doorgaans honderden trainingsvoorbeelden en duizenden modelrollouts, wat ze in het gunstigste geval duur en in het ongunstigste geval onuitvoerbaar maakt. Om deze uitdaging aan te pakken introduceren we Contrastive Reflection (CORE), een niet-parametrisch leer-algoritme dat eerdere redeneersporen vergelijkt om inzichten te genereren: korte beschrijvingen in natuurlijke taal van redeneerstrategieën en beperkingen die de verschillen tussen succesvolle en mislukte probleempogingen vastleggen. In vier redeneertaken tonen we aan dat CORE snellere verbetering mogelijk maakt dan zowel parametrische (GRPO) als niet-parametrische (GEPA, episodische RAG en MemRL) methoden, terwijl het minder rollouts gebruikt. Met vaste rolloutbudgetten en zo min mogelijk vijf trainingsvoorbeelden laten we vervolgens zien dat CORE ook vergelijkbare of grotere prestatieverbeteringen behaalt dan elke referentiemethode. Tot slot benadrukken we dat CORE aanzienlijk context-efficiënter is dan niet-parametrische referentiemethoden, met minder prompt tokens terwijl het geleerde kennis opslaat als compacte, interpreteerbare inzichten in natuurlijke taal. Onze resultaten suggereren daarom dat het distilleren van contrasten tussen succesvolle en mislukte redeneersporen in abstracte en nuttige inzichten een efficiëntere en interpreteerbaardere weg naar modelzelfverbetering kan bieden dan gewichtsupdates, promptoptimalisatie of direct hergebruik van opgeslagen redeneersporen.

Wanneer Gradiënten Botsten: Faalmodi van Multi-Objectieve Promptoptimalisatie voor LLM-beoordelaars
When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges

May 25

ByParth Darshan, Abhishek Divekar

Het aanpassen van een LLM-beoordelaar aan een specifieke taak of domein omvat vaak het gelijktijdig optimaliseren van de prompt over meerdere evaluatiecriteria. Tekstuele gradientmethoden automatiseren dit voor een enkel beoordelingscriterium, maar zij produceren kritieken in natuurlijke taal, geen numerieke vectoren. Daarom is de conflictoplossingsgereedschapskist van multitaskleren (PCGrad, MGDA) niet van toepassing op de multi-objectieve tekstuele gradientinstelling. We testen vijf decompositiemodi van tekstuele gradientoptimalisatoren door te variëren hoeveel cross-taskinformatie de LLM's voor verlies, gradient en optimalisatie delen. In 6 van de 10 configuraties zien we dat optimalisatie nooit verbetert ten opzichte van de initiële prompt. De gradientoorspronkelijkheid daalt met 59% (van 9,0 naar 3,7) wanneer de gradient-LLM meerdere criteria gezamenlijk verwerkt. Afzonderlijk zien we dat het naïef combineren van per-taakinstructies in een enkele prompt de Spearman's rho met -5,3% vermindert. Deze resultaten identificeren twee scheidbare faalmodi: gradiëntverdunning tijdens optimalisatie en instructie-interferentie tijdens inferentie, die samen de ontwerpruimte voor multi-objectieve aanpassing van beoordelaars met behulp van tekstuele feedback beperken.

Versterkingsleren van Rijke Feedback met Distributionele DAgger
Reinforcement Learning from Rich Feedback with Distributional DAgger

Jun 3

ByRishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

Redeneermodellen zijn snel vooruitgegaan, maar het dominante recept voor reinforcement learning van verifieerbare beloningen (RLVR) blijft verrassend smal: veel antwoorden samplen en elk belonen met een enkele bit die aangeeft of het uiteindelijke antwoord correct is. Toch bieden veel settings rijke feedback, waaronder uitvoeringssporen, tool-outputs, correcties door experts en zelfevaluaties van het model. We bestuderen hoe dergelijke feedback te gebruiken via een distributionele variant van het klassieke imitatieleeralgoritme DAgger, waarbij de lerende lokale toegang heeft tot een expertverdeling over toestanden die door het huidige beleid worden bezocht. Dit levert een eenvoudige forward cross-entropy-doelstelling op die een blackbox-expert toelaat en waarvan de gradient op sequentieniveau {rijke credit assignment uitvoert door} toekomstige expert-student-discrepantie terug te propageren naar eerdere beslissingen. We tonen aan dat eerdere RL met zelfdistillatiedoelstellingen op basis van omgekeerde KL of Jensen-Shannon geen monotone beleidsverbetering garanderen: zelfs wanneer de expert een hogere beloning heeft, kunnen hun updates de kans op slechtere acties vergroten. Daarentegen tonen we aan dat forward cross-entropy monotone beleidsverbetering mogelijk maakt en garanties biedt op spijt (regret). We tonen verder aan dat onze doelstelling een ondergrens optimaliseert op de door de leraar gewogen kans op succes, wat leidt tot verbeterde Pass@N. Empirisch gezien verbetert onze aanpak, DistIL, ten opzichte van RLVR en RL met zelfdistillatie-baselines in een verscheidenheid aan domeinen: wetenschappelijk redeneren, coderen en het oplossen van moeilijke wiskundige problemen.

Compress-Distill: Compressie van Redeneersporen voor Efficiënte Kennisdistillatie
Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation

Jun 4

ByMaxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham

Redeneringsmodellen produceren lange denkketensporen die kostbaar zijn om te distilleren en die tot breedsprakige studentuitvoer leiden. We bestuderen post-hoc-compressie van dergelijke sporen vóór kennisdistillatie. Twee leraren, Qwen3.5-397B-A17B en gpt-oss-120B, genereren elk ongeveer 283k correcte sporen; twee instructieafgestemde modellen comprimeren ze vervolgens tot 8,6–21,0% van hun oorspronkelijke tekenlengte. In een hoofdgrid van 48 runs plus zeven truncatie-ablaties met Qwen-leraar, verminderen gecomprimeerde sporen de trainingstokens tot 12–30% van de ruwe, versnellen de training met 2,0–7,6×, en verkorten de inferentie-uitvoer met 3–19×, met kleinere reducties onder de kortere gpt-oss-leraar. Echter, ruwe sporen behouden de hoogste stroomafwaartse nauwkeurigheid op elke schaal en voor beide leraren. Een lengte-gematchte truncatie-ablatie van ruwe sporen toont aan dat compressie niet alleen profiteert van een kleiner tokenbudget: modelgecomprimeerde sporen verslaan of evenaren meestal naïeve truncatie, vooral voor kleinere studenten, terwijl ze kortere inferentie-uitvoer behouden. Over het algemeen biedt compressie van redeneringssporen een afweging tussen nauwkeurigheid en efficiëntie in plaats van een gratis verbetering: studenten behouden tot 96% van de nauwkeurigheid van ruwe sporen terwijl ze tot 18× hogere per-token efficiëntie behalen, en op de 0,8B-schaal onder LoRA verkleinen gecomprimeerde sporen de kloof tussen ruw en gecomprimeerd, maar overtreffen ze ruw niet.

LayerRoute: Invoerafhankelijk Adaptief Overslaan van Lagen via LoRA-Fijnafstemming voor Agentische Taalmodellen
LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models

Jun 1

ByPrateek Kumar Sikdar

Agentische taalmodellen wisselen af tussen twee structureel verschillende stapstypes: gestructureerde toolaanroepen (kort, deterministisch, lage perplexiteit) en open plannings-/redeneerstappen (lang, complex, hoge perplexiteit). Ondanks deze heterogeniteit passen huidige inferentiesystemen identieke rekenkracht toe op elke stap. Wij introduceren LayerRoute, een lichtgewicht adapter die leert om op basis van elke input selectief transformatorblokken over te slaan. LayerRoute breidt elk van de 24 transformatorblokken in Qwen2.5-0.5B-Instruct uit met: (1) een per-laag-router (ongeveer 897 parameters, Linear(896,1)) die via de straight-through-schatter een harde binaire poort uitvoert, en (2) LoRA-adapters (rang 8, ongeveer 1,08M parameters) op de Q/K/V/O-aandachtsprojecties. De ruggengraatgewichten blijven bevroren. Een enkele end-to-end trainingsronde op agentische data (Hermes, Glaive, GSM8K, Turing) met een poortregularisatieterm dwingt het systeem om te ontdekken welke blokken per inputtype overslaanbaar zijn. Na 3000 stappen (6,4 minuten op een A100 40 GB) bereikt LayerRoute een overslaandifferentieel van 12,91%: toolaanroepen slaan 15,25% van de FLOPs over, terwijl planningsstappen slechts 2,34% overslaan, met slechts 1,10M trainbare parameters (0,22% van de 494M ruggengraat). De kwaliteit verbetert ten opzichte van het basismodel door de LoRA-adaptatie, met een perplexiteitsdelta van -1,29 op toolaanroepen en -1,30 op planning.

Parametrische injectie en diversificatie van sociale identiteit in publieke opiniesimulatie
Parametric Social Identity Injection and Diversification in Public Opinion Simulation

Jun 1

ByHexi Wang, Yujia Zhou, Bangde Du, Qingyao Ai, Yiqun Liu

Grote taalmodellen (LLM's) worden recentelijk gebruikt als synthetische agenten voor de simulatie van publieke opinie, wat een veelbelovend alternatief biedt voor dure en langzame menselijke enquêtes. Ondanks hun schaalbaarheid slagen huidige op LLM gebaseerde simulatiemethoden er niet in om sociale diversiteit te vatten; ze produceren afgeplatte intergroepsverschillen en te homogene reacties over demografische groepen heen. We identificeren deze beperking als een fenomeen van 'diversiteitsinstorting' in de verborgen representaties van LLM's, waarbij verschillende sociale identiteiten in toenemende mate ononderscheidbaar worden naarmate lagen vorderen. Gemotiveerd door deze observatie stellen we Parametrische Sociale Identiteitsinjectie (PSII) voor, een algemeen raamwerk dat expliciete, parametrische representaties van demografische kenmerken en waardeoriëntaties rechtstreeks in de intermediaire verborgen toestanden van LLM's injecteert. In tegenstelling tot op prompts gebaseerde personacontextualisering maakt PSII een fijnmazige en controleerbare identiteitsmodulatie op representatieniveau mogelijk. Uitgebreide experimenten op de World Values Survey met meerdere open-source LLM's tonen aan dat PSII de distributionele getrouwheid en diversiteit aanzienlijk verbetert, waarbij de KL-divergentie met echte enquêtegegevens wordt verminderd en de algehele diversiteit wordt vergroot. Dit werk biedt nieuwe inzichten in representatieniveaucontrole van LLM-agenten en bevordert schaalbare, diversiteitsbewuste simulatie van publieke opinie.

Naar mensachtige interactieve spraakherkenning met agentische correctie en semantische evaluatie
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

May 28

ByZixuan Jiang, Yanqiao Zhu, Peng Wang, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen

Automatische spraakherkenning (ASR) is een kerncomponent van mens-computerinteractie en een steeds belangrijkere front-end voor op LLM gebaseerde assistenten en agenten. De meeste huidige ASR-systemen volgen echter nog steeds een eenmalige doorloopparadigma, wat slecht aansluit bij menselijke communicatie, waar misverstanden worden opgelost door iteratieve verduidelijking en verfijning. Deze mismatch maakt het moeilijk om betekenis-kritieke fouten te corrigeren zodra ze optreden. Tegelijkertijd kunnen token-niveau metrics zoals WER of CER dit probleem niet adequaat weerspiegelen. Om deze beperkingen aan te pakken, formuleren we Interactieve ASR als een meervoudige verfijningstaak en stellen we Agentic ASR voor, een gesloten-lus raamwerk dat een eenmalige doorloop ASR-front-end combineert met semantische correctie, intent-routering en redeneringsgebaseerde bewerking. Verder introduceren we het Zinsniveau Semantische Foutentarief (S^2ER), een op LLM gebaseerde semantische evaluatiemetriek, samen met een Interactief Simulatiesysteem voor schaalbare en reproduceerbare benchmarking. Experimenten op meertalige, entiteitsintensieve en code-switching benchmarks tonen aan dat iteratieve interactie consistent semantische fouten vermindert, met veel grotere winsten in S^2ER dan in conventionele token-niveau metrics. Mens-AI afstemmings- en ablatiestudies bevestigen verder de betrouwbaarheid van de semantische beoordeling en de robuustheid van het voorgestelde raamwerk. De code is beschikbaar op: https://interactiveasr.github.io/ en de live demo is beschikbaar op https://i-asr.sjtuxlance.com/

Het Destillatiespel: Adaptieve aanvallen en efficiënte verdedigingen
The Distillation Game: Adaptive Attacks & Efficient Defenses

May 29

ByYoussef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri

Destillatie-aanvallen creëren een implementatie-afweging voor modelaanbieders: dezelfde outputs die een model nuttiger maken, kunnen het ook gemakkelijker maken om te imiteren. We bestuderen deze afweging via een minimax-spel tussen een nutsbeperkte leraar en een adaptieve student. Ons raamwerk levert eenvoudig toepasbare eenzijdige responsregels op: een adaptieve evaluatieregel waarbij de student hoogwaardige voorbeelden herweegt, en een sjabloon voor verdediging aan de lerarenzijde dat outputs onderdrukt die het meest bruikbaar zijn voor destillatie. Via een goedkope proxy voor voorbeeldwaarde leiden we Product-of-Experts (PoE) af, een eenvoudige forward-pass-only-verdediging die tijdens generatie de leraar combineert met een proxystudent. Empirisch gezien onthult adaptieve evaluatie een grote passief–adaptieve kloof: bij state-of-the-art-verdedigingen herwinnen adaptieve studenten aanzienlijk meer capaciteit dan passieve evaluatie suggereert op GSM8K en MATH. Onder deze sterkere evaluatie wordt de schijnbare robuustheidskloof tussen dure verdedigingen en PoE aanzienlijk kleiner, terwijl PoE aanzienlijk goedkoper blijft en redeneertrajecten van hogere kwaliteit behoudt. Over het algemeen suggereren onze resultaten dat sterke destillatie moeilijk te stoppen blijft en dat vooruitgang op het gebied van anti-destillatie moet worden beoordeeld aan de hand van adaptieve studenten in plaats van passieve. Onze code is beschikbaar op: https://github.com/ysfalh/distillation-game.

Streaming videogeneratie met streaming krachtcontrole
Streaming Video Generation with Streaming Force Control

Jun 5

ByHanhui Wang, Yiming Xie, Haiwen Feng, Zhaoyang Lv, Shenlong Wang, Huaizu Jiang

Wij introduceren StreamForce, een raamwerk voor streaming videogeneratie dat fysisch gefundeerde controle mogelijk maakt via continue krachtinvoeren. In tegenstelling tot eerdere videomodellen die aparte modellen trainen voor verschillende krachttypen, uitgaan van vaste krachten of vertrouwen op niet-causale verwerking, is StreamForce een causaal en uniform model dat onmiddellijk en coherent reageert op zowel lokale als globale, tijdsvariërende krachten. Om dit te bereiken ontwerpen we een uniforme krachtrepresentatie als controlesignaal en ontwikkelen we een distillatiepijplijn voor krachtstuurbare videogeneratie. Ons model combineert autoregressieve efficiëntie met krachtresponsiviteit, en handhaaft stabiel fotometrisch en dynamisch realisme. StreamForce draait tot 16,6 FPS op een enkele GPU en behaalt state-of-the-art prestaties op zowel krachtnaleving als bewegingsrealisme. Projectwebsite: https://neu-vi.github.io/StreamForce/

ECI_{sem}: Semantische Residuele Effectieve Contrastieve Informatie voor het Evalueren van Harde Negatieven
ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

Jun 5

ByAarush Sinha, Rahul Seetharaman, Aman Bansal

De selectie van hard-negatieve bronnen voor dense retrieval wordt gewoonlijk pas na fine-tuning en downstremevaluatie bepaald. Wij stellen ECI_{sem} voor, een semantische residuele variant van Effective Contrastive Information (ECI), die kandidaat-negatieve bronnen rangschikt met behulp van ingevroren target-encoder-embeddings. ECI_{sem} is trainingsvrij, maar niet labelvrij: elk gescoord voorbeeld vereist een query, een gelabeld positief en een expliciet kandidaat-negatief. ECI_{sem} bouwt een gewogen residuele informatiematrix op uit targetconsistentie, semantische lokaliteit, lexicale residualiteit en een log-determinant diversiteitsobjectief. Op MS MARCO-negatieve bronnen rangschikt in-family ECI_{sem} LLM-negatieven het hoogst onder niet-hybride bronnen en Dense+LLM het hoogst onder hybride bronnen, wat overeenkomt met de sterkste geaggregeerde BEIR-transferresultaten over DistilBERT, E5-base en Contriever. Gecontroleerde ablatiestudies tonen aan dat deze overeenstemming afhangt van het gebruik van de target-encoderfamilie, terwijl aanvullende ablatiestudies stabiliteit tonen onder variaties in steekproefgrootte, temperatuur, tokenizer en IDF-corpus. De theorie geeft een lokaal gelineariseerd verband met verliesreductie, terwijl de empirische studie downstremevaluatie als de uiteindelijke test beschouwt.

Empirische studie naar de kenmerken en evolutie van AI-gebruik in GitHub-repositories: bewijs uit codecommentaar
Empirical Study on the Characteristics and Evolution of AI-usage in GitHub Repositories: Evidence from Code Comments

Jun 5

ByAbdullah Al Mujahid, Preetha Chatterjee, Mia Mohammad Imran

Ontwikkelaars maken steeds vaker gebruik van AI-tools zoals ChatGPT, Copilot en Claude in dagelijkse softwareworkflows, maar eerdere studies evalueren LLM-outputs vaak in isolatie in plaats van te onderzoeken hoe ontwikkelaars deze aanpassen in echte projecten. Wij analyseren 35.361 GitHub-codecommentaren die expliciet verwijzen naar AI-gebruik en de bijbehorende codeblokken. Eerst coderen we 500 unieke commentaren en codeblokken open om een taxonomie van AI-ondersteunde ontwikkelactiviteiten af te leiden, vervolgens annoteren we de volledige dataset met behulp van twee op LLM's gebaseerde classifiers en aggregeren we voorspellingen met Dawid-Skene-verwachtingsmaximalisatie. Ook analyseren we 12.996 daaropvolgende commitberichten om te bestuderen hoe AI-ondersteunde code evolueert na introductie, en onderzoeken we temporele trends van december 2022 tot maart 2026. Onze resultaten tonen aan dat ontwikkelaars LLM's voornamelijk gebruiken voor code-implementatie, gevolgd door codeverbetering, debuggen, documentatie en testen. Daaropvolgende commits omvatten vaak refactoring en opschoning, feature-integratie en -uitbreiding, en bugfixes, wat wijst op aanhoudend menselijk toezicht bij het aanpassen van AI-ondersteunde code. In de loop van de tijd verschuiven AI-verwijzende commentaren van directe codegeneratie naar kennis- en conceptuele ondersteuning en codeverbetering. Deze bevindingen suggereren dat AI-tools steeds vaker worden ingebed, niet alleen als hulpmiddelen voor codegeneratie, maar ook als collaboratieve ondersteuningsmechanismen waarvan de outputs door ontwikkelaars in de loop van de tijd worden verfijnd, uitgebreid en gecorrigeerd.

Modelrobustheid meten via Fisher-informatie: spectrale grenzen, theoretische garanties en praktische algoritmen
Measuring Model Robustness via Fisher Information: Spectral Bounds, Theoretical Guarantees, and Practical Algorithms

Jun 3

ByChong Zhang, Xiang Li, Jia Wang, Qiufeng Wang, Xiaobo Jin

De robuustheid van diepe neurale netwerken is cruciaal voor veiligheidskritische toepassingen, maar bestaande evaluatiemethoden zijn vaak aanvalsafhankelijk en missen interpreteerbaarheid. We stellen een principe-gebaseerde, aanvalsagnostische robuustheidsmetriek voor, gebaseerd op de spectrale norm van de Fisher-informatiematrix (FIM), die de worst-case gevoeligheid van de outputverdeling van het model voor invoerverstoringen kwantificeert. Theoretisch bewijzen we dat de FIM gelijk is aan de variantie van de invoer-Jacobiaan en leiden we gesloten-vorm spectrale grenzen af voor veelvoorkomende architecturen, waaronder VGG, ResNet, DenseNet en Transformer, wat de eerste theoretische robuustheidsrangschikking biedt. Om schaalbare evaluatie mogelijk te maken, ontwikkelen we efficiënte algoritmen, waaronder machtsiteratie en op Hutchinson gebaseerde schatting, die zowel white-box- als black-box-instellingen ondersteunen. Uitgebreide experimenten over meerdere datasets, waaronder CIFAR, ImageNet en medische beelden, en over meerdere architecturen tonen een sterke correlatie aan tussen onze metriek en adversarial kwetsbaarheid. Ons raamwerk dient als een interpreteerbaar diagnostisch hulpmiddel dat aanvalsgebaseerde evaluaties aanvult, inzichten biedt in architectonische gevoeligheid en het ontwerp van robuustere modellen begeleidt. Code is beschikbaar op: https://github.com/franz-chang/SRP/.

Data-efficiënte autoregressief-naar-diffusie taalmodellen via on-policy distillatie
Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Jun 4

ByXingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji

Wij bestuderen de transformatie van autoregressieve modellen (ARLMs) naar diffusie-taalmodellen (DLMs). In plaats van vanaf nul te pretrainen, vervangt eerder werk de causale aandacht in ARLMs door bidirectionele aandacht en traint vervolgens het resulterende model met een DLM-doelstelling. Deze benaderingen leiden echter tot twee distributieverschuivingen. Ten eerste kan de overgang van een volgende-token voorspellingsdoelstelling naar een DLM-doelstelling kennis weggooien die door de ARLM tijdens de training is verworven. Ten tweede hebben standaard DLMs te lijden onder een train-inferentie mismatch, omdat het trainingsverlies wordt gedefinieerd op willekeurig gemaskeerde sequenties in plaats van de trajecten die tijdens de inferentie worden aangetroffen en die worden geproduceerd door vertrouwensgebaseerd decoderen. Om beide uitdagingen aan te pakken, introduceren wij een On-Policy Diffusion Language Model (OPDLM), waarbij On-Policy Distillation (OPD) wordt gebruikt voor de ARLM-naar-DLM-transformatie. Specifiek wordt OPDLM getraind via zelf-OPD, waarbij de student, een ARLM met bidirectionele aandacht, zijn eigen trajecten genereert, en de leraar, het oorspronkelijke bevroren ARLM, zijn kennis distilleert door doellogits op deze trajecten te leveren. Door direct op een on-policy manier te trainen, elimineert OPDLM de train-inferentie mismatch in DLMs, terwijl distillatie van het oorspronkelijke model de kennisbehoud van de ARLM verbetert. Empirische resultaten tonen aan dat OPDLM 15 tot 7000 keer minder trainingssymbolen nodig heeft met sterke prestaties over een breed scala aan taken. OPDLM vermijdt de buitensporige kosten van DLM-pretraining en positioneert DLM-transformatie als een vorm van ARLM-natraining.

TBD-VLA: Temporeel Blokdiffusie Visie-Taal-Actie Model
TBD-VLA: Temporal Block Diffusion Vision Language Action Model

Jun 5

BySung-Wook Lee, Xuhui Kang, Yen-Ling Kuo

Discrete Visie-Taal-Actie (VLA) modellen formuleren actiegeneratie doorgaans als een volgend-token voorspelling over gediscretiseerde actieruimtes, waarbij elk token autoregressief wordt geconditioneerd op voorgaande context. Hoewel effectief, brengt dit paradigma een hoge inferentielatentie met zich mee en wordt de inherente temporele structuur van actietrajecten grotendeels genegeerd. Recente inspanningen introduceren parallelle decodering om de efficiëntie te verbeteren, wat snellere inferentie mogelijk maakt, maar zonder expliciete mechanismen voor het modelleren van tokenafhankelijkheden. Wij introduceren TBD-VLA, een op discrete tokens gebaseerd VLA-raamwerk dat blokdiffusie incorporeert om temporele actiegeneratie mogelijk te maken. We verdelen actiesequenties in temporele blokken en passen binnen elk blok gemaskeerde discrete diffusie toe, terwijl autoregressieve generatie over blokken heen behouden blijft. Dit ontwerp verenigt temporele autoregressie en parallelle actiedecodering, wat zowel sterke temporele coherentie als verbeterde inferentiesnelheid oplevert. Daarnaast maakt de expliciete temporele modellering asynchrone uitvoering van actiechunks (bijv. Real-Time Chunking) mogelijk via temporele inpainting. TBD-VLA presteert aanzienlijk beter dan eerdere VLA-benaderingen in zowel simulatie- als echte manipulatie taken, en biedt een schaalbaar pad naar snelle, temporeel bewuste, discrete VLA-modellen. Projectwebpagina: https://tbd-vla.github.io/

WorldBench: Een uitdagende en visueel diverse multimodale redeneringsbenchmark
WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark

Jun 4

ByYida Yin, Harish Krishnakumar, Chung Peng Lee, Boya Zeng, Wenhao Chai, Shengbang Tong, Wenhu Chen, Hu Xu, Xingyu Fu, Gabriel Sarch, Aleksandra Korolova, Zhuang Liu

In praktijktoepassingen wordt van modellen verwacht dat ze betrouwbaar presteren in uiteenlopende omgevingen. Toch breiden veel bestaande multimodale benchmarks het aantal taaktypen uit zonder de visuele diversiteit vast te leggen die nodig is om open visuele invoer te verwerken. Wij presenteren WorldBench, een uitdagende en visueel diverse redeneerbenchmark voor het evalueren van Multimodale Grote Taalmodellen (MLLM's). We bouwen een taxonomie van duizenden visuele concepten in meerdere domeinen (bijv. levende wezens). Geleid door deze taxonomie stellen we een brede verzameling afbeeldingen samen uit zoekmachines en bestaande datasets om de visuele wereld uitgebreid te representeren. Door middel van gestructureerd vallen en opstaan ontwerpen we handmatig uitdagende vragen die geavanceerde MLLM's niet kunnen beantwoorden. Op basis van kwantitatieve evaluaties en menselijke beoordelingen behaalt WorldBench een hogere visuele diversiteit dan elke bestaande diverse benchmark. Evaluatie van 15 MLLM's op WorldBench onthult zwaktes in visueel begrip: zelfs het sterkste model haalt slechts 64,0% nauwkeurigheid, terwijl sommige modellen marginaal boven kansniveau presteren. We hopen dat ons werk het belang van visuele diversiteit bij het bouwen van multimodale benchmarks benadrukt.

Critic-R: Verbeteren van agentisch zoeken via instructie-afgestemde retrievers met natuurlijke taal introspectieve feedback
Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

May 30

ByMd Zarif Ul Alam, Alireza Salemi, Hamed Zamani

Agentische zoeksystemen interageren iteratief met retrievalsystemen om complexe queries te beantwoorden. Ondanks aanzienlijke vooruitgang blijft het optimaliseren van retrievers voor agentisch zoeken uitdagend, vaak vereist het intensieve co-training of gouden standaardannotaties die de toepasbaarheid in de praktijk beperken. Wij stellen Critic-R voor, een raamwerk dat expliciet de feedbackloop tussen de redeneeragent en het retrievalmodel sluit tijdens zowel inferentie als training. Critic-R introduceert een criticusmodel dat het introspectieve redeneerspoor van de agent evalueert na het consumeren van opgehaald bewijsmateriaal, om te bepalen of de opgehaalde context de volgende redeneerstap voldoende ondersteunt. Critic-R heeft twee complementaire mechanismen: Critic-R-Zero, een query-verfijningslus tijdens inferentie die iteratief queries en retrievalinstructies herschrijft, en Critic-Embed, een optimalisatiebenadering voor retrievalmodellen die succesvolle en mislukte verfijningstrajecten benut als automatische supervisie, zonder handmatige relevantie-annotatie te vereisen. Wij evalueren Critic-R op HotpotQA, 2WikiMultihopQA, MuSiQue en Bamboogle. Resultaten tonen aan dat Critic-R zowel de retrievalkwaliteit als de downstream antwoordnauwkeurigheid aanzienlijk verbetert.

Het verrijken van aandacht met exponentieel vervallend geheugen verbetert query-bewuste KV-sparsity
Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

May 27

ByXiuying Wei, Caglar Gulcehre

Efficiënte inferentie is cruciaal voor taalmodellen met lange context, waarbij de kosten worden gedomineerd door aandachtsberekening en KV-cache-toegang. Recent werk, RAT+, introduceert een met recurrente aandacht versterkte backbone die flexibele gedilateerde aandacht mogelijk maakt tijdens inferentie. In dit artikel onderzoeken we of dit exponentieel vervallende geheugen ook bestaande query-bewuste schaarse inferentiemethoden kan verbeteren. Met behulp van representatieve methoden zoals Quest, MoBA en SnapKV tonen we aan dat RAT+ consistent de nauwkeurigheid verbetert ten opzichte van standaard aandacht bij verschillende schaarse budgetten in acht speld-in-een-hooiberg taken. Deze winst valideren we zowel op de gepubliceerde checkpoints uit het RAT+-artikel als op OLMo2-7B, waarvan we de pretraining voortzetten met de toegevoegde geheugenmodule voor 10B tokens. Tot slot stellen we twee hypothesen voor die verklaren waarom deze geheugenmodule query-bewuste schaarse inferentie ten goede komt, en ontwerpen we gerichte experimenten om deze te ondersteunen.

Hoe ver kan aanpassing van akkoordsymbool-tijdreeksen de genre-identiteit overdragen? Mogelijkheden en grenzen in multi-genre akkoordsymboolmodellering
How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

Jun 5

ByJinju Lee

Harmonie is een compacte symbolische laag waar wiskundige toonhoogterelaties, akoestische consonantie en muzikale conventie samenkomen. Dit rapport behandelt akkoordsymboolreeksen niet als een volledige representatie van muziek, maar als een interpreteerbare, beheersbare tijdreeks voor genre-lokale harmonische modellering. Vertrekkend van een bevroren pop-jazz Music Transformer-checkpoint evalueer ik hoe ver kleine adaptatie-interfaces het model kunnen uitbreiden naar elf doelgenres: blues, bossa nova, Bachkoralen, country, electronic, folk, funk, gospel, hiphop, R&B/soul en rock. De belangrijkste evaluatie vergelijkt LoRA, IA3, BitFit, prefix-tuning en volledige finetuning over 11 genres en 3 seeds, een compleet raster van 165 cellen. Alle vijf methoden verbeteren ten opzichte van de bevroren basis wat betreft voorspelling van niet-geziene akkoorden, met macrowinsten van +2,89 tot +3,61 punten; LoRA en IA3 scoren het hoogst, maar Wilcoxon-toetsen met Holm- en Benjamini-Hochberg-correctie ondersteunen geen doorslaggevende winnaar. Een controle met overeenkomende datagrootte scherpt dit aan: wanneer genres worden onderbemonsterd tot een gemeenschappelijke corpusgrootte, blijft IA3 bovenaan, maar verdwijnt LoRA's voorsprong op volledige data en zakt het naar de laatste plaats, wat suggereert dat de kleine verschillen deels door data worden gedreven. Een controletoken-baseline is ook sterk, en adapters van het verkeerde genre verslaan vaak de bevroren basis, wat erop wijst dat een groot deel van het effect afkomstig is van lichtgewicht conditionering over een herbruikbare harmonische basis, in plaats van een specifieke adapterfamilie. Aanvullende diagnostiek (rangordeverkenningen, verkeerde-genre-rotatie, een basis-checkpoint-ablatie, akkoord-only genreclassificatie, statistieken van gegenereerde uitvoer, evaluatie op echte nummers en duplicatenanalyse) ondersteunen een genuanceerde conclusie: akkoordsymbooladaptatie verbetert betrouwbaar genre-lokale harmonische voorspelling, maar akkoordsymbolen alleen dragen geen volledige genre-identiteit. Het rapport vermijdt daarom uitspraken over waargenomen genreauthenticiteit of volledige muzikale kwaliteit, die gecontroleerde evaluatie door luisteraars of muzikanten vereisen.