HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

26 papers found

Agentisch Redeneren voor Grote Taalmodellen
Agentic Reasoning for Large Language Models

Jan 18

ByTianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He

193

Redeneren is een fundamenteel cognitief proces dat ten grondslag ligt aan inferentie, probleemoplossing en besluitvorming. Hoewel grote taalmodellen (LLM's) sterke redeneervaardigheden demonstreren in gesloten omgevingen, hebben ze moeite in open-einde en dynamische situaties. Agent-gebaseerd redeneren markeert een paradigmaverschuiving door LLM's te herdefiniëren als autonome agents die plannen, handelen en leren door continue interactie. In dit overzicht organiseren we agent-gebaseerd redeneren langs drie complementaire dimensies. Ten eerste karakteriseren we omgevingsdynamiek via drie lagen: fundamenteel agent-gebaseerd redeneren, dat de kernvaardigheden van een enkele agent vaststelt, waaronder planning, gereedschapsgebruik en zoeken in stabiele omgevingen; zelf-evoluerend agent-gebaseerd redeneren, dat bestudeert hoe agents deze vaardigheden verfijnen via feedback, geheugen en aanpassing; en collectief multi-agent redeneren, dat intelligentie uitbreidt naar collaboratieve settings met coördinatie, kennisdeling en gedeelde doelen. Over deze lagen heen onderscheiden we in-context redeneren, dat interactie tijdens testtijd op schaal mogelijk maakt via gestructureerde orkestratie, van post-training redeneren, dat gedrag optimaliseert via reinforcement learning en supervised fine-tuning. We bespreken verder representatieve agent-gebaseerde redeneerframeworks in real-world toepassingen en benchmarks, waaronder wetenschap, robotica, gezondheidszorg, autonoom onderzoek en wiskunde. Dit overzicht synthetiseert agent-gebaseerde redeneermethoden tot een verenigde routekaart die denken en handelen verbindt, en schetst open uitdagingen en toekomstige richtingen, zoals personalisatie, interactie op lange termijn, wereldmodellering, schaalbare multi-agent training en governance voor implementatie in de praktijk.

MMDeepResearch-Bench: Een Benchmark voor Multimodale Deep Research Agents
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

Jan 18

ByPeizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

Deep Research Agents (DRA's) genereren citatierijke rapporten via meerstaps zoek- en synthesemethoden, maar bestaande benchmarks richten zich voornamelijk op tekstgebonden settings of kortdurende multimodale vraag-antwoordtaken, waarbij end-to-end multimodaal bewijsgebruik ontbreekt. Wij introduceren MMDeepResearch-Bench (MMDR-Bench), een benchmark met 140 door experts samengestelde taken verspreid over 21 domeinen, waarbij elke taak een beeld-tekstbundel biedt om multimodaal begrip en citatie-onderbouwde rapportgeneratie te evalueren. In vergelijking met eerdere opzetten benadrukt MMDR-Bench rapportstijl-synthese met expliciet bewijsgebruik, waarbij modellen visuele artefacten moeten koppelen aan gesourcede claims en consistentie moeten handhaven tussen narratief, citaties en visuele referenties. Wij stellen verder een uniforme, interpreteerbare evaluatiepijplijn voor: Formula-LLM Adaptive Evaluation (FLAE) voor rapportkwaliteit, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) voor citatie-onderbouwde bewijsafstemming, en Multimodal Support-Aligned Integrity Check (MOSAIC) voor tekst-visuele integriteit. Elk produceert fijnmazige signalen die foutdiagnose ondersteunen voorbij een enkele algemene score. Experimenten met 25 state-of-the-art modellen onthullen systematische afwegingen tussen generatiekwaliteit, citatiediscipline en multimodale verankering, en benadrukken dat sterke proza alleen geen getrouw bewijsgebruik garandeert en dat multimodale integriteit een belangrijk knelpunt blijft voor deep research agents.

Paper2Rebuttal: Een Multi-Agent Raamwerk voor Transparante Ondersteuning bij Auteursreacties
Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

Jan 20

ByQianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao, Yuanhao Yue, Zhipeng Zhang

Het schrijven van effectieve weerleggingen is een taak met grote gevolgen die meer vereist dan linguïstische vaardigheid, omdat een nauwkeurige afstemming tussen de intentie van de reviewer en de details van het manuscript nodig is. Bestaande oplossingen behandelen dit doorgaans als een directe tekstgeneratietaak, wat leidt tot hallucinaties, over het hoofd geziene kritiekpunten en een gebrek aan verifieerbare onderbouwing. Om deze beperkingen aan te pakken, introduceren wij RebuttalAgent, het eerste multi-agentframework dat weerleggingsgeneratie herformuleert als een op bewijs gebaseerde plannings-taak. Ons systeem decomposeert complexe feedback in atomare kritiekpunten en construeert dynamisch hybride contexten door gecomprimeerde samenvattingen te synthetiseren met hoogwaardige tekst, terwijl het een autonome en on-demand externe zoekmodule integreert om kritiekpunten die externe literatuur vereisen op te lossen. Door een inspecteerbaar reactieplan te genereren vóór het opstellen van de tekst, zorgt RebuttalAgent ervoor dat elk argument expliciet verankerd is in intern of extern bewijsmateriaal. Wij valideren onze aanpak op de voorgestelde RebuttalBench en tonen aan dat onze pijplijn sterke baseline-methoden overtreft op het gebied van dekking, betrouwbaarheid en strategische samenhang, waardoor een transparante en controleerbare assistent voor het peer review-proces wordt geboden. De code zal worden vrijgegeven.

Opnieuw nadenken over videogeneratiemodellen voor de belichaamde wereld
Rethinking Video Generation Model for the Embodied World

Jan 21

ByYufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou

Videogeneratiemodellen hebben een significante vooruitgang geboekt in belichaamde intelligentie, wat nieuwe mogelijkheden heeft ontsloten voor het genereren van diverse robotdata die waarneming, redenering en actie in de fysieke wereld vastleggen. Het synthetiseren van hoogwaardige video's die realistische robotinteracties nauwkeurig weergeven, blijft echter een uitdaging, en het ontbreken van een gestandaardiseerde benchmark beperkt eerlijke vergelijkingen en vooruitgang. Om deze kloof te dichten, introduceren we een uitgebreide robotica-benchmark, RBench, ontworpen om robotgeoriënteerde videogeneratie te evalueren over vijf taakdomeinen en vier verschillende belichamingen. Het beoordeelt zowel taaknauwkeurigheid als visuele kwaliteit via reproduceerbare submetrieken, waaronder structurele consistentie, fysieke geloofwaardigheid en actievolledigheid. Evaluatie van 25 representatieve modellen toont significante tekortkomingen in het genereren van fysiek realistische robotgedragingen. Verder bereikt de benchmark een Spearman-correlatiecoëfficiënt van 0.96 met humanevaluaties, wat de effectiviteit ervan bevestigt. Hoewel RBench de noodzakelijke lens biedt om deze tekortkomingen te identificeren, vereist het bereiken van fysiek realisme een verschuiving voorbij evaluatie naar het aanpakken van het kritieke tekort aan hoogwaardige trainingsdata. Gedreven door deze inzichten introduceren we een verfijnde vierstappendatapijplijn, resulterend in RoVid-X, de grootste open-source robotdataset voor videogeneratie met 4 miljoen geannoteerde videofragmenten, die duizenden taken beslaat en verrijkt is met uitgebreide fysieke eigenschapannotaties. Collectief vormt dit synergetische ecosysteem van evaluatie en data een robuuste basis voor rigoureuze beoordeling en schaalbare training van videomodellen, wat de evolutie van belichaamde AI versnelt richting algemene intelligentie.

GutenOCR: Een Gebaseerde Visie-Taal Front-End voor Documenten
GutenOCR: A Grounded Vision-Language Front-End for Documents

Jan 20

ByHunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew

GutenOCR is een familie van gegronde OCR-frontends die zijn verkregen door het finetunen van Qwen2.5-VL-3B en Qwen2.5-VL-7B. De resulterende vision-language modellen met een enkele checkpoint bieden lees-, detectie- en grondingsmogelijkheden via een uniforme, op prompts gebaseerde interface. Getraind op zakelijke documenten, wetenschappelijke artikelen en synthetische grondingsgegevens, ondersteunen de modellen volledige pagina- en gelokaliseerd lezen met bounding boxes op regel- en alineaniveau en conditionele "waar is x?"-query's. We introduceren een gegronde OCR-evaluatieprotocol en tonen aan dat GutenOCR-7B de samengestelde gegronde OCR-score van zijn Qwen2.5-VL-7B-backbone meer dan verdubbelt op 10.5K achtergehouden zakelijke en wetenschappelijke pagina's (0.40 naar 0.82). Op Fox en OmniDocBench v1.5 verbetert onze aanpak de OCR op regio- en regelniveau evenals de tekstdetectie-recall aanzienlijk, maar laat het afwegingen zien op het gebied van pagina-level linearisatie, kleurgeleide OCR en formulerijke lay-outs.

Kennisintegratie van Gedrag in Gereïnforceerde Agente Modellen
Behavior Knowledge Merge in Reinforced Agentic Models

Jan 20

ByXiangchi Yuan, Dachuan Shi, Chunhui Zhang, Zheyuan Liu, Shenglong Yao, Soroush Vosoughi, Wenke Lee

Versterkend leren (RL) is cruciaal voor post-training, met name voor agent-gebaseerde modellen die gespecialiseerd redeneergedrag vereisen. In deze context biedt modelmerging een praktisch mechanisme om meerdere, op verschillende taken getrainde RL-agenten te integreren in één generalistisch model. Bestaande mergingmethoden zijn echter ontworpen voor supervised fine-tuning (SFT) en zijn suboptimaal voor het behoud van taakspecifieke capaciteiten bij RL-getrainde agentmodellen. De oorzaak is een mismatch tussen taakvectoren bij RL en SFT: on-policy RL resulteert in taakvectoren die zeer spaarzaam en heterogeen zijn, terwijl SFT-style merging impliciet uitgaat van dichte en globaal vergelijkbare taakvectoren. Wanneer standaard globale middeling onder deze mismatch wordt toegepast, worden RL's niet-overlappende taakvectoren – die cruciaal taakspecifiek gedrag coderen – gereduceerd en worden parameterupdates verdund. Om dit probleem aan te pakken, stellen wij Reinforced Agent Merging (RAM) voor, een distributiebewust mergingraamwerk dat expliciet is ontworpen voor RL-getrainde agentmodellen. RAM ontwart gedeelde en taakspecifieke unieke parameterupdates, middelt de gedeelde componenten en behoudt en herschaalt selectief de unieke componenten om parameterverdunning tegen te gaan. Experimenten in diverse agentdomeinen en modelarchitecturen tonen aan dat RAM niet alleen merging-baselines overtreft, maar ook synergistisch potentieel tussen agenten ontsluit om prestaties te bereiken die superieur zijn aan die van gespecialiseerde agenten in hun respectievelijke domeinen.

FlashLabs Chroma 1.0: Een Real-Time End-to-End Gesproken Dialoogmodel met Gepersonaliseerde Stemkloning
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Jan 16

ByTanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi

Recente end-to-end gesproken dialoogsystemen maken gebruik van spraaktokenizers en neurale audiocodecs om LLM's rechtstreeks op discrete spraakrepresentaties te laten werken. Deze modellen vertonen echter vaak een beperkte bewaring van sprekersidentiteit, wat gepersonaliseerde spraakinteractie belemmert. In dit werk presenteren we Chroma 1.0, het eerste open-source, real-time, end-to-end gesproken dialoogmodel dat zowel lage-latency interactie als hoogwaardige gepersonaliseerde stemkloning bereikt. Chroma bereikt een end-to-end latentie van minder dan een seconde via een geïnterlinieerd tekst-audio tokenschema (1:2) dat streaminggeneratie ondersteunt, terwijl het hoogwaardige gepersonaliseerde stemsynthese behoudt tijdens meerkeuzesgesprekken. Onze experimentele resultaten tonen aan dat Chroma een relatieve verbetering van 10,96% in sprekersgelijkenis bereikt ten opzichte van de menselijke baseline, met een Real-Time Factor (RTF) van 0,43, waarbij sterke redeneer- en dialoogcapaciteiten behouden blijven. Onze code en modellen zijn openbaar beschikbaar op https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma en https://huggingface.co/FlashLabs/Chroma-4B.

Render-of-Thought: Het Weergeven van Tekstuele Redeneerketens als Beelden voor Visueel Latent Redeneren
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Jan 21

ByYifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei

Chain-of-Thought (CoT)-prompting heeft opmerkelijke successen geboekt in het ontsluiten van de redeneercapaciteiten van Large Language Models (LLM's). Hoewel CoT-prompts het redeneren verbeteren, brengt de uitvoerigheid ervan aanzienlijke rekenkosten met zich mee. Recente onderzoeken richten zich vaak uitsluitend op uitkomstalignering en missen supervisie op het tussenliggende redeneerproces. Deze tekortkomingen bemoeilijken de analyseerbaarheid van de latente redeneerketen. Om deze uitdagingen aan te pakken, introduceren wij Render-of-Thought (RoT), het eerste raamwerk dat de redeneerketen verzelfstandigt door tekstuele stappen in afbeeldingen weer te geven, waardoor de latente redenering expliciet en traceerbaar wordt. Concreet benutten wij de vision-encoders van bestaande Vision Language Models (VLM's) als semantische ankers om de vision-embeddings af te stemmen op de tekstuele ruimte. Dit ontwerp garandeert een plug-and-play-implementatie zonder extra pre-training overhead. Uitgebreide experimenten op wiskundige en logische redeneerbenchmarks tonen aan dat onze methode een 3-4x tokencompressie en substantiële inferentieversnelling bereikt in vergelijking met expliciete CoT. Bovendien handhaaft het competitieve prestaties ten opzichte van andere methoden, wat de haalbaarheid van dit paradigma valideert. Onze code is beschikbaar op https://github.com/TencentBAC/RoT.

Tyfoon OCR: Open Vision-Language Model voor Thais Documentextractie
Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

Jan 21

BySurapon Nonesung, Natapong Nitarach, Teetouch Jaknamon, Pittawat Taveekitworachai, Kunat Pipatanakul

Documentextractie is een kernonderdeel van digitale workflows, maar bestaande vision-language modellen (VLM's) richten zich voornamelijk op talen met veel resources. Het Thai vormt extra uitdagingen vanwege de complexiteit van het schrift met niet-Latijnse letters, het ontbreken van expliciete woordgrenzen en de prevalentie van sterk ongestructureerde documenten uit de praktijk, wat de effectiviteit van huidige open-source modellen beperkt. Dit artikel presenteert Typhoon OCR, een open VLM voor documentextractie die is toegesneden op Thai en Engels. Het model is verfijnd vanuit vision-language backbones met behulp van een trainingsdataset die op Thai is gericht. De dataset is ontwikkeld via een pijplijn voor dataconstructie met meerdere fasen die traditionele OCR, VLM-gestructureerde herstructurering en gecureerde synthetische data combineert. Typhoon OCR is een uniform raamwerk dat in staat is tot teksttranscriptie, lay-outreconstructie en documentbrede structurele consistentie. De nieuwste iteratie van ons model, Typhoon OCR V1.5, is een compact en inference-efficiënt model ontworpen om de afhankelijkheid van metadata te verminderen en de implementatie te vereenvoudigen. Uitgebreide evaluaties over diverse Thaise documentcategorieën, waaronder financiële rapporten, overheidsformulieren, boeken, infographics en handgeschreven documenten, tonen aan dat Typhoon OCR prestaties levert die vergelijkbaar zijn met of groter zijn dan die van grotere, propriëtaire topmodellen, ondanks aanzienlijk lagere rekenkosten. De resultaten tonen aan dat open vision-language OCR-modellen accurate teksextractie en lay-outreconstructie voor Thaise documenten kunnen bereiken, met prestaties vergelijkbaar met propriëtaire systemen, terwijl ze lichtgewicht en implementeerbaar blijven.

Tyfoon ASR Real-time: FastConformer-Transducer voor Thaise Automatische Spraakherkenning
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

Jan 19

ByWarit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul

Grote encoder-decoder-modellen zoals Whisper leveren sterke offline transcriptieprestaties, maar blijven onpraktisch voor streamingtoepassingen vanwege de hoge latentie. Vanwege de beschikbaarheid van vooraf getrainde checkpoints wordt het open Thai ASR-landschap echter nog steeds gedomineerd door deze offline architecturen, wat een kritieke kloof laat in efficiënte streamingoplossingen. Wij presenteren Typhoon ASR Real-time, een FastConformer-Transducer-model met 115M parameters voor spraakherkenning van het Thai met lage latentie. Wij tonen aan dat rigoureuze tekstnormalisatie een even grote impact kan hebben als modelschaling: ons compacte model bereikt een 45-voudige vermindering van de rekenkosten in vergelijking met Whisper Large-v3, terwijl het vergelijkbare nauwkeurigheid levert. Onze normalisatiepipeline lost systemische ambiguïteiten in Thaise transcriptie op – waaronder contextafhankelijke verbalisatie van getallen en herhalingsmarkeringen (mai yamok) – en creëert consistente trainingsdoelen. Verder introduceren we een tweefasen curriculumlearning-benadering voor adaptatie naar het Isan-dialect (noordoostelijk) die de prestaties voor het Centraal Thai behoudt. Om de reproduceerbaarheidsuitdagingen in Thai ASR aan te pakken, geven wij de Typhoon ASR Benchmark vrij, een gouden standaard van door mensen gelabelde datasets met transcripties die de gevestigde Thaise linguïstische conventies volgen, en voorzien zo de onderzoeksgemeenschap van gestandaardiseerde evaluatieprotocollen.

Numina-Lean-Agent: Een Open en Algemeen Agentisch Redeneersysteem voor Formele Wiskunde
Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

Jan 20

ByJunqi Liu, Zihao Zhou, Zekai Zhu, Marco Dos Santos, Weikun He, Jiawei Liu, Ran Wang, Yunzhou Xie, Junqiao Zhao, Qiufeng Wang, Lihong Zhi, Jia Li, Wenda Li

Agentische systemen zijn recentelijk het dominante paradigma geworden voor formeel bewijzen, waarbij ze sterke prestaties bereiken door meerdere modellen en tools te coördineren. Bestaande benaderingen vertrouwen echter vaak op taakspecifieke pijplijnen en getrainde formele bewijssystemen, wat hun flexibiliteit en reproduceerbaarheid beperkt. In dit artikel stellen we het paradigma voor dat rechtstreeks een algemene codeer-agent gebruikt als formeel wiskundig redeneerder. Dit paradigma wordt gemotiveerd door: (1) een algemene codeer-agent biedt een natuurlijke interface voor diverse redeneertaken die verder gaan dan bewijzen, (2) de prestaties kunnen worden verbeterd door simpelweg het onderliggende basismodel te vervangen, zonder training, en (3) MCP maakt flexibele uitbreiding en autonoom aanroepen van gespecialiseerde tools mogelijk, wat complex ontwerp vermijdt. Gebaseerd op dit paradigma introduceren we Numina-Lean-Agent, dat Claude Code combineert met Numina-Lean-MCP om autonome interactie met Lean, retriev

Beweging 3-naar-4: 3D-bewegingsreconstructie voor 4D-synthese
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Jan 20

ByHongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen

Wij presenteren Motion 3-to-4, een voorwaarts werkend raamwerk voor het synthetiseren van hoogwaardige 4D dynamische objecten vanuit een enkel monocular video en een optioneel 3D-referentierooster. Hoewel recente vooruitgang de generatie van 2D-, video- en 3D-inhoud aanzienlijk heeft verbeterd, blijft 4D-synthese moeilijk vanwege beperkte trainingsgegevens en de inherente ambiguïteit van het herstellen van geometrie en beweging vanuit een enkel gezichtspunt. Motion 3-to-4 lost deze uitdagingen op door 4D-synthese op te splitsen in statische 3D-vormgeneratie en bewegingsreconstructie. Ons model leert, met behulp van een canoniek referentierooster, een compacte latente bewegingrepresentatie en voorspelt vertex trajecten per frame om complete, temporeel coherente geometrie te herstellen. Een schaalbare framegewijze transformer zorgt verder voor robuustheid tegen variërende sequentielengtes. Evaluaties op zowel standaardbenchmarks als een nieuwe dataset met nauwkeurige grondwaarheid-geometrie tonen aan dat Motion 3-to-4 superieure kwaliteit en ruimtelijke consistentie biedt in vergelijking met eerder werk. De projectpagina is beschikbaar op https://motion3-to-4.github.io/.

XR: Cross-modale Agents voor Samengestelde Beeldretrieval
XR: Cross-Modal Agents for Composed Image Retrieval

Jan 20

ByZhongyu Yang, Wei Pang, Yingfang Yuan

Retrieval wordt herdefinieerd door agent-gebaseerde AI, wat multimodaal redeneren vereist dat verder gaat dan conventionele op gelijkenis gebaseerde paradigma's. Composed Image Retrieval (CIR) belichaamt deze verschuiving, waarbij elke zoekopdracht een referentiebeeld combineert met tekstuele aanpassingen, wat compositioneel begrip tussen modaliteiten vereist. Hoewel op embedding gebaseerde CIR-methoden vooruitgang hebben geboekt, blijven ze beperkt in perspectief, vangen ze beperkte cross-modale signalen op en ontbreekt het hen aan semantisch redeneren. Om deze beperkingen aan te pakken, introduceren we XR, een trainingsvrij multi-agent raamwerk dat retrieval herformuleert als een progressief gecoördineerd redeneerproces. Het coördineert drie gespecialiseerde soorten agents: *imagination agents* synthetiseren doelrepresentaties via cross-modale generatie, *similarity agents* voeren grove filtering uit via hybride matching, en *question agents* verifiëren feitelijke consistentie via gericht redeneren voor fijne filtering. Door progressieve multi-agent coördinatie verfijnt XR retrieval iteratief om aan zowel semantische als visuele zoekrestricties te voldoen, wat een verbetering tot 38% oplevert ten opzichte van sterke trainingsvrije en op training gebaseerde baseline-methoden op FashionIQ, CIRR en CIRCO, terwijl ablatiestudies aantonen dat elke agent essentieel is. Code is beschikbaar: https://01yzzyu.github.io/xr.github.io/.

RoboBrain 2.5: Diepte in Zicht, Tijd in Gedachten
RoboBrain 2.5: Depth in Sight, Time in Mind

Jan 20

ByHuajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

Wij introduceren RoboBrain 2.5, een next-generation belichaamd AI-fundamentmodel dat algemene perceptie, ruimtelijk redeneren en temporele modellering bevordert door middel van uitgebreide training op hoogwaardige spatiotemporele supervisie. Voortbouwend op zijn voorganger introduceert RoboBrain 2.5 twee belangrijke capaciteitsverbeteringen. Concreet ontgrendelt het *Precies 3D-Ruimtelijk Redeneren* door de overgang van 2D pixel-relatief gronden naar diepte-bewuste coördinaatvoorspelling en begrip van absolute metrieke beperkingen, waarbij complete 3D-manipulatiesporen worden gegenereerd als geordende keypoint-reeksen onder fysieke beperkingen. Als aanvulling op deze ruimtelijke precisie vestigt het model *Dichte Temporele Waardeschatting* dat dichte, stap-bewuste voortgangsvoorspelling en begrip van de uitvoeringstoestand biedt over verschillende gezichtspunten, waardoor stabiele feedbacksignalen worden geproduceerd voor downstream leren. Gezamenlijk breiden deze upgrades het framework uit naar meer fysiek gefundeerde en uitvoering-bewuste belichaamde intelligentie voor complexe, fijnmazige manipulatie. De code en checkpoints zijn beschikbaar op de projectwebsite: https://superrobobrain.github.io

FinVault: Benchmarking van de Veiligheid van Financiële Agents in Uitvoeringsgegronde Omgevingen
FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

Jan 9

ByZhi Yang, Runguo Li, Qiqi Qiang, Jiashun Wang, Fangqi Lou, Mengping Li, Dongpo Cheng, Rui Xu, Heng Lian, Shuo Zhang, Xiaolong Liang, Xiaoming Huang, Zheng Wei, Zhaowei Liu, Xin Guo, Huacan Wang, Ronghao Chen, Liwen Zhang

Financiële agenten aangedreven door grote taalmodellen (LLM's) worden steeds vaker ingezet voor beleggingsanalyses, risicobeoordelingen en geautomatiseerde besluitvorming. Hierbij introduceren hun vermogens om te plannen, tools aan te roepen en veranderbare toestanden te manipuleren nieuwe veiligheidsrisico's in hoogrisico- en sterk gereguleerde financiële omgevingen. Bestaande veiligheidsevaluaties richten zich echter grotendeels op taalmodelniveau-inhoudscompliance of abstracte agentsettings, en slagen er niet in om uitvoeringsgebonden risico's te vatten die voortvloeien uit reële operationele workflows en toestandsveranderende acties. Om deze kloof te overbruggen, stellen we FinVault voor, de eerste uitvoeringsgebonden veiligheidsbenchmark voor financiële agenten. Deze omvat 31 op regelgevende casussen gebaseerde sandboxscenario's met toestandsbeschrijfbare databases en expliciete compliancebeperkingen, samen met 107 real-world kwetsbaarheden en 963 testgevallen die systematisch prompt injection, jailbreaking, financieel aangepaste aanvallen, evenals goedaardige inputs voor false-positive evaluatie dekken. Experimentele resultaten tonen aan dat bestaande verdedigingsmechanismen in realistische financiële agentsettings nog steeds ontoereikend zijn, waarbij de gemiddelde aanvalssuccespercentages (ASR) oplopen tot 50,0% bij state-of-the-art modellen en niet-verwaarloosbaar blijven zelfs voor de robuustste systemen (ASR 6,7%). Dit onderstreept de beperkte overdraagbaarheid van huidige veiligheidsontwerpen en de noodzaak aan sterkere financiële-specifieke verdedigingen. Onze code is beschikbaar op https://github.com/aifinlab/FinVault.

Privacy-implosie: Goedbedoelde fine-tuning kan contextuele privacy in taalmodelen doorbreken
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Jan 21

ByAnmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri

Wij identificeren een nieuw fenomeen bij taalmodellen: goedaardige fine-tuning van frontiermodellen kan leiden tot privacy-collaps. Wij constateren dat diverse, subtiele patronen in trainingsdata de contextuele privacy kunnen aantasten, waaronder optimalisatie voor behulpzaamheid, blootstelling aan gebruikersinformatie, emotionele en subjectieve dialoog, en debug-code die interne variabelen print, onder andere. Gefinetunede modellen verliezen hun vermogen om contextuele privacynormen te beredeneren, delen informatie onjuist met tools en overschrijden geheugengrenzen tussen contexten. Privacy-collaps is een "stille fout" omdat modellen hoge prestaties behouden op standaard veiligheids- en functionaliteitsbenchmarks, terwijl ze ernstige privacykwetsbaarheden vertonen. Onze experimenten tonen aanwijzingen voor privacy-collaps bij zes modellen (gesloten en open gewicht), vijf finetuning-datasets (real-world en gecontroleerde data) en twee taakcategorieën (agent-gebaseerd en geheugen-gebaseerd). Onze mechanistische analyse toont aan dat privacy-representaties uniek kwetsbaar zijn voor finetuning in vergelijking met taakrelevante kenmerken die behouden blijven. Onze resultaten onthullen een kritieke kloof in huidige veiligheidsevaluaties, in het bijzonder voor de inzet van gespecialiseerde agents.

Impliciete Neurale Representatie Faciliteert Uniforme Universele Visuele Codering
Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Jan 20

ByMatthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang

Modellen voor het leren van beeldrepresentaties zijn doorgaans ontworpen voor óf herkenning óf generatie. Verschillende vormen van contrastief leren helpen modellen om beelden om te zetten in embeddings die nuttig zijn voor classificatie, detectie en segmentatie. Anderzijds kunnen modellen worden getraind om beelden te reconstrueren met pixelgewijze, perceptuele en adversariële verliesfuncties, om zo een latente ruimte aan te leren die geschikt is voor beeldgeneratie. Wij streven ernaar deze twee richtingen te verenigen met een model van een nieuw soort, dat representaties leert die tegelijkertijd bruikbaar zijn voor herkenning en generatie. We trainen ons model als een hypernetwerk voor impliciete neurale representatie, dat leert om beelden af te beelden naar modelgewichten voor snelle, nauwkeurige reconstructie. We integreren ons INR-hypernetwerk verder met knowledge distillation om de generalisatie en prestaties te verbeteren. Naast de nieuwe trainingsopzet leert het model ook een ongekend gecomprimeerde embeddingruimte met uitstekende prestaties voor diverse visuele taken. Het complete model kan concurreren met state-of-the-art resultaten voor beeldrepresentatieleren, terwijl het tevens generatieve mogelijkheden biedt dankzij zijn hoogwaardige, compacte embeddings. De code is beschikbaar op https://github.com/tiktok/huvr.

FARE: Snelle-Langzame Agent-gebaseerde Robotverkenning
FARE: Fast-Slow Agentic Robotic Exploration

Jan 21

ByShuhao Liao, Xuxin Lv, Jeric Lew, Shizhe Zhang, Jingsong Liang, Peizhuo Li, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti

Dit werk bevordert autonome robotverkenning door agentniveau semantisch redeneren te integreren met snelle lokale controle. Wij introduceren FARE, een hiërarchisch autonoom verkenningsraamwerk dat een groot taalmodel (LLM) voor globaal redeneren integreert met een reinforcement learning (RL)-beleid voor lokale besluitvorming. FARE volgt een snel-traag-denken paradigma. De traag-denken LLM-module interpreteert een beknopte tekstuele beschrijving van de onbekende omgeving en synthetiseert een agentniveau verkenningsstrategie, die vervolgens wordt verankerd in een reeks globale waypoints via een topologische grafiek. Om de redeneerefficiëntie verder te verbeteren, gebruikt deze module een op modulariteit gebaseerd snoeimechanisme dat redundante grafiekstructuren reduceert. De snel-denken RL-module voert verkenning uit door te reageren op lokale observaties, terwijl deze wordt geleid door de door het LLM gegenereerde globale waypoints. Het RL-beleid wordt bovendien gevormd door een beloningsterm die naleving van de globale waypoints aanmoedigt, wat coherent en robuust gesloten-lus gedrag mogelijk maakt. Deze architectuur ontkoppelt semantisch redeneren van geometrische besluitvorming, waardoor elke module op zijn passende temporele en ruimtelijke schaal kan opereren. In uitdagende gesimuleerde omgevingen tonen onze resultaten aan dat FARE substantiële verbeteringen in verkennings efficiëntie bereikt ten opzichte van state-of-the-art baseline methoden. Wij implementeren FARE verder op hardware en valideren het in een complexe, grootschalige 200m×130m gebouwomgeving.

Kwantificering van fonologische regelinteracties in sprekerembeddingen voor accentesprachssynthese
Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Jan 20

ByThanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

Veel gesproken talen, waaronder het Engels, vertonen een grote verscheidenheid aan dialecten en accenten, waardoor accentcontrole een belangrijke capaciteit is voor flexibele tekst-naar-spraakmodellen (TTS). Huidige TTS-systemen genereren doorgaans geaccentueerde spraak door conditionering op spreker-embeddings die geassocieerd zijn met specifieke accenten. Hoewel effectief, biedt deze aanpak beperkte interpreteerbaarheid en controleerbaarheid, aangezien embeddings ook eigenschappen zoals timbre en emotie coderen. In deze studie analyseren we de interactie tussen spreker-embeddings en linguïstisch gemotiveerde fonologische regels bij de synthese van geaccentueerde spraak. Met Amerikaans en Brits Engels als casestudy implementeren we regels voor flapping, rhoticiteit en klinker-correspondenties. We introduceren de *phoneme shift rate* (PSR), een nieuwe maatstaf die kwantificeert hoe sterk embeddings op regels gebaseerde transformaties behouden of overschrijven. Experimenten tonen aan dat het combineren van regels met embeddings authentiekere accenten oplevert, terwijl embeddings regels kunnen verzwakken of overschrijven, wat een verstrengeling tussen accent en sprekersidentiteit onthult. Onze bevindingen benadrukken regels als een hefboom voor accentcontrole en een raamwerk voor het evalueren van ontvlechting in spraakgeneratie.

AgentEHR: Vooruitgang in Autonome Klinische Besluitvorming via Retrospectieve Samenvatting
AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

Jan 20

ByYusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen, Yanfeng Wang, Yu Wang

Grote Taalmodellen hebben hun nut in het medische domein ruimschoots bewezen. Hun toepassing voor autonome navigatie in elektronische patiëntendossiers (EHR's) wordt echter nog beperkt door een afhankelijkheid van gecureerde invoer en vereenvoudigde retrievalthandelingen. Om de kloof tussen geïdealiseerde experimentele opzetten en realistische klinische omgevingen te overbruggen, presenteren wij AgentEHR. Deze benchmark daagt agents uit om complexe besluitvormingstaken uit te voeren, zoals diagnostiek en behandelplanning, waarvoor langetermijn-interactief redeneren rechtstreeks in ruwe en sterk ruisbevattende databases vereist is. Bij het aanpakken van deze taken constateren wij dat bestaande samenvattingsmethoden onvermijdelijk lijden onder kritiek informatieverlies en verbrokkelde redeneersamenhang. Om dit op te lossen, stellen wij RetroSum voor, een nieuw framework dat een retrospectief samenvattingsmechanisme verenigt met een evoluerende ervaringsstrategie. Door de interactiegeschiedenis dynamisch te herevalueren, voorkomt het retrospectieve mechanisme informatieverlies in lange contexten en waarborgt het een ononderbroken logische samenhang. Bovendien overbrugt de evoluerende strategie de domeinkloof door opgebouwde ervaring op te halen uit een geheugenbank. Uitgebreide empirische evaluaties tonen aan dat RetroSum prestatieverbeteringen tot 29,16% bereikt ten opzichte van competitieve basismodellen, waarbij de totale interactiefouten significant met tot wel 92,3% afnemen.

Verdwaald in de Promptvolgorde: De Beperkingen van Causale Aandacht in Taalmodellen Blootgelegd
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Jan 20

ByHyunjong Ok, Jaeho Lee

Grote taalmodellen vertonen een verrassende gevoeligheid voor de structuur van de prompt, maar de onderliggende mechanismen hiervan zijn nog slecht begrepen. In dit werk voeren we een diepgaand onderzoek uit naar een opvallend geval: bij meerkeuzevragen presteert de volgorde waarbij de context voor de vragen en opties wordt geplaatst (CQO) consequent meer dan 14%p beter dan de omgekeerde volgorde (QOC), over een breed scala aan modellen en datasets. Door middel van systematische architectuuranalyse identificeren we causale aandacht als het kernmechanisme: in QOC-prompts voorkomt het causale masker dat optie-tokens aandacht besteden aan de context, wat een informatieknelpunt creëert waarbij de context onzichtbaar wordt voor de opties.

Het faciliteren van proactieve en reactieve begeleiding voor besluitvorming op het web: Een ontwerpverkenning met WebSeek
Facilitating Proactive and Reactive Guidance for Decision Making on the Web: A Design Probe with WebSeek

Jan 21

ByYanwei Huang, Arpit Narechania

Web AI-agenten zoals ChatGPT Agent en GenSpark worden steeds vaker ingezet voor routinematige webtaken, maar ze zijn nog steeds afhankelijk van op tekst gebaseerde invoerprompts, missen proactieve detectie van gebruikersintentie en bieden geen ondersteuning voor interactieve data-analyse en besluitvorming. Wij presenteren WebSeek, een mixed-initiative browser-extensie waarmee gebruikers informatie van webpagina's kunnen ontdekken en extraheren om vervolgens flexibel tastbare data-artefacten - zoals tabellen, lijsten en visualisaties - te bouwen, transformeren en verfijnen, alles binnen een interactief canvas. In deze omgeving kunnen gebruikers analyses uitvoeren - inclusief gegevenstransformaties zoals het samenvoegen van tabellen of het creëren van visualisaties - terwijl een ingebouwde AI zowel proactief contextbewuste begeleiding en automatisering aanbiedt als reactief reageert op expliciete gebruikersverzoeken. Een verkennende gebruikersstudie (N=15) met WebSeek als onderzoeksinstrument onthult de uiteenlopende analysestrategieën van deelnemers, wat hun verlangen naar transparantie en controle tijdens mens-AI-samenwerking onderstreept.

De Verantwoordelijkheidsvacuüm: Organisatorisch Falen in Geschaalde Agentsystemen
The Responsibility Vacuum: Organizational Failure in Scaled Agent Systems

Jan 21

ByOleg Romanchuk, Roman Bondar

Moderne CI/CD-pipelines die door agents gegenereerde code integreren, vertonen een structureel falen in verantwoordelijkheidstoedeling. Beslissingen worden uitgevoerd via formeel correcte goedkeuringsprocessen, maar geen enkele entiteit bezit zowel de autoriteit om die beslissingen goed te keuren als de epistemische capaciteit om hun basis zinvol te begrijpen. Wij definiëren deze conditie als een *verantwoordelijkheidsvacuüm*: een toestand waarin beslissingen plaatsvinden, maar verantwoordelijkheid niet kan worden toegeschreven omdat autoriteit en verificatiecapaciteit niet samenvallen. Wij tonen aan dat dit geen procesafwijking of technisch defect is, maar een structurele eigenschap van implementaties waarbij de doorvoersnelheid van beslissingsgeneratie de begrensde menselijke verificatiecapaciteit overschrijdt. Wij identificeren een schaalbaarheidslimiet onder standaard implementatieaannames, waaronder parallelle agentgeneratie, CI-gebaseerde validatie en geïndividualiseerde menselijke goedkeuringspoorten. Voorbij een bepaalde doorvoerdrempel houdt verificatie op te functioneren als beslissingscriterium en wordt deze vervangen door geritualiseerde goedkeuring op basis van proxysignalen. Gepersonaliseerde verantwoordelijkheid wordt in dit regime structureel onbereikbaar. Wij karakteriseren verder een CI-versterkingsdynamiek, waarbij toenemende geautomatiseerde validatiedekking de proxysignaaldichtheid verhoogt zonder de menselijke capaciteit te herstellen. Onder vaste tijd- en aandachtsbeperkingen versnelt dit cognitieve offloading in brede zin en vergroot het de kloof tussen formele goedkeuring en epistemisch begrip. Extra automatisering versterkt het verantwoordelijkheidsvacuüm daarom eerder dan het te mitigeren. Wij concluderen dat, tenzij organisaties beslissingsgrenzen expliciet herontwerpen of verantwoordelijkheid hertoewijzen van individuele beslissingen naar batch- of systeemniveau-eigenaarschap, het verantwoordelijkheidsvacuüm een onzichtbare maar hardnekkige faalmodus blijft in opgeschaalde agentimplementaties.

Laat het bewijs zien: De rol van bewijsmateriaal en natuurlijke taalverklaringen evalueren in door AI-ondersteunde feitencontrole
Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

Jan 16

ByGreta Warren, Jingyi Sun, Irina Shklovski, Isabelle Augenstein

Hoewel veel onderzoek zich heeft gericht op AI-verklaringen om beslissingen te ondersteunen bij complexe informatiezoektaken zoals factchecking, is de rol van bewijs opvallend onderbelicht. In onze studie varieerden we systematisch het type uitleg, de zekerheid van de AI-voorspelling en de juistheid van het AI-systeemadvies voor niet-deskundige deelnemers, die de juistheid van beweringen en AI-systeemvoorspellingen beoordeelden. Deelnemers kregen de mogelijkheid om het onderliggende bewijs eenvoudig te inspecteren. We ontdekten dat deelnemers consequent op bewijs vertrouwden om AI-beweringen te valideren, onder alle experimentele condities. Wanneer deelnemers natuurlijke-taaluitleg kregen, werd bewijs minder frequent gebruikt, hoewel ze erop terugvielen wanneer deze uitleg onvoldoende of gebrekkig leek. Kwalitatieve gegevens suggereren dat deelnemers probeerden de betrouwbaarheid van de bron van het bewijs af te leiden, ondanks dat bronidentiteiten opzettelijk waren weggelaten. Onze resultaten tonen aan dat bewijs een cruciale component is in hoe mensen de betrouwbaarheid van door een AI-systeem gepresenteerde informatie evalueren en, in combinatie met natuurlijke-taaluitleg, waardevolle ondersteuning biedt voor besluitvorming. Verder onderzoek is dringend nodig om te begrijpen hoe bewijs zou moeten worden gepresenteerd en hoe mensen er in de praktijk mee omgaan.

sangkuriang: Een pseudo-spectraal Python-pakket voor Korteweg-de Vries solitonsimulatie
sangkuriang: A pseudo-spectral Python library for Korteweg-de Vries soliton simulation

Jan 17

BySandy H. S. Herho, Faruq Khadami, Iwan P. Anwar, Dasapta E. Irawan

De Korteweg-de Vries (KdV)-vergelijking fungeert als een fundamenteel model in de niet-lineaire golfphysica en beschrijft de balans tussen dispersief spreiden en niet-lineair steiler worden die aanleiding geeft tot solitonen. Dit artikel introduceert sangkuriang, een open-source Python-bibliotheek voor het oplossen van deze vergelijking met behulp van Fourier pseudo-spectrale ruimtelijke discretisatie gekoppeld aan adaptieve tijdintegratie van hoge orde. De implementatie maakt gebruik van just-in-time (JIT)-compilatie voor computationele efficiëntie, terwijl de toegankelijkheid voor onderwijsdoeleinden behouden blijft. De validatie omvat progressief complexe scenario's, waaronder geïsoleerde solitonpropagatie, symmetrische tweegolfconfiguraties, inhaalbotsingen tussen golven met verschillende amplitudes en drie-lichameninteracties. Behoud van de klassieke invarianten wordt voortdurend gemonitord, waarbij afwijkingen in alle testgevallen klein blijven. Gemeten solitonsnelheden komen nauw overeen met theoretische voorspellingen gebaseerd op de amplitude-snelheidsrelatie die kenmerkend is voor integreerbare systemen. Complementaire diagnostiek ontleend aan informatie-theorie en recurrentieanalyse bevestigt dat de berekende oplossingen de reguliere faseruimtestructuur behouden die verwacht wordt voor volledig integreerbare dynamica. De solver levert data uit in standaard wetenschappelijke formaten die compatibel zijn met gangbare analyseprogramma's en genereert visualisaties van spatio-temporele golfevolutie. Door numerieke nauwkeurigheid te combineren met praktische toegankelijkheid op bescheiden computerbronnen, biedt sangkuriang een platform dat geschikt is voor zowel klassikale demonstraties van niet-lineaire golfverschijnselen als voor verkennend onderzoek naar solitondynamica.

CURE-Med: Curriculum-geïnformeerde reinforcement learning voor meertalig medisch redeneren
CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Jan 19

ByEric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal

Hoewel grote taalmodellen (LLM's) goede prestaties leveren op het gebied van eentalig wiskundig en gezond-verstand-redeneren, blijven ze onbetrouwbaar voor meertalige medische redeneertoepassingen, wat hun inzet in meertalige gezondheidszorgomgevingen belemmert. Wij pakken dit aan door eerst CUREMED-BENCH te introduceren, een hoogwaardige meertalige dataset voor medisch redeneren met open redeneervragen met een enkel verifieerbaar antwoord, die dertien talen omvat, waaronder ondervertegenwoordigde talen zoals Amhaars, Yoruba en Swahili. Voortbouwend op deze dataset stellen we CURE-MED voor, een curriculum-geïnformeerd reinforcement learning-raamwerk dat code-switching-bewuste supervised fine-tuning en Group Relative Policy Optimization integreert om zowel de logische correctheid als de taalstabiliteit gezamenlijk te verbeteren. Over dertien talen heen presteert onze aanpak consistent beter dan sterke baselinemodellen en schaalt effectief, met een bereik van 85,21% taalconsistentie en 54,35% logische correctheid bij 7B parameters, tot 94,96% taalconsistentie en 70,04% logische correctheid bij 32B parameters. Deze resultaten ondersteunen betrouwbaar en eerlijk meertalig medisch redeneren in LLM's. De code en dataset zijn beschikbaar op https://cure-med.github.io/