HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

31 papers found

MolHIT: Vooruitgang in Moleculair-Graafgeneratie met Hiërarchische Discrete Diffusiemodellen
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Feb 19

ByHojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong

Moleculaire generatie met diffusiemodellen is naar voren gekomen als een veelbelovende richting voor AI-gestuurde geneesmiddelenontdekking en materiaalwetenschap. Hoewel grafische diffusiemodellen vanwege het discrete karakter van 2D-moleculaire grafieken wijdverbreid zijn toegepast, kampen bestaande modellen met een lage chemische validiteit en worstelen ze om aan de gewenste eigenschappen te voldoen in vergelijking met 1D-modellering. In dit werk introduceren we MolHIT, een krachtig raamwerk voor moleculaire grafiekgeneratie dat de lang bestaande prestatiebeperkingen van bestaande methoden overwint. MolHIT is gebaseerd op het Hiërarchisch Discreet Diffusiemodel, dat discrete diffusie generaliseert naar aanvullende categorieën die chemische prioriteiten coderen, en op ontkoppelde atoomcodering die de atoomsoorten splitst volgens hun chemische rollen. Over het geheel genomen behaalt MolHIT een nieuwe state-of-the-art prestatie op de MOSES-dataset met voor het eerst in grafische diffusie een bijna perfecte validiteit, waarbij het sterke 1D-baselines op meerdere metrieken overtreft. We demonstreren verder sterke prestaties in downstreamtaken, waaronder multi-eigenschap-gestuurde generatie en steigeruitbreiding.

HyTRec: Een hybride temporeel-bewuste aandachtarchitectuur voor aanbevelingen op basis van lange gedragssequenties
HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Feb 20

ByLei Xin, Yuhao Zheng, Ke Cheng, Changjiang Jiang, Zifan Zhang, Fanhu Zeng

Het modelleren van lange sequenties van gebruikersgedrag is uitgegroeid tot een cruciaal front in generatieve aanbevelingssystemen. Bestaande oplossingen kampen echter met een dilemma: lineaire aandachtmechanismen bereiken efficiëntie ten koste van retrievalsnelheid door beperkte staatscapaciteit, terwijl softmax-aandacht lijdt onder buitensporige computationele kosten. Om deze uitdaging aan te pakken, stellen we HyTRec voor, een model met een hybride aandachtarchitectuur die langetermijnvoorkuren expliciet ontkoppelt van kortetermijnintentpieken. Door omvangrijke historische sequenties aan een lineaire aandachtstak toe te wijzen en een gespecialiseerde softmax-aandachtstak te reserveren voor recente interacties, herstelt onze aanpak precieze retrievalmogelijkheden binnen industriële contexten met tienduizenden interacties. Om de vertraging in het vastleggen van snelle interesseverschuivingen binnen de lineaire lagen te mitigeren, ontwerpen we verder het Temporeel Bewuste Delta-netwerk (TADN) om verse gedragssignalen dynamisch zwaarder te wegen en tegelijkertijd historische ruis effectief te onderdrukken. Empirische resultaten op industriële datasets bevestigen de superioriteit van ons model, dat lineaire inferentiesnelheid handhaaft en sterke baseline-modellen overtreft, met name door meer dan 8% verbetering in Trefferaandeel te leveren voor gebruikers met ultra-lange sequenties, met grote efficiëntie.

SkyReels-V4: Multi-modellair model voor video-audiogeneratie, -inpainting en -bewerking
SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Feb 25

ByGuibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Yahui Zhou

SkyReels V4 is een uniform multimodaal videofundamentmodel voor gezamenlijke video-audiogeneratie, -inpaining en -bewerking. Het model hanteert een dual-stream Multimodal Diffusion Transformer (MMDiT)-architectuur, waarbij de ene tak video synthetiseert en de andere temporeel uitgelijnde audio genereert, terwijl ze een krachtige tekstencoder delen gebaseerd op Multimodale Large Language Models (MMLM). SkyReels V4 accepteert rijke multimodale instructies, waaronder tekst, afbeeldingen, videofragmenten, masks en audioreferenties. Door de multimodale instructievolgcapaciteit van MMLMs te combineren met in-context learning in de MMDiT-videotak, kan het model fijnmazige visuele begeleiding injecteren onder complexe conditionering, terwijl de MMDiT-audiotak tegelijkertijd audioreferenties benut om geluidsgeneratie te sturen. Aan videokant hanteren we een formulering via kanaalconcatenatie die een breed scala aan inpainting-stijltaken, zoals image-to-video, videoverlenging en videobewerking, verenigt onder een enkele interface, en zich natuurlijk uitstrekt tot visueel gerefereerde inpainting en bewerking via multimodale prompts. SkyReels V4 ondersteunt resoluties tot 1080p, 32 FPS en een duur van 15 seconden, waardoor hoogwaardige, multi-shot, cinema-level videogeneratie met gesynchroniseerde audio mogelijk is. Om dergelijke hoogresolutie, langdurige generatie computationeel haalbaar te maken, introduceren we een efficiëntiestrategie: gezamenlijke generatie van lageresolutie volledige sequenties en hogeresolutie keyframes, gevolgd door toegewijde superresolutie- en frame-interpolatiemodellen. Voor zover wij weten, is SkyReels V4 het eerste videofundamentmodel dat gelijktijdig multimodale input, gezamenlijke video-audiogeneratie en een uniforme behandeling van generatie, inpainting en bewerking ondersteunt, terwijl het sterke efficiëntie en kwaliteit handhaaft bij cinematografische resoluties en duur.

DualPath: Het doorbreken van de opslagbandbreedteknelpunt bij agent-gebaseerde LLM-inferentie
DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Feb 25

ByYongtong Wu, Shaoyuan Chen, Yinmin Zhong, Rilin Huang, Yixuan Tan, Wentao Zhang, Liyue Zhang, Shangyan Zhou, Yuxuan Liu, Shunfeng Zhou, Mingxing Zhang, Xin Jin, Panpan Huang

De prestaties van multi-turn, agentische LLM-inferentie worden in toenemende mate gedomineerd door KV-Cache opslag-I/O in plaats van rekenwerk. In gangbare gedisaggregeerde architecturen creëert het laden van de enorme KV-Cache uit externe opslag een fundamentele onbalans: de opslag-NIC's op prefill-engines raken bandbreedte-verzadigd, terwijl die op decoding-engines inactief blijven. Deze asymmetrie beperkt de totale systeemdoorvoer ernstig. Wij presenteren DualPath, een inferentiesysteem dat deze knelpunt doorbreekt door dual-path KV-Cache-laden te introduceren. Naast het traditionele pad van opslag-naar-prefill maakt DualPath een nieuw pad van opslag-naar-decode mogelijk, waarbij de KV-Cache in decoding-engines wordt geladen en vervolgens efficiënt naar prefill-engines wordt overgedragen via RDMA over het rekennetwerk. DualPath combineert dit geoptimaliseerde gegevenspad – dat van nature netwerkcongestie vermijdt en interferentie met latentie-kritieke modeluitvoeringscommunicatie voorkomt – met een globale planner die de belasting dynamisch verdeelt over prefill- en decode-engines. Onze evaluatie op drie modellen met productie-agentische workloads toont aan dat DualPath de offline-inferentiedoorvoer met tot 1,87 keer verbetert op ons interne inferentiesysteem. Het kan ook de online servicedoorvoer met een gemiddelde factor van 1,96 keer verbeteren zonder de SLO te schenden.

DreamID-Omni: Verenigd Kader voor Stuurbare Mensgerichte Audio-Videogeneratie
DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Feb 12

ByXu Guo, Fulong Ye, Qichao Sun, Liyang Chen, Bingchuan Li, Pengze Zhang, Jiawei Liu, Songtao Zhao, Qian He, Xiangwang Hou

Recente ontwikkelingen in foundation-modellen hebben een revolutie teweeggebracht in gezamenlijke audio-video-generatie. Bestaande benaderingen behandelen echter typisch mensgerichte taken, waaronder referentiegebaseerde audio-video-generatie (R2AV), videobewerking (RV2AV) en audiogestuurde video-animatie (RA2V), als geïsoleerde doelstellingen. Bovendien blijft het bereiken van precieze, ontvlochten controle over meerdere personage-identiteiten en stemtimbre binnen een enkel raamwerk een onopgeloste uitdaging. In dit artikel stellen we DreamID-Omni voor, een uniform raamwerk voor beheerbare, mensgerichte audio-video-generatie. Concreet ontwerpen we een Symmetrische Conditionele Diffusion Transformer die heterogene conditioneringssignalen integreert via een symmetrisch conditioneel injectieschema. Om de veelvoorkomende mislukkingen in identiteit-timbre-koppeling en sprekerverwarring in scenario's met meerdere personen op te lossen, introduceren we een Dual-Level Ontvlechtingstrategie: Gesynchroniseerde RoPE op signaalmiveau om rigide aandacht-ruimte-koppeling te waarborgen, en Gestructureerde Bijschriften op semantisch niveau om expliciete attribuut-subject-mappingen tot stand te brengen. Verder bedenken we een Multi-Task Progressief Trainingsschema dat zwak-constrained generatieve prioriteiten benut om sterk-constrained taken te regulariseren, om overfitting te voorkomen en uiteenlopende doelstellingen te harmoniseren. Uitgebreide experimenten tonen aan dat DreamID-Omni een alomvattende state-of-the-art prestaties bereikt op het gebied van video, audio en audiovisuele consistentie, en zelfs toonaangevende propriëtaire commerciële modellen overtreft. Wij zullen onze code vrijgeven om de kloof tussen academisch onderzoek en commerciële toepassingen te overbruggen.

Solaris: Een Multiplayer Videowereldmodel Bouwen in Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft

Feb 25

ByGeorgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

Bestaande actie-gestuurde videogeneratiemodellen (video-wereldmodellen) zijn beperkt tot perspectieven van één agent en slagen er niet in de multi-agentinteracties van realistische omgevingen vast te leggen. Wij introduceren Solaris, een multiplayer video-wereldmodel dat consistente multi-perspectief observaties simuleert. Om dit mogelijk te maken, ontwikkelden we een multiplayer datasysteem ontworpen voor robuuste, continue en geautomatiseerde dataverzameling in videogames zoals Minecraft. In tegenstelling tot eerdere platforms voor single-player settings, ondersteunt ons systeem gecoördineerde multi-agentinteractie en gesynchroniseerde opname van video's en acties. Met dit systeem verzamelden we 12,64 miljoen multiplayer frames en stellen we een evaluatieraamwerk voor voor multiplayer beweging, geheugen, grounding, bouwen en perspectiefconsistentie. We trainen Solaris met een gefaseerde pijplijn die geleidelijk overgaat van single-player naar multiplayer modellering, waarbij bidirectionele, causale en Self Forcing training worden gecombineerd. In de laatste fase introduceren we Checkpointed Self Forcing, een geheugenefficiënte variant van Self Forcing die een leraar met een langere tijdshorizon mogelijk maakt. Resultaten tonen aan dat onze architectuur en trainingsontwerp bestaande baseline-methoden overtreffen. Door ons systeem en modellen open source te maken, hopen we de basis te leggen voor een nieuwe generatie multi-agent wereldmodellen.

ARLArena: Een Uniform Kader voor Stabiele Agent-gebaseerde Versterkingsleren
ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Feb 25

ByXiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang

Agentische reinforcement learning (ARL) heeft snel aandacht gekregen als een veelbelovend paradigma voor het trainen van agents om complexe, meerstaps interactieve taken op te lossen. Ondanks bemoedigende vroege resultaten blijft ARL zeer instabiel, wat vaak leidt tot trainingsinstorting. Deze instabiliteit beperkt de schaalbaarheid naar grotere omgevingen en langere interactiehorizons, en belemmert een systematische verkenning van algoritmische ontwerpkeuzes. In dit artikel stellen we eerst ARLArena voor, een stabiel trainingsrecept en systematisch analysekader dat trainingsstabiliteit onderzoekt in een gecontroleerde en reproduceerbare setting. ARLArena construeert eerst een schone en gestandaardiseerde testomgeving. Vervolgens ontleden we policy gradient in vier kernontwerpdimensions en beoordelen we de prestaties en stabiliteit van elke dimensie. Via deze fijnmazige analyse destilleren we een verenigend perspectief op ARL en stellen we SAMPO voor, een stabiele agentische policy optimalisatiemethode ontworpen om de belangrijkste bronnen van instabiliteit in ARL te mitigeren. Empirisch gezien bereikt SAMPO consistent stabiele training en sterke prestaties in diverse agentische taken. Over het geheel genomen biedt deze studie een verenigend policy gradient-perspectief voor ARL en praktische richtlijnen voor het bouwen van stabiele en reproduceerbare op LLM gebaseerde agent-trainingspijplijnen.

GUI-Libra: Het trainen van native GUI-agenten om te redeneren en handelen met actiebewust toezicht en gedeeltelijk verifieerbare RL
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Feb 25

ByRui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang

Open-source native GUI-agents blijven achter bij gesloten systemen bij langetermijnnavigatietaken. Deze kloof komt voort uit twee beperkingen: een tekort aan hoogwaardige, actie-uitgelijnde redeneergegevens en de rechtstreekse toepassing van generieke natreiningspijplijnen die de unieke uitdagingen van GUI-agents over het hoofd zien. Wij identificeren twee fundamentele problemen in deze pijplijnen: (i) standaard SFT (Supervised Fine-Tuning) met CoT-redenering (Chain-of-Thought) schaadt vaak de grounding, en (ii) stapsgewijze RLVR-stijl training (Reinforcement Learning from Visual Reasoning) kampt met partiële verifieerbaarheid, waarbij meerdere acties correct kunnen zijn maar slechts één gedemonstreerde actie wordt gebruikt voor verificatie. Dit maakt offline stapsgewijze metrieken zwakke voorspellers van online taaksucces. In dit werk presenteren we GUI-Libra, een op maat gemaakt trainingsrecept dat deze uitdagingen aanpakt. Ten eerste, om het tekort aan actie-uitgelijnde redeneergegevens te verlichten, introduceren we een pijplijn voor dataconstructie en -filtering en geven we een gecureerde dataset van 81K GUI-redeneergegevens vrij. Ten tweede, om redenering te verzoenen met grounding, stellen we actiebewuste SFT voor, die redeneren-dan-handelen en directe-actiegegevens mengt en tokens herweegt om actie en grounding te benadrukken. Ten derde, om RL te stabiliseren onder partiële verifieerbaarheid, identificeren we het over het hoofd geziene belang van KL-regularisatie in RLVR en tonen we aan dat een KL-vertrouwensregio cruciaal is voor het verbeteren van de offline-naar-online voorspelbaarheid; we introduceren verder succesadaptieve schaling om onbetrouwbare negatieve gradiënten af te zwakken. Over diverse web- en mobiele benchmarks verbetert GUI-Libra consistent zowel de stapsgewijze nauwkeurigheid als de end-to-end taakvoltooiing. Onze resultaten suggereren dat zorgvuldig ontworpen natreining en datacuratie aanzienlijk sterkere taakoplossende capaciteiten kunnen ontsluiten zonder kostbare online gegevensverzameling. We geven onze dataset, code en modellen vrij om verder onderzoek naar data-efficiënte natreining voor redeneercapabele GUI-agents te vergemakkelijken.

Beeldgeneratie met een Sferische Encoder
Image Generation with a Sphere Encoder

Feb 16

ByKaiyu Yue, Menglin Jia, Ji Hou, Tom Goldstein

Wij introduceren de Sphere Encoder, een efficiënt generatief raamwerk dat in één enkele voorwaartse pass beelden kan produceren en kan concurreren met meerstaps-diffusiemodellen met minder dan vijf stappen. Onze aanpak werkt door een encoder te leren die natuurlijke beelden uniform afbeeldt op een sferische latente ruimte, en een decoder die willekeurige latente vectoren terugmapt naar de beeldruimte. Uitsluitend getraind met beeldreconstructieverliezen, genereert het model een beeld door simpelweg een willekeurig punt op de bol te decoderen. Onze architectuur ondersteunt van nature conditionele generatie, en het enkele malen doorlopen van de encoder/decoder kan de beeldkwaliteit verder verbeteren. Over verschillende datasets laat de sphere encoder-aanpak prestaties zien die concurrerend zijn met state-of-the-art diffusiemodellen, maar met een fractie van de inferentiekosten. De projectpagina is beschikbaar op https://sphere-encoder.github.io.

JavisDiT++: Geïntegreerde Modellering en Optimalisatie voor Gezamenlijke Audio-Videogeneratie
JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Feb 22

ByKai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua

AIGC (Artificial Intelligence Generated Content) heeft zich snel uitgebreid van tekst-naar-beeldgeneratie naar hoogwaardige multimodale synthese over video en audio. In deze context is gezamenlijke audio-videogeneratie (JAVG) naar voren gekomen als een fundamentele taak die gesynchroniseerde en semantisch uitgelijnde geluiden en beelden produceert op basis van tekstuele beschrijvingen. Vergeleken met geavanceerde commerciële modellen zoals Veo3 kampen bestaande open-source methoden echter nog steeds met beperkingen in generatiekwaliteit, temporele synchronisatie en afstemming op menselijke voorkeuren. Om deze kloof te overbruggen, presenteert dit artikel JavisDiT++, een beknopt maar krachtig framework voor uniforme modellering en optimalisatie van JAVG. Ten eerste introduceren we een modality-specific mixture-of-experts (MS-MoE) ontwerp dat kruis-modale interactie-effectiviteit mogelijk maakt en tegelijkertijd de generatiekwaliteit per modaal domein verbetert. Vervolgens stellen we een temporal-aligned RoPE (TA-RoPE) strategie voor om expliciete synchronisatie op frameniveau tussen audio- en videotokens te bereiken. Daarnaast ontwikkelen we een audio-video direct preference optimization (AV-DPO) methode om modeloutput af te stemmen op menselijke voorkeuren over kwaliteit, consistentie en synchronisatiedimensies. Gebouwd op Wan2.1-1.3B-T2V behaalt ons model state-of-the-art prestaties met slechts ongeveer 1 miljoen publieke trainingsitems, en overtreft eerdere benaderingen aanzienlijk in zowel kwalitatieve als kwantitatieve evaluaties. Uitgebreide ablatiestudies zijn uitgevoerd om de effectiviteit van onze voorgestelde modules te valideren. Alle code, modellen en datasets zijn vrijgegeven op https://JavisVerse.github.io/JavisDiT2-page.

Van statica naar dynamica: Fysica-bewust beeldbewerken met latente transitieprioriteiten
From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Feb 25

ByLiangbing Zhao, Le Zhuo, Sayak Paul, Hongsheng Li, Mohamed Elhoseiny

Op instructie gebaseerde beeldbewerking heeft opmerkelijke successen geboekt in semantische uitlijning, maar state-of-the-art modellen slagen er vaak niet in fysiek plausibele resultaten te genereren wanneer de bewerking complexe causale dynamiek omvat, zoals breking of materiaaldeformatie. Wij schrijven deze beperking toe aan het dominante paradigma dat bewerking behandelt als een discrete mapping tussen beeldparen, wat slechts randvoorwaarden biedt en de overgangsdynamiek ondergespecificeerd laat. Om dit aan te pakken, herformuleren we fysica-bewuste beeldbewerking als voorspellende fysieke toestandsovergangen en introduceren we PhysicTran38K, een grootschalige op video gebaseerde dataset met 38.000 overgangstrajecten verspreid over vijf fysieke domeinen, geconstrueerd via een pijplijn voor tweefasenfiltering en constraint-aware annotatie. Gebaseerd op deze supervisie stellen we PhysicEdit voor, een end-to-end raamwerk uitgerust met een tekstueel-visueel dual-denkmecanisme. Het combineert een bevroren Qwen2.5-VL voor fysiek onderbouwde redenering met leerbare overgangsqueries die tijdsstap-adaptieve visuele begeleiding bieden aan een diffusie-backbone. Experimenten tonen aan dat PhysicEdit Qwen-Image-Edit verbetert met 5,9% in fysieke realisme en 10,1% in kennis-gegronde bewerking, wat een nieuwe state-of-the-art neerzet voor open-source methoden, terwijl het competitief blijft met toonaangevende propriëtaire modellen.

Wereldbegeleiding: Wereldmodellering in Conditieruimte voor Actiegeneratie
World Guidance: World Modeling in Condition Space for Action Generation

Feb 25

ByYue Su, Sijin Chen, Haixin Shi, Mingyu Liu, Zhengshen Zhang, Ningyuan Huang, Weiheng Zhong, Zhengbang Zhu, Yuxiao Liu, Xihui Liu

Het benutten van toekomstige observatiemodellering om actiegeneratie te vergemakkelijken, biedt een veelbelovende weg om de capaciteiten van Vision-Language-Action (VLA)-modellen te verbeteren. Bestaande methoden slagen er echter niet in een evenwicht te vinden tussen het handhaven van efficiënte, voorspelbare toekomstrepresentaties en het behouden van voldoende fijnmazige informatie om precieze actiegeneratie te sturen. Om deze beperking aan te pakken, stellen we WoG (World Guidance) voor, een raamwerk dat toekomstige observaties afbeeldt op compacte condities door ze in de actie-inferentiepijplijn te injecteren. De VLA wordt vervolgens getraind om deze gecomprimeerde condities gelijktijdig met toekomstige acties te voorspellen, waardoor effectieve wereldmodellering binnen de conditieruimte voor actie-inferentie wordt bereikt. Wij tonen aan dat het modelleren en voorspellen van deze conditieruimte niet alleen fijnmazige actiegeneratie vergemakkelijkt, maar ook superieure generalisatiecapaciteiten vertoont. Bovendien leert het effectief van omvangrijke video's van menselijke manipulatie. Uitgebreide experimenten in zowel simulatie- als real-world omgevingen valideren dat onze methode aanzienlijk beter presteert dan bestaande methoden gebaseerd op toekomstvoorspelling. De projectpagina is beschikbaar op: https://selen-suyue.github.io/WoGNet/

VecGlypher: Geünificeerde Vector Glyfgeneratie met Taalmodellen
VecGlypher: Unified Vector Glyph Generation with Language Models

Feb 25

ByXiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han

Vector glyphs vormen de atomaire eenheden van digitale typografie, maar de meeste op leren gebaseerde pijplijnen zijn nog steeds afhankelijk van zorgvuldig samengestelde voorbeeldbladen en raster-naar-vector nabewerking, wat de toegankelijkheid en bewerkbaarheid beperkt. Wij introduceren VecGlypher, een enkel multimodaal taalmodel dat vector glyphs met hoge betrouwbaarheid direct genereert vanuit tekstbeschrijvingen of beeldvoorbeelden. Gegeven een stijlprompt, optionele referentie-glyphafbeeldingen en een doelteken, zendt VecGlypher autoregressief SVG-padtokens uit, waarbij tussenliggende rasterstappen worden vermeden en bewerkbare, gesloten omtrekken in één keer worden geproduceerd. Een typografiebewuste data- en trainingsaanpak maakt dit mogelijk: (i) een grootschalige voortzettingsfase op 39K ruwe Envato-lettertypen om SVG-syntaxis en lange-termijn geometrie onder de knie te krijgen, gevolgd door (ii) nabewerkingstraining op 2.5K deskundig geannoteerde Google Fonts met beschrijvende tags en voorbeelden om taal en beeldmateriaal af te stemmen op geometrie; voorbewerking normaliseert coördinatenstelsels, kanoniseert paden, dedupliceert families en kwantiseert coördinaten voor stabiele decodering van lange sequenties. Bij cross-family OOD-evaluatie presteert VecGlypher aanzienlijk beter dan zowel algemene LLM's als gespecialiseerde vector-lettertype-baselines voor uitsluitend tekstgebaseerde generatie, terwijl beeldverwezen generatie state-of-the-art prestaties bereikt, met aanzienlijke verbeteringen ten opzichte van DeepVecFont-v2 en DualVector. Ablatiestudies tonen aan dat modelschaal en het tweefasenrecept cruciaal zijn en dat serialisatie met absolute coördinaten de beste geometrie oplevert. VecGlypher verlaagt de drempel voor het creëren van lettertypen door gebruikers met woorden of voorbeelden te laten ontwerpen, en biedt een schaalbare basis voor toekomstige multimodale ontwerpgereedschappen.

NanoKnow: Hoe je weet wat je taalmodel weet
NanoKnow: How to Know What Your Language Model Knows

Feb 23

ByLingwei Gu, Nour Jedidi, Jimmy Lin

Hoe weten grote taalmodellen (LLM's) wat ze weten? Het beantwoorden van deze vraag is moeilijk gebleken omdat de pre-trainingsdata vaak een 'black box' is – onbekend of ontoegankelijk. De recente release van nanochat – een familie van kleine LLM's met volledig open pre-trainingsdata – lost dit op doordat het een transparant beeld geeft van waar de parametrische kennis van een model vandaan komt. Met het doel te begrijpen hoe kennis wordt gecodeerd door LLM's, brengen we NanoKnow uit, een benchmarkdataset die vragen van Natural Questions en SQuAD verdeelt in splits op basis van de vraag of hun antwoorden aanwezig zijn in de pre-trainingscorpus van nanochat. Door gebruik te maken van deze splits kunnen we nu correct de bronnen van kennis ontwarren waar LLM's op vertrouwen bij het produceren van een uitvoer. Om de bruikbaarheid van NanoKnow aan te tonen, voeren we experimenten uit met acht nanochat-checkpoints. Onze bevindingen tonen aan: (1) geslotenboeknauwkeurigheid wordt sterk beïnvloed door de antwoordfrequentie in de pre-trainingsdata, (2) het verstrekken van externe context kan deze frequentieafhankelijkheid mitigeren, (3) zelfs met externe context zijn modellen nauwkeuriger wanneer antwoorden tijdens de pre-training zijn gezien, wat aantoont dat parametrische en externe kennis complementair zijn, en (4) niet-relevante informatie is schadelijk, waarbij de nauwkeurigheid afneemt op basis van zowel de positie als het aantal niet-relevante contexten. We brengen alle NanoKnow-artefacten uit op https://github.com/castorini/NanoKnow.

Hepato-LLaVA: Een Expert Multimodale Grote Taalmodel met Sparse Topo-Pack Aandacht voor Hepatocellulaire Pathologie Analyse op Whole Slide Images
Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Feb 23

ByYuxuan Yang, Zhonghao Yan, Yi Zhang, Bo Yun, Muxi Diao, Guowei Zhao, Kongming Liang, Wenbin Li, Zhanyu Ma

De diagnose van hepatocellulair carcinoom is sterk afhankelijk van de interpretatie van gigapixel Whole Slide Images. Huidige computationele methoden worden echter beperkt door verwerkingsmechanismen met vaste resolutie en inefficiënte feature-aggregatie, wat onvermijdelijk leidt tot ernstig informatieverlies of hoge feature-redundantie. Om deze uitdagingen aan te pakken, presenteren wij Hepato-LLaVA, een gespecialiseerd Multi-modale Large Language Model ontworpen voor fijnmazige hepatocellulaire pathologie-analyse. Wij introduceren een nieuw Sparse Topo-Pack Attention-mechanisme dat expliciet de 2D-weefseltopologie modelleert. Dit mechanisme aggregeert lokale diagnostische evidence effectief tot semantische samenvattingstokens, waarbij tegelijkertijd de globale context behouden blijft. Verder presenteren wij, om het gebrek aan multi-schaal data te overwinnen, HepatoPathoVQA: een klinisch onderbouwd dataset bestaande uit 33K hiërarchisch gestructureerde vraag-antwoordparen gevalideerd door expert-pathologen. Onze experimenten tonen aan dat Hepato-LLaVA state-of-the-art prestaties bereikt bij HCC-diagnose en beschrijvingstaken, en daarbij bestaande methoden significant overtreft. Onze code en implementatiedetails zijn beschikbaar op https://pris-cv.github.io/Hepto-LLaVA/.

SeaCache: Spectraal-Evolutie-Bewuste Cache voor het Versnellen van Diffusiemodellen
SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

Feb 22

ByJiwoo Chung, Sangeek Hyun, MinKyu Lee, Byeongju Han, Geonho Cha, Dongyoon Wee, Youngjun Hong, Jae-Pil Heo

Diffusiemodellen vormen een robuuste ruggengraat voor visuele generatie, maar hun inherent sequentieel denoisingsproces resulteert in trage inferentie. Eerdere methoden versnellen de sampling door tussenliggende outputs te cachen en te hergebruiken op basis van featureafstanden tussen opeenvolgende tijdstappen. Bestaande cachingstrategieën vertrouwen echter doorgaans op ruwe featureverschillen die inhoud en ruis verstrengelen. Dit ontwerp negeert spectrale evolutie, waarbij laagfrequente structuur vroeg verschijnt en hoogfrequente details later worden verfijnd. Wij introduceren Spectral-Evolution-Aware Cache (SeaCache), een trainingsvrij cacheschema dat hergebruiksbeslissingen baseert op een spectraal uitgelijnde representatie. Via theoretische en empirische analyse leiden we een Spectral-Evolution-Aware (SEA)-filter af dat inhoudsrelevante componenten behoudt terwijl het ruis onderdrukt. Het gebruik van SEA-gefilterde invoerfeatures om redundantie in te schatten, leidt tot dynamische schema's die zich aanpassen aan de inhoud en tegelijkertijd de onderliggende spectrale prioren van het diffusiemodel respecteren. Uitgebreide experimenten met diverse visuele generatieve modellen en de basislijnen tonen aan dat SeaCache state-of-the-art latentie-kwaliteit-compromissen bereikt.

Opnieuw bekijken van tekstrangschikking in diepgaand onderzoek
Revisiting Text Ranking in Deep Research

Feb 25

ByChuan Meng, Litu Ou, Sean MacAvaney, Jeff Dalton

Diepgaand onderzoek is naar voren gekomen als een belangrijke taak die beoogt complexe vragen te beantwoorden via uitgebreide verkenning van het open web. Om dit aan te pakken, rust het merendeel van eerder werk agents gebaseerd op grote taalmodellen (LLM's) uit met ondoorzichtige webzoek-API's, waardoor agents iteratief zoekopdrachten kunnen uitvoeren, externe informatie kunnen ophalen en hierover kunnen redeneren. Ondanks de essentiële rol van zoeken in diepgaand onderzoek, belemmeren black-box webzoek-API's een systematische analyse van zoekcomponenten, waardoor het gedrag van gevestigde tekstrangschikkingsmethoden in diepgaand onderzoek grotendeels onduidelijk blijft. Om deze leemte op te vullen, reproduceren we een selectie van belangrijke bevindingen en best practices voor IR-tekstrangschikkingsmethoden in de context van diepgaand onderzoek. In het bijzonder onderzoeken we hun effectiviteit vanuit drie perspectieven: (i) retrieval-eenheden (documenten versus passages), (ii) pijplijnconfiguraties (verschillende retrievers, her-rangschikkers en her-rangschikkingsdieptes), en (iii) querykarakteristieken (de mismatch tussen door agents gegenereerde queries en de trainingsqueries van tekstrangschikkers). We voeren experimenten uit op BrowseComp-Plus, een dataset voor diepgaand onderzoek met een vaste corpus, waarbij we 2 open-source agents, 5 retrievers en 3 her-rangschikkers evalueren in diverse opstellingen. We constateren dat queries van agents doorgaans een webzoekstijl-syntax volgen (bijvoorbeeld aanhalingstekens voor exacte matches), wat lexicale, geleerde sparse en multi-vector retrievers bevoordeelt; passage-niveau eenheden zijn efficiënter onder beperkte contextvensters en vermijden de moeilijkheden van documentlengtenormalisatie in lexicale retrieval; her-rangschikking is zeer effectief; het vertalen van door agents gegenereerde queries naar natuurlijke-taalvragen overbrugt de query-mismatch aanzienlijk.

Ankerplaatsing en Sferische Harmonischen voor Sparse-view Gaussische Splatting
Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

Feb 24

ByShuangkang Fang, I-Chao Shen, Xuanyang Zhang, Zesheng Wang, Yufeng Wang, Wenrui Ding, Gang Yu, Takeo Igarashi

Recente 3D Gaussian Splatting (3DGS) Dropout-methoden pakken overfitting onder sparse-view condities aan door willekeurig Gaussian-opaciteiten te nullificeren. Wij identificeren echter een nabuurcompensatie-effect bij deze benaderingen: gedropte Gaussians worden vaak gecompenseerd door hun buren, wat de beoogde regularisatie verzwakt. Bovendien negeren deze methoden de bijdrage van sferisch harmonische coëfficiënten (SH) met een hoge graad aan overfitting. Om deze problemen aan te pakken, stellen wij DropAnSH-GS voor, een nieuwe ankergebaseerde Dropout-strategie. In plaats van Gaussians onafhankelijk te droppen, selecteert onze methode willekeurig bepaalde Gaussians als ankers en verwijdert gelijktijdig hun ruimtelijke buren. Dit verstoort effectief lokale redundanties nabij ankers en moedigt het model aan robuustere, globaal geïnformeerde representaties te leren. Verder breiden wij de Dropout uit naar kleurattributen door willekeurig hogeregraads SH te droppen om verschijningsinformatie te concentreren in lageregraads SH. Deze strategie vermindert overfitting verder en maakt flexibele modelcompressie na training mogelijk via SH-afkapping. Experimentele resultaten tonen aan dat DropAnSH-GS bestaande Dropout-methoden aanzienlijk overtreft met verwaarloosbare rekenkosten, en eenvoudig kan worden geïntegreerd in verschillende 3DGS-varianten om hun prestaties te verbeteren. Projectwebsite: https://sk-fun.fun/DropAnSH-GS

De ontwerpruimte van driemodale gemaskeerde diffusiemodellen
The Design Space of Tri-Modal Masked Diffusion Models

Feb 25

ByLouis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram

Discrete diffusiemodellen zijn naar voren gekomen als sterke alternatieven voor autoregressieve taalmodelle, waarbij recent onderzoek een basis unimodaal model initialiseert en fine-tunt voor bimodale generatie. In tegenstelling tot eerdere benaderingen introduceren we het eerste driemodale gemaskeerde diffusiemodel dat vanaf nul is voorgetraind op tekst-, beeld-tekst- en audio-tekstgegevens. We analyseren systematisch multimodale schaalwetten, mengverhoudingen van modaliteiten, ruisschema's en batchgrootte-effecten, en we bieden geoptimaliseerde standaardinstellingen voor inferentie-steekproeven. Onze batchgrootte-analyse levert een nieuwe herparameterisatie op basis van stochastische differentiaalvergelijkingen (SDE's) op, die de noodzaak wegneemt om de optimale batchgrootte af te stemmen zoals gerapporteerd in recent werk. Deze herparameterisatie ontkoppelt de fysieke batchgrootte, vaak gekozen op basis van rekenbeperkingen (GPU-saturatie, FLOP-efficiëntie, wandkloktijd), van de logische batchgrootte, gekozen om de gradiëntvariantie tijdens stochastische optimalisatie in evenwicht te brengen. Ten slotte trainen we een voorlopig driemodaal model met 3B parameters voor op 6,4T tokens, waarbij we de mogelijkheden van een uniform ontwerp demonstreren en sterke resultaten behalen bij tekstgeneratie, tekst-naar-beeld taken en tekst-naar-spraak taken. Ons werk vertegenwoordigt de grootste systematische open studie van multimodale discrete diffusiemodellen die tot nu toe is uitgevoerd, en biedt inzichten in schaalgedrag over meerdere modaliteiten.

UniVBench: Op weg naar een uniforme evaluatie voor videofundamentmodellen
UniVBench: Towards Unified Evaluation for Video Foundation Models

Feb 25

ByJianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu

Videofundamentmodellen streven ernaar videobegrip, -generatie, -bewerking en instructie-opvolging te integreren binnen één enkel raamwerk, waardoor ze een centrale richting vormen voor de volgende generatie multimodale systemen. Bestaande evaluatiebenchmarks blijven echter gefragmenteerd en beperkt in reikwijdte, omdat ze elk gericht zijn op een enkele taak, gebruikmaken van taakspecifieke metrieken en doorgaans korte of eenvoudige videoclips gebruiken. Hierdoor vangen ze de verenigde capaciteiten die deze modellen moeten leveren niet. Om deze leemte te adresseren, introduceren we UniVBench, een benchmark die speciaal is ontwikkeld voor het evalueren van videofundamentmodellen op vier kernvaardigheden: videobegrip, videogeneratie, videobewerking en een nieuw voorgestelde taak, videoreconstructie, die beoordeelt hoe getrouw een model videocontent die het heeft verwerkt kan reproduceren. Onze benchmark vergroot de complexiteit van evaluatie aanzienlijk door 200 hoogwaardige, diverse en multi-shot video's te incorporeren, elk gekoppeld aan gedetailleerde bijschriften, bewerkingsinstructies in meerdere formaten en referentiebeelden. Alle video's zijn door mensen gemaakt en zorgvuldig gevalideerd, en bieden rijkere cinematografische informatie dan eerdere benchmarks. Daarnaast ontwikkelen we een verenigd agent-gebaseerd evaluatiesysteem (UniV-Eval) dat prompting, instructieparsing en scoring voor alle taken standaardiseert, waardoor eerlijke, schaalbare en reproduceerbare vergelijkingen van verenigde videomodellen mogelijk worden. Door evaluatie te verankeren in op instructies gebaseerde multi-shot videotaken, biedt UniVBench het eerste raamwerk voor het meten van de geïntegreerde capaciteiten die videofundamentmodellen nastreven. Uitgebreide menselijke annotaties zorgen ervoor dat onze evaluatie aansluit bij menselijk oordeel, wat rigoureuze beoordeling mogelijk maakt en de vooruitgang naar robuuste video-intelligentie versnelt.

Model Context Protocol (MCP) Toolbeschrijvingen Stinken! Op Weg Naar Verbeterde AI-Agent Efficiëntie met Verrijkte MCP Toolbeschrijvingen
Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

Feb 16

ByMohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan

Het Model Context Protocol (MCP) introduceert een standaardspecificatie die definieert hoe op Foundation Models (FM's) gebaseerde agenten moeten interageren met externe systemen door tools aan te roepen. Om echter het doel en de functies van een tool te begrijpen, zijn FM's afhankelijk van beschrijvingen in natuurlijke taal, waardoor deze beschrijvingen een cruciaal onderdeel vormen bij het leiden van FM's naar de optimale tool voor een bepaalde (deel)taak en het doorgeven van de juiste argumenten aan de tool. Hoewel gebreken of 'smells' in deze beschrijvingen FM-gebaseerde agenten kunnen misleiden, is de prevalentie en de gevolgen daarvan in het MCP-ecosysteem onduidelijk. Daarom onderzoeken wij empirisch 856 tools verspreid over 103 MCP-servers, beoordelen we de kwaliteit van hun beschrijvingen en hun impact op de prestaties van de agent. Wij identificeren zes componenten van toolbeschrijvingen uit de literatuur, ontwikkelen een beoordelingskader met behulp van deze componenten, en formaliseren vervolgens 'tool description smells' op basis van dit kader. Door dit kader operationeel te maken via een op een FM gebaseerde scanner, constateren we dat 97,1% van de geanalyseerde toolbeschrijvingen ten minste één 'smell' bevat, waarbij 56% er niet in slaagt hun doel duidelijk te vermelden. Hoewel het verbeteren van deze beschrijvingen voor alle componenten het slagingspercentage van taken met een mediaan van 5,85 procentpunt verhoogt en de gedeeltelijke doelvoltooiing met 15,12% verbetert, verhoogt het ook het aantal uitvoeringsstappen met 67,46% en leidt het in 16,67% van de gevallen tot prestatievermindering. Deze resultaten geven aan dat het behalen van prestatieverbeteringen niet eenvoudig is; hoewel uitvoeringskosten als afruil kunnen fungeren, kan ook de uitvoeringscontext van invloed zijn. Verder tonen componentablaties aan dat compacte varianten van verschillende componentcombinaties vaak de betrouwbaarheid van het gedrag behouden, terwijl ze onnodige token-overhead verminderen, wat een efficiënter gebruik van het FM-contextvenster en lagere uitvoeringskosten mogelijk maakt.

JAEGER: Gezamenlijke 3D Audiovisuele Verankering en Redenering in Gesimuleerde Fysieke Omgevingen
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Feb 20

ByZhan Liu, Changli Tang, Yuxin Wang, Zhiyuan Zhu, Youjun Chen, Yiwen Shao, Tianzi Wang, Lei Ke, Zengrui Jin, Chao Zhang

Huidige audiovisuele grote taalmodellen (AV-LLM's) zijn voornamelijk beperkt tot 2D-perceptie, waarbij ze vertrouwen op RGB-video en mono-audio. Deze ontwerpkeuze introduceert een fundamentele dimensionaliteitsmismatch die betrouwbare brontlocalisatie en ruimtelijk redeneren in complexe 3D-omgevingen verhindert. Wij pakken deze beperking aan door JAEGER te presenteren, een framework dat AV-LLM's uitbreidt naar de 3D-ruimte, om gezamenlijke ruimtelijke verankering en redenering mogelijk te maken door integratie van RGB-D-waarnemingen en meerkanaals first-order ambisonics. Een kernbijdrage van ons werk is de neurale intensiteitsvector (Neural IV), een aangeleerde ruimtelijke audio-representatie die robuuste directionele aanwijzingen codeert om richtingsschatting van aankomst te verbeteren, zelfs in ongunstige akoestische scenario's met overlappende bronnen. Om grootschalige training en systematische evaluatie mogelijk te maken, stellen we SpatialSceneQA voor, een benchmark met 61k instructie-afstemningsmonsters samengesteld uit gesimuleerde fysieke omgevingen. Uitgebreide experimenten tonen aan dat onze aanpak consistent de op 2D gerichte basislijnen overtreft bij diverse ruimtelijke perceptie- en redeneertaken, wat de noodzaak van expliciete 3D-modellering benadrukt voor de vooruitgang van AI in fysieke omgevingen. Onze broncode, vooraf getrainde modelcheckpoints en datasets zullen na acceptatie worden vrijgegeven.

ISO-Bench: Kunnen Codeer-Agents Real-World Inferentiewerkbelastingen Optimaliseren?
ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Feb 23

ByAyush Nangia, Shikhar Mishra, Aman Gokrani, Paras Chopra

Wij introduceren ISO-Bench, een benchmark voor codeer-agents om hun capaciteiten te testen op real-world optimalisatietaken voor inference. Deze taken zijn afkomstig uit vLLM en SGLang, twee van de populairste LLM-servingframeworks. Elke taak voorziet een agent van een codebase en een beschrijving van een knelpunt, waarbij de agent een optimalisatiepatch moet produceren die wordt geëvalueerd tegenover expert-oplossingen van mensen. Wij selecteerden 54 taken uit samengevoegde pull-requests met meetbare prestatieverbeteringen. Terwijl bestaande benchmarks zwaar leunen op runtime-gebaseerde metrieken, kunnen dergelijke benaderingen worden gemanipuleerd om tests te doorstaan zonder de werkelijke intentie van de codewijzigingen te vatten. Daarom combineren wij zowel harde (op uitvoering gebaseerde) als zachte (op LLM gebaseerde) metrieken om aan te tonen dat beide noodzakelijk zijn voor een complete evaluatie. Bij het evalueren van zowel closed-source als open-source codeer-agents, stellen wij vast dat geen enkele agent dominant is across codebases. Verrassend genoeg identificeren agents vaak de correcte knelpunten, maar slagen zij er niet in werkende oplossingen uit te voeren. Wij tonen ook aan dat agents met identieke onderliggende modellen aanzienlijk verschillen, wat suggereert dat de scaffolding even belangrijk is als het model zelf.

MoBind: Motion Binding voor Nauwkeurige IMU-Video Pose-uitlijning
MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Feb 22

ByDuc Duy Nguyen, Tat-Jun Chin, Minh Hoai

Wij streven naar het leren van een gezamenlijke representatie tussen signalen van traagheidsmeeteenheden (IMU's) en 2D-pose-reeksen geëxtraheerd uit video, om nauwkeurige cross-modale retrievel, temporele synchronisatie, lokalisatie van personen en lichaamsdelen, en actieherkenning mogelijk te maken. Hiertoe introduceren wij MoBind, een hiërarchisch contrastief leerraamwerk ontworpen om drie uitdagingen aan te pakken: (1) het filteren van irrelevante visuele achtergrond, (2) het modelleren van gestructureerde multi-sensor IMU-configuraties, en (3) het bereiken van fijnmazige, sub-seconde temporele alignering. Om beweging-relevante signalen te isoleren, aligneert MoBind IMU-signalen met skeletbewegingsreeksen in plaats van met ruwe pixels. We ontbinden volledige lichaamsbeweging verder in lokale trajecten van lichaamsdelen, waarbij we elk koppelen aan de bijbehorende IMU om semantisch gefundeerde multi-sensor alignering mogelijk te maken. Om gedetailleerde temporele correspondentie vast te leggen, hanteert MoBind een hiërarchische contrastieve strategie die eerst temporele segmenten op tokenniveau aligneert, en vervolgens lokale (lichaamsdeel) alignering fuseert met globale (volledige lichaams) bewegingaggregatie. Geëvalueerd op mRi, TotalCapture en EgoHumans, presteert MoBind consistent beter dan sterke baseline-methoden voor alle vier taken, en demonstreert robuuste fijnmazige temporele alignering terwijl grove semantische consistentie tussen modaliteiten behouden blijft. Code is beschikbaar op https://github.com/bbvisual/MoBind.

Kleine Taalmodellen voor Privacy-beschermende Extractie van Klinische Informatie in Talen met Beperkte Middelen
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Feb 24

ByMohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand

Het extraheren van klinische informatie uit medische transcripties in talen met weinig bronnen blijft een grote uitdaging binnen natuurlijke taalverwerking (NTV) in de gezondheidszorg. Deze studie evalueert een pijplijn in twee stappen die Aya-expanse-8B combineert als een Perzisch-Engels vertaalmodel met vijf open-source kleine taalmodellen (KTM's) -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct en Gemma-3-1B-it -- voor de binaire extractie van 13 klinische kenmerken uit 1.221 geanonimiseerde Perzische transcripties, verzameld bij een callcenter voor palliatieve kankerzorg. Met een few-shot promptingstrategie zonder fine-tuning werden de modellen beoordeeld op macro-gemiddelde F1-score, Matthews Correlatiecoëfficiënt (MCC), sensitiviteit en specificiteit om rekening te houden met klasse-onbalans. Qwen2.5-7B-Instruct behaalde de hoogste algehele prestatie (mediane macro-F1: 0,899; MCC: 0,797), terwijl Gemma-3-1B-it de zwakste resultaten liet zien. Grotere modellen (7B–8B parameters) presteerden consistent beter dan kleinere tegenhangers op sensitiviteit en MCC. Een tweetalige analyse van Aya-expanse-8B toonde aan dat het vertalen van Perzische transcripties naar het Engels de sensitiviteit verbeterde, ontbrekende outputs verminderde en metrieken die robuust zijn tegen klasse-onbalans verhoogde, zij het ten koste van een licht lagere specificiteit en precisie. Resultaten op kenmerkniveau lieten een betrouwbare extractie van fysiologische symptomen zien bij de meeste modellen, terwijl psychologische klachten, administratieve verzoeken en complexe somatische kenmerken uitdagend bleven. Deze bevindingen leggen een praktische, privacy-beschermende blauwdruk voor de inzet van open-source KTM's in meertalige klinische NTV-omgevingen met beperkte infrastructuur en annotatieressources, en benadrukken het belang van het gezamenlijk optimaliseren van modelschaal en invoertaalstrategie voor gevoelige gezondheidstoepassingen.

DM4CT: Prestatie-evaluatie van diffusiemodellen voor computertomografie-reconstructie
DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Feb 20

ByJiayang Shi, Daniel M. Pelt, K. Joost Batenburg

Diffusiemodellen zijn recent naar voren gekomen als krachtige a priori-informatie voor het oplossen van inverse problemen. Hoewel computertomografie (CT) theoretisch een lineair invers probleem is, brengt het veel praktische uitdagingen met zich mee. Deze omvatten gecorreleerde ruis, artefactstructuren, afhankelijkheid van de systeemgeometrie en verkeerd uitgelijnde waardebereiken, waardoor de directe toepassing van diffusiemodellen moeilijker is dan in domeinen zoals natuurlijke beeldgeneratie. Om systematisch te evalueren hoe diffusiemodellen zich in deze context presteren en ze te vergelijken met gevestigde reconstructiemethoden, introduceren we DM4CT, een uitgebreide benchmark voor CT-reconstructie. DM4CT omvat datasets uit zowel de medische als de industriële sector met sparse-view en ruis-configuraties. Om de uitdagingen van het in de praktijk brengen van diffusiemodellen te onderzoeken, verwerven we aanvullend een hoogresolutie CT-dataset van een hoogenergetische synchrotronfaciliteit en evalueren we alle methoden onder reële experimentele omstandigheden. We benchmarken tien recente op diffusie gebaseerde methoden naast zeven sterke baseline-methoden, inclusief modelgebaseerde, ongesuperviseerde en gesuperviseerde benaderingen. Onze analyse biedt gedetailleerde inzichten in het gedrag, de sterke punten en de beperkingen van diffusiemodellen voor CT-reconstructie. De real-world dataset is openbaar beschikbaar op zenodo.org/records/15420527, en de codebase is open source op github.com/DM4CT/DM4CT.

Yor-Sarc: Een gouden-standaard dataset voor sarcasmedetectie in een Afrikaanse taal met beperkte middelen
Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Feb 21

ByToheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov

Sarcasmedetectie vormt een fundamentele uitdaging in de computationele semantiek, waarbij modellen tegenstellingen tussen letterlijke en bedoelde betekenis moeten oplossen. De uitdaging wordt vergroot in talen met weinig bronnen, waar geannoteerde datasets schaars of niet-bestaand zijn. Wij presenteren Yor-Sarc, de eerste gouden-standaarddataset voor sarcasmedetectie in het Yorùbá, een tonale Niger-Congotaal die door meer dan 50 miljoen mensen wordt gesproken. De dataset omvat 436 instanties, geannoteerd door drie moedertaalsprekers met diverse dialectachtergronden, met behulp van een annotatieprotocol dat specifiek is ontworpen voor Yorùbá-sarcasme door cultuur in acht te nemen. Dit protocol omvat contextgevoelige interpretatie en door de gemeenschap geïnformeerde richtlijnen, en wordt vergezeld door een uitgebreide analyse van de interbeoordelaarsbetrouwbaarheid om replicatie in andere Afrikaanse talen te ondersteunen. Er werd een aanzienlijke tot bijna perfecte overeenstemming bereikt (Fleiss' κ=0,7660; paarsgewijze Cohen's κ=0,6732–0,8743), met 83,3% unanieme consensus. Eén paar annotatoren bereikte bijna perfecte overeenstemming (κ=0,8743; 93,8% ruwe overeenstemming), wat een aantal gerapporteerde benchmarks voor Engels sarcasmeonderzoek overtreft. De overige 16,7% meerderheidsovereenstemmingsgevallen worden bewaard als zachte labels voor onzekerheidsbewuste modellering. Yor-Sarc (https://github.com/toheebadura/yor-sarc) wordt verwacht onderzoek te vergemakkelijken naar semantische interpretatie en cultureel geïnformeerde NLP voor Afrikaanse talen met weinig bronnen.

De Waarachtigheidsspectrumhypothese
The Truthfulness Spectrum Hypothesis

Feb 23

ByZhuofan Josh Ying, Shauli Ravfogel, Nikolaus Kriegeskorte, Peter Hase

Grote taalmodellen (LLM's) zouden waarheidsgetrouwheid lineair coderen, maar recent onderzoek trekt de algemene geldigheid van deze bevinding in twijfel. Wij verzoenen deze perspectieven met de hypothese van het waarheidsspectrum: de representatieruimte bevat richtingen die variëren van breed domeingeneriek tot smal domeinspecifiek. Om deze hypothese te testen, evalueren we systematisch de generalisatie van probes over vijf waarheidstypen (definitie, empirisch, logisch, fictie en ethisch), sycophantisch liegen en liegen met omgekeerde verwachtingen, en bestaande eerlijkheidsbenchmarks. Lineaire probes generaliseren goed over de meeste domeinen, maar falen bij sycophantisch liegen en liegen met omgekeerde verwachtingen. Training op alle domeinen gezamenlijk herstelt echter sterke prestaties, wat bevestigt dat domeingenerieke richtingen bestaan ondanks slechte pairwise transfer. De geometrie van proberichtingen verklaart deze patronen: Mahalanobis-cosinusgelijkenis tussen probes voorspelt kruisdomeingeneralisatie bijna perfect (R²=0.98). Concept-uitwismethoden isoleren verder waarheidsrichtingen die (1) domeingeneriek, (2) domeinspecifiek, of (3) alleen gedeeld worden door bepaalde domeinsubsets zijn. Causale interventies tonen aan dat domeinspecifieke richtingen effectiever sturen dan domeingenerieke. Ten slotte hervormt post-training de waarheidsgeometrie, waarbij sycophantisch liegen verder van andere waarheidstypen wordt geduwd, wat een representatiebasis suggereert voor de sycophantische neigingen van chatmodellen. Samen ondersteunen onze resultaten de hypothese van het waarheidsspectrum: waarheidsrichtingen van uiteenlopende generaliteit bestaan naast elkaar in de representatieruimte, waarbij post-training hun geometrie hervormt. Code voor alle experimenten is beschikbaar op https://github.com/zfying/truth_spec.

NoLan: Het verminderen van objecthallucinaties in grote visueel-taalmiddelen door dynamische onderdrukking van taalpriors
NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Feb 25

ByLingfeng Ren, Weihao Yu, Runpeng Yu, Xinchao Wang

Object hallucinatie is een kritiek probleem in grote visueel-taalmodelen (LVLM's), waarbij uitvoeren objecten bevatten die niet in de invoerafbeelding voorkomen. Uit dit fenomeen rijst een natuurlijke vraag: Welke component van de LVLM-pijplijn draagt primair bij aan object hallucinaties? De visuele encoder voor het waarnemen van visuele informatie, of de taaldecoder voor het genereren van tekstuele antwoorden? In dit werk streven we ernaar deze vraag te beantwoorden door een systematisch experiment op te zetten om de rollen van de visuele encoder en de taaldecoder bij het genereren van hallucinaties te analyseren. Onze observaties tonen aan dat object hallucinaties voornamelijk verband houden met de sterke prioria van de taaldecoder. Gebaseerd op deze bevinding stellen we een eenvoudig en trainingsvrij raamwerk voor, No-Language-Hallucination Decoding (NoLan), dat de uitvoerdistributie verfijnt door taalprioria dynamisch te onderdrukken, gemoduleerd op basis van het verschil in uitvoerdistributie tussen multimodale en alleen-tekst invoeren. Experimentele resultaten tonen aan dat NoLan object hallucinaties effectief reduceert in diverse LVLM's bij verschillende taken. Zo behaalt NoLan aanzienlijke verbeteringen op POPE, waarbij de nauwkeurigheid van LLaVA-1.5 7B en Qwen-VL 7B respectievelijk met maximaal 6,45 en 7,21 wordt verhoogd. De code is openbaar beschikbaar op: https://github.com/lingfengren/NoLan.

Functionele Continue Ontbinding
Functional Continuous Decomposition

Feb 24

ByTeymur Aghayev

De analyse van niet-stationaire tijdreeksgegevens vereist inzicht in zowel lokale als globale patronen met fysische interpreteerbaarheid. Traditionele gladstrijkalgoritmen, zoals B-splines, Savitzky-Golay-filtering en Empirical Mode Decomposition (EMD), zijn echter niet in staat tot parametrische optimalisatie met gegarandeerde continuïteit. In dit artikel introduceren we Functionele Continue Decompositie (FCD), een met JAX versneld raamwerk dat parametrische, continue optimalisatie uitvoert op een breed scala van wiskundige functies. Door gebruik te maken van Levenberg-Marquardt-optimalisatie om een C^1 continue fitting te bereiken, zet FCD ruwe tijdreeksgegevens om in M modi die verschillende temporele patronen vastleggen, van kortetermijn- tot langetermijntrends. Toepassingen van FCD omvatten fysica, geneeskunde, financiële analyse en machine learning, waar het algemeen wordt gebruikt voor de analyse van temporele signaalpatronen, geoptimaliseerde parameters, afgeleiden en integralen van decompositie. Verder kan FCD worden toegepast voor fysische analyse en feature-extractie met een gemiddelde SRMSE van 0,735 per segment en een snelheid van 0,47s voor volledige decompositie van 1.000 punten. Ten slotte tonen we aan dat een Convolutioneel Neuraal Netwerk (CNN) verrijkt met FCD-features, zoals geoptimaliseerde functiewaarden, parameters en afgeleiden, 16,8% snellere convergentie en 2,5% hogere nauwkeurigheid bereikte vergeleken met een standaard CNN.

Intent Laundering: AI-veiligheidsdatasets zijn niet wat ze lijken
Intent Laundering: AI Safety Datasets Are Not What They Seem

Feb 17

ByShahriar Golchin, Marc Wetter

Wij evalueren systematisch de kwaliteit van veelgebruikte AI-veiligheidsdatasets vanuit twee perspectieven: in isolatie en in de praktijk. In isolatie onderzoeken we in hoeverre deze datasets real-world adversarial attacks weerspiegelen op basis van drie kerneigenschappen: gedreven door een verborgen agenda, zorgvuldig geconstrueerd, en out-of-distribution. Wij constateren dat deze datasets te veel vertrouwen op "triggermechanismen": woorden of zinsdelen met overduidelijke negatieve/gevoelige connotaties die bedoeld zijn om veiligheidsmechanismen expliciet te activeren, wat onrealistisch is in vergelijking met echte aanvallen. In de praktijk evalueren we of deze datasets daadwerkelijk veiligheidsrisico's meten of slechts weigeringen uitlokken via triggermechanismen. Om dit te onderzoeken, introduceren we "intent laundering": een procedure die triggermechanismen abstraheert van adversarial attacks (datapunten) terwijl de kwaadwillende intentie en alle relevante details strikt behouden blijven. Onze resultaten tonen aan dat huidige AI-veiligheidsdatasets geen getrouwe weergave bieden van real-world adversarial gedrag vanwege hun overmatige afhankelijkheid van triggermechanismen. Zodra deze mechanismen worden verwijderd, worden alle eerder geëvalueerde "redelijk veilige" modellen onveilig, inclusief Gemini 3 Pro en Claude Sonnet 3.7. Bovendien, wanneer intent laundering wordt aangepast als jailbreaking-techniek, behaalt het consistent hoge aanvalssuccesspercentages, variërend van 90% tot meer dan 98%, onder volledig black-box toegang. Over het geheel genomen leggen onze bevindingen een significante kloof bloot tussen hoe modelsafety wordt geëvalueerd door bestaande datasets en hoe echte tegenstanders zich gedragen.