HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

34 papers found

Van Vaardigheden naar Talent: Het Organiseren van Heterogene Agenten als een Real-World Bedrijf
From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

Apr 24

ByZhengxu Yu, Yu Fu, Zhiyuan He, Yuxuan Huang, Lee Ka Yiu, Meng Fang, Weilin Luo, Jun Wang

Hoewel de mogelijkheden van individuele agents snel zijn gevorderd door modulaire vaardigheden en toolintegraties, worden multi-agent systemen nog steeds beperkt door vaste teamstructuren, sterk gekoppelde coördinatielogica en sessiegebonden leren. Wij stellen dat dit een dieperliggende afwezigheid weerspiegelt: een principieel organisatielaag die bepaalt hoe een werkkracht van agents wordt samengesteld, bestuurd en verbeterd over tijd, losgekoppeld van wat individuele agents weten. Om deze leemte op te vullen, introduceren wij OneManCompany (OMC), een raamwerk dat multi-agent systemen verheft naar het organisatieniveau. OMC verpakt vaardigheden, tools en runtime-configuraties in draagbare agentidentiteiten, Talenten genaamd, die worden georkestreerd via getypeerde organisatorische interfaces die abstractie bieden boven heterogene backends. Een gemeenschapsgedreven Talentenmarkt maakt recruitment op aanvraag mogelijk, waardoor de organisatie in staat is om capaciteitshiaten te dichten en zichzelf dynamisch te herconfigureren tijdens uitvoering. Organisatorische besluitvorming wordt geoperationaliseerd via een Explore-Execute-Review (E²R) boomzoekactie, die planning, uitvoering en evaluatie verenigt in een enkele hiërarchische lus: taken worden van boven naar beneden afgebroken in verantwoordelijke eenheden en uitvoeringsresultaten worden van onder naar boven geaggregeerd om systematische review en verfijning aan te sturen. Deze lus biedt formele garanties voor beëindiging en deadlockvrijheid, terwijl ze de feedbackmechanismen van menselijke ondernemingen weerspiegelt. Gezamenlijk transformeren deze bijdragen multi-agent systemen van statische, vooraf geconfigureerde pijplijnen naar zelforganiserende en zelfverbeterende AI-organisaties die in staat zijn zich aan te passen aan open-ended taken in diverse domeinen. Empirische evaluatie op PRDBench toont aan dat OMC een slagingspercentage van 84,67% behaalt, wat de state-of-the-art met 15,48 procentpunten overtreft, waarbij casestudies across domeinen de generaliseerbaarheid verder aantonen.

World-R1: Versterking van 3D-beperkingen voor tekst-naar-video-generatie
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Apr 27

ByWeijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang

Recente videofundamentmodellen tonen indrukwekkende visuele synthese, maar lijden vaak aan geometrische inconsistenties. Hoewel bestaande methoden proberen 3D-prioriteiten in te brengen via architecturale aanpassingen, brengen deze vaak hoge computationele kosten met zich mee en beperken ze de schaalbaarheid. Wij presenteren World-R1, een raamwerk dat videogeneratie afstemt op 3D-beperkingen door middel van reinforcement learning. Om deze afstemming te vergemakkelijken, introduceren we een gespecialiseerde pure tekstdataset toegesneden op wereldsimulatie. Met behulp van Flow-GRPO optimaliseren we het model met feedback van vooraf getrainde 3D-fundamentmodellen en vision-language modellen om structurele samenhang af te dwingen zonder de onderliggende architectuur aan te passen. We hanteren verder een periodieke ontkoppelde trainingsstrategie om rigide geometrische consistentie in evenwicht te brengen met dynamische scènevloeiendheid. Uitgebreide evaluaties tonen aan dat onze aanpak de 3D-consistentie aanzienlijk verbetert terwijl de oorspronkelijke visuele kwaliteit van het fundamentmodel behouden blijft, waardoor de kloof tussen videogeneratie en schaalbare wereldsimulatie effectief wordt overbrugd.

ReVSI: Herstructurering van de Evaluatie van Visueel Ruimtelijk Inzicht voor een Nauwkeurige Beoordeling van 3D-redeneren in Visueel-Taalmodellen
ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Apr 27

ByYiming Zhang, Jiacheng Chen, Jiaqi Tan, Yongsen Mao, Wenhu Chen, Angel X. Chang

Huidige evaluaties van ruimtelijke intelligentie kunnen systematisch ongeldig zijn onder moderne vision-language model (VLM) instellingen. Ten eerste zijn veel benchmarks afgeleid van vraag-antwoord (QA) paren op basis van point-cloud-gebaseerde 3D-annotaties die oorspronkelijk zijn samengesteld voor traditionele 3D-perceptie. Wanneer dergelijke annotaties als grondwaarheid worden behandeld voor videogebaseerde evaluatie, kunnen reconstructie- en annotatiefouten objecten missen die duidelijk zichtbaar zijn in de video, objectidentiteiten verkeerd labelen of geometrie-afhankelijke antwoorden (bijvoorbeeld grootte) corrumperen, wat resulteert in incorrecte of dubbelzinnige QA-paren. Ten tweede gaan evaluaties vaak uit van volledige toegang tot de scène, terwijl veel VLMs werken op spaarzaam bemonsterde frames (bijvoorbeeld 16-64), waardoor veel vragen in feite onbeantwoordbaar zijn onder de werkelijke modelinputs. Wij verbeteren de evaluatievaliditeit door ReVSI te introduceren, een benchmark en protocol dat ervoor zorgt dat elk QA-paar antwoordbaar en correct is onder de werkelijke inputs van het model. Hiertoe herannoteren wij objecten en geometrie in 381 scènes uit 5 datasets om de datakwaliteit te verbeteren, en regenereren wij alle QA-paren met rigoureuze bias-mitigatie en menselijke verificatie met professionele 3D-annotatietools. Wij vergroten verder de evaluatiebeheersbaarheid door varianten aan te bieden over meerdere framebudgetten (16/32/64/alle) en fijnmazige metadata over objectzichtbaarheid, wat gecontroleerde diagnostische analyses mogelijk maakt. Evaluaties van algemene en domeinspecifieke VLMs op ReVSI onthullen systematische faalmodi die verborgen blijven in eerdere benchmarks, wat resulteert in een betrouwbaardere en meer diagnostische beoordeling van ruimtelijke intelligentie.

Tuna-2: Pixel-embeddingen verslaan visuele encoders voor multimodaal begrip en generatie
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Apr 27

ByZhiheng Liu, Weiming Ren, Xiaoke Huang, Shoufa Chen, Tianhong Li, Mengzhao Chen, Yatai Ji, Sen He, Jonas Schult, Belinda Zeng, Tao Xiang, Wenhu Chen, Ping Luo, Luke Zettlemoyer, Yuren Cong

Unified multimodale modellen maken doorgaans gebruik van vooraf getrainde visuele encoders en hanteren afzonderlijke visuele representaties voor begrip en generatie, wat een mismatch creëert tussen beide taken en end-to-end-optimalisatie vanaf ruwe pixels verhindert. Wij introduceren Tuna-2, een native unified multimodaal model dat visueel begrip en generatie direct uitvoert op basis van pixel-embeddings. Tuna-2 vereenvoudigt de modelarchitectuur aanzienlijk door eenvoudige patch-embeddinglagen te gebruiken voor visuele invoercodering, waarbij modulaire visuele encoder-ontwerpen zoals VAE of representatie-encoders volledig worden losgelaten. Experimenten tonen aan dat Tuna-2 state-of-the-art prestaties behaalt in multimodale benchmarks, wat aantoont dat unified modellering in de pixelruimte volledig kan concurreren met latentruimte-benaderingen voor hoogwaardige beeldgeneratie. Bovendien bereikt het encoder-vrije ontwerp van Tuna-2, hoewel de encoder-variant sneller convergeert in de vroege trainingsfase, op grotere schaal een sterker multimodaal begrip, met name bij taken die fijnmazige visuele waarneming vereisen. Deze resultaten tonen aan dat vooraf getrainde visuele encoders niet noodzakelijk zijn voor multimodale modellering, en dat end-to-end leren in de pixelruimte een schaalbare weg biedt naar sterkere visuele representaties voor zowel generatie als perceptie.

Visie-Taal-Actie Veiligheid: Bedreigingen, Uitdagingen, Evaluaties en Mechanismen
Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Apr 26

ByQi Li, Bo Yin, Weiqi Huang, Ruhao Liu, Bojun Zou, Runpeng Yu, Jingwen Ye, Weihao Yu, Xinchao Wang

Vision-Language-Action (VLA)-modellen ontstaan als een uniform substraat voor belichaamde intelligentie. Deze verschuiving brengt een nieuwe klasse van veiligheidsuitdagingen met zich mee, die voortvloeien uit de belichaamde aard van VLA-systemen. Deze omvatten onomkeerbare fysieke gevolgen, een multimodaal aanvalsoppervlak over visie, taal en toestand, real-time latentiebeperkingen voor verdediging, foutpropagatie over langetermijntrajecten en kwetsbaarheden in de datatoevoerketen. Desalniettemin blijft de literatuur gefragmenteerd over robotica-leren, adversarial machine learning, AI-alignment en veiligheid van autonome systemen. Dit overzichtsartikel biedt een uniform en actueel overzicht van veiligheid in Vision-Language-Action-modellen. We structuren het vakgebied langs twee parallelle timingassen: aanvalstiming (tijdens training vs. tijdens inferentie) en verdedigingstiming (tijdens training vs. tijdens inferentie), waarbij we elke klasse van bedreiging koppelen aan het stadium waarin deze kan worden gemitigeerd. We definiëren eerst de reikwijdte van VLA-veiligheid, onderscheiden deze van de veiligheid van tekstuele LLM's en klassieke robotveiligheid, en bespreken de fundamenten van VLA-modellen, inclusief architecturen, trainingsparadigma's en inferentiemechanismen. Vervolgens onderzoeken we de literatuur door vier lenzen: Aanvallen, Verdedigingen, Evaluatie en Implementatie. We bespreken bedreigingen tijdens de training, zoals data poisoning en backdoors, evenals aanvallen tijdens inferentie, waaronder adversarial patches, cross-modale perturbaties, semantische jailbreaks en freezing-aanvallen. We behandelen verdedigingen tijdens training en runtime, analyseren bestaande benchmarks en metrieken, en bespreken veiligheidsuitdagingen in zes implementatiedomeinen. Ten slotte belichten we belangrijke open problemen, waaronder gecertificeerde robuustheid voor belichaamde trajecten, fysiek realiseerbare verdedigingen, veiligheidsbewuste training, uniforme runtime-veiligheidsarchitecturen en gestandaardiseerde evaluatie.

ClawMark: Een Leefwereld-Benchmark voor Multiturn-, Multidag-, Multimodale Collega-Agenten
ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Apr 26

ByFanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu, Jiaqi Liao, Chonghe Jiang, Zhenglin Wan, Jiawei Gu, Pengfei Zhou, Rui Huang, Ziqi Zhao, Shengyuan Ding, Ailing Yu, Bo Peng, Bowei Xia, Hao Sun, Haotian Liang, Ji Xie, Jiajun Chen, Jiajun Song, Liu Yang, Ming Xu, Qionglin Qiu, Runhao Fu, Shengfang Zhai, Shijian Wang, Tengfei Ma, Tianyi Wu, Weiyang Jin, Yan Wang, Yang Dai, Yao Lai, Youwei Shu, Yue Liu, Yunzhuo Hao, Yuwei Niu, Jinkai Huang, Jiayuan Zhuo, Zhennan Shen, Linyu Wu, Cihang Xie, Yuyin Zhou, Jiaheng Zhang, Zeyu Zheng, Mengkang Hu, Michael Qizhe Shieh

Taalmodelagenten worden steeds vaker ingezet als permanente collega's die gebruikers ondersteunen gedurende meerdere werkdagen. Tijdens dergelijke workflows kan de omgeving onafhankelijk van de agent veranderen: nieuwe e-mails arriveren, agenda-afspraken verschuiven, kennisbankrecords worden bijgewerkt, en er duikt bewijs op in afbeeldingen, gescande PDF's, audio, video en spreadsheets. Bestaande benchmarks evalueren deze setting niet adequaat omdat ze typisch binnen een enkele statische episode draaien en grotendeels tekstgericht blijven. Wij introduceren , een benchmark voor collega-agenten, opgebouwd rond meerdaagse taken met meerdere interacties, een stateful gesandboxte service-omgeving waarvan de staat tussen interacties evolueert, en op regels gebaseerde verificatie. De huidige release bevat 100 taken verspreid over 13 professionele scenario's, uitgevoerd tegen vijf stateful gesandboxte services (bestandssysteem, e-mail, agenda, kennisbank, spreadsheet) en beoordeeld door 1537 deterministische Python-checkers op de service-staat na uitvoering; er wordt geen LLM-as-judge gebruikt tijdens de scoring. Wij benchmarken zeven frontier agentsystemen. Het sterkste model behaalt een gewogen score van 75.8, maar de beste strikte Taaksucces is slechts 20.0%, wat aangeeft dat gedeeltelijke vooruitgang gebruikelijk is terwijl volledige end-to-end workflowvoltooiing zeldzaam blijft. Analyse op interactieniveau toont aan dat de prestaties afnemen na de eerste exogene omgevingsupdate, wat aanpassing aan veranderende staat benadrukt als een belangrijke open uitdaging. Wij publiceren de benchmark, het evaluatieraamwerk en de constructiepipeline om reproduceerbare evaluatie van collega-agenten te ondersteunen.

SketchVLM: Vision Language Models kunnen afbeeldingen annoteren om gedachten uit te leggen en gebruikers te begeleiden.
SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Apr 23

ByBrandon Collins, Logan Bolton, Hung Huy Nguyen, Mohammad Reza Taesiri, Trung Bui, Anh Totti Nguyen

Bij het beantwoorden van vragen over afbeeldingen wijzen, labelen en tekenen mensen van nature om hun redenering toe te lichten. Moderne vision-language-modellen (VLM's) zoals Gemini-3-Pro en GPT-5 reageren daarentegen alleen met tekst, wat voor gebruikers moeilijk te verifiëren kan zijn. Wij presenteren SketchVLM, een trainingsvrij, model-agnostisch framework dat VLM's in staat stelt om niet-destructieve, bewerkbare SVG-overlays op de invoerafbeelding te produceren om hun antwoorden visueel toe te lichten. Over zeven benchmarks voor visueel redeneren (doolhofnavigatie, trajectvoorspelling van vallende ballen en objectentelling) en tekenen (onderdeellabeling, verbinden-van-punten en tekenen van vormen rond objecten) verbetert SketchVLM de nauwkeurigheid van visuele redeneertaken met tot +28,5 procentpunt en de annotatiekwaliteit met tot 1,48x ten opzichte van beeldbewerkings- en gefinetunede teken-baselines, terwijl het ook annotaties produceert die trouwer zijn aan het door het model gegeven antwoord. Wij constateren dat generatie in één stap reeds een hoge nauwkeurigheid en annotatiekwaliteit bereikt, en dat generatie in meerdere stappen verdere mogelijkheden voor mens-AI-samenwerking opent. Een interactieve demo en code zijn beschikbaar op https://sketchvlm.github.io/.

Het belonen van het wetenschappelijke proces: Procesniveau-beloningsmodellering voor agent-gedreven data-analyse
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Apr 27

ByZhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen

Procesbeloningsmodellen (PRM's) hebben opmerkelijke successen geboekt bij het verbeteren van de redeneercapaciteiten van grote taalmodellen (LLM's) in statische domeinen zoals wiskunde. Hun potentieel in dynamische data-analysetaken blijft echter onderbelicht. In dit werk presenteren we eerst een empirische studie die aantoont dat algemene-domein-PRM's moeite hebben om data-analyse-agents te begeleiden. Specifiek slagen zij er niet in om stille fouten – logische fouten die incorrecte resultaten opleveren zonder interpreter-uitzonderingen te triggeren – te detecteren, en bestraffen zij ten onrechte verkennende acties, waarbij zij noodzakelijke trial-and-error-verkenning verwarren met grondslagfouten. Om deze kloof te overbruggen, introduceren we DataPRM, een nieuw, omgevingsbewust generatief procesbeloningsmodel dat (1) kan dienen als een actieve verifier, die autonoom met de omgeving interageert om tussenliggende uitvoeringsstatussen te onderzoeken en stille fouten bloot te leggen, en (2) een reflectiebewuste ternaire beloningsstrategie hanteert die onderscheid maakt tussen corrigeerbare grondslagfouten en onherstelbare fouten. We ontwerpen een schaalbare pijplijn om meer dan 8K hoogwaardige trainingsinstanties voor DataPRM te construeren via diversiteit-gestuurde trajectgeneratie en kennis-aangevulde stap-voor-stap-annotatie. Experimentele resultaten tonen aan dat DataPRM downstream policy-LLM's verbetert met 7,21% op ScienceAgentBench en 11,28% op DABStep bij gebruik van Best-of-N inferentie. Opmerkelijk is dat DataPRM, met slechts 4B parameters, sterke baseline-modellen overtreft en robuuste generaliseerbaarheid vertoont over diverse Test-Time Scaling-strategieën. Bovendien leidt de integratie van DataPRM in Reinforcement Learning tot substantiële winsten ten opzichte van outcome-reward-baselines, met scores van 78,73% op DABench en 64,84% op TableBench, wat de effectiviteit van procesbeloningssupervisie valideert. Code is beschikbaar op https://github.com/zjunlp/DataMind.

For-Value: Efficiënte Forward-Only Datawaardebepaling voor het Finetunen van LLM's en VLM's
For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Apr 25

ByWenlong Deng, Qi Zeng, Jiaming Zhang, Minghui Chen, Zixin Ding, Christos Thrampoulidis, Boying Gong, Xiaoxiao Li

Datavaluatie is essentieel voor het verbeteren van de transparantie en verantwoordingsplicht van grote taalmodellen (LLM's) en visueel-taalkundige modellen (VLM's). Bestaande methoden zijn echter typisch afhankelijk van gradientberekeningen, wat ze rekenkundig onhaalbaar maakt voor modellen met miljarden parameters en batch-parallelisatie verhindert. In dit werk introduceren we For-Value, een forward-only datavaluatiekader dat efficiënte, batch-schaalbare waardeschatting mogelijk maakt met behoud van effectiviteit. Door gebruik te maken van de expressieve kracht van vooraf getrainde LLM's/VLM's, tonen we theoretisch aan dat datavaluatie kan worden vastgelegd door de alignering tussen de laatste verborgen representaties en voorspellingsfouten in de laatste laag. Vanuit dit inzicht berekent For-Value datawaarde met een eenvoudige gesloten uitdrukking in een enkele forward pass, waardoor de noodzaak voor kostbare backpropagatie wordt geëlimineerd en efficiënte batchberekening op grote schaal mogelijk wordt. Uitgebreide experimenten tonen aan dat For-Value gelijke tred houdt met of beter presteert dan gradient-gebaseerde baseline-methoden bij het detecteren van invloedrijke data en fout gelabelde data, terwijl het aanzienlijke efficiëntieverbeteringen bereikt.

Het temmen van actor-waarnemer-asymmetrie in agenten via dialectische afstemming
Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

Apr 21

ByBobo Li, Rui Wu, Zibo Ji, Meishan Zhang, Hao Fei, Min Zhang, Mong-Li Lee, Wynne Hsu

Grote-taalmodelagenten zijn snel geëvolueerd van statische tekstgeneratoren naar dynamische systemen die complexe autonome workflows kunnen uitvoeren. Om de betrouwbaarheid te vergroten, worden steeds vaker multi-agentframeworks geadopteerd die gespecialiseerde rollen toekennen om zelfreflectie en onderlinge auditing mogelijk te maken. Hoewel dergelijk rollenspel effectief gebruikmaakt van domeinexpertkennis, ontdekken wij dat het tegelijkertijd een menselijke cognitieve bias induceert, bekend als Actor-Observer Asymmetrie (AOA). Concreet: een agent die als actor optreedt (tijdens zelfreflectie) heeft de neiging om fouten toe te schrijven aan externe factoren, terwijl een observer (tijdens onderlinge auditing) dezelfde fouten toeschrijft aan interne tekortkomingen. Wij kwantificeren dit met behulp van onze nieuwe Ambiguous Failure Benchmark, welke aantoont dat het louter wisselen van perspectief het AOA-effect activeert in meer dan 20% van de gevallen voor de meeste modellen. Om deze bias te beteugelen, introduceren wij ReTAS (Redeneren via These-Antithese-Synthese), een model dat getraind is door middel van dialectische alignering om perspectief-invariante redenering af te dwingen. Door een dialectische keten van denken te integreren met Group Relative Policy Optimization, leidt ReTAS agenten ertoe om conflicterende gezichtspunten te synthetiseren tot een objectieve consensus. Experimenten tonen aan dat ReTAS effectief attributie-inconsistentie vermindert en de foutoplossingspercentages in ambigue scenario's significant verbetert.

Efficiënte Agent-evaluatie via Diversiteit-gestuurde Gebruikerssimulatie
Efficient Agent Evaluation via Diversity-Guided User Simulation

Apr 23

ByItay Nakash, George Kour, Ateret Anaby-Tavor

Grootschalige taalmodelen (LLM's) worden steeds vaker ingezet als klantgerichte agents, maar het evalueren van hun betrouwbaarheid blijft een uitdaging vanwege de stochastische, multi-turn interacties. Huidige evaluatieprotocollen baseren zich op lineaire Monte Carlo-rollouts van volledige agent-gebruiker gesprekken om de succeskans te schatten. Deze aanpak is echter computationeel inefficiënt, omdat identieke vroege gespreksprefixen herhaaldelijk worden gegenereerd, en slaagt er vaak niet in diepe foutmodi bloot te leggen die ontstaan door zeldzaam gebruikersgedrag. Wij introduceren DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), een efficiënt, op snapshots gebaseerd, coverage-gestuurd gebruikerssimulatiekader voor de systematische verkenning van agent-gebruiker interacties. DIVERT legt de volledige agent-omgevingstoestand vast op kritieke beslispunten en hervat de uitvoering vanaf deze snapshots. Dit maakt hergebruik van gedeelde gespreksprefixen mogelijk en vermindert redundante berekeningen. Vanaf elk kruispunt vertakt het kader zich met behulp van gerichte, diversiteit-inducerende gebruikersreacties, wat gerichte verkenning van alternatieve interactiepaden toelaat. Door de evaluatie te richten op semantisch diverse en onderbelichte trajecten, verbetert DIVERT zowel de efficiëntie als de dekking. Empirische resultaten tonen aan dat het meer fouten ontdekt per token in vergelijking met standaard lineaire rollout-protocollen, terwijl het de set taken waarop fouten worden geïdentificeerd, uitbreidt.

OmniShotCut: Holistische Relationele Shotgrensdetectie met Shot-Query Transformer
OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer

Apr 27

ByBoyang Wang, Guangyi Xu, Zhipeng Tang, Jiahui Zhang, Zezhou Cheng

Shot Boundary Detection (SBD) heeft als doel om automatisch shotovergangen te identificeren en een video in samenhangende shots te verdelen. Hoewel SBD uitgebreid is bestudeerd in de literatuur, produceren bestaande state-of-the-art methoden vaak niet-interpreteerbare grenzen bij overgangen, missen ze subtiele maar schadelijke discontinuïteiten, en zijn ze afhankelijk van onnauwkeurige, weinig diverse annotaties en verouderde benchmarks. Om deze beperkingen te verlichten, stellen we OmniShotCut voor, dat SBD formuleert als gestructureerde relationele voorspelling, waarbij shotreeksen gezamenlijk worden geschat met intra-shot relaties en inter-shot relaties, door middel van een op shot-queries gebaseerde dense video Transformer. Om onnauwkeurige handmatige labeling te vermijden, hanteren we een volledig synthetisch overgangssyntheseproces dat automatisch de belangrijkste overgangsfamilies reproduceert met precieze grenzen en geparametriseerde varianten. We introduceren tevens OmniShotCutBench, een moderne, breed-domein benchmark die holistische en diagnostische evaluatie mogelijk maakt.

Waarom finetunen hallucinaties aanmoedigt en hoe dit op te lossen
Why Fine-Tuning Encourages Hallucinations and How to Fix It

Apr 16

ByGuy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz

Grote taalmodelen hebben de neiging tot het hallucineren van feitelijk onjuiste beweringen. Een belangrijke bron van deze fouten is blootstelling aan nieuwe feitelijke informatie door supervised fine-tuning (SFT), wat hallucinaties kan doen toenemen ten opzichte van kennis die tijdens de pre-training is verworven. In dit werk onderzoeken we of door SFT geïnduceerde hallucinaties kunnen worden verminderd met gevestigde technieken uit de literatuur over continu leren, aangezien ze ontstaan als bijproduct van kennisdegradatie tijdens de training. Wij stellen een op zelf-distillatie gebaseerde SFT-methode voor die effectief feitelijk leren mogelijk maakt en tegelijkertijd hallucinaties ten opzichte van bestaande kennis minimaliseert door drift in de outputverdeling te regulariseren. Wij tonen ook aan dat, in situaties waar het verwerven van nieuwe kennis niet nodig is, het onderdrukken van feitelijke plasticiteit door parametersecties te bevriezen, de taakprestaties kan behouden terwijl hallucinaties worden verminderd. Ten slotte onderzoeken we het mechanisme achter door SFT geïnduceerde hallucinaties aan de hand van drie hypothesen: capaciteitsbeperkingen, gedragsklonering en gelokaliseerde interferentie. Onze experimenten tonen aan dat een belangrijke drijvende kracht interferentie tussen overlappende semantische representaties is, en dat zelf-distillatie slaagt door deze interferentie te verminderen.

Sapiens2
Sapiens2

Apr 23

ByRawal Khirodkar, He Wen, Julieta Martinez, Yuan Dong, Su Zhaoen, Shunsuke Saito

Wij presenteren Sapiens2, een modellenfamilie van high-resolution transformers voor mensgerichte beeldverwerking, gericht op generalisatie, veelzijdigheid en hoogwaardige resultaten. Onze modellen variëren in grootte van 0,4 tot 5 miljard parameters, met een native resolutie van 1K en hiërarchische varianten die 4K ondersteunen. Sapiens2 verbetert zijn voorganger aanzienlijk in zowel voorafgaande als nabehandelingstraining. Ten eerste combineren we gemaskeerde reconstructie van beelden met zelf-gedistilleerde contrastieve doelen om kenmerken te leren die zowel laagwaardige details (voor dichte voorspelling) als hoogwaardige semantiek (voor zero-shot of few-label instellingen) vastleggen. Onze evaluaties tonen aan dat deze verenigde pretrainingsdoelstelling beter geschikt is voor een breder scala aan downstreamtaken. Ten tweede pretrainen we langs de data-as op een gecureerde dataset van 1 miljard hoogwaardige mensbeelden en verbeteren we de kwaliteit en hoeveelheid van taakannotaties. Ten derde integreren we architectonische verbeteringen van frontiermodellen die langere trainingsschema's met verbeterde stabiliteit mogelijk maken. Onze 4K-modellen gebruiken windowed attention om over langere ruimtelijke context te redeneren en worden gepretraind met 2K-uitvoerresolutie. Sapiens2 vestigt een nieuwe state-of-the-art en verbetert ten opzichte van de eerste generatie op pose (+4 mAP), lichaamsdelsegmentatie (+24,3 mIoU), normale schatting (45,6% lagere hoekfout) en breidt uit naar nieuwe taken zoals pointmap- en albedo-schatting. Code: https://github.com/facebookresearch/sapiens2

UniGeo: Unificatie van Geometrische Sturing voor Camera-Bestuurbare Beeldbewerking via Videomodellen
UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models

Apr 19

ByHong Jiang, Wensong Song, Zongxing Yang, Ruijie Quan, Yi Yang

Camera-stuurbaar beeldbewerking heeft als doel nieuwe aanzichten van een gegeven scène te synthetiseren onder variërende cameraposities, waarbij strikt cross-view geometrische consistentie wordt behouden. Bestaande methodes steunen echter typisch op gefragmenteerde geometrische begeleiding, zoals het alleen injecteren van puntwolken op representatieniveau ondanks dat modellen meerdere niveaus bevatten, en zijn voornamelijk gebaseerd op beeld-diffusiemodellen die opereren op discrete view mappings. Deze twee beperkingen leiden gezamenlijk tot geometrische drift en structurele degradatie onder continue camerabeweging. Wij observeren dat hoewel het benutten van videomodellen continue viewpoint-priors biedt voor camera-stuurbare beeldbewerking, zij nog steeds moeite hebben om een stabiel geometrisch begrip te vormen als de geometrische begeleiding gefragmenteerd blijft. Om dit systematisch aan te pakken, injecteren wij verenigde geometrische begeleiding over drie niveaus die gezamenlijk de generatieve output bepalen: representatie, architectuur en verliesfunctie. Hiertoe stellen wij UniGeo voor, een nieuw kader voor camera-stuurbare beeldbewerking. Specifiek integreert UniGeo op representatieniveau een frame-ontkoppeld geometrisch referentie-injectiemechanisme om robuuste cross-view geometriecontext te bieden. Op architectuurniveau introduceert het geometrische anker-attentie om multi-view features uit te lijnen. Op verliesfunctieniveau stelt het een traject-eindpunt geometrische supervisiestrategie voor om de structurele geloofwaardigheid van doelaanzichten expliciet te versterken. Uitgebreide experimenten op meerdere publieke benchmarks, die zowel uitgebreide als beperkte camerabewegingssettings omvatten, tonen aan dat UniGeo bestaande methodes significant overtreft in zowel visuele kwaliteit als geometrische consistentie.

TexOCR: Verbetering van OCR-modellen voor documenten voor componeerbare pagina-naar-LaTeX-reconstructie
TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Apr 24

ByChengye Wang, Lin Fu, Zexi Kuang, Yilun Zhao

Bestaande OCR voor documenten richt zich grotendeels op platte tekst of Markdown, waarbij de structurele en uitvoerbare eigenschappen die LaTeX essentieel maken voor wetenschappelijke publicatie, worden genegeerd. Wij bestuderen de reconstructie van wetenschappelijke PDF's op paginaniveau naar compileerbare LaTeX en introduceren TexOCR-Bench, een benchmark, en TexOCR-Train, een grootschalige trainingscorpus, voor deze taak. TexOCR-Bench beschikt over een multidimensionale evaluatiesuite die transcriptienauwkeurigheid, structurele getrouwheid en end-to-end compileerbaarheid gezamenlijk beoordeelt. Gebruikmakend van TexOCR-Train, trainen we een model van 2B parameters, TexOCR, met behulp van supervised fine-tuning (SFT) en reinforcement learning (RL) met verifieerbare beloningen afgeleid van LaTeX-unittests die compileerbaarheid en referentiële integriteit direct afdwingen. Experimenten met 21 vooraanstaande modellen op TexOCR-Bench tonen aan dat bestaande systemen vaak cruciale documentinvarianten schenden, waaronder consistente sectiestructuur, correcte plaatsing van floats en geldige label-referentiekoppelingen, wat de betrouwbaarheid van compilatie en de bruikbaarheid voor downstreamtaken ondermijnt. Onze analyse laat verder zien dat RL met verifieerbare beloningen consistente verbeteringen oplevert ten opzichte van alleen SFT, met name op structurele en compilatiemetrieken.

Hoeveel is één herhaling waard? Iso-diepte schaalwetten voor geloopte taalmodellen
How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models

Apr 27

ByKristian Schwethelm, Daniel Rueckert, Georgios Kaissis

Wij meten hoeveel één extra herhaling waard is voor een geluste (depth-recurrent) taalmodel, uitgedrukt in equivalente unieke parameters. Op basis van een iso-depth sweep van 116 voorgetrainde runs over herhalingsaantallen r in {1, 2, 4, 8}, die {sim}50 keer verschillen in rekenkosten voor training, passen we een gezamenlijke schaalwet toe: L = E + A,(N_once + r^φ N_rec)^{-α} + B,D^{-β} en vinden een nieuwe herhalings-equivalentie-exponent φ = 0.46. Intuïtief gezegd geeft φ aan of het lussen van een blok r keer equivalent is in validatieloss aan r unieke blokken van een niet-gelust model (volledige equivalentie, φ=1) of aan een enkel blok dat herhaald wordt zonder capaciteitstoename (φ=0). Onze φ = 0.46 zit hier tussenin, dus elke extra herhaling verhoogt de validatieloss voorspelbaar bij gelijke trainingsrekencosten. Bij r=4 presteert een gelust model van 410M bijvoorbeeld vergelijkbaar met een niet-gelust model van 580M, maar tegen de trainingskosten van een niet-gelust model van 1B. Wij tonen de bruikbaarheid van φ als meetinstrument aan met twee tests. Afgekapte backpropagatie verlaagt φ tot 0.38, wat aangeeft dat het lusmechanisme slecht getraind wordt bij afkapping, ook al daalt de validatieloss. Hyperconnecties daarentegen verhogen φ tot 0.65, een echte capaciteitstoename. Onze methode is toepasbaar op elk gelust taalmodel en onderscheidt echte lusverbeteringen van winst in tokenbudget.

Stabilisatie van Efficiënt Redeneren met Stapsgewijs Voordeelselectie
Stabilizing Efficient Reasoning with Step-Level Advantage Selection

Apr 27

ByHan Wang, Xiaodong Yu, Jialian Wu, Jiang Liu, Ximeng Sun, Mohit Bansal, Zicheng Liu

Grote taalmodellen (LLM's) bereiken sterke redeneerprestaties door aanzienlijke rekenkracht in te zetten tijdens inferentie, waarbij ze vaak lange en uitgebreide redeneersporen genereren. Hoewel recent werk op het gebied van efficiënt redeneren deze overhead vermindert via op lengte gebaseerde beloningen of snoeien, worden veel benaderingen na-getraind onder een veel kortere contextvenster dan de basismodeltraining – een factor waarvan het effect niet systematisch geïsoleerd is. We tonen eerst aan dat na-training met een korte context alleen, met behulp van standaard GRPO zonder enige lengtebewuste doelstelling, al substantiële redeneercompressie induceert, maar ten koste van toenemend onstabiele trainingsdynamiek en nauwkeurigheidsverlies. Om dit aan te pakken, stellen we Stapsgewijs Voordeel Selectie (SAS) voor, dat opereert op het niveau van de redeneerstap en een nulvoordeel toekent aan stappen met een lage betrouwbaarheid in correcte rollouts en aan stappen met een hoge betrouwbaarheid in rollouts die de verificator niet doorstaan, waarbij falen vaak voortkomt uit afkapping of verificatorproblemen in plaats van incorrect redeneren. Over diverse wiskundige en algemene redeneerbenchmarks verbetert SAS de gemiddelde Pass@1-nauwkeurigheid met 0,86 punten ten opzichte van de sterkste lengtebewuste baseline, terwijl de gemiddelde redeneerlengte met 16,3% wordt verminderd, wat een betere nauwkeurigheid-efficiëntie afweging oplevert.

PageGuide: Browseruitbreiding om gebruikers te helpen bij het navigeren op een webpagina en het vinden van informatie
PageGuide: Browser extension to assist users in navigating a webpage and locating information

Apr 26

ByTin Nguyen, Thang T. Truong, Runtao Zhou, Trung Bui, Chirag Agarwal, Anh Totti Nguyen

Dagelijkse internetgebruikers worstelen om snel relevante informatie te vinden op rommelige pagina's, onbekende meerstappentaken uit te voeren en gefocust te blijven tussen afleidende content. Geavanceerde AI-assistenten (zoals ChatGPT, Gemini, Claude) en browseragents (zoals OpenAI Operator, Browser Use) kunnen weliswaar vragen beantwoorden en handelingen automatiseren, maar zij presenteren antwoorden zonder te tonen waar de informatie op de pagina vandaan komt. Dit dwingt gebruikers om resultaten handmatig te verifiëren en elke geautomatiseerde stap blindelings te vertrouwen. Wij presenteren PageGuide, een browserextensie die LLM-antwoorden direct verankert in de HTML-DOM via visuele overlays, waarmee drie kernbehoeften worden aangepakt: (a) Vinden - het lokaliseren en markeren van relevant bewijsmateriaal *in-situ*, zodat gebruikers antwoorden direct op de pagina kunnen verifiëren; (b) Gidsen - het tonen van stap-voor-stap instructies (bijv. voor het wijzigen van een wachtwoord) één voor één, zodat gebruikers handelingen zelf kunnen uitvoeren; en (c) Verbergen - het verbergen van afleidende content, waarbij gebruikers de keuze krijgen om een element al dan niet te verbergen. In een gebruikersstudie (N=94) presteerde PageGuide beter dan ongeassisteerd browsen in alle modi: de nauwkeurigheid bij Verbergen steeg met 26 procentpunten (een relatieve verbetering van 86,7%) en de taaktijd daalde met 70%; het slagingspercentage bij Gidsen nam toe met 30 procentpunten; en bij Vinden nam de zoekinspanning af, met een daling van 80% in Ctrl+F-gebruik en een afname van 19% in taaktijd. Code en demo zijn beschikbaar op: pageguide.github.io.

Leren om objecten buiten de distributie te identificeren voor 3D LiDAR-anomaliesegmentatie
Learning to Identify Out-of-Distribution Objects for 3D LiDAR Anomaly Segmentation

Apr 26

BySimone Mosco, Daniel Fusaro, Alberto Pretto

Het begrijpen van de omgeving is fundamenteel voor autonoom rijden en robotperceptie. Het onderscheiden tussen bekende klassen en voorheen onbekende objecten is cruciaal in real-world omgevingen, zoals gebeurt bij Anomaly Segmentation. Onderzoek in het 3D-domein blijft echter beperkt, waarbij de meeste bestaande methoden post-processingtechnieken uit de 2D-beeldverwerking toepassen. Om dit gebrek te ondervangen, stellen we een nieuwe efficiënte aanpak voor die rechtstreeks in de feature space opereert door de featureverdeling van inlierklassen te modelleren om afwijkende samples te beperken. Bovendien bevat de enige openbaar beschikbare 3D LiDAR-anomaliesegmentatiedataset eenvoudige scenario's met weinig anomalie-instanties en vertoont deze een ernstige domeinkloof door de sensorresolutie. Om deze kloof te overbruggen, introduceren we een reeks gemengde real-synthetic datasets voor 3D LiDAR-anomaliesegmentatie, gebaseerd op gevestigde benchmarks voor semantische segmentatie, met meerdere out-of-distribution objecten en diverse, complexe omgevingen. Uitgebreide experimenten tonen aan dat onze aanpak state-of-the-art en competitieve resultaten behaalt op respectievelijk de bestaande real-world dataset en de nieuw geïntroduceerde gemengde datasets, wat de effectiviteit van onze methode en de bruikbaarheid van de voorgestelde datasets valideert. Code en datasets zijn beschikbaar op https://simom0.github.io/lido-page/.

ProEval: Proactieve Foutdetectie en Efficiënte Prestatie-inschatting voor de Evaluatie van Generatieve AI
ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Apr 25

ByYizheng Huang, Wenjun Zeng, Aditi Kumaresan, Zi Wang

De evaluatie van generatieve AI-modellen wordt steeds resource-intensiever door trage inferentie, dure beoordelaars en een snel groeiend landschap van modellen en benchmarks. Wij stellen ProEval voor, een proactief evaluatieraamwerk dat transfer learning gebruikt om efficiënt prestaties in te schatten en faalgevallen te identificeren. ProEval gebruikt vooraf getrainde Gaussische Processen (GP's) als surrogaten voor de prestatie-scorefunctie, waarbij modelinvoer wordt gemapt naar metrieken zoals de ernst van fouten of veiligheidsschendingen. Door prestatieschatting te formuleren als Bayesiaanse kwadratuur (BQ) en het ontdekken van fouten als superlevel set sampling, ontwikkelen we onzekerheidsbewuste beslissingsstrategieën die actief zeer informatieve invoer selecteren of synthetiseren voor tests. Theoretisch bewijzen we dat onze op vooraf getrainde GP's gebaseerde BQ-schatter onbevooroordeeld en begrensd is. Empirisch tonen uitgebreide experimenten met redeneer-, veiligheidsalignerings- en classificatiebenchmarks aan dat ProEval aanzienlijk efficiënter is dan concurrerende baseline-methoden. Het vereist 8-65x minder samples om schattingen binnen 1% van de werkelijke waarde te bereiken, terwijl het tegelijkertijd meer diverse faalgevallen blootlegt onder een strenger evaluatiebudget.

ATTN-FIQA: Interpreteerbare aandachtgebaseerde beoordeling van gezichtsbeeldkwaliteit met Vision Transformers
ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers

Apr 21

ByGuray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Marco Huber, Andrea Atzori, Naser Damer, Fadi Boutros

Face Image Quality Assessment (FIQA) heeft als doel de herkenningsbruikbaarheid van gezichtsmonsters te beoordelen en is essentieel voor betrouwbare gezichtsherkenningssystemen (FR). Bestaande benaderingen vereisen rekenintensieve procedures, zoals meerdere forward passes, backpropagatie of aanvullende training, en pas recentelijk onderzoek richt zich op het gebruik van Vision Transformers. Recente studies benadrukken dat deze architecturen inherent functioneren als salientie-leerders, waarbij aandachtspatronen van nature ruimtelijk belang coderen. Dit werk stelt ATTN-FIQA voor, een nieuwe trainingsvrije aanpak die onderzoekt of pre-softmax-aandachtsscores van vooraf getrainde, op Vision Transformers gebaseerde gezichtsherkenningsmodellen als kwaliteitsindicatoren kunnen dienen. Wij veronderstellen dat aandachtsmagnitudes intrinsiek kwaliteit coderen: hoogwaardige afbeeldingen met onderscheidende gezichtskenmerken maken sterke query-key-aligneringen mogelijk, wat gerichte, hoogmagnitude-aandachtspatronen oplevert, terwijl gedegradeerde afbeeldingen diffuse, laagmagnitude-patronen genereren. ATTN-FIQA extraheert pre-softmax-aandachtsmatrices uit het laatste transformerblok, aggregeert multi-head-aandachtsinformatie over alle patches en berekent beeldniveau-kwaliteitsscores door eenvoudige middeling. Dit vereist slechts één forward pass door vooraf getrainde modellen, zonder architectuurwijzigingen, backpropagatie of aanvullende training. Door middel van uitgebreide evaluatie over acht benchmarkdatasets en vier FR-modellen toont dit werk aan dat op aandacht gebaseerde kwaliteitsscores effectief correleren met gezichtsbeeldkwaliteit en ruimtelijke interpreteerbaarheid bieden, waarbij wordt onthuld welke gezichtsregio's het meest bijdragen aan de kwaliteitsbepaling.

Ontvlochten Robotleren via Afzonderlijke Voorwaartse en Inverse Dynamica Voorafgaande Training
Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

Mar 27

ByWenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang

Vision-language-action (VLA)-modellen hebben een groot potentieel getoond voor het ontwikkelen van generalistische robots, maar kampen nog steeds met een dilemma: de misalignering van 2D-beeldvoorspelling en 3D-actievoorspelling. Bovendien beperkt deze visie-actie-verstrengelde trainingsaanpak het vermogen van het model om te leren van grootschalige, actievrije webvideogegevens. Om deze problemen aan te pakken, stellen we DeFI voor, een nieuw raamwerk dat visuele Forward- en Inverse-dynamica-pretraining ontkoppelt om respectievelijke gegevensbronnen te benutten, waarbij videogeneratie en actievoorspelling worden ontward. We introduceren het General Forward Dynamics Model (GFDM), voorgetraind op diverse menselijke en robotvideo's voor toekomstvoorspelling, en het General Inverse Dynamics Model (GIDM), getraind via zelfgesuperviseerd leren om latente acties af te leiden uit ongelabelde videotransities. Deze modellen worden vervolgens geïntegreerd in een uniforme architectuur voor end-to-end finetuning op downstreamtaken. Op deze manier blinken GFDM en GIDM eerst afzonderlijk uit en werken daarna samen voor wederzijds voordeel. Uitgebreide experimenten op CALVIN ABC-D en SimplerEnv tonen state-of-the-art prestaties aan, waarbij DeFI een gemiddelde taaklengte van 4,51 behaalt voor CALVIN, een slagingspercentage van 51,2% op de SimplerEnv-Fractal-benchmark en 81,3% succes in real-world implementatie, wat een significante verbetering is ten opzichte van eerdere methoden.

IndustryAssetEQA: Een Neurosymbolisch Operationeel Intelligentiesysteem voor Belichaamde Vraagbeantwoording bij Industrieel Assetonderhoud
IndustryAssetEQA: A Neurosymbolic Operational Intelligence System for Embodied Question Answering in Industrial Asset Maintenance

Apr 25

ByChathurangi Shyalika, Dhaval Patel, Amit Sheth

In industriële onderhoudsomgevingen wordt steeds vaker een beroep gedaan op AI-systemen om operators te helpen bij het begrijpen van assetgedrag, het diagnosticeren van storingen en het evalueren van interventies. Hoewel grote taalmodellen (LLM's) vlotte interactie in natuurlijke taal mogelijk maken, produceren ingezette onderhoudsassistenten routinematig generieke verklaringen die zwak geworteld zijn in telemetrie, verifieerbare herkomst weglaten en geen toetsbare ondersteuning bieden voor contrafeitelijk of actiegericht redeneren, wat het vertrouwen in veiligheidskritieke omgevingen ondermijnt. Wij presenteren IndustryAssetEQA, een neurosymbolisch operationeel intelligentiesysteem dat episodische telemetrierepresentaties combineert met een Failure Mode Effects Analysis Knowledge Graph (FMEA-KG) om Embodied Question Answering (EQA) over industriële assets mogelijk te maken. Wij evalueren het systeem op vier datasets die vier typen industriële assets beslaan, waaronder roterende machines, turbofan-motoren, hydraulische systemen en cyber-fysieke productiesystemen. In vergelijking met uitsluitend op LLM's gebaseerde systemen verbetert IndustryAssetEQA de structurele geldigheid met maximaal 0,51, de contrafeitelijke nauwkeurigheid met maximaal 0,47 en de verklaringsimplicatie met 0,64, terwijl ernstige, door experts beoordeelde overclaims worden teruggebracht van 28% naar 2% (een reductie van ongeveer 93%). Code, datasets en de FMEA-KG zijn beschikbaar op https://github.com/IBM/AssetOpsBench/tree/IndustryAssetEQA/IndustryAssetEQA.

Verbetering van de robuustheid van tabelretrieval via representatiestabiliteit
Improving Robustness of Tabular Retrieval via Representational Stability

Apr 27

ByKushal Raj Bhandari, Adarsh Singh, Jianxi Gao, Soham Dan, Vivek Gupta

Transformer-gebaseerde tabelretrievalsystemen zetten gestructureerde tabellen om in tokenreeksen, waardoor de retrieval gevoelig wordt voor de keuze van serialisatie, zelfs wanneer de tabel semantiek ongewijzigd blijft. Wij tonen aan dat semantisch equivalente serialisaties, zoals csv, tsv, html, markdown en ddl, aanzienlijk verschillende embedding- en retrievalresultaten kunnen opleveren over meerdere benchmarks en retrieversfamilies. Om deze instabiliteit aan te pakken, behandelen we serialisatie-embedding als ruizige weergaven van een gedeeld semantisch signaal en gebruiken we de centroid ervan als een canonieke doelrepresentatie. Wij tonen aan dat centroid-gemiddelden formaatspecifieke variatie onderdrukken en de semantische inhoud die gemeenschappelijk is voor verschillende serialisaties kunnen herstellen wanneer formaat-geïnduceerde verschuivingen tussen tabellen verschillen. Empirisch overtreffen centroid-representaties individuele formaten in geaggregeerde paarsgewijze vergelijkingen over MPNet, BGE-M3, ReasonIR en SPLADE. Wij introduceren verder een lichtgewicht residuale bottleneck-adapter bovenop een bevroren encoder die embedding van enkele serialisaties afbeeldt naar centroid-doelen, waarbij variantie behouden blijft en covariantie-regularisatie wordt afgedwongen. De adapter verbetert de robuustheid voor verschillende dense retrievers, hoewel de winsten modelafhankelijk zijn en zwakker voor sparse lexicale retrieval. Deze resultaten identificeren serialisatiegevoeligheid als een belangrijke bron van retrievalvariantie en tonen de belofte van post hoc geometrische correctie voor serialisatie-invariante tabelretrieval. Onze code, datasets en modellen zijn beschikbaar op https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval.

Verbetering van Vision-language-modellen met perceptiegerichte procesbeloningsmodellen
Improving Vision-language Models with Perception-centric Process Reward Models

Apr 27

ByYingqian Min, Kun Zhou, Yifan Li, Yuhuan Wu, Han Peng, Yifan Du, Wayne Xin Zhao, Min Yang, Ji-Rong Wen

Recente vooruitgang in reinforcement learning met verifieerbare beloningen (RLVR) heeft het complexe redeneervermogen van vision-language-modellen (VLMs) aanzienlijk verbeterd. De uitkomstgerichte supervisie is echter te grof om fouten binnen de redeneerketen te diagnosticeren en te corrigeren. Daarom stellen we Perceval voor, een procesbeloningsmodel (PRM) dat token-level foutlokalisatie mogelijk maakt. Het kan beeldgerelateerde beweringen uit het antwoord extraheren en deze een voor een vergelijken met het visuele bewijs in de afbeelding, om uiteindelijk beweringen die perceptiefouten bevatten terug te geven. Perceval wordt getraind met perceptie-intensieve gesuperviseerde trainingsdata. Vervolgens integreren we Perceval in het RL-trainingsproces om de policy-modellen te trainen. Specifiek passen we, in vergelijking met traditionele GRPO die sequentieniveau-voordelen toepast, token-level voordelen toe door straffen te richten op hallucinatiespans die door Perceval zijn geïdentificeerd, waardoor fijnmazige supervisiesignalen mogelijk worden. Naast het verrijken van het trainingsproces, kan Perceval VLMs ook ondersteunen tijdens de inferentiefase. Met Perceval kunnen we de foutieve delen van het antwoord van het model afkappen en het model vervolgens ofwel direct een nieuw antwoord laten genereren, ofwel aanzetten tot reflectie op zijn eerdere uitvoer. Dit proces kan meerdere keren worden herhaald om schaling tijdens de testfase te bereiken. Experimenten tonen significante verbeteringen op benchmarks uit diverse domeinen aan bij meerdere redenerende VLMs die met RL zijn getraind, wat de belofte onderstreept van perceptiegerichte supervisie als een algemene strategie. Voor schaling tijdens de testfase demonstreert het ook consistente prestatieverbeteringen ten opzichte van andere strategieën, zoals majority voting. Onze code en data zullen openbaar worden vrijgegeven op https://github.com/RUCAIBox/Perceval.

RaV-IDP: Een reconstructie-als-validatie raamwerk voor betrouwbare intelligente documentverwerking
RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing

Apr 26

ByPritesh Jha

Intelligente documentverwerkingspijplijnen extraheren gestructureerde entiteiten (tabellen, afbeeldingen en tekst) uit documenten voor gebruik in downstreamsystemen zoals kennisbanken, retrieval-augmented generation en analytische toepassingen. Een hardnekkige beperking van bestaande pijplijnen is dat de extractieresultaten worden geproduceerd zonder een intrinsiek mechanisme om te verifiëren of ze de bron getrouw vertegenwoordigen. Modelinterne betrouwbaarheidsscores meten de zekerheid van de inferentie, niet de correspondentie met het document, en extractiefouten worden stilzwijgend doorgegeven aan downstreamconsumenten. Wij presenteren Reconstruction as Validation (RaV-IDP), een documentverwerkingspijplijn die reconstructie introduceert als een eersteklas architectuurcomponent. Nadat elke entiteit is geëxtraheerd, rendert een toegewijde reconstructor de geëxtraheerde representatie terug naar een vorm die vergelijkbaar is met het oorspronkelijke documentgebied, en een comparator scoort de trouw tussen de reconstructie en de onbewerkte bronweergave. Deze trouwscore is een gegronde, labelvrije kwaliteitssignaal. Wanneer de trouw onder een drempelwaarde per entiteitstype zakt, wordt een gestructureerde GPT-4.1 vision-fallback geactiveerd en herhaalt de validatielus zich. Wij handhaven een bootstrapbeperking: de comparator anker zich altijd op het oorspronkelijke documentgebied, nooit op de extractie, waardoor wordt voorkomen dat de validatie circulair wordt. Wij stellen verder een per-fase evaluatieraamwerk voor dat elke pijplijncomponent koppelt aan een passende benchmark. De codepijplijn is openbaar beschikbaar op https://github.com/pritesh-2711/RaV-IDP voor experimenten en gebruik.

EX-FIQA: Benutting van Tussentijdse Vroege Exit-Representaties uit Vision Transformers voor Kwaliteitsbeoordeling van Gezichtsafbeeldingen
EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment

Apr 21

ByGuray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Andrea Atzori, Fadi Boutros, Naser Damer

Face Image Quality Assessment is cruciaal voor betrouwbare gezichtsherkenning systemen, maar bestaande op Vision Transformers gebaseerde benaderingen vertrouwen uitsluitend op representaties uit de laatste laag, waarbij kwaliteitsrelevante informatie die op tussenliggende netwerkdieptes wordt vastgelegd, wordt genegeerd. Dit artikel presenteert het eerste uitgebreide onderzoek naar hoe tussenliggende representaties binnen ViTs bijdragen aan gezichtskwaliteitsbeoordeling door middel van early exit-mechanismen en scorefusiestrategieën. We analyseren systematisch alle twaalf transformerblokken van ViT-FIQA-architecturen en tonen aan dat verschillende dieptes distinctieve en complementaire kwaliteitsrelevante informatie vastleggen, zoals blijkt uit variërende aandachtspatronen en prestatiekenmerken over de netwerklagen heen. We stellen een scorefusieraamwerk voor dat kwaliteitsvoorspellingen van meerdere transformerblokken combineert zonder architectuurwijzigingen of extra training. Onze early exit-analyse onthult optimale prestatie-efficiëntie-afwegingen, waardoor aanzienlijke computationele besparingen mogelijk zijn met behoud van competitieve prestaties. Door middel van uitgebreide evaluatie over acht benchmarkdatasets met vier FR-modellen, demonstreren we dat onze fusiestrategie verbetering biedt ten opzichte van single-exit-benaderingen. Onze voorgestelde kwaliteitsfusiebenadering gebruikt dieptegewogen middeling die progressief hoger belang toekent aan diepere transformerblokken, waardoor de beste kwaliteitsbeoordelingsprestatie wordt bereikt door effectief gebruik te maken van de hiërarchische aard van feature learning in ViTs. Ons werk daagt de conventionele wijsheid uit dat alleen diepe features ertoe doen voor gezichtsanalyse, en toont aan dat tussenliggende representaties waardevolle informatie voor kwaliteitsbeoordeling bevatten. Het voorgestelde raamwerk biedt praktische voordelen voor real-world biometrische systemen door adaptieve berekening mogelijk te maken op basis van resourcebeperkingen, met behoud van competitieve kwaliteitsbeoordelingscapaciteiten.

Stochastische KV-Routing: Adaptieve Dieptegewijze Cache-Deling Mogelijk Maken
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Apr 3

ByAnastasiia Filippova, David Grangier, Marco Cuturi, João Monteiro

Het serveren van transformer-taalmmodellen met hoge doorvoersnelheid vereist het cachen van Key-Values (KVs) om redundante berekeningen tijdens autoregressieve generatie te voorkomen. De geheugenvoetafdruk van KV-caching is aanzienlijk en heeft een grote impact op de serviciekosten. Dit werk stelt voor om deze geheugeneisen te verminderen. Terwijl recent onderzoek zich voornamelijk heeft gericht op KV-cache-reductie via compressie en verdringing langs de temporele as, beargumenteren wij dat de dieptedimensie een orthogonale en robuuste weg voor optimalisatie biedt. Hoewel eerder onderzoek suggereert dat een volledige cache voor elke laag redundant is, blijft de implementatie van cache-deling tussen lagen een praktische uitdaging; bestaande methoden lijden doorgaans onder verminderde doorvoersnelheid of een verlengde tijd-tot-eerste-token. In dit artikel tonen we aan dat het weglaten van de cache van een laag een efficiënte optimalisatie biedt zonder verlies van informatie. Wij stellen een eenvoudige trainingsaanpak voor: willekeurige aandacht tussen lagen (random cross-layer attention). Tijdens de training kiezen lagen willekeurig om aandacht te besteden aan hun eigen KV-toestanden of aan die van een voorgaande laag. Dit stochastische proces past het model aan om robuust te zijn voor verschillende cache-delingstrategieën in de diepte, wat flexibiliteit waarborgt voor onbekende hardwarebeperkingen tijdens de implementatie. Onze evaluaties tonen aan dat het toepassen van dit schema tijdens pre-training of fine-tuning cache-deling in de diepte mogelijk maakt voor verschillende modelfamilies. Bovendien suggereert deze aanpak voor grotere modellen in data-arme omgevingen een regularisatie-achtig effect, waarbij de prestaties vaak behouden blijven of verbeteren terwijl de geheugenvoetafdruk van de cache aanzienlijk wordt verkleind.

Het Ontdekken van Agentische Veiligheidsspecificaties uit 1-Bit Gevaarsignalen
Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Apr 25

ByVíctor Gallego

Kunnen grote taalmodelagenten verborgen veiligheidsdoelstellingen ontdekken uitsluitend op basis van ervaring? Wij introduceren EPO-Safe (Experiential Prompt Optimization for Safe Agents), een raamwerk waarin een LLM iteratief actieplannen genereert, schaarse binaire gevarenwaarschuwingen ontvangt en een gedragsspecificatie in natuurlijke taal ontwikkelt via reflectie. In tegenstelling tot standaard LLM-reflectiemethoden die vertrouwen op uitgebreide tekstuele feedback (bijvoorbeeld compilerfouten of gedetailleerde omgevingsreacties), toont EPO-Safe aan dat LLM's veiligheidsredenering kunnen uitvoeren op basis van een strikt verarmd signaal in gestructureerde, laagdimensionale omgevingen: de agent observeert nooit de verborgen prestatie-functie R*, maar ontvangt slechts één bit per tijdstap die aangeeft dat een actie onveilig was. We evalueren op vijf AI Safety Gridworlds (Leike et al., 2017) en vijf op tekst gebaseerde scenario-analogieën waar de zichtbare beloning R kan afwijken van R*. EPO-Safe ontdekt veilig gedrag binnen 1-2 ronden (5-15 episodes) en produceert voor mensen leesbare specificaties met correcte verklarende hypothesen over gevaren (bijvoorbeeld: "X-cellen zijn directioneel gevaarlijk: binnenkomen vanuit het noorden is riskant"). Cruciaal is dat we aantonen dat standaard beloningsgedreven reflectie de veiligheid actief verslechtert: agenten die alleen op beloning reflecteren, gebruiken de lus om beloningsmanipulatie te rechtvaardigen en te versnellen, wat bewijst dat reflectie gepaard moet gaan met een toegewijde veiligheidschannel om verborgen beperkingen te ontdekken. We evalueren verder de robuustheid tegenover ruisgevende orakels: zelfs wanneer 50% van de niet-gevaarlijke stappen valse waarschuwingen produceert, neemt de gemiddelde veiligheidsprestatie slechts met 15% af, hoewel de gevoeligheid omgevingsafhankelijk is, aangezien reflectie over episodes heen natuurlijk inconsistente signalen filtert. Elke geëvolueerde specificatie functioneert als een controleerbare set van gegronde gedragsregels die autonoom door interactie zijn ontdekt, in plaats van door mensen opgesteld zoals bij Constitutionele AI (Bai et al., 2022).

Van nul naar CAD: Agent-gebaseerde synthese van interpreteerbare CAD-programma's op miljoenschaal zonder echte data
Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Apr 27

ByMohammadmehdi Ataei, Farzaneh Askari, Kamal Rahimi Malekshan, Pradeep Kumar Jayaraman

Computer-Aided Design (CAD)-modellen worden gedefinieerd door hun constructiegeschiedenis: een parametrisch recept dat de ontwerpintentie vastlegt. Bestaande grootschalige 3D-datasets bestaan echter voornamelijk uit boundary representations (B-Reps) of meshes, waarbij deze cruciale procedurele informatie verloren gaat. Om dit gebrek te adresseren, introduceren we Zero-to-CAD, een schaalbaar raamwerk voor het synthetiseren van uitvoerbare CAD-constructiesequenties. Wij formuleren synthese als een agent-gedreven zoekprobleem: door een groot taalmodel (LLM) in te bedden in een op feedback gestuurd CAD-omgeving, genereert, executeert en valideert ons systeem iteratief code met behulp van tools en documentatierichtlijnen om geometrische geldigheid en operationele diversiteit te bevorderen. Deze agent-gedreven aanpak maakt de synthese mogelijk van ongeveer één miljoen uitvoerbare, leesbare en bewerkbare CAD-sequenties, die een rijk vocabulaire aan operaties bestrijken, verdergaand dan sketch-and-extrude-workflows. We publiceren ook een gecureerde subset van 100.000 hoogwaardige modellen, geselecteerd op geometrische diversiteit. Om de bruikbaarheid van de dataset aan te tonen, fine-tunen we een vision-language model op onze synthetische data om bewerkbare CAD-programma's te reconstrueren uit multi-view beelden, waarbij sterke baselines, inclusief GPT-5.2, worden overtroffen en de mogelijkheid tot sequentiegeneratie effectief wordt gebootstrap zonder trainingsdata met echte constructiegeschiedenis. Zero-to-CAD overbrugt de kloof tussen geometrische schaal en parametrische interpreteerbaarheid, en biedt een cruciale bron voor de volgende generatie CAD-AI.

Kwantumkernelvoordeel ten opzichte van klassieke ineenstorting in medische foundation model-embeddingen
Quantum Kernel Advantage over Classical Collapse in Medical Foundation Model Embeddings

Apr 27

BySebastian Cajas Ordóñez, Felipe Ocampo Osorio, Dax Enshan Koh, Rafi Al Attrach, Aldo Marzullo, Ariel Guerra-Adames, J. Alejandro Andrade, Siong Thye Goh, Chi-Yu Chen, Rahul Gorijavolu, Xue Yang, Noah Dane Hebdon, Leo Anthony Celi

Wij leveren bewijs van een kwantumkernelvoordeel onder ruisvrije simulatie in binaire verzekeringsclassificatie op MIMIC-CXR-borstfoto's met behulp van kwantum support vector machines (QSVM) met bevroren embeddings van drie medische foundation-modellen (MedSigLIP-448, RAD-DINO, ViT-patch32). Wij stellen een raamwerk voor een eerlijke vergelijking op twee niveaus voor, waarin beide classificatoren identieke PCA-q-features ontvangen. Op Niveau 1 (ongetunde QSVM vs. ongetunde lineaire SVM, C = 1 aan beide kanten) wint QSVM de F1-score van de minderheidsklasse in alle 18 geteste configuraties (17 met p < 0,001, 1 met p < 0,01). De klassieke lineaire kernel stort in naar een voorspelling van de meerderheidsklasse op 90-100% van de seeds bij elk qubit-aantal, terwijl QSVM een niet-triviale recall behoudt. Bij q = 11 (plateaucenter van MedSigLIP-448) behaalt QSVM een gemiddelde F1 = 0,343 versus een klassieke F1 = 0,050 (F1-winst = +0,293, p < 0,001) zonder hyperparameterafstemming. Onder Niveau 2 (ongetunde QSVM vs. C-afgestemde RBF SVM) wint QSVM alle zeven geteste configuraties (gemiddelde winst +0,068, max +0,112). Eigenspectrumanalyse toont aan dat de effectieve rang van de kwantumkernel 69,80 bereikt bij q = 11, ver boven de rang van de lineaire kernel, terwijl de klassieke ineenstorting C-invariant blijft. Een volledige qubit-sweep onthult architectuurafhankelijk concentratiebegin over de modellen. Code: https://github.com/sebasmos/qml-medimage

Credal Concept Bottleneck-modellen voor Epistemisch-Aleatorische Onzekerheidsdecompositie
Credal Concept Bottleneck Models for Epistemic-Aleatoric Uncertainty Decomposition

Apr 27

ByTanmoy Mukherjee, Thomas Bailleux, Pierre Marquis, Zied Bouraoui

Concept Bottleneck Models (CBM's) voorspellen via menselijk interpreteerbare concepten, maar geven doorgaans puntkanswaarden voor concepten af die epistemische onzekerheid (reduceerbare modelspecificatie) vermengen met aleatorische onzekerheid (onherleidbare inputambiguïteit). Dit maakt onzekerheid op conceptniveau moeilijk interpreteerbaar en, belangrijker nog, moeilijk actie op te ondernemen. Wij introduceren CREDENCE (Credal Ensemble Concept Estimation), een CBM-raamwerk dat conceptonzekerheid van nature decomposeert. CREDENCE representeert elk concept als een credale voorspelling (een kansinterval), leidt epistemische onzekerheid af uit onenigheid tussen diverse conceptkoppen, en schat aleatorische onzekerheid via een speciale ambiguïteitsoutput die wordt getraind om onenigheid tussen annotatoren te evenaren wanneer deze beschikbaar is. De resulterende signalen ondersteunen prescriptieve beslissingen: automatiseer gevallen met lage onzekerheid, prioriteer datacollectie voor gevallen met hoge epistemische onzekerheid, verwijs gevallen met hoge aleatorische onzekerheid door naar menselijke beoordeling, en onthouding wanneer beide hoog zijn. Over verschillende taken tonen we aan dat epistemische onzekerheid positief gecorreleerd is met voorspellingsfouten, terwijl aleatorische onzekerheid nauw aansluit bij onenigheid tussen annotatoren, wat begeleiding biedt die verder gaat dan foutcorrelatie. Onze implementatie is beschikbaar op de volgende link: https://github.com/Tankiit/Credal_Sets/tree/ensemble-credal-cbm

Persoonlijkheid Vormt Genderbias in Persona-gestuurde LLM-narratieven in het Engels en Hindi: Een Empirisch Onderzoek
Personality Shapes Gender Bias in Persona-Conditioned LLM Narratives Across English and Hindi: An Empirical Investigation

Apr 26

ByTanay Kumar, Shreya Gautam, Aman Chadha, Vinija Jain, Francesco Pierri

Grote Taalmodellen (GTM'en) worden steeds vaker ingezet in toepassingen waarbij een persona wordt aangenomen, zoals in het onderwijs, de klantenservice en op sociale platformen. Hierbij wordt van de modellen gevraagd om specifieke persona's aan te nemen tijdens interacties met gebruikers. Hoewel conditionering met een persona de gebruikerservaring en betrokkenheid kan verbeteren, roept het ook vragen op over hoe persoonlijkheidskenmerken kunnen samenspelen met gendervooroordelen en stereotypen. In dit werk presenteren we een gecontroleerde studie naar persona-geconditioneerde verhaalgeneratie in het Engels en Hindi, waarbij elk verhaal een werkende professional in India portretteert die context-specifieke artefacten (zoals lesplannen, rapporten, brieven) produceert onder systematisch gevarieerde persona-geslachten, beroepsrollen en persoonlijkheidstrekken uit de HEXACO- en Dark Triad-kaders. Uit een analyse van 23.400 gegenereerde verhalen van zes state-of-the-art GTM'en blijkt dat persoonlijkheidstrekken significant samenhangen met zowel de omvang als de richting van gendervooroordelen. Met name Dark Triad-persoonlijkheidstrekken gaan consistent gepaard met meer genderstereotiepe representaties in vergelijking met sociaal wenselijke HEXACO-trekken, hoewel deze verbanden variëren tussen modellen en talen. Onze bevindingen tonen aan dat gendervooroordelen in GTM'en niet statisch zijn, maar contextafhankelijk. Dit suggereert dat persona-geconditioneerde systemen die in praktijktoepassingen worden gebruikt, ongelijke representatieve schade kunnen veroorzaken, waardoor genderstereotypen in gegenereerde educatieve, professionele of sociale inhoud worden versterkt.