HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

Seed Diffusion: Een grootschalig diffusie-taalmodel met snelle inferentie
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Aug 4

ByYuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

130

We presenteren Seed Diffusion Preview, een grootschalig taalmodel gebaseerd op discrete-state diffusie, dat een opmerkelijk snelle inferentiesnelheid biedt. Dankzij niet-sequentiële, parallelle generatie bieden discrete diffusiemodellen een aanzienlijke snelheidswinst om de inherente latentie van token-voor-token decodering te verminderen, zoals recentelijk is aangetoond (bijv. Mercury Coder, Gemini Diffusion). Seed Diffusion Preview bereikt een inferentiesnelheid van 2.146 tokens/s op H20 GPU's, terwijl het competitieve prestaties behoudt over een reeks standaard code-evaluatiebenchmarks, aanzienlijk sneller dan de huidige Mercury en Gemini Diffusion, en vestigt daarmee een nieuwe standaard op het snelheid-kwaliteit Pareto-frontier voor codemodellen.

Skywork UniPic: Geünificeerd Autoregressief Modelleren voor Visueel Begrip en Generatie
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Aug 5

ByPeiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

We introduceren Skywork UniPic, een autoregressief model met 1,5 miljard parameters dat beeldbegrip, tekst-naar-beeldgeneratie en beeldbewerking verenigt binnen een enkele architectuur – waardoor de noodzaak voor taakspecifieke adapters of inter-module connectoren wordt geëlimineerd – en demonstreren dat compacte multimodale systemen state-of-the-art prestaties kunnen bereiken op standaard hardware. Skywork UniPic behaalt een GenEval-score van 0,86, waarmee het de meeste bestaande geünificeerde modellen overtreft; vestigt een nieuw DPG-Bench complex-generatierecord van 85,5; scoort 5,83 op GEditBench-EN en 3,49 op ImgEdit-Bench voor beeldbewerking; en genereert 1024 x 1024 beelden met minder dan 15 GB GPU-geheugen (bijv. RTX 4090). (1) Een ontkoppelde encoderingsstrategie die gebruikmaakt van een gemaskeerde autoregressieve encoder voor synthese en een SigLIP2-encoder voor begrip, die beide een gedeelde autoregressieve decoder voeden; (2) een progressief, resolutiebewust trainingsschema dat opschaalt van 256 x 256 naar 1024 x 1024 terwijl parameters dynamisch worden vrijgegeven om capaciteit en stabiliteit in balans te houden; en (3) zorgvuldig samengestelde datasets op een schaal van 100 miljoen, aangevuld met taakspecifieke beloningsmodellen om generatie- en bewerkingsdoelen te verfijnen. Door aan te tonen dat hoogwaardige multimodale integratie geen buitensporige resource-eisen hoeft te stellen, vestigt Skywork UniPic een praktisch paradigma voor inzetbare, hoogwaardige multimodale AI. Code en gewichten zijn publiekelijk beschikbaar op https://huggingface.co/Skywork/Skywork-UniPic-1.5B.

LongVie: Multimodale-geleide beheersbare ultra-lange videogeneratie
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Aug 5

ByJianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

Beheersbare ultra-lange videogeneratie is een fundamentele maar uitdagende taak. Hoewel bestaande methoden effectief zijn voor korte clips, hebben ze moeite om op te schalen vanwege problemen zoals temporele inconsistentie en visuele degradatie. In dit artikel onderzoeken en identificeren we aanvankelijk drie sleutelfactoren: afzonderlijke ruisinitialisatie, onafhankelijke normalisatie van controlesignalen en de beperkingen van single-modality begeleiding. Om deze problemen aan te pakken, stellen we LongVie voor, een end-to-end autoregressief framework voor beheersbare lange videogeneratie. LongVie introduceert twee kernontwerpen om temporele consistentie te waarborgen: 1) een uniforme ruisinitialisatiestrategie die consistente generatie over clips heen handhaaft, en 2) globale normalisatie van controlesignalen die afstemming in de controle ruimte gedurende de hele video afdwingt. Om visuele degradatie te verminderen, maakt LongVie gebruik van 3) een multi-modale controleframework dat zowel dichte (bijv. dieptekaarten) als schaarse (bijv. keypoints) controlesignalen integreert, aangevuld met 4) een degradatiebewuste trainingsstrategie die de bijdragen van modaliteiten over de tijd adaptief in balans brengt om de visuele kwaliteit te behouden. We introduceren ook LongVGenBench, een uitgebreide benchmark bestaande uit 100 hoogwaardige video's die diverse real-world en synthetische omgevingen beslaan, elk langer dan een minuut. Uitgebreide experimenten tonen aan dat LongVie state-of-the-art prestaties bereikt op het gebied van langeafstandsbeheersbaarheid, consistentie en kwaliteit.

CompassVerifier: Een Uniforme en Robuuste Verifier voor Evaluatie en Beloning van Resultaten bij LLM's
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

Aug 5

ByShudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

Antwoordverificatie is cruciaal, niet alleen voor het evalueren van grote taalmodelen (LLM's) door hun ongestructureerde uitvoer te matchen met standaardantwoorden, maar dient ook als beloningsmodel om de optimalisatie van LLM's te sturen. De meeste evaluatieframeworks vertrouwen op gereguleerde matching of maken gebruik van algemene LLM's voor antwoordverificatie, wat uitgebreide, repetitieve aanpassingen vereist voor regex-regels of evaluatieprompts. Twee fundamentele beperkingen blijven bestaan in de huidige methodologieën: 1) het ontbreken van uitgebreide benchmarks die de verificatiecapaciteiten van verschillende LLM's systematisch evalueren; en 2) het prille stadium van verifierontwikkeling, waarbij bestaande benaderingen zowel de robuustheid missen om complexe edge cases te hanteren als de generaliseerbaarheid over verschillende domeinen. In dit werk ontwikkelen we CompassVerifier, een nauwkeurig en robuust lichtgewicht verificatiemodel voor evaluatie en uitkomstbeloning. Het toont competentie aan over meerdere domeinen, waaronder wiskunde, kennis en diverse redeneertaken, met de mogelijkheid om verschillende antwoordtypen te verwerken, zoals multi-subproblemen, formules en sequentieantwoorden, terwijl het effectief abnormale/ongeldige reacties identificeert. We introduceren de VerifierBench-benchmark, bestaande uit modeluitvoer verzameld uit meerdere databronnen, verrijkt door handmatige analyse van meta-foutpatronen om CompassVerifier te verbeteren. We verwachten dat CompassVerifier en VerifierBench antwoordverificatie, evaluatieprotocollen en onderzoek naar reinforcement learning zullen vergemakkelijken. Code en dataset zijn beschikbaar op https://github.com/open-compass/CompassVerifier.

Gereedschap-geïntegreerd Reinforcement Learning voor Diepgaande Repo-zoekopdrachten
Tool-integrated Reinforcement Learning for Repo Deep Search

Aug 5

ByZexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

Probleemlokalisatie, het proces van het identificeren van codelocaties die moeten worden aangepast om softwareproblemen op te lossen, is een cruciale maar uitdagende taak in softwareontwikkeling. De semantische kloof tussen natuurlijke taalprobleembeschrijvingen en foutieve code vereist complexe multi-hop redenering door codeafhankelijkheden. Bestaande LLM-gebaseerde agents proberen dit aan te pakken door repository-retrievaltools te integreren. Dit transformeert echter probleemlokalisatie in een veeleisende taak die we Repo Deep Search noemen, waarbij de LLM effectief gebruik moet maken van verschillende repository-retrievaltools gedurende een meerstaps redeneer- en navigatieproces. Om deze uitdaging aan te gaan, presenteren we ToolTrain, een tweefasen trainingsframework met geïntegreerde tools dat rejection-sampled supervised fine-tuning en tool-geïntegreerde reinforcement learning combineert om het vermogen van LLMs om retrievals te gebruiken voor probleemlokalisatie te verbeteren. Experimentele resultaten tonen aan dat met ToolTrain getrainde modellen state-of-the-art prestaties behalen, waarbij ons 32B-model zelfs Claude-3.7 overtreft op functieniveau lokalisatie. De resultaten laten ook zien dat verbeterde lokalisatieprestaties leiden tot betere end-to-end probleemoplossingsprestaties. Dit toont verder aan dat training voor probleemlokalisatie een haalbare en effectieve strategie is voor het verbeteren van geautomatiseerde softwareontwikkeling.

LiveMCPBench: Kunnen Agents Navigeren in een Oceaan van MCP-tools?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

Aug 3

ByGuozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

Met de snelle ontwikkeling van het Model Context Protocol (MCP) is het aantal MCP-servers de 10.000 gepasseerd. Bestaande MCP-benchmarks zijn echter beperkt tot instellingen met één server en slechts een paar tools, wat een effectieve evaluatie van agentmogelijkheden in grootschalige, realistische scenario's belemmert. Om deze beperking aan te pakken, presenteren we LiveMCPBench, de eerste uitgebreide benchmark die bestaat uit 95 realistische taken binnen het MCP-ecosysteem, ontworpen om LLM-agents op grote schaal en over diverse servers te evalueren. Om een schaalbare en reproduceerbare evaluatiepijplijn in grootschalige MCP-omgevingen te ondersteunen, hebben we LiveMCPTool samengesteld, een diverse en direct inzetbare verzameling van 70 MCP-servers en 527 tools. Daarnaast introduceren we LiveMCPEval, een LLM-as-a-Judge-framework dat geautomatiseerde en adaptieve evaluatie mogelijk maakt in dynamische, tijdsvariërende taakomgevingen, met een overeenstemming van 81% met menselijke beoordelaars. Tot slot stellen we de MCP Copilot Agent voor, een multi-step agent die tools routeert voor dynamische planning en tools uitvoert voor API-interactie binnen de gehele LiveMCPTool-suite. Onze evaluatie omvat 10 toonaangevende modellen, waarbij het best presterende model (Claude-Sonnet-4) een slagingspercentage van 78,95% behaalt. We observeren echter grote prestatieverschillen tussen modellen, en verschillende veelgebruikte modellen presteren slecht in de complexe, toolrijke omgevingen van LiveMCPBench. Over het algemeen biedt LiveMCPBench het eerste geïntegreerde framework voor het benchmarken van LLM-agents in realistische, toolrijke en dynamische MCP-omgevingen, en legt het een solide basis voor schaalbare en reproduceerbare onderzoeken naar agentmogelijkheden. Onze code en data zullen publiekelijk beschikbaar zijn op https://icip-cas.github.io/LiveMCPBench.

Representatieverschuiving: Het verenigen van tokencompressie met FlashAttention
Representation Shift: Unifying Token Compression with FlashAttention

Aug 1

ByJoonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

Transformers hebben opmerkelijke successen geboekt op het gebied van visie, taal en video. Echter, de toenemende complexiteit van taken heeft geleid tot grotere modellen en meer tokens, wat de kwadratische kosten van self-attention en de overhead van GPU-geheugentoegang verhoogt. Om de rekenkosten van self-attention te verminderen, hebben eerdere onderzoeken tokencompressietechnieken voorgesteld die redundante of minder informatieve tokens verwijderen. Tegelijkertijd zijn gefuseerde aandachtskernels zoals FlashAttention ontwikkeld om de geheugenoverhead te verminderen door de constructie van aandachtmaps en de bijbehorende I/O naar HBM te vermijden. Dit maakt het echter onverenigbaar met de meeste trainingsvrije tokencompressiemethoden, die afhankelijk zijn van aandachtmaps om de belangrijkheid van tokens te bepalen. Hier stellen we Representation Shift voor, een trainingsvrije, model-agnostische metriek die de mate van verandering in de representatie van elk token meet. Dit integreert naadloos tokencompressie met FlashAttention, zonder aandachtmaps of hertraining. Onze methode generaliseert verder dan Transformers naar CNN's en state space-modellen. Uitgebreide experimenten tonen aan dat Representation Shift effectieve tokencompressie mogelijk maakt die compatibel is met FlashAttention, wat aanzienlijke snelheidswinsten oplevert van respectievelijk 5,5% en 4,4% in video-tekstretrieval en video QA. Code is beschikbaar op https://github.com/mlvlab/Representation-Shift.

CRINN: Contrastief Reinforcement Learning voor Zoeken naar de Dichtstbijzijnde Buren
CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

Aug 4

ByXiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Algoritmen voor het zoeken naar de dichtstbijzijnde buren (ANNS) zijn steeds belangrijker geworden voor recente AI-toepassingen, met name in retrieval-augmented generation (RAG) en agent-gebaseerde LLM-toepassingen. In dit artikel presenteren we CRINN, een nieuw paradigma voor ANNS-algoritmen. CRINN behandelt ANNS-optimalisatie als een reinforcement learning-probleem waarbij uitvoeringssnelheid dient als het beloningssignaal. Deze aanpak maakt de automatische generatie van steeds snellere ANNS-implementaties mogelijk, terwijl nauwkeurigheidsbeperkingen worden gehandhaafd. Onze experimentele evaluatie toont de effectiviteit van CRINN aan over zes veelgebruikte NNS-benchmarkdatasets. In vergelijking met state-of-the-art open-source ANNS-algoritmen behaalt CRINN de beste prestaties op drie daarvan (GIST-960-Euclidean, MNIST-784-Euclidean en GloVe-25-angular), en eindigt het op gelijke hoogte met de beste op twee daarvan (SIFT-128-Euclidean en GloVe-25-angular). De implicaties van het succes van CRINN reiken veel verder dan ANNS-optimalisatie: het bevestigt dat LLM's die zijn versterkt met reinforcement learning kunnen functioneren als een effectief hulpmiddel voor het automatiseren van geavanceerde algoritmische optimalisaties die gespecialiseerde kennis en arbeidsintensieve handmatige verfijning vereisen. Code is te vinden op https://github.com/deepreinforce-ai/CRINN.

De Belofte van RL voor Autoregressieve Bewerking van Afbeeldingen
The Promise of RL for Autoregressive Image Editing

Aug 1

BySaba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal

We onderzoeken drie strategieën om de prestaties te verbeteren op een breed scala aan beeldbewerkingstaken: supervised fine-tuning (SFT), reinforcement learning (RL), en Chain-of-Thought (CoT) redenering. Om al deze componenten in één consistent raamwerk te bestuderen, gebruiken we een autoregressief multimodaal model dat tekstuele en visuele tokens op een uniforme manier verwerkt. We ontdekken dat RL in combinatie met een grote multimodale LLM-verifier de meest effectieve van deze strategieën is. Als resultaat lanceren we EARL: Editing with Autoregression and RL, een krachtig RL-gebaseerd beeldbewerkingsmodel dat competitief presteert op een diverse reeks bewerkingen in vergelijking met sterke baselines, ondanks het gebruik van veel minder trainingsdata. EARL verlegt hiermee de grenzen van autoregressieve multimodale modellen op het gebied van beeldbewerking. We maken onze code, trainingsdata en getrainde modellen beschikbaar op https://github.com/mair-lab/EARL.

Goedel-Prover-V2: Schaalvergroting van Formeel Bewijzen met Scaffolded Data Synthese en Zelfcorrectie
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

Aug 5

ByYong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

We introduceren Goedel-Prover-V2, een reeks open-source taalmodelen die een nieuwe standaard zetten in geautomatiseerd bewijzen van stellingen. Gebouwd op het standaard expert iteration- en reinforcement learning-pijplijn, integreert onze aanpak drie belangrijke innovaties: (1) Scaffolded data synthesis: We genereren synthetische taken van toenemende moeilijkheidsgraad om het model te trainen in het beheersen van steeds complexere stellingen; (2) Verifier-guided self-correction: We stellen het model in staat om zijn bewijzen iteratief te herzien door gebruik te maken van feedback van de Lean-compiler; (3) Model averaging: We combineren modelcheckpoints om de afname in diversiteit van modeloutput in latere trainingsfasen te beperken. Ons kleine model, Goedel-Prover-V2-8B, behaalt 84,6% pass@32 op MiniF2F en presteert beter dan DeepSeek-Prover-V2-671B onder dezelfde metriek, ondanks dat het 80 keer kleiner is. Ons vlaggenschipmodel, Goedel-Prover-V2-32B, behaalt 88,1% op MiniF2F bij pass@32 in standaardmodus en 90,4% in zelfcorrectiemodus, wat een aanzienlijke verbetering is ten opzichte van de vorige state-of-the-art. Daarnaast lost ons vlaggenschipmodel 86 problemen op op PutnamBench bij pass@184, waarmee het de eerste plaats inneemt onder open-source modellen op de leaderboard, en overtreft het het record van DeepSeek-Prover-V2-671B van 47 opgeloste problemen bij pass@1024 met een aanzienlijk kleiner modelformaat en rekenbudget. Op het moment van release (juli-augustus 2025) behaalt Goedel-Prover-V2 de sterkste algehele prestaties onder alle open-source stellingbewijzers. Het behoort ook tot de best presterende modellen—inclusief closed-source systemen met publiek gerapporteerde prestaties—onder een beperkt testtijd-rekenbudget. Onze modellen, code en data zijn vrijgegeven op https://github.com/Goedel-LM/Goed-Prover-V2.

Multi-menselijk Interactief Gespreksdataset
Multi-human Interactive Talking Dataset

Aug 5

ByZeyu Zhu, Weijia Wu, Mike Zheng Shou

Bestaande studies over het genereren van pratende video's hebben zich voornamelijk gericht op monologen van één persoon of geïsoleerde gezichtsanimaties, wat hun toepasbaarheid op realistische interacties tussen meerdere mensen beperkt. Om deze kloof te overbruggen, introduceren we MIT, een grootschalige dataset die specifiek is ontworpen voor het genereren van pratende video's met meerdere mensen. Hiervoor ontwikkelen we een automatische pijplijn die gespreksvideo's met meerdere personen verzamelt en annoteert. De resulterende dataset omvat 12 uur aan hoogwaardig beeldmateriaal, waarbij elke opname twee tot vier sprekers bevat, met gedetailleerde annotaties van lichaamshoudingen en spraakinteracties. Het vangt natuurlijke gespreksdynamieken in scenario's met meerdere sprekers, en biedt zo een rijke bron voor het bestuderen van interactief visueel gedrag. Om het potentieel van MIT te demonstreren, stellen we verder CovOG voor, een basismodel voor deze nieuwe taak. Het integreert een Multi-Human Pose Encoder (MPE) om wisselende aantallen sprekers te verwerken door individuele pose-embeddings samen te voegen, en een Interactive Audio Driver (IAD) om hoofddynamieken te moduleren op basis van sprekerspecifieke audio-eigenschappen. Samen tonen deze componenten de haalbaarheid en uitdagingen van het genereren van realistische pratende video's met meerdere mensen, en vestigen MIT als een waardevolle benchmark voor toekomstig onderzoek. De code is beschikbaar op: https://github.com/showlab/Multi-human-Talking-Video-Dataset.

LAMIC: Layout-Gestuurde Multi-Beeldcompositie via Schaalbaarheid van Multimodale Diffusie Transformers
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Aug 1

ByYuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang

In controleerbare beeldgeneratie blijft het genereren van samenhangende en consistente afbeeldingen vanuit meerdere referenties met bewustzijn van ruimtelijke lay-out een uitdaging. Wij presenteren LAMIC, een Layout-Aware Multi-Image Composition framework dat voor het eerst single-reference diffusiemodellen uitbreidt naar multi-reference scenario's op een trainingsvrije manier. Gebouwd op het MMDiT-model introduceert LAMIC twee plug-and-play aandachtmechanismen: 1) Group Isolation Attention (GIA) om entiteitsontwarring te verbeteren; en 2) Region-Modulated Attention (RMA) om lay-outbewuste generatie mogelijk te maken. Om de modelcapaciteiten uitgebreid te evalueren, introduceren we verder drie metrieken: 1) Inclusion Ratio (IN-R) en Fill Ratio (FI-R) voor het beoordelen van lay-outcontrole; en 2) Background Similarity (BG-S) voor het meten van achtergrondconsistentie. Uitgebreide experimenten tonen aan dat LAMIC state-of-the-art prestaties behaalt op de meeste belangrijke metrieken: het overtreft consistent bestaande multi-reference baselines in ID-S, BG-S, IN-R en AVG-scores in alle instellingen, en behaalt de beste DPG in complexe compositietaken. Deze resultaten demonstreren LAMIC's superieure vermogens in identiteitsbehoud, achtergrondbehoud, lay-outcontrole en prompt-volgen, allemaal bereikt zonder enige training of fine-tuning, wat een sterke zero-shot generalisatiecapaciteit aantoont. Door de sterke punten van geavanceerde single-reference modellen te erven en naadloze uitbreiding naar multi-image scenario's mogelijk te maken, vestigt LAMIC een nieuw trainingsvrij paradigma voor controleerbare multi-image compositie. Naarmate foundationmodellen zich blijven ontwikkelen, wordt verwacht dat LAMIC's prestaties dienovereenkomstig zullen schalen. Onze implementatie is beschikbaar op: https://github.com/Suchenl/LAMIC.

ChartCap: Het verminderen van hallucinaties bij dichte grafiekbeschrijvingen
ChartCap: Mitigating Hallucination of Dense Chart Captioning

Aug 5

ByJunyoung Lim, Jaewoo Ahn, Gunhee Kim

Het genereren van nauwkeurige, informatieve en hallucinatievrije bijschriften voor grafieken blijft een uitdaging voor visuele taalmodelen, voornamelijk vanwege het ontbreken van grootschalige, hoogwaardige datasets van real-world grafieken. Bestaande real-world grafiekdatasets kampen echter met het probleem van het opnemen van irrelevante informatie die niet uit de grafiek kan worden afgeleid, en het onvoldoende vastleggen van structurele elementen en belangrijke inzichten. Daarom introduceren we ChartCap, een grootschalige dataset van 565K real-world grafiekafbeeldingen, gekoppeld aan typespecifieke, gedetailleerde bijschriften die irrelevante informatie uitsluiten en zowel structurele elementen als belangrijke inzichten gedetailleerd benadrukken. Om ChartCap te bouwen, hebben we een pijplijn met vier fasen ontworpen die bijschriften genereert met alleen de waarneembare gegevens uit de grafiek, en gebruiken we een op cyclische consistentie gebaseerde menselijke verificatie, die de kwaliteitscontrole versnelt zonder de nauwkeurigheid op te offeren. Daarnaast stellen we een nieuwe metriek voor, de Visual Consistency Score, die de kwaliteit van bijschriften evalueert door de gelijkenis te meten tussen de grafiek die opnieuw wordt gegenereerd uit een bijschrift en de oorspronkelijke grafiek, onafhankelijk van referentiebijschriften. Uitgebreide experimenten bevestigen dat modellen die zijn afgestemd op ChartCap consistent nauwkeurigere en informatievere bijschriften genereren met minder hallucinaties, en daarbij zowel open-source als propriëtaire modellen, en zelfs door mensen geannoteerde bijschriften, overtreffen.

HyCodePolicy: Hybride Taalcontrollers voor Multimodale Monitoring en Besluitvorming in Belichaamde Agents
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Aug 4

ByYibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben rijkere perceptuele verankering mogelijk gemaakt voor het genereren van codebeleid in belichaamde agents. De meeste bestaande systemen ontberen echter effectieve mechanismen om adaptief de uitvoering van beleid te monitoren en codes te repareren tijdens het voltooien van taken. In dit werk introduceren we HyCodePolicy, een hybride taalgebaseerd controlekader dat codesynthese, geometrische verankering, perceptuele monitoring en iteratieve reparatie systematisch integreert in een gesloten programmeercyclus voor belichaamde agents. Technisch gezien deelt ons systeem, gegeven een instructie in natuurlijke taal, deze eerst op in subdoelen en genereert een initieel uitvoerbaar programma dat verankerd is in objectgerichte geometrische primitieven. Het programma wordt vervolgens uitgevoerd in een simulatie, terwijl een vision-language model (VLM) geselecteerde controlepunten observeert om uitvoeringsfouten te detecteren en lokaliseren, en om foutredenen af te leiden. Door gestructureerde uitvoeringstraces die programmaniveau-gebeurtenissen vastleggen te combineren met VLM-gebaseerde perceptuele feedback, leidt HyCodePolicy foutoorzaken af en repareert programma's. Dit hybride dubbele feedbackmechanisme maakt zelfcorrigerende programsynthese mogelijk met minimale menselijke supervisie. Onze resultaten tonen aan dat HyCodePolicy de robuustheid en steekproefefficiëntie van robotmanipulatiebeleid aanzienlijk verbetert, en biedt een schaalbare strategie voor het integreren van multimodale redenering in autonome besluitvormingspijplijnen.

UniEgoMotion: Een Geïntegreerd Model voor Egocentrische Bewegingsreconstructie, Voorspelling en Generatie
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

Aug 2

ByChaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli

Egocentrische menselijke bewegingsgeneratie en -voorspelling met scènecontext is cruciaal voor het verbeteren van AR/VR-ervaringen, het optimaliseren van mens-robotinteractie, het bevorderen van ondersteunende technologieën en het mogelijk maken van adaptieve gezondheidsoplossingen door beweging nauwkeurig te voorspellen en te simuleren vanuit een first-person perspectief. Bestaande methoden richten zich echter voornamelijk op third-person bewegingssynthese met gestructureerde 3D-scènecontexten, wat hun effectiviteit beperkt in realistische egocentrische omgevingen waar een beperkt gezichtsveld, frequente occlusies en dynamische camera’s de scèneperceptie belemmeren. Om deze kloof te overbruggen, introduceren we Egocentrische Bewegingsgeneratie en Egocentrische Bewegingsvoorspelling, twee nieuwe taken die first-person beelden gebruiken voor scènebewuste bewegingssynthese zonder te vertrouwen op expliciete 3D-scènes. We presenteren UniEgoMotion, een geconditioneerd motion diffusion-model met een nieuwe head-centrische bewegingsrepresentatie die is afgestemd op egocentrische apparaten. Het eenvoudige maar effectieve ontwerp van UniEgoMotion ondersteunt egocentrische bewegingsreconstructie, -voorspelling en -generatie vanuit first-person visuele invoer in een uniform raamwerk. In tegenstelling tot eerdere werken die scènesemantiek negeren, extraheert ons model effectief beeldgebaseerde scènecontext om plausibele 3D-beweging af te leiden. Om de training te vergemakkelijken, introduceren we EE4D-Motion, een grootschalige dataset afgeleid van EgoExo4D, aangevuld met pseudo-ground-truth 3D-bewegingsannotaties. UniEgoMotion behaalt state-of-the-art prestaties in egocentrische bewegingsreconstructie en is de eerste die beweging genereert vanuit een enkel egocentrisch beeld. Uitgebreide evaluaties demonstreren de effectiviteit van ons uniforme raamwerk, wat een nieuwe standaard zet voor egocentrische bewegingsmodellering en nieuwe mogelijkheden ontsluit voor egocentrische toepassingen.

Wat Koopt Jouw AI-Agent? Evaluatie, Implicaties en Opkomende Vragen voor Agent-Gestuurde E-Commerce
What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce

Aug 4

ByAmine Allouah, Omar Besbes, Josué D Figueroa, Yash Kanoria, Akshit Kumar

Online marktplaatsen zullen worden getransformeerd door autonome AI-agenten die namens consumenten handelen. In plaats van dat mensen browsen en klikken, kunnen vision-language-model (VLM) agenten webpagina's interpreteren, producten evalueren en transacties uitvoeren. Dit roept een fundamentele vraag op: wat kopen AI-agenten, en waarom? We ontwikkelen ACES, een sandbox-omgeving die een platform-onafhankelijke VLM-agent koppelt aan een volledig programmeerbare mock-marktplaats om deze vraag te bestuderen. We voeren eerst basisrationaliteitstests uit in de context van eenvoudige taken, en vervolgens, door productposities, prijzen, beoordelingen, reviews, gesponsorde tags en platformaanbevelingen te randomiseren, verkrijgen we causale schattingen van hoe frontier VLM's daadwerkelijk winkelen. Modellen tonen sterke maar heterogene positie-effecten: allemaal geven ze de voorkeur aan de bovenste rij, maar verschillende modellen prefereren verschillende kolommen, wat de aanname van een universele "top"-rang ondermijnt. Ze straffen gesponsorde tags en belonen aanbevelingen. De gevoeligheden voor prijs, beoordelingen en reviews zijn richtingsgewijs mensachtig, maar variëren sterk in omvang tussen modellen. Gemotiveerd door scenario's waarin verkopers AI-agenten gebruiken om productvermeldingen te optimaliseren, tonen we aan dat een verkoperszijde-agent die kleine aanpassingen maakt aan productbeschrijvingen, gericht op AI-kopersvoorkeuren, aanzienlijke marktaandeelwinsten kan opleveren als AI-gemedieerd winkelen domineert. We vinden ook dat modale productkeuzes kunnen verschillen tussen modellen en dat in sommige gevallen de vraag zich kan concentreren op een paar geselecteerde producten, wat concurrentievragen oproept. Samen belichten onze resultaten hoe AI-agenten zich kunnen gedragen in e-commerce settings en brengen ze concrete verkopersstrategieën, platformontwerp en regelgevingsvragen naar voren in een AI-gemedieerd ecosysteem.

Bidirectionele Waarschijnlijkheidschatting met Multi-Modale Grote Taalmodellen voor Tekst-Video Retrieval
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

Jul 31

ByDohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim

Text-Video Retrieval heeft als doel de meest relevante tekst- (of video-) kandidaat te vinden op basis van een video- (of tekst-) query uit grootschalige online databases. Recent werk maakt gebruik van multimodale grote taalmodellen (MLLMs) om de retrieval te verbeteren, vooral voor lange of complexe query-kandidaatparen. We observeren echter dat de naïeve toepassing van MLLMs, d.w.z. retrieval op basis van kandidaatwaarschijnlijkheid, een kandidaatprior bias introduceert, waarbij kandidaten met inherent hogere priors worden bevoordeeld boven kandidaten die relevanter zijn voor de query. Daarom stellen we een nieuw retrieval-framework voor, Bidirectional Likelihood Estimation with MLLM (BLiM), dat zowel query- als kandidaatwaarschijnlijkheden benut door het model te trainen om tekst te genereren vanuit een gegeven video, evenals videokenmerken vanuit een gegeven tekst. Bovendien introduceren we Candidate Prior Normalization (CPN), een eenvoudig maar effectief trainingsvrij scorecalibratiemodule dat is ontworpen om kandidaatprior bias in kandidaatwaarschijnlijkheid te verminderen. Op vier Text-Video Retrieval benchmarks presteert onze BLiM uitgerust met CPN gemiddeld 6,4 R@1 beter dan eerdere state-of-the-art modellen, waarbij kandidaatprior bias effectief wordt verlicht en de relevantie tussen query en kandidaat wordt benadrukt. Onze diepgaande analyse over verschillende multimodale taken buiten retrieval benadrukt de brede toepasbaarheid van CPN, dat visueel begrip verbetert door de afhankelijkheid van tekstuele priors te verminderen. Code is beschikbaar op https://github.com/mlvlab/BLiM.

TreeRanker: Snel en model-onafhankelijk rangschikkingssysteem voor code-suggesties in IDE's
TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs

Aug 4

ByDaniele Cipollone, Egor Bogomolov, Arie van Deursen, Maliheh Izadi

Token-level code completion is een van de meest cruciale functies in moderne Integrated Development Environments (IDE's). Het ondersteunt ontwikkelaars door relevante identifiers en API's voor te stellen tijdens het programmeren. Hoewel suggesties doorgaans worden afgeleid uit statische analyse, hangt hun bruikbaarheid sterk af van hoe ze worden gerangschikt, omdat correcte voorspellingen die diep in de lijst staan zelden door gebruikers worden gezien. De meeste huidige systemen vertrouwen op handmatig gemaakte heuristieken of lichtgewicht machine learning-modellen die zijn getraind op gebruikerslogboeken, wat verder kan worden verbeterd om contextinformatie vast te leggen en te generaliseren over projecten en programmeerstijlen heen. In dit werk stellen we een nieuwe scoringsmethode voor om statische suggesties te rangschikken met behulp van taalmodelen op een lichtgewicht en model-agnostische manier. Onze methode organiseert alle geldige suggesties in een prefixboom en voert een enkele gretige decodering uit om token-level scores over de boom te verzamelen. Dit maakt een precieze token-aware rangschikking mogelijk zonder beam search, prompt engineering of modelaanpassingen. De aanpak is snel, architectuur-agnostisch en compatibel met reeds geïmplementeerde modellen voor code completion. Deze bevindingen benadrukken een praktische en effectieve weg voor het integreren van taalmodelen in reeds bestaande tools binnen IDE's, en uiteindelijk het bieden van slimmere en responsievere ontwikkelaarsondersteuning.

AttnTrace: Op aandacht gebaseerde contextterugspoeling voor LLM's met lange context
AttnTrace: Attention-based Context Traceback for Long-Context LLMs

Aug 5

ByYanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Lang-context grote taalmodellen (LLM's), zoals Gemini-2.5-Pro en Claude-Sonnet-4, worden steeds vaker gebruikt om geavanceerde AI-systemen te versterken, waaronder retrieval-augmented generation (RAG) pijplijnen en autonome agents. In deze systemen ontvangt een LLM een instructie samen met een context—vaal bestaande uit teksten die zijn opgehaald uit een kennisdatabase of geheugen—en genereert een reactie die contextueel onderbouwd is door de instructie te volgen. Recente studies hebben oplossingen ontworpen om een subset van teksten in de context te traceren die het meest bijdraagt aan de reactie die door het LLM wordt gegenereerd. Deze oplossingen hebben tal van praktische toepassingen, waaronder het uitvoeren van forensische analyse na een aanval en het verbeteren van de interpreteerbaarheid en betrouwbaarheid van LLM-outputs. Hoewel er aanzienlijke inspanningen zijn geleverd, leiden state-of-the-art oplossingen zoals TracLLM vaak tot hoge rekenkosten, bijvoorbeeld duurt het TracLLM honderden seconden om een traceback uit te voeren voor een enkel reactie-context paar. In dit werk stellen we AttnTrace voor, een nieuwe context traceback-methode gebaseerd op de aandachtswaarden die door een LLM worden geproduceerd voor een prompt. Om aandachtswaarden effectief te benutten, introduceren we twee technieken die zijn ontworpen om de effectiviteit van AttnTrace te vergroten, en we bieden theoretische inzichten voor onze ontwerpkeuze. We voeren ook een systematische evaluatie uit voor AttnTrace. De resultaten tonen aan dat AttnTrace nauwkeuriger en efficiënter is dan bestaande state-of-the-art context traceback-methoden. We laten ook zien dat AttnTrace state-of-the-art methoden kan verbeteren bij het detecteren van prompt-injectie onder lange contexten via het attributie-voor-detectie paradigma. Als een praktische toepassing demonstreren we dat AttnTrace effectief geïnjecteerde instructies kan aanwijzen in een paper die is ontworpen om LLM-gegenereerde reviews te manipuleren. De code is te vinden op https://github.com/Wang-Yanting/AttnTrace.

AlignGuard-LoRA: Uitlijning-behoudende Fine-Tuning via Fisher-geleide Ontbinding en Riemanniaans-Geodetische Botsingsregularisatie
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Aug 4

ByAmitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha

Low-rank adaptation (LoRA) is uitgegroeid tot een standaardtool voor het efficiënt finetunen van grote taalmodellen (LLMs). Toch kunnen zelfs kleine LoRA-updates leiden tot alignment drift, waarbij veiligheids- en gedragsbeperkingen verzwakken door verstrengelde parameterwijzigingen. Om dit aan te pakken, stellen we AlignGuard-LoRA (AGL) voor, een principieel framework voor het behouden van alignment tijdens het finetunen. AGL introduceert verschillende cruciale componenten: een primaire taakverliesfunctie voor supervisie, regularisatie op basis van de Fisher Information Matrix om updates in alignment-gevoelige deelruimten te beperken, en taakspecifieke regularisatie om de integratie van nieuwe kennis te stabiliseren. We introduceren verder collision-aware regularisatie, een combinatie van Riemanniaanse overlap – die coördinaat-gewijze interferentie bestraft – en geodetische scheiding – die een gescheiden update-geometrie bevordert. We hebben DriftCaps samengesteld, een gerichte diagnostische benchmark van veilige en onveilige prompts ontworpen om alignment drift en veiligheidsdegradatie te kwantificeren. Empirische evaluaties tonen aan dat AGL alignment drift met tot wel 50% vermindert op veiligheidskritieke benchmarks zonder de prestaties van downstream taken te verslechteren. Uitgebreide ablatie bevestigt dat elke component een duidelijk aandeel heeft in het behouden van latente veiligheidsgedragingen. Ten slotte leiden we een schaalwet voor catastrofaal vergeten af en valideren deze, waaruit blijkt dat AGL de escalatie van verlies na finetunen afvlakt terwijl de aanpassingsdynamiek behouden blijft. AGL is een structureel onderbouwde verfijning van LoRA, die alignment behoudt met minimale compromissen. Om verder onderzoek en ontwikkeling aan te moedigen, maken we onze implementatie open-source.

TRACEALIGN -- Het traceren van de verschuiving: Het toeschrijven van afstemmingsfouten aan bronnen van overtuigingen tijdens de training in LLM's
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Aug 4

ByAmitava Das, Vinija Jain, Aman Chadha

Grote Taalmodellen (LLMs) die zijn afgestemd om in lijn te zijn met menselijke waarden, vertonen vaak uitlijndrift, waarbij ze onveilige of beleidsschendende voltooiingen produceren wanneer ze worden blootgesteld aan adversariële prompts, decodeerverstoringen of geparafraseerde jailbreaks. Hoewel eerder werk het gedrag van uitlijnfouten heeft gekarakteriseerd, is er weinig bekend over de bronnen van overtuigingen tijdens de training die aan deze fouten ten grondslag liggen. Wij introduceren TraceAlign, een uniform raamwerk om onveilige voltooiingen terug te voeren naar hun oorzaken in de trainingscorpus van het model. Centraal in onze aanpak staat de Belief Conflict Index (BCI), die semantische inconsistentie tussen gegenereerde segmenten en uitgelijnde beleidsregels kwantificeert, gebaseerd op opgehaalde trainingsdocumenten met behulp van suffix-array matching. Wij stellen drie complementaire interventies voor: (i) TraceShield, een veiligheidsfilter tijdens de inferentie dat voltooiingen met hoge BCI-segmenten weigert, (ii) Contrastive Belief Deconfliction Loss, een contrastief afstemmingsdoel dat hoge BCI-voortzettingen bestraft tijdens DPO, en (iii) Prov-Decode, een herkomstbewuste decodeerstrategie die bundeluitbreidingen blokkeert waarvan wordt voorspeld dat ze hoge BCI-segmenten opleveren. Samen verminderen deze verdedigingen uitlijndrift met tot 85% op onze samengestelde Alignment Drift Benchmark (ADB), terwijl de bruikbaarheid op standaardtaken behouden blijft, met een delta van minder dan 0,2 en een verbeterde weigeringskwaliteit. We leiden verder een theoretische bovengrens af voor de waarschijnlijkheid van drift via suffix-array segmentstatistieken, waarbij we de frequentie en lengte van memorisatie koppelen aan het risico van adversariële reactivering. TraceAlign biedt daarmee de eerste schaalbare, traceerbare en onderbouwde toolkit om uitlijnfouten bij de bron te begrijpen en te mitigeren. Om verder onderzoek en ontwikkeling aan te moedigen, hebben we onze implementatie open-source gemaakt op: https://anonymous.4open.science/r/tracealign-2DA7