HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

44 papers found

LongLive: Real-time Interactieve Lange Videogeneratie
LongLive: Real-time Interactive Long Video Generation

Sep 26

ByShuai Yang, Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, Yukang Chen

176

We presenteren LongLive, een frame-level autoregressief (AR) raamwerk voor real-time en interactieve lange videogeneratie. Het genereren van lange video's brengt uitdagingen met zich mee op het gebied van zowel efficiëntie als kwaliteit. Diffusion- en Diffusion-Forcing-modellen kunnen hoogwaardige video's produceren, maar lijden onder lage efficiëntie vanwege bidirectionele aandacht. Causale aandacht AR-modellen ondersteunen KV-caching voor snellere inferentie, maar gaan vaak in kwaliteit achteruit bij lange video's vanwege geheugenuitdagingen tijdens lange-video training. Daarnaast zijn, naast statische prompt-gebaseerde generatie, interactieve mogelijkheden, zoals streaming prompt-inputs, cruciaal voor dynamische contentcreatie, waardoor gebruikers verhalen in real-time kunnen sturen. Deze interactieve vereiste verhoogt de complexiteit aanzienlijk, vooral bij het waarborgen van visuele consistentie en semantische samenhang tijdens promptovergangen. Om deze uitdagingen aan te pakken, neemt LongLive een causaal, frame-level AR-ontwerp aan dat een KV-recache-mechanisme integreert dat gecachte staten vernieuwt met nieuwe prompts voor soepele, aanhankelijke overgangen; streaming lange afstemming om lange video-training mogelijk te maken en training en inferentie op elkaar af te stemmen (train-long-test-long); en korte venster-aandacht gecombineerd met een frame-level aandachtssink, verkort als frame sink, die langeafstandsconsistentie behoudt terwijl snellere generatie mogelijk wordt gemaakt. Met deze sleutelontwerpen fine-tunt LongLive een 1.3B-parameter kort-clip model naar minutenlange generatie in slechts 32 GPU-dagen. Bij inferentie behoudt LongLive 20.7 FPS op een enkele NVIDIA H100, behaalt sterke prestaties op VBench in zowel korte als lange video's. LongLive ondersteunt video's tot 240 seconden op een enkele H100 GPU. LongLive ondersteunt verder INT8-gekwantiseerde inferentie met slechts marginaal kwaliteitsverlies.

EPO: Entropie-geregulariseerde Beleidsoptimalisatie voor LLM-agenten Versterkend Leren
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

Sep 26

ByXu Wujiang, Wentian Zhao, Zhenting Wang, Li Yu-Jhe, Jin Can, Jin Mingyu, Mei Kai, Wan Kun, Metaxas Dimitris

131

Het trainen van LLM-agents in omgevingen met meerdere beurten en schaarse beloningen, waarbij het voltooien van een enkele taak 30+ interactiebeurten binnen een episode vereist, vormt een fundamentele uitdaging voor reinforcement learning. We identificeren een kritieke foutmodus die uniek is voor deze setting: de exploratie-exploitatie cascade-fout. Deze cascade begint met vroegtijdige convergentie van het beleid in de beginfase, waarbij schaarse feedback ervoor zorgt dat agents zich vastleggen op gebrekkige, laag-entropie strategieën. Vervolgens belanden agents in een fase van beleidsinstorting in de latere fase, waarbij conventionele entropie-regularisatie contraproductief wordt en chaotische exploratie bevordert die de training destabiliseert. We stellen Entropy-regularized Policy Optimization (EPO) voor, een algemeen raamwerk dat deze foutcyclus doorbreekt via drie synergetische mechanismen: (1) het toepassen van entropie-regularisatie in omgevingen met meerdere beurten om exploratie te verbeteren, (2) een entropie-gladmakende regularisator die de beleidsentropie begrenst binnen historische gemiddelden om abrupte fluctuaties te voorkomen, en (3) adaptieve fasegebaseerde weging die exploratie en exploitatie in balans brengt tijdens de training. Onze analyse rechtvaardigt dat EPO een monotoon afnemende entropie-variantie garandeert terwijl convergentie behouden blijft. EPO behaalt een prestatieverbetering van tot 152% op ScienceWorld en tot 19,8% op ALFWorld. Ons werk toont aan dat omgevingen met meerdere beurten en schaarse beloningen fundamenteel andere entropiecontrole vereisen dan traditioneel RL, met brede implicaties voor de training van LLM-agents.

MinerU2.5: Een ontkoppeld visueel-taalmodel voor efficiënte verwerking van documenten met hoge resolutie
MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

Sep 26

ByJunbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He

121

We introduceren MinerU2.5, een vision-language model voor documentparsing met 1,2 miljard parameters dat state-of-the-art herkenningsnauwkeurigheid bereikt terwijl het uitzonderlijke computationele efficiëntie behoudt. Onze aanpak maakt gebruik van een grof-naar-fijn, tweestaps parsingstrategie die globale lay-outanalyse ontkoppelt van lokale inhoudsherkenning. In de eerste fase voert het model efficiënte lay-outanalyse uit op verkleinde afbeeldingen om structurele elementen te identificeren, waardoor de computationele belasting van het verwerken van hoogresolutie-invoer wordt omzeild. In de tweede fase, geleid door de globale lay-out, voert het gerichte inhoudsherkenning uit op native-resolutie uitsneden die uit de originele afbeelding zijn geëxtraheerd, waardoor fijne details in dichte tekst, complexe formules en tabellen behouden blijven. Om deze strategie te ondersteunen, hebben we een uitgebreide data-engine ontwikkeld die diverse, grootschalige trainingscorpora genereert voor zowel pretraining als fine-tuning. Uiteindelijk toont MinerU2.5 een sterke documentparsing-capaciteit, waarbij het state-of-the-art prestaties behaalt op meerdere benchmarks, zowel algemene als domeinspecifieke modellen overtreft bij verschillende herkenningstaken, terwijl het aanzienlijk lagere computationele overhead behoudt.

Kwantiel Voordeelschatting voor Entropie-Veilig Redeneren
Quantile Advantage Estimation for Entropy-Safe Reasoning

Sep 26

ByJunkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He

117

Reinforcement Learning met Verifieerbare Beloningen (RLVR) versterkt het redeneervermogen van LLM's, maar de training oscilleert vaak tussen {entropie-instorting} en {entropie-explosie}. We herleiden beide risico's naar de gemiddelde basislijn die wordt gebruikt in waardevrije RL (bijv. GRPO en DAPO), die negatieve-voordeelmonsters onterecht bestraft onder beloningsuitbijters. We stellen {Kwantiel Voordeelschatting} (QAE) voor, waarbij het gemiddelde wordt vervangen door een groepswijze K-kwantiel basislijn. QAE introduceert een responsniveau, twee-regime poort: op moeilijke vragen (p <= 1 - K) versterkt het zeldzame successen, terwijl het op eenvoudige vragen (p > 1 - K) de resterende mislukkingen aanpakt. Onder eerste-orde softmax-updates bewijzen we {tweezijdige entropie-veiligheid}, wat onder- en bovengrenzen geeft op de entropieverandering in één stap die explosie beteugelen en instorting voorkomen. Empirisch gezien stabiliseert deze minimale aanpassing de entropie, verspreidt het de krediettoewijzing (met afgestemde K, ontvangt ongeveer 80% van de reacties nul voordeel), en levert het aanhoudende pass@1-winsten op voor Qwen3-8B/14B-Base over AIME 2024/2025 en AMC 2023. Deze resultaten identificeren {basislijnontwerp} -- in plaats van tokenniveau heuristieken -- als het primaire mechanisme voor het schalen van RLVR.

Variationeel Redeneren voor Taalmodellen
Variational Reasoning for Language Models

Sep 26

ByXiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang

We introduceren een variatief redeneerkader voor taalmodelen dat denksporen behandelt als latente variabelen en deze optimaliseert via variatief inferentie. Uitgaande van de evidence lower bound (ELBO) breiden we deze uit naar een multi-spoor doelstelling voor strakkere grenzen en stellen we een forward-KL formulering voor die de training van de variatieve posterior stabiliseert. We laten verder zien dat rejection sampling finetuning en binary-reward RL, inclusief GRPO, geïnterpreteerd kunnen worden als lokale forward-KL doelstellingen, waarbij een impliciete weging door modelnauwkeurigheid voortvloeit uit de afleiding en een voorheen onopgemerkte bias richting eenvoudigere vragen onthult. We valideren onze methode empirisch op de Qwen 2.5 en Qwen 3 modelfamilies over een breed scala aan redeneertaken. Over het algemeen biedt ons werk een principieel probabilistisch perspectief dat variatief inferentie verenigt met RL-stijl methoden en stabiele doelstellingen oplevert voor het verbeteren van het redeneervermogen van taalmodelen. Onze code is beschikbaar op https://github.com/sail-sg/variational-reasoning.

Taalmodellen kunnen leren van verbale feedback zonder schaalbare beloningen.
Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Sep 26

ByRenjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang

LLM's worden vaak getraind met RL (Reinforcement Learning) op basis van menselijke of AI-feedback, maar dergelijke methoden comprimeren doorgaans genuanceerde feedback tot scalaire beloningen, waardoor veel van hun rijkdom verloren gaat en schaalonevenwicht ontstaat. Wij stellen voor om verbale feedback te behandelen als een conditioneringssignaal. Geïnspireerd door taalprioriteiten in tekst-naar-beeldgeneratie, die nieuwe uitvoer mogelijk maken vanuit ongeziene prompts, introduceren we het feedback-conditionele beleid (FCP). FCP leert direct uit respons-feedbackparen en benadert de feedback-conditionele posterior via maximum likelihood training op offline data. We ontwikkelen verder een online bootstrapping-fase waarin het beleid genereert onder positieve condities en nieuwe feedback ontvangt om zichzelf te verfijnen. Dit herformuleert feedback-gestuurd leren als conditionele generatie in plaats van beloningsoptimalisatie, wat een expressievere manier biedt voor LLM's om direct te leren van verbale feedback. Onze code is beschikbaar op https://github.com/sail-sg/feedback-conditional-policy.

ReviewScore: Misleidende Peer Review Detectie met Grote Taalmodellen
ReviewScore: Misinformed Peer Review Detection with Large Language Models

Sep 25

ByHyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang

Peer review vormt de ruggengraat van academisch onderzoek, maar bij de meeste AI-conferenties neemt de kwaliteit van de reviews af naarmate het aantal inzendingen explodeert. Om onbetrouwbare reviews betrouwbaar te detecteren, definiëren we misleidende reviewpunten als "zwakke punten" in een review die onjuiste uitgangspunten bevatten, of "vragen" in een review die al door het artikel beantwoord kunnen worden. We constateren dat 15,2% van de zwakke punten en 26,4% van de vragen misleidend zijn en introduceren ReviewScore om aan te geven of een reviewpunt misleidend is. Om de feitelijkheid van elk uitgangspunt van zwakke punten te evalueren, stellen we een geautomatiseerde engine voor die elk expliciet en impliciet uitgangspunt uit een zwak punt reconstrueert. We bouwen een door menselijke experts geannoteerde ReviewScore-dataset om het vermogen van LLM's te testen om de evaluatie van ReviewScore te automatiseren. Vervolgens meten we de overeenstemming tussen mens en model over ReviewScore met behulp van acht huidige state-of-the-art LLM's en constateren we een matige overeenstemming. We tonen ook aan dat het evalueren van feitelijkheid op uitgangspuntniveau significant hogere overeenstemming laat zien dan het evalueren van feitelijkheid op zwakpuntniveau. Een grondige analyse van de meningsverschillen ondersteunt verder het potentieel van een volledig geautomatiseerde ReviewScore-evaluatie.

Geen Prompt Achtergelaten: Benutten van Nul-Variantie Prompts in LLM Versterkend Leren via Entropie-Gestuurde Voordeelvorming
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

Sep 26

ByThanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtig raamwerk voor het verbeteren van de redeneervaardigheden van Large Language Models (LLM's). Huidige methoden zoals GRPO vertrouwen echter alleen op problemen waarbij de modelreacties op dezelfde invoer verschillen in correctheid, terwijl ze diegene negeren waarbij alle reacties dezelfde beloning ontvangen - zogenaamde nulvariantieprompts. In dit werk beargumenteren we dat dergelijke prompts niet nutteloos zijn, maar in feite zinvolle feedback kunnen bieden voor beleidsoptimalisatie. Hiertoe introduceren we RL met Nulvariantieprompts (RL-ZVP), een nieuw algoritme dat leersignalen haalt uit nulvariantieprompts. RL-ZVP beloont direct correctheid en bestraft fouten, zelfs zonder contrasterende reacties, en moduleert feedback met tokenniveau kenmerken om informatieve, genuanceerde signalen te behouden. Over zes wiskundige redeneerbenchmarks behaalt RL-ZVP significante verbeteringen van tot 8,61 punten in nauwkeurigheid en 7,77 punten in slaagpercentage ten opzichte van GRPO, terwijl het consistent beter presteert dan andere baseline-methoden die nulvariantieprompts filteren. Deze resultaten benadrukken het onbenutte potentieel van leren uit nulvariantieprompts in RLVR.

LLaVA-OneVision-1.5: Volledig Open Framework voor Gedemocratiseerde Multimodale Training
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

Sep 28

ByXiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng

We presenteren LLaVA-OneVision-1.5, een nieuwe familie van Large Multimodal Models (LMMs) die state-of-the-art prestaties leveren met aanzienlijk lagere computationele en financiële kosten. In tegenstelling tot bestaande werken biedt LLaVA-OneVision-1.5 een open, efficiënt en reproduceerbaar raamwerk voor het bouwen van hoogwaardige visie-taalmodellen volledig vanaf nul. De release van LLaVA-OneVision-1.5 omvat drie primaire componenten: (1) Grootgeschalen Gecureerde Datasets: We hebben een 85M concept-gebalanceerde pretrainingsdataset LLaVA-OneVision-1.5-Mid-Training en een zorgvuldig gecureerde 26M instructiedataset LLaVA-OneVision-1.5-Instruct geconstrueerd, die gezamenlijk 64B gecomprimeerde multimodale tokens omvatten. (2) Efficiënt Trainingsraamwerk: We hebben een compleet end-to-end efficiënt trainingsraamwerk ontwikkeld dat gebruikmaakt van een offline parallelle datapackingstrategie om de training van LLaVA-OneVision-1.5 mogelijk te maken binnen een budget van $16.000. (3) State-of-the-art Prestaties: Experimentele resultaten tonen aan dat LLaVA-OneVision-1.5 uitzonderlijk competitieve prestaties levert over een breed scala aan downstreamtaken. Specifiek presteert LLaVA-OneVision-1.5-8B beter dan Qwen2.5-VL-7B op 18 van de 27 benchmarks, en LLaVA-OneVision-1.5-4B overtreft Qwen2.5-VL-3B op alle 27 benchmarks. We verwachten LLaVA-OneVision-1.5-RL binnenkort uit te brengen en moedigen de gemeenschap aan om verdere updates af te wachten.

PromptCoT 2.0: Schaalvergroting van promptsynthese voor redeneren met grote taalmodellen
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Sep 24

ByXueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong

Grote taalmodellen (LLMs) ontwikkelen zich van conversatiesystemen naar krachtige redeneerders voor taken zoals Olympiade-wiskunde en competitief programmeren. Hoewel het schalen van parameters en testtijdberekeningen vooruitgang heeft gestimuleerd, is een belangrijk knelpunt het gebrek aan hoogwaardige trainingsproblemen: door mensen samengestelde datasets zijn kostbaar en beperkt, terwijl bestaande synthetische corpora vaak te eenvoudig of smal zijn. PromptCoT 1.0 toonde aan dat het injecteren van redeneringen in promptsynthese de probleemcomplexiteit verhoogt. Hierop voortbouwend presenteren we PromptCoT 2.0, een schaalbaar framework dat handmatige heuristieken vervangt door een expectation-maximization (EM) lus, waarbij redeneringen iteratief worden verfijnd om promptconstructie te sturen. Dit produceert problemen die zowel moeilijker als diverser zijn dan eerdere corpora. De synthetische prompts ondersteunen twee post-trainingsregimes: (1) Self-Play, waarbij sterke modellen autonoom verbeteren via verifieerbare feedback zonder sterkere leraren; en (2) Supervised Fine-Tuning (SFT), waarbij zwakkere modellen leren van door leraren gedistilleerde sporen. Uitgebreide experimenten demonstreren de effectiviteit van deze aanpak. In self-play stelt het toepassen van PromptCoT 2.0 op Qwen3-30B-A3B-Thinking-2507 nieuwe state-of-the-art resultaten vast op de 30B-schaal, met +4.4, +4.8, en +5.3 op AIME 24/25 en HMMT 25, +6.1 en +5.0 op LiveCodeBench v5/v6, en +35 Elo op Codeforces. In SFT verhoogt het trainen van Qwen2.5-7B-Instruct uitsluitend op synthetische prompts de nauwkeurigheid naar 73.1 (AIME 24), 65.6 (AIME 25), en 53.4 (LiveCodeBench v5), wat modellen overtrof die op menselijke of hybride data waren getraind. Analyses bevestigen verder dat PromptCoT 2.0 fundamenteel moeilijkere en distributieel verschillende problemen oplevert. Deze resultaten vestigen promptsynthese als een nieuwe as voor het schalen van redenering en positioneren PromptCoT 2.0 als een schaalbare basis voor toekomstige open-source modellen. De implementatie is beschikbaar op https://github.com/inclusionAI/PromptCoT.

CapRL: Het stimuleren van dichte beeldbeschrijvingsmogelijkheden via reinforcement learning
CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Sep 26

ByLong Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin

Beeldbeschrijving is een fundamentele taak die de visuele en linguïstische domeinen verbindt en een cruciale rol speelt bij het vooraf trainen van Grote Visueel-Taalmodellen (LVLMs). De huidige state-of-the-art beschrijvingsmodellen worden doorgaans getraind met Supervised Fine-Tuning (SFT), een paradigma dat afhankelijk is van dure, niet-schaalbare data die door mensen of propriëtaire modellen zijn geannoteerd. Deze aanpak leidt vaak tot modellen die specifieke grondwaarheid-antwoorden uit het hoofd leren, wat hun algemeenheid en het vermogen om diverse, creatieve beschrijvingen te genereren beperkt. Om de beperkingen van SFT te overwinnen, stellen we voor om het Reinforcement Learning with Verifiable Rewards (RLVR)-paradigma toe te passen op de open-einde taak van beeldbeschrijving. Een primaire uitdaging is echter het ontwerpen van een objectieve beloningsfunctie voor de inherent subjectieve aard van wat een "goede" beschrijving vormt. We introduceren Captioning Reinforcement Learning (CapRL), een nieuw trainingsraamwerk dat de kwaliteit van beschrijvingen herdefinieert door middel van hun nut: een hoogwaardige beschrijving moet een niet-visueel taalmodel in staat stellen om nauwkeurig vragen over het corresponderende beeld te beantwoorden. CapRL maakt gebruik van een ontkoppelde tweefasenpijplijn waarbij een LVLM een beschrijving genereert, en de objectieve beloning wordt afgeleid van de nauwkeurigheid van een apart, visueel-vrij LLM dat meerkeuzevragen beantwoordt uitsluitend op basis van die beschrijving. Als de eerste studie die RLVR toepast op de subjectieve taak van beeldbeschrijving, demonstreren we dat CapRL aanzienlijke verbeteringen biedt in meerdere instellingen. Vooraf trainen op de CapRL-5M beschrijvingsdataset geannoteerd door CapRL-3B resulteert in aanzienlijke winsten over 12 benchmarks. Bovendien behaalt CapRL binnen het Prism Framework voor de evaluatie van beschrijvingskwaliteit prestaties die vergelijkbaar zijn met Qwen2.5-VL-72B, terwijl het de baseline gemiddeld met 8,4% overtreft. Code is hier beschikbaar: https://github.com/InternLM/CapRL.

MesaTask: Naar taakgestuurde generatie van tafelopstellingen via 3D-ruimtelijk redeneren
MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

Sep 26

ByJinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang

Het vermogen van robots om menselijke instructies te interpreteren en manipulatie taken uit te voeren vereist de beschikbaarheid van tafelopstellingen die relevant zijn voor de taak om op te trainen. Traditionele methoden voor het creëren van deze opstellingen zijn echter gebaseerd op tijdrovend handmatig ontwerp of puur willekeurige opstellingen, die beperkt zijn in termen van geloofwaardigheid of afstemming op de taken. In dit artikel formuleren we een nieuwe taak, namelijk taakgerichte tafelopstelling generatie, wat aanzienlijke uitdagingen met zich meebrengt vanwege de grote kloof tussen hoogwaardige taakinstructies en de tafelopstellingen. Om onderzoek naar zo'n uitdagende taak te ondersteunen, introduceren we MesaTask-10K, een grootschalige dataset bestaande uit ongeveer 10.700 synthetische tafelopstellingen met handmatig ontworpen lay-outs die realistische opstellingen en ingewikkelde inter-object relaties garanderen. Om de kloof tussen taken en opstellingen te overbruggen, stellen we een Spatial Reasoning Chain voor die het generatieproces opdeelt in object inferentie, ruimtelijke interrelatie redenering en scènegrafiek constructie voor de uiteindelijke 3D-opstelling. We presenteren MesaTask, een LLM-gebaseerd framework dat gebruik maakt van deze redeneringsketen en verder is verbeterd met DPO-algoritmen om fysiek plausibele tafelopstellingen te genereren die goed aansluiten bij gegeven taakbeschrijvingen. Uitgebreide experimenten tonen de superieure prestaties van MesaTask aan in vergelijking met baseline methoden in het genereren van taakconforme tafelopstellingen met realistische lay-outs. De projectpagina is te vinden op https://mesatask.github.io/.

Leer de Ropes, Vertrouw dan op de Overwinningen: Zelfimitatie met Progressieve Verkenning voor Agent-Gestuurd Reinforcement Learning
Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

Sep 26

ByYulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

Reinforcement learning (RL) is het dominante paradigma voor het aanscherpen van strategische gereedschapsgebruikscapaciteiten van LLMs bij langetermijn, spaarzaam beloonde agenttaken, maar het wordt geconfronteerd met een fundamentele uitdaging van de afweging tussen exploratie en exploitatie. Bestaande studies stimuleren exploratie vanuit het perspectief van beleidsentropie, maar dergelijke mechanische entropiemaximalisatie is gevoelig voor RL-trainingsinstabiliteit vanwege de verschuiving van de distributie over meerdere beurten. In dit artikel richten we ons op de progressieve balans tussen exploratie en exploitatie onder begeleiding van de eigen ervaringen van de agent, zonder te vervallen in entropie-instorting of onbeperkte divergentie. We stellen SPEAR voor, een curriculumgebaseerd zelf-imitatieleren (SIL) recept voor het trainen van agentische LLMs. Het breidt het standaard SIL-raamwerk uit, waarbij een replay-buffer zelf gegenereerde veelbelovende trajecten opslaat voor off-policy updates, door geleidelijk de beleidsevolutie te sturen binnen een goed gebalanceerd bereik van entropie over verschillende fasen. Specifiek integreert onze aanpak een curriculum om het exploratieproces te beheren, waarbij intrinsieke beloningen worden gebruikt om vaardigheidsniveau-exploratie te bevorderen en actieniveau-exploratie te vergemakkelijken via SIL. In eerste instantie speelt de aanvullende gereedschapsoproepbeloning een cruciale rol bij de accumulatie van gereedschapsgebruikvaardigheden, waardoor brede blootstelling aan de onbekende distributies van de omgevingsfeedback mogelijk wordt met een opwaartse entropietrend. Naarmate de training vordert, wordt zelf-imitatie versterkt om bestaande succesvolle patronen uit herhaalde ervaringen te exploiteren voor vergelijkende actieniveau-exploratie, waardoor de oplossingsiteratie wordt versneld zonder onbeperkte entropiegroei. Om de training verder te stabiliseren, kalibreren we de voordelen van ervaringen in de replay-buffer opnieuw om mogelijke beleidsdrift aan te pakken. Regularisaties zoals het afkappen van tokens met een hoge covariantie tussen waarschijnlijkheid en voordeel worden geïntroduceerd in de trajectniveau-entropiecontrole om overmatig vertrouwen te beteugelen.

Fijnafstemming Correct Uitgevoerd in Modelbewerking
Fine-tuning Done Right in Model Editing

Sep 26

ByWanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng

Fine-tuning, een fundamentele methode voor het aanpassen van grote taalmodel(len), wordt al lang als ondoeltreffend beschouwd voor modelbewerking. Hier dagen we deze overtuiging uit en stellen we dat het gerapporteerde falen niet voortkomt uit een inherente beperking van fine-tuning zelf, maar uit de aanpassing ervan aan de sequentiële aard van de bewerkingstaak, een single-pass depth-first pipeline die elk voorbeeld optimaliseert tot convergentie voordat wordt doorgegaan naar het volgende. Hoewel intuïtief, leidt deze depth-first pipeline in combinatie met sample-wise updating tot overoptimalisatie van elke bewerking en veroorzaakt het interferentie tussen bewerkingen. Onze gecontroleerde experimenten tonen aan dat het simpelweg herstellen van fine-tuning naar de standaard breadth-first (d.w.z. epoch-gebaseerde) pipeline met mini-batch optimalisatie de effectiviteit ervan voor modelbewerking aanzienlijk verbetert. Bovendien lijdt fine-tuning bij bewerking ook onder suboptimale afstelpingsparameterlocaties die zijn overgenomen uit eerdere methoden. Door systematische analyse van afstelpingslocaties hebben we LocFT-BF afgeleid, een eenvoudige en effectieve gelokaliseerde bewerkingsmethode gebouwd op het herstelde fine-tuning framework. Uitgebreide experimenten met diverse LLM's en datasets tonen aan dat LocFT-BF state-of-the-art methoden met grote marges overtreft. Opmerkelijk is dat het, voor zover wij weten, de eerste methode is die 100K bewerkingen en 72B-parametermodellen aankan, 10 keer meer dan eerdere praktijken, zonder in te leveren op algemene capaciteiten. Door een lang bestaande misvatting te verhelderen en een principiële gelokaliseerde afstelpingsstrategie te introduceren, bevorderen we fine-tuning van een onderschatte baseline naar een toonaangevende methode voor modelbewerking, waarmee we een solide basis leggen voor toekomstig onderzoek.

UltraHorizon: Het benchmarken van agentcapaciteiten in ultra langetermijnscenario's
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

Sep 26

ByHaotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen

Autonome agents hebben recentelijk opmerkelijke vooruitgang geboekt in diverse domeinen, maar de meeste evaluaties richten zich op kortetermijntaken met volledige observatie. Daarentegen spelen veel kritieke taken in de echte wereld, zoals grootschalige softwareontwikkeling, commerciële investeringen en wetenschappelijke ontdekkingen, zich af in langetermijn- en gedeeltelijk observeerbare scenario's waar succes afhangt van aanhoudend redeneren, plannen, geheugenbeheer en het gebruik van tools. Bestaande benchmarks vangen deze langetermijnuitdagingen zelden, wat een gat laat in systematische evaluatie. Om dit gat te overbruggen, introduceren we UltraHorizon, een nieuwe benchmark die de fundamentele capaciteiten meet die essentieel zijn voor complexe uitdagingen in de echte wereld. We gebruiken exploratie als een overkoepelende taak in drie verschillende omgevingen om deze kerncompetenties te valideren. Agents worden ontworpen voor langetermijnontdekkings taken waarin ze iteratief verborgen regels moeten ontdekken door middel van aanhoudend redeneren, plannen, geheugen- en toolbeheer, en interactie met de omgeving. Onder de zwaarste schaalinstelling hebben trajecten gemiddeld meer dan 200k tokens en 400+ toolaanroepen, terwijl ze in standaardconfiguraties nog steeds meer dan 35k tokens overschrijden en gemiddeld meer dan 60 toolaanroepen omvatten. Onze uitgebreide experimenten tonen aan dat LLM-agents consistent onderpresteren in deze instellingen, terwijl menselijke deelnemers hogere scores behalen, wat een persistent gat in de langetermijncapaciteiten van agents benadrukt. We observeren ook dat eenvoudige schaalvergroting faalt in onze taak. Om het falen van agents beter te illustreren, voeren we een diepgaande analyse uit van verzamelde trajecten. We identificeren acht soorten fouten en schrijven deze toe aan twee primaire oorzaken: in-context vergrendeling en fundamentele functionele capaciteitsgaten. https://github.com/StarDewXXX/UltraHorizon{Onze code zal hier beschikbaar zijn.}

Zie, Wijs, Vlieg: Een Leerloos VLM-Raamwerk voor Universele Onbemande Luchtvaartnavigatie
See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

Sep 26

ByChih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

We presenteren See, Point, Fly (SPF), een trainingsvrij raamwerk voor visuele en taalkundige navigatie in de lucht (AVLN) gebouwd op visuele-taalmodelen (VLMs). SPF is in staat om naar elk doel te navigeren op basis van elk type vrije-vorm instructies in elke omgeving. In tegenstelling tot bestaande VLM-gebaseerde benaderingen die actievoorspelling behandelen als een tekstgeneratietaak, is onze belangrijkste inzicht dat actievoorspelling voor AVLN wordt beschouwd als een 2D ruimtelijke verankerings taak. SPF benut VLMs om vage taal instructies te ontleden in iteratieve annotatie van 2D wegpunten op het invoerbeeld. Samen met de voorspelde reisafstand, transformeert SPF voorspelde 2D wegpunten in 3D verplaatsingsvectoren als actiecommando's voor UAV's. Bovendien past SPF de reisafstand adaptief aan om efficiëntere navigatie te bevorderen. Opmerkelijk is dat SPF navigeert in een geslotenlus controlemanier, waardoor UAV's dynamische doelen kunnen volgen in dynamische omgevingen. SPF stelt een nieuwe standaard in de DRL simulatie benchmark, en overtreft de vorige beste methode met een absoluut verschil van 63%. In uitgebreide evaluaties in de echte wereld, overtreft SPF sterke baseline methoden met een grote marge. We voeren ook uitgebreide ablatiestudies uit om de effectiviteit van onze ontwerpkeuze te benadrukken. Tot slot toont SPF opmerkelijke generalisatie naar verschillende VLMs. Projectpagina: https://spf-web.pages.dev

Mind-the-Glitch: Visuele Correspondentie voor het Detecteren van Inconsistenties in Onderwerp-Gedreven Generatie
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

Sep 26

ByAbdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka

We stellen een nieuwe aanpak voor om visuele en semantische kenmerken te ontwarren uit de backbones van vooraf getrainde diffusiemodellen, waardoor visuele correspondentie mogelijk wordt op een manier die vergelijkbaar is met de goed ingeburgerde semantische correspondentie. Hoewel bekend is dat de backbones van diffusiemodellen semantisch rijke kenmerken coderen, moeten ze ook visuele kenmerken bevatten om hun beeld-synthesecapaciteiten te ondersteunen. Het isoleren van deze visuele kenmerken is echter uitdagend vanwege het ontbreken van geannoteerde datasets. Om dit aan te pakken, introduceren we een geautomatiseerde pijplijn die beeldparen construeert met geannoteerde semantische en visuele correspondenties op basis van bestaande datasets voor subject-gestuurde beeldgeneratie, en ontwerpen we een contrastieve architectuur om de twee kenmerktypen te scheiden. Door gebruik te maken van de ontwarde representaties, stellen we een nieuwe metriek voor, Visual Semantic Matching (VSM), die visuele inconsistenties in subject-gestuurde beeldgeneratie kwantificeert. Empirische resultaten tonen aan dat onze aanpak globale kenmerk-gebaseerde metrieken zoals CLIP, DINO en vision-language modellen overtreft in het kwantificeren van visuele inconsistenties, terwijl het ook de ruimtelijke lokalisatie van inconsistente regio's mogelijk maakt. Voor zover wij weten, is dit de eerste methode die zowel kwantificering als lokalisatie van inconsistenties in subject-gestuurde generatie ondersteunt, wat een waardevol hulpmiddel biedt voor het bevorderen van deze taak. Projectpagina: https://abdo-eldesokey.github.io/mind-the-glitch/

VoiceAssistant-Eval: Het benchmarken van AI-assistenten op het gebied van luisteren, spreken en kijken.
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

Sep 26

ByKe Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li

De toenemende mogelijkheden van grote taalmodellen en multimodale systemen hebben de interesse gewekt in voice-first AI-assistenten, maar bestaande benchmarks zijn ontoereikend om het volledige scala aan mogelijkheden van deze systemen te evalueren. Wij introduceren VoiceAssistant-Eval, een uitgebreide benchmark die is ontworpen om AI-assistenten te beoordelen op luisteren, spreken en kijken. VoiceAssistant-Eval bestaat uit 10.497 zorgvuldig samengestelde voorbeelden, verdeeld over 13 taakcategorieën. Deze taken omvatten natuurlijke geluiden, muziek en gesproken dialoog voor luisteren; meerzijdige dialoog, rollenspelimitatie en diverse scenario's voor spreken; en zeer heterogene afbeeldingen voor kijken. Om de bruikbaarheid aan te tonen, evalueren we 21 open-source modellen en GPT-4o-Audio, waarbij we de kwaliteit van de reactie-inhoud en spraak meten, evenals hun consistentie. De resultaten onthullen drie belangrijke bevindingen: (1) propriëtaire modellen presteren niet universeel beter dan open-source modellen; (2) de meeste modellen blinken uit in spreektaken maar blijven achter in audiobegrip; en (3) goed ontworpen kleinere modellen kunnen concurreren met veel grotere modellen. Opmerkelijk is dat het middelgrote Step-Audio-2-mini (7B) meer dan het dubbele luisternauwkeurigheid behaalt vergeleken met LLaMA-Omni2-32B-Bilingual. Er blijven echter uitdagingen bestaan: multimodale (audio plus visuele) invoer en rollenspelstemimitatie taken zijn moeilijk voor huidige modellen, en er blijven aanzienlijke hiaten bestaan in robuustheid en veiligheidsafstemming. VoiceAssistant-Eval identificeert deze hiaten en stelt een rigoureus kader vast voor het evalueren en begeleiden van de ontwikkeling van next-generation AI-assistenten. Code en data zullen worden vrijgegeven op https://mathllm.github.io/VoiceAssistantEval/.

LucidFlux: Universele Beeldrestauratie zonder Bijschriften via een Grootschalige Diffusie Transformer
LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

Sep 26

BySong Fei, Tian Ye, Lujia Wang, Lei Zhu

Universele beeldrestauratie (UIR) heeft als doel afbeeldingen te herstellen die zijn aangetast door onbekende mengsels, terwijl de semantiek behouden blijft — omstandigheden waarbij discriminerende restauratiemethoden en UNet-gebaseerde diffusieprior vaak overmatig gladstrijken, hallucineren of afdrijven. Wij presenteren LucidFlux, een caption-vrij UIR-raamwerk dat een grote diffusietransformer (Flux.1) aanpast zonder beeldcaptions. LucidFlux introduceert een lichtgewicht dual-branch conditioner die signalen injecteert van het aangetaste invoerbeeld en een licht herstelde proxy om respectievelijk de geometrie te verankeren en artefacten te onderdrukken. Vervolgens wordt een tijdsstap- en laagadaptief modulatieschema ontworpen om deze signalen door de hiërarchie van de backbone te routeren, om zo grof-naar-fijn en contextbewuste updates te genereren die de globale structuur beschermen terwijl textuur wordt hersteld. Daarna, om de latentie en instabiliteit van tekstprompts of MLLM-captions te vermijden, wordt caption-vrije semantische uitlijning afgedwongen via SigLIP-features die uit de proxy worden geëxtraheerd. Een schaalbare curatiepipeline filtert verder grootschalige data voor structuurrijke supervisie. Over synthetische en in-the-wild benchmarks heen presteert LucidFlux consistent beter dan sterke open-source en commerciële baselines, en ablatiestudies verifiëren de noodzaak van elke component. LucidFlux toont aan dat, voor grote DiTs, wanneer, waar en waarop te conditioneren — in plaats van parameters toe te voegen of te vertrouwen op tekstprompts — de bepalende factor is voor robuuste en caption-vrije universele beeldrestauratie in het wild.

COSPADI: Compressie van LLM's via kalibratie-gestuurd spars woordenboekleren
COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning

Sep 26

ByDmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis

Post-training compressie van grote taalmodellen (LLMs) berust grotendeels op laag-rang gewichtsbenadering, waarbij elke kolom van een gewichtsmatrix wordt gerepresenteerd in een gedeelde laagdimensionale deelruimte. Hoewel dit een computatieel efficiënte strategie is, is de opgelegde structurele beperking rigide en kan dit leiden tot een merkbare daling in modelnauwkeurigheid. In dit werk stellen we CoSpaDi (Compressie via Sparse Dictionary Learning) voor, een nieuw trainingsvrij compressiekader dat laag-rang decompositie vervangt door een flexibelere gestructureerde sparse factorisatie, waarbij elke gewichtsmatrix wordt gerepresenteerd met een dicht woordenboek en een kolom-sparse coëfficiëntenmatrix. Deze formulering maakt een unie-van-deelruimten representatie mogelijk: verschillende kolommen van de oorspronkelijke gewichtsmatrix worden benaderd in verschillende deelruimten opgespannen door adaptief geselecteerde woordenboekatomen, wat meer expressiviteit biedt dan een enkele invariante basis. Cruciaal is dat CoSpaDi een kleine calibratiedataset gebruikt om de factorisatie te optimaliseren, zodat de uitvoeractivaties van gecomprimeerde projectielagen nauw aansluiten bij die van de oorspronkelijke, waardoor de functionele reconstructiefout wordt geminimaliseerd in plaats van slechts gewichtsbenadering. Deze data-awarestategie behoudt een betere modelfideliteit zonder enige fine-tuning onder redelijke compressieverhoudingen. Bovendien maakt de resulterende gestructureerde sparsiteit efficiënte sparse-dense matrixvermenigvuldiging mogelijk en is compatibel met post-training kwantisatie voor verdere geheugen- en latentiewinsten. We evalueren CoSpaDi over meerdere Llama- en Qwen-modellen onder per-laag en per-groep instellingen bij 20-50\% compressieverhoudingen, waarbij consistent superioriteit wordt aangetoond ten opzichte van state-of-the-art data-aware laag-rang methoden, zowel in nauwkeurigheid als perplexiteit. Onze resultaten vestigen gestructureerde sparse dictionary learning als een krachtig alternatief voor conventionele laag-rang benaderingen voor efficiënte LLM-implementatie.

WebGen-Agent: Verbetering van Interactieve Websitegeneratie met Multi-Level Feedback en Stapsgewijze Reinforcement Learning
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

Sep 26

ByZimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li

Agent-systemen aangedreven door grote taalmodellen (LLMs) hebben indrukwekkende prestaties geleverd bij taken op repository-niveau voor codegeneratie. Voor taken zoals het genereren van website-codebases, die sterk afhankelijk zijn van visuele effecten en gebruikersinteractie-feedback, vertrouwen huidige code-agents echter alleen op eenvoudige code-uitvoering voor feedback en verificatie. Deze aanpak slaagt er niet in de werkelijke kwaliteit van de gegenereerde code vast te leggen. In dit artikel stellen we WebGen-Agent voor, een innovatieve website-generatie-agent die gebruikmaakt van uitgebreide en meerdere niveaus van visuele feedback om iteratief de website-codebase te genereren en te verfijnen. Gedetailleerde en expressieve tekstbeschrijvingen en suggesties met betrekking tot de screenshots en GUI-agent-testen van de websites worden gegenereerd door een visueel taalmodel (VLM), samen met scores die hun kwaliteit kwantificeren. De screenshot- en GUI-agent-scores worden verder geïntegreerd met een backtracking- en select-best-mechanisme, wat de prestaties van de agent verbetert. Door gebruik te maken van de nauwkeurige visuele scores die inherent zijn aan de WebGen-Agent-workflow, introduceren we verder Step-GRPO met Screenshot en GUI-agent Feedback om het vermogen van LLMs om te fungeren als het redeneerengine van WebGen-Agent te verbeteren. Door de screenshot- en GUI-agent-scores bij elke stap te gebruiken als beloning in Step-GRPO, bieden we een dicht en betrouwbaar procesbewakingssignaal, wat het vermogen van het model om websites te genereren effectief verbetert. Op de WebGen-Bench-dataset verhoogt WebGen-Agent de nauwkeurigheid van Claude-3.5-Sonnet van 26,4% naar 51,9% en de uiterlijk-score van 3,0 naar 3,9, wat beter is dan het vorige state-of-the-art agentsysteem. Daarnaast verhoogt onze Step-GRPO-trainingsaanpak de nauwkeurigheid van Qwen2.5-Coder-7B-Instruct van 38,9% naar 45,4% en verhoogt de uiterlijk-score van 3,4 naar 3,7.

Think-on-Graph 3.0: Efficiënte en adaptieve LLM-redenering op heterogene grafieken via multi-agent dual-evoluerende contextretrieval
Think-on-Graph 3.0: Efficient and Adaptive LLM Reasoning on Heterogeneous Graphs via Multi-Agent Dual-Evolving Context Retrieval

Sep 26

ByXiaojun Wu, Cehao Yang, Xueyuan Lin, Chengjin Xu, Xuhui Jiang, Yuanliang Sun, Hui Xiong, Jia Li, Jian Guo

Retrieval-Augmented Generation (RAG) en Graph-based RAG zijn uitgegroeid tot het belangrijke paradigma voor het versterken van Large Language Models (LLMs) met externe kennis. Bestaande benaderingen worden echter geconfronteerd met een fundamentele afweging. Hoewel grafische methoden inherent afhankelijk zijn van hoogwaardige grafische structuren, ondervinden ze aanzienlijke praktische beperkingen: handmatig geconstrueerde kennisgrafieken zijn onbetaalbaar om op te schalen, terwijl automatisch geëxtraheerde grafieken uit corpora beperkt worden door de prestaties van de onderliggende LLM-extractors, vooral bij het gebruik van kleinere, lokaal geïmplementeerde modellen. Dit artikel presenteert Think-on-Graph 3.0 (ToG-3), een nieuw framework dat het Multi-Agent Context Evolution and Retrieval (MACER) mechanisme introduceert om deze beperkingen te overwinnen. Onze kerninnovatie is de dynamische constructie en verfijning van een Chunk-Triplets-Community heterogene grafiekindex, die baanbrekend een dual-evolutiemechanisme van Evolving Query en Evolving Sub-Graph integreert voor precieze bewijsretrieval. Deze benadering adresseert een kritische beperking van eerdere Graph-based RAG-methoden, die typisch een statische grafiekindex in één keer construeren zonder zich aan te passen aan de daadwerkelijke query. Een multi-agent systeem, bestaande uit Constructor, Retriever, Reflector en Responser agents, werkt samen in een iteratief proces van bewijsretrieval, antwoordgeneratie, voldoende reflectie en, cruciaal, evoluerende query en subgrafiek. Dit dual-evoluerende multi-agent systeem stelt ToG-3 in staat om adaptief een gerichte grafiekindex te bouwen tijdens het redeneren, waardoor de inherente nadelen van statische, eenmalige grafiekconstructie worden gemitigeerd en diepgaand, precies redeneren mogelijk wordt, zelfs met lichtgewicht LLMs. Uitgebreide experimenten tonen aan dat ToG-3 de vergeleken baseline-methoden overtreft op zowel diepe als brede redeneerbenchmarks, en ablatiestudies bevestigen de effectiviteit van de componenten van het MACER-framework.

De Staart Achterna: Effectieve Rubric-gebaseerde Beloningsmodellering voor Post-Training van Grote Taalmodellen
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

Sep 25

ByJunkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin

Reinforcement fine-tuning (RFT) lijdt vaak onder beloningsoveroptimalisatie, waarbij een beleidsmodel de beloningssignalen manipuleert om hoge scores te behalen terwijl het outputs van lage kwaliteit produceert. Onze theoretische analyse toont aan dat de sleutel ligt in beloningsmisspecificatie in de staart van hoge beloningen: het onvermogen om betrouwbaar Uitstekende reacties te onderscheiden van slechts Goede reacties. Dit motiveert ons om ons te richten op het gebied van hoge beloningen. Dergelijke staartvoorbeelden zijn echter schaars onder het basis-LLM. Hoewel off-policy voorbeelden (bijvoorbeeld van sterkere modellen of herschrijvingen) gemakkelijker te verkrijgen zijn, leidt naïef trainen op deze voorbeelden tot een misspecificeerde beloning voor het beleid dat we willen afstemmen. Om dit aan te pakken, bestuderen we rubric-based beloningen. Door ontwerp kunnen rubrics gebruikmaken van off-policy voorbeelden terwijl ze ongevoelig blijven voor hun artefacten. Om rubrics te verkrijgen die de staart van hoge beloningen vastleggen, benadrukken we het belang van het onderscheiden van grote en diverse reacties, en introduceren we een workflow om dit idee te implementeren. We tonen empirisch aan dat rubric-based beloningen beloningsoveroptimalisatie aanzienlijk verminderen en effectieve post-trainingsverbeteringen van LLM's opleveren. Onze code is beschikbaar op https://github.com/Jun-Kai-Zhang/rubrics.git.

SPARK: Synergetisch Beleid en Beloningsco-evolutie Framework
SPARK: Synergistic Policy And Reward Co-Evolving Framework

Sep 26

ByZiyu Liu, Yuhang Zang, Shengyuan Ding, Yuhang Cao, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang

Recente Large Language Models (LLM's) en Large Vision-Language Models (LVLM's) maken steeds vaker gebruik van Reinforcement Learning (RL) voor post-pretraining, zoals RL met Verifieerbare Beloningen (RLVR) voor objectieve taken en RL op basis van Menselijke Feedback (RLHF) voor subjectieve taken. RLHF brengt echter hoge kosten en een mogelijke mismatch tussen beloning en beleid met zich mee vanwege de afhankelijkheid van menselijke voorkeuren, terwijl RLVR nog steeds toezicht verspilt door rollouts en correctheidssignalen na elke update weg te gooien. Om deze uitdagingen aan te pakken, introduceren we het Synergistische Beleid en Beloning Co-Evoluerende Framework (SPARK), een efficiënte, on-policy en stabiele methode die voortbouwt op RLVR. In plaats van rollouts en correctheidsgegevens weg te gooien, recycleert SPARK deze waardevolle informatie om het model zelf tegelijkertijd te trainen als een generatief beloningsmodel. Deze aanvullende training gebruikt een mix van doelstellingen, zoals puntgewijze beloningsscores, paarsgewijze vergelijkingen en evaluatie op basis van verder-reflectie reacties, om het model te leren zijn eigen reacties te evalueren en te verbeteren. Ons proces elimineert de behoefte aan een apart beloningsmodel en kostbare menselijke voorkeursgegevens. SPARK creëert een positieve co-evoluerende feedbackloop: verbeterde beloningsnauwkeurigheid levert betere beleidsgradiënten op, die op hun beurt rollouts van hogere kwaliteit produceren die het beloningsmodel verder verfijnen. Ons geïntegreerde framework ondersteunt schaling tijdens de testfase via zelfreflectie zonder externe beloningsmodellen en de daarmee gepaard gaande kosten. We laten zien dat SPARK aanzienlijke prestatieverbeteringen behaalt op meerdere LLM- en LVLM-modellen en op meerdere redeneer-, belonings- en algemene benchmarks. SPARK-VL-7B behaalt bijvoorbeeld een gemiddelde winst van 9,7% op 7 redeneerbenchmarks, 12,1% op 2 beloningsbenchmarks en 1,5% op 8 algemene benchmarks ten opzichte van de basislijnen, wat robuustheid en brede generalisatie aantoont.

UniVid: Het verenigen van visuele taken met vooraf getrainde videogeneratiemodellen
UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

Sep 26

ByLan Chen, Yuchao Gu, Qi Mao

Grote taalmodellen, getraind op uitgebreide corpora, verenigen met succes diverse taalkundige taken binnen een enkel generatief raamwerk. Geïnspireerd door dit, breiden recente werken zoals het Large Vision Model (LVM) dit paradigma uit naar visie door taken te organiseren in sequentiële visuele zinnen, waarbij visuele prompts dienen als context om uitvoer te sturen. Echter, vereist dergelijke modellering taakspecifieke voorafgaande training over modaliteiten en bronnen, wat kostbaar is en de schaalbaarheid naar onbekende taken beperkt. Gegeven dat vooraf getrainde videogeneratiemodellen inherent temporele sequentieafhankelijkheden vastleggen, verkennen we een meer verenigde en schaalbare alternatieve benadering: kan een vooraf getraind videogeneratiemodel zich aanpassen aan diverse beeld- en videotaken? Om dit te beantwoorden, stellen we UniVid voor, een raamwerk dat een videodiffusietransformer fine-tunt om diverse visietaken aan te kunnen zonder taakspecifieke aanpassingen. Taken worden weergegeven als visuele zinnen, waarbij de contextsequentie zowel de taak als de verwachte uitvoermodaliteit definieert. We evalueren de generalisatie van UniVid vanuit twee perspectieven: (1) kruismodale inferentie met contexten samengesteld uit zowel beelden als video's, wat verder gaat dan LVM's unimodale instelling; (2) kruisbron taken van natuurlijke naar geannoteerde data, zonder multi-bron voorafgaande training. Ondanks dat UniVid uitsluitend is getraind op natuurlijke videodata, generaliseert het goed in beide instellingen. Opmerkelijk is dat begrips- en generatietaken eenvoudig kunnen worden gewisseld door simpelweg de volgorde van de visuele zin in dit paradigma om te keren. Deze bevindingen benadrukken het potentieel van vooraf getrainde videogeneratiemodellen om te dienen als een schaalbare en verenigde basis voor visiemodellering. Onze code zal worden vrijgegeven op https://github.com/CUC-MIPG/UniVid.

TUN3D: Op Weg naar Begrip van Real-World Scènes uit Ongeposeerde Afbeeldingen
TUN3D: Towards Real-World Scene Understanding from Unposed Images

Sep 23

ByAnton Konushin, Nikita Drozdov, Bulat Gabdullin, Alexey Zakharov, Anna Vorontsova, Danila Rukhovich, Maksim Kolodiazhnyi

Lay-outschatting en 3D-objectdetectie zijn twee fundamentele taken in het begrijpen van binnenruimtes. Wanneer ze worden gecombineerd, maken ze het mogelijk om een compacte maar semantisch rijke ruimtelijke representatie van een scène te creëren. Bestaande benaderingen zijn doorgaans afhankelijk van pointcloud-invoer, wat een belangrijke beperking vormt omdat de meeste consumentencamera's geen dieptesensoren hebben en visuele data nog steeds veel gebruikelijker is. Wij pakken dit probleem aan met TUN3D, de eerste methode die gezamenlijke lay-outschatting en 3D-objectdetectie in realistische scans aanpakt, waarbij multi-view afbeeldingen als invoer worden gebruikt, en die geen grondwaarheid voor cameraposities of dieptesupervisie vereist. Onze aanpak bouwt voort op een lichtgewicht sparse-convolutional backbone en maakt gebruik van twee specifieke heads: één voor 3D-objectdetectie en één voor lay-outschatting, waarbij een nieuwe en effectieve parametrische wandrepresentatie wordt benut. Uitgebreide experimenten tonen aan dat TUN3D state-of-the-art prestaties behaalt op drie uitdagende benchmarks voor scènebegrip: (i) met behulp van grondwaarheid pointclouds, (ii) met behulp van gepositioneerde afbeeldingen, en (iii) met behulp van niet-gepositioneerde afbeeldingen. Terwijl TUN3D vergelijkbaar presteert met gespecialiseerde 3D-objectdetectiemethoden, zet het significante stappen vooruit in lay-outschatting, waardoor een nieuwe benchmark wordt gezet in holistisch binnenruimtebegrip. De code is beschikbaar op https://github.com/col14m/tun3d.

WoW: Op weg naar een alwetend wereldmodel via belichaamde interactie
WoW: Towards a World omniscient World model Through Embodied Interaction

Sep 26

ByXiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang

Mensen ontwikkelen een begrip van intuïtieve fysica door actieve interactie met de wereld. Deze aanpak staat in schril contrast met huidige videomodelen, zoals Sora, die afhankelijk zijn van passieve observatie en daardoor moeite hebben met het begrijpen van fysieke causaliteit. Deze observatie leidt tot onze centrale hypothese: authentieke fysieke intuïtie van het wereldmodel moet geworteld zijn in uitgebreide, causaal rijke interacties met de echte wereld. Om deze hypothese te testen, presenteren we WoW, een generatief wereldmodel met 14 miljard parameters, getraind op 2 miljoen robotinteractietrajecten. Onze bevindingen onthullen dat het begrip van fysica door het model een probabilistische verdeling is van plausibele uitkomsten, wat leidt tot stochastische instabiliteiten en fysieke hallucinaties. Bovendien tonen we aan dat deze emergentie van capaciteit actief kan worden beperkt naar fysieke realisme door SOPHIA, waarbij vision-language model agents de door DiT gegenereerde output evalueren en de verfijning ervan begeleiden door iteratief de taal instructies te evolueren. Daarnaast vertaalt een mede-getraind Inverse Dynamics Model deze verfijnde plannen naar uitvoerbare robotacties, waardoor de cirkel van verbeelding naar actie wordt gesloten. We introduceren WoWBench, een nieuwe benchmark gericht op fysieke consistentie en causaal redeneren in video, waar WoW state-of-the-art prestaties behaalt in zowel menselijke als autonome evaluatie, en sterke vaardigheden demonstreert in fysieke causaliteit, botsingsdynamica en objectpermanentie. Ons werk levert systematisch bewijs dat grootschalige, real-world interactie een hoeksteen is voor het ontwikkelen van fysieke intuïtie in AI. Modellen, data en benchmarks zullen open-source worden gemaakt.

Real-Time Object Detection Ontmoet DINOv3
Real-Time Object Detection Meets DINOv3

Sep 25

ByShihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen

Door te profiteren van de eenvoud en effectiviteit van Dense O2O en MAL, is DEIM het dominante trainingsraamwerk geworden voor real-time DETRs, waarbij het de YOLO-serie aanzienlijk overtreft. In dit werk breiden we het uit met DINOv3-kenmerken, wat resulteert in DEIMv2. DEIMv2 omvat acht modelgroottes van X tot Atto, geschikt voor GPU-, edge- en mobiele implementaties. Voor de X, L, M en S varianten gebruiken we DINOv3-voorgetrainde of gedistilleerde backbones en introduceren we een Spatial Tuning Adapter (STA), die efficiënt de enkelvoudige schaaloutput van DINOv3 omzet in multi-schaal kenmerken en sterke semantiek aanvult met fijnmazige details om de detectie te verbeteren. Voor ultralichte modellen (Nano, Pico, Femto en Atto) gebruiken we HGNetv2 met diepte- en breedte-snoei om strikte resourcebudgetten te halen. Samen met een vereenvoudigde decoder en een geüpgradede Dense O2O maakt dit uniforme ontwerp het mogelijk dat DEIMv2 een superieure prestatie-kostenverhouding bereikt in diverse scenario's, waarbij nieuwe state-of-the-art resultaten worden gevestigd. Opmerkelijk is dat ons grootste model, DEIMv2-X, 57.8 AP behaalt met slechts 50,3 miljoen parameters, wat eerdere X-schaalmodellen overtreft die meer dan 60 miljoen parameters nodig hebben voor slechts 56.5 AP. Aan de compacte kant is DEIMv2-S het eerste model met minder dan 10 miljoen parameters (9,71 miljoen) dat de mijlpaal van 50 AP op COCO overschrijdt, met een score van 50.9 AP. Zelfs het ultralichte DEIMv2-Pico, met slechts 1,5 miljoen parameters, levert 38.5 AP, wat overeenkomt met YOLOv10-Nano (2,3 miljoen) met ongeveer 50 procent minder parameters. Onze code en voorgetrainde modellen zijn beschikbaar op https://github.com/Intellindust-AI-Lab/DEIMv2.

D-Artemis: Een deliberatief cognitief raamwerk voor mobiele GUI multi-agenten
D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

Sep 26

ByHongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan

Graphical User Interface (GUI)-agenten streven ernaar een breed scala aan menselijke taken te automatiseren door gebruikersinteractie na te bootsen. Ondanks snelle vooruitgang worden huidige benaderingen belemmerd door verschillende kritieke uitdagingen: een dataknelpunt in end-to-end training, de hoge kosten van vertraagde foutdetectie en het risico van tegenstrijdige richtlijnen. Geïnspireerd door de menselijke cognitieve lus van Denken, Afstemming en Reflectie, presenteren we in dit artikel D-Artemis -- een nieuw deliberatief raamwerk. D-Artemis maakt gebruik van een gedetailleerd, app-specifiek tip-retrievalmechanisme om zijn besluitvormingsproces te informeren. Het introduceert ook een proactieve Pre-execution Afstemmingsfase, waarin de Thought-Action Consistency (TAC) Check-module en de Action Correction Agent (ACA) samenwerken om het risico op uitvoeringsfouten te verminderen. Een post-execution Status Reflectie Agent (SRA) voltooit de cognitieve lus, waardoor strategisch leren van ervaring mogelijk wordt. Cruciaal is dat D-Artemis de mogelijkheden van algemene Multimodale grote taalmodellen (MLLMs) voor GUI-taken versterkt zonder de noodzaak van training op complexe trajectdatasets, wat een sterke generalisatie aantoont. D-Artemis vestigt nieuwe state-of-the-art (SOTA) resultaten op beide belangrijke benchmarks, met een slagingspercentage van 75,8% op AndroidWorld en 96,8% op ScreenSpot-V2. Uitgebreide ablatiestudies tonen verder de significante bijdrage van elke component aan het raamwerk aan.

X-Streamer: Geïntegreerd Menselijk Wereldmodel met Audiovisuele Interactie
X-Streamer: Unified Human World Modeling with Audiovisual Interaction

Sep 25

ByYou Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo

We introduceren X-Streamer, een end-to-end multimodaal raamwerk voor het modelleren van de menselijke wereld, ontworpen om digitale menselijke agents te bouwen die in staat zijn tot oneindige interacties via tekst, spraak en video binnen een enkele geïntegreerde architectuur. Uitgaande van een enkel portret maakt X-Streamer realtime, open-ended videogesprekken mogelijk, aangedreven door streaming multimodale invoer. De kern bestaat uit een Thinker-Actor dual-transformer architectuur die multimodale begrip en generatie verenigt, waardoor een statisch portret wordt omgezet in aanhoudende en intelligente audiovisuele interacties. De Thinker module neemt streaming gebruikersinvoer waar en redeneert hierover, terwijl de verborgen toestanden door de Actor in realtime worden vertaald naar gesynchroniseerde multimodale streams. Concreet maakt de Thinker gebruik van een vooraf getraind groot taal-spraakmodel, terwijl de Actor een chunk-wise autoregressief diffusiemodel gebruikt dat cross-attention toepast op de verborgen toestanden van de Thinker om tijdelijk uitgelijnde multimodale reacties te produceren met afwisselende discrete tekst- en audiotokens en continue videolatenten. Om stabiliteit op lange termijn te garanderen, ontwerpen we inter- en intra-chunk attentions met tijdelijk uitgelijnde multimodale positionele embeddings voor fijnmazige cross-modale uitlijning en contextbehoud, verder versterkt door chunk-wise diffusie-forcing en globale identiteitsreferenties. X-Streamer draait in realtime op twee A100 GPU's, waardoor urenlange consistente videochat-ervaringen mogelijk zijn vanuit willekeurige portretten en de weg wordt geëffend naar een verenigd wereldmodel van interactieve digitale mensen.

ERGO: Efficiënte visuele interpretatie met hoge resolutie voor visie-taalmodellen
ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

Sep 26

ByJewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim

Efficiënte verwerking van hoogresolutiebeelden is cruciaal voor real-world visie-taaltoepassingen. Bestaande Large Vision-Language Models (LVLMs) brengen echter aanzienlijke rekenkosten met zich mee vanwege het grote aantal visietokens. Met de opkomst van "denken met beelden"-modellen strekt redeneren zich nu uit tot het visuele domein. Deze mogelijkheid motiveert onze tweefasen "grof-naar-fijn" redeneerpijplijn: eerst wordt een verkleind beeld geanalyseerd om taakrelevante regio's te identificeren; vervolgens worden alleen deze regio's op volledige resolutie uitgesneden en verwerkt in een volgende redeneerfase. Deze aanpak vermindert de rekenkosten terwijl fijnmazige visuele details waar nodig behouden blijven. Een grote uitdaging ligt in het afleiden welke regio's echt relevant zijn voor een gegeven query. Recente gerelateerde methoden falen vaak in de eerste fase na het verkleinen van het invoerbeeld, vanwege perceptiegestuurd redeneren, waarbij duidelijke visuele informatie nodig is voor effectief redeneren. Om dit probleem aan te pakken, stellen we ERGO (Efficient Reasoning & Guided Observation) voor, dat redenering-gestuurde perceptie uitvoert door gebruik te maken van multimodale context om te bepalen waarop gefocust moet worden. Ons model kan rekening houden met perceptuele onzekerheid, waarbij het uitgesneden gebied wordt uitgebreid om visueel ambiguë gebieden te dekken voor het beantwoorden van vragen. Hiertoe ontwikkelen we eenvoudige maar effectieve beloningscomponenten in een reinforcement learning-framework voor grof-naar-fijn perceptie. Over meerdere datasets levert onze aanpak een hogere nauwkeurigheid op dan het oorspronkelijke model en concurrerende methoden, met grotere efficiëntie. Zo overtreft ERGO Qwen2.5-VL-7B op de V*-benchmark met 4,7 punten terwijl slechts 23% van de visietokens wordt gebruikt, wat een 3x versnelling van de inferentie oplevert. De code en modellen zijn te vinden op: https://github.com/nota-github/ERGO.

FlashEdit: Ontkoppeling van snelheid, structuur en semantiek voor precieze beeldbewerking
FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Sep 26

ByJunyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang

Tekstgestuurd beeldbewerken met diffusiemodellen heeft opmerkelijke kwaliteit bereikt, maar lijdt onder een verboden hoge latentie, wat real-world toepassingen belemmert. Wij introduceren FlashEdit, een nieuw framework ontworpen om hoogwaardige, real-time beeldbewerking mogelijk te maken. De efficiëntie ervan komt voort uit drie belangrijke innovaties: (1) een One-Step Inversion-and-Editing (OSIE) pipeline die kostbare iteratieve processen omzeilt; (2) een Background Shield (BG-Shield) techniek die achtergrondbehoud garandeert door selectief alleen kenmerken binnen het bewerkingsgebied aan te passen; en (3) een Sparsified Spatial Cross-Attention (SSCA) mechanisme dat precieze, gelokaliseerde bewerkingen waarborgt door semantisch lekken naar de achtergrond te onderdrukken. Uitgebreide experimenten tonen aan dat FlashEdit superieure achtergrondconsistentie en structurele integriteit behoudt, terwijl bewerkingen worden uitgevoerd in minder dan 0,2 seconden, wat een versnelling van meer dan 150 keer is in vergelijking met eerdere multi-staps methoden. Onze code zal publiekelijk beschikbaar worden gemaakt op https://github.com/JunyiWuCode/FlashEdit.

RefAM: Aandachtsmagneten voor Zero-Shot Referentie Segmentatie
RefAM: Attention Magnets for Zero-Shot Referral Segmentation

Sep 26

ByAnna Kukleva, Enis Simsar, Alessio Tonioni, Muhammad Ferjad Naeem, Federico Tombari, Jan Eric Lenssen, Bernt Schiele

De meeste bestaande benaderingen voor verwijzende segmentatie bereiken sterke prestaties alleen door fine-tuning of door het combineren van meerdere vooraf getrainde modellen, vaak ten koste van extra training en architectonische aanpassingen. Ondertussen bevatten grootschalige generatieve diffusiemodellen rijke semantische informatie, wat ze aantrekkelijk maakt als algemene feature extractors. In dit werk introduceren we een nieuwe methode die direct gebruikmaakt van features, zoals attentiescores, van diffusie-transformers voor downstream taken, zonder architectonische aanpassingen of extra training. Om deze features systematisch te evalueren, breiden we benchmarks uit met vision-language grounding taken die zowel afbeeldingen als video's omvatten. Onze belangrijkste inzicht is dat stopwoorden fungeren als aandachtmagneten: ze accumuleren overtollige aandacht en kunnen worden gefilterd om ruis te verminderen. Bovendien identificeren we globale aandachtspunten (GAS) die ontstaan in diepere lagen en laten we zien dat deze veilig kunnen worden onderdrukt of omgeleid naar hulptokens, wat leidt tot scherpere en nauwkeurigere grounding maps. We stellen verder een aandachtherverdelingsstrategie voor, waarbij toegevoegde stopwoorden achtergrondactivaties opdelen in kleinere clusters, wat resulteert in scherpere en meer gelokaliseerde heatmaps. Op basis van deze bevindingen ontwikkelen we RefAM, een eenvoudig trainingsvrij grounding framework dat cross-attention maps, GAS-afhandeling en herverdeling combineert. Over zero-shot verwijzende beeld- en videosegmentatie benchmarks heen presteert onze aanpak consistent beter dan eerdere methoden, waarbij een nieuwe state of the art wordt gevestigd zonder fine-tuning of extra componenten.

RLBFF: Binaire Flexibele Feedback om de kloof te overbruggen tussen Menselijke Feedback & Verifieerbare Beloningen
RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

Sep 25

ByZhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

Reinforcement Learning with Human Feedback (RLHF) en Reinforcement Learning with Verifiable Rewards (RLVR) zijn de belangrijkste RL-paradigma's die worden gebruikt bij het na-trainen van LLM's, elk met hun eigen voordelen. RLHF kampt echter met uitdagingen op het gebied van interpreteerbaarheid en reward hacking, omdat het afhankelijk is van menselijke beoordelingen die meestal geen expliciete criteria hebben, terwijl RLVR beperkt is in reikwijdte door zijn focus op correctheid-gebaseerde verificatie. Wij stellen Reinforcement Learning with Binary Flexible Feedback (RLBFF) voor, dat de veelzijdigheid van menselijk gestuurde voorkeuren combineert met de precisie van regelgebaseerde verificatie, waardoor beloningsmodellen in staat zijn om genuanceerde aspecten van responskwaliteit vast te leggen die verder gaan dan louter correctheid. RLBFF haalt principes uit natuurlijke taal feedback die binair beantwoord kunnen worden (bijv. nauwkeurigheid van informatie: ja, of leesbaarheid van code: nee). Deze principes kunnen vervolgens worden gebruikt om de training van Beloningsmodellen te baseren als een entailment-taak (respons voldoet wel of niet aan een willekeurig principe). We laten zien dat Beloningsmodellen die op deze manier zijn getraind, Bradley-Terry-modellen kunnen overtreffen bij gelijke hoeveelheid data en topprestaties behalen op RM-Bench (86,2%) en JudgeBench (81,4%, #1 op de leaderboard per 24 september 2025). Bovendien kunnen gebruikers tijdens inferentie principes van belang specificeren om de focus van onze beloningsmodellen aan te passen, in tegenstelling tot Bradley-Terry-modellen. Tot slot presenteren we een volledig open source recept (inclusief data) om Qwen3-32B uit te lijnen met RLBFF en ons Beloningsmodel, om de prestaties van o3-mini en DeepSeek R1 te evenaren of te overtreffen op algemene uitlijningsbenchmarks van MT-Bench, WildBench en Arena Hard v2 (tegen <5% van de inferentiekosten).

De rol van synthetische data in meertalige, multiculturele AI-systemen: Lessen uit Indiase talen
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

Sep 25

ByPranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram

Het ontwikkelen van AI-systemen die effectief functioneren in verschillende talen en tegelijkertijd cultureel verankerd blijven, is een langdurige uitdaging, vooral in omgevingen met beperkte middelen. Synthetische data biedt een veelbelovende aanpak, maar de effectiviteit ervan in meertalige en multiculturele contexten is nog onvoldoende onderzocht. Wij onderzoeken het creëren en de impact van synthetische, cultureel gecontextualiseerde datasets voor Indiase talen via een bottom-up generatiestrategie die grote open-source LLM's (≥ 235B parameters) aanzet om data-generatie te verankeren in taal-specifieke Wikipedia-inhoud. Deze benadering vult het dominante top-down paradigma aan van het vertalen van synthetische datasets uit hoog-resource talen zoals Engels. Wij introduceren Updesh, een hoogwaardige, grootschalige synthetische instructievolgende dataset bestaande uit 9,5 miljoen datapunten in 13 Indiase talen, die diverse redeneer- en generatieve taken omvat met nadruk op lange-context, multi-turn mogelijkheden en afstemming op Indiase culturele contexten. Een uitgebreide evaluatie met zowel geautomatiseerde metrieken als menselijke annotatie over 10.000 beoordelingen toont aan dat de gegenereerde data van hoge kwaliteit is; hoewel menselijke evaluatie gebieden voor verdere verbetering benadrukt. Daarnaast voeren we downstream evaluaties uit door modellen te fine-tunen op onze dataset en de prestaties te beoordelen over 15 diverse meertalige datasets. Modellen getraind op Updesh behalen consistent significante verbeteringen op generatieve taken en blijven concurrerend op multiple-choice stijl NLU-taken. Opvallend is dat relatieve verbeteringen het meest uitgesproken zijn in talen met lage en gemiddelde middelen, waardoor de kloof met hoog-resource talen wordt verkleind. Deze bevindingen leveren empirisch bewijs dat effectieve meertalige AI veelzijdige data-curatie- en generatiestrategieën vereist die contextbewuste, cultureel verankerde methodologieën incorporeren.

CAD-Tokenizer: Op weg naar tekstgebaseerd CAD-prototyping via modaliteitsspecifieke tokenisatie
CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Sep 25

ByRuiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian

Computer-Aided Design (CAD) is een fundamenteel onderdeel van industriële prototyping, waarbij modellen niet worden gedefinieerd door ruwe coördinaten, maar door constructiesequenties zoals schetsen en extrusies. Deze sequentiële structuur maakt zowel efficiënte prototype-initialisatie als latere bewerking mogelijk. Tekstgestuurde CAD-prototyping, dat Text-to-CAD-generatie en CAD-bewerking combineert, heeft het potentieel om het gehele ontwerpproces te stroomlijnen. Eerdere onderzoeken hebben deze setting echter niet verkend, voornamelijk omdat standaard tokenizers van grote taalmodelen (LLM's) CAD-sequenties opsplitsen in natuurlijke-taalfragmenten, waardoor ze geen primitief-niveau CAD-semantiek vastleggen en aandachtmodules belemmeren bij het modelleren van geometrische structuren. Wij veronderstellen dat een multimodale tokenisatiestrategie, afgestemd op de primitieve en structurele aard van CAD, effectievere representaties kan bieden. Daarom stellen we CAD-Tokenizer voor, een framework dat CAD-gegevens representeert met modalitiespecifieke tokens door gebruik te maken van een sequentiegebaseerde VQ-VAE met primitief-niveau pooling en beperkte decodering. Dit ontwerp produceert compacte, primitief-bewuste representaties die aansluiten bij de structurele aard van CAD. Toegepast op geïntegreerde tekstgestuurde CAD-prototyping, verbetert CAD-Tokenizer aanzienlijk het volgen van instructies en de generatiekwaliteit, wat resulteert in betere kwantitatieve en kwalitatieve prestaties vergeleken met zowel algemene LLM's als taakspecifieke baseline-modellen.

CHURRO: Geschiedenis Leesbaar Maken met een Open-Weight Groot Visueel-Taalmodel voor Hoogwaardige, Kosteneffectieve Historische Tekstherkenning
CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

Sep 24

BySina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam

Nauwkeurige tekstherkenning voor historische documenten kan de studie en het behoud van cultureel erfgoed aanzienlijk bevorderen. Bestaande vision-language modellen (VLMs) zijn echter ontworpen voor moderne, gestandaardiseerde teksten en zijn niet uitgerust om de diverse talen en schriften, onregelmatige lay-outs en veelvoorkomende degradatie in historische materialen te lezen. Dit artikel presenteert CHURRO, een open-weight VLM met 3B parameters, gespecialiseerd in historische tekstherkenning. Het model is getraind op CHURRO-DS, de grootste dataset voor historische tekstherkenning tot nu toe. CHURRO-DS verenigt 155 historische corpora bestaande uit 99.491 pagina's, die 22 eeuwen tekstueel erfgoed omvatten in 46 taalgroepen, inclusief historische varianten en dode talen. We evalueren verschillende open-weight en gesloten VLMs en optische tekenherkenningssystemen (OCR) op CHURRO-DS en constateren dat CHURRO alle andere VLMs overtreft. Op de CHURRO-DS testset behaalt CHURRO 82,3% (gedrukt) en 70,1% (handgeschreven) genormaliseerde Levenshtein-gelijkenis, wat respectievelijk 1,4% en 6,5% hoger is dan het op één na beste model, Gemini 2.5 Pro, terwijl het 15,5 keer kosteneffectiever is. Door het model en de dataset vrij te geven, streven we ernaar om gemeenschapsgedreven onderzoek mogelijk te maken om de leesbaarheid van historische teksten te verbeteren en wetenschappelijk onderzoek te versnellen.

Waar MLLM's aandacht aan besteden en waar ze op vertrouwen: Het verklaren van autoregressieve token-generatie
Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

Sep 26

ByRuoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Hua Zhang, Xiaochun Cao

Multimodale grote taalmodellen (MLLMs) hebben opmerkelijke capaciteiten getoond in het afstemmen van visuele invoer op natuurlijke taaloutput. Toch is de mate waarin gegenereerde tokens afhankelijk zijn van visuele modaliteiten nog steeds slecht begrepen, wat de interpreteerbaarheid en betrouwbaarheid beperkt. In dit werk presenteren we EAGLE, een lichtgewicht black-box raamwerk voor het verklaren van autoregressieve token-generatie in MLLMs. EAGLE schrijft geselecteerde tokens toe aan compacte perceptuele regio's terwijl het de relatieve invloed van taalprioriteiten en perceptueel bewijs kwantificeert. Het raamwerk introduceert een objectieve functie die voldoendeheid (inzichtscore) en onmisbaarheid (noodzakelijkheidsscore) verenigt, geoptimaliseerd via een gretige zoektocht over verspreide beeldregio's voor betrouwbare en efficiënte attributie. Naast ruimtelijke attributie voert EAGLE een modaliteitsbewuste analyse uit die ontrafelt waar tokens op vertrouwen, wat fijnmazige interpreteerbaarheid van modelbeslissingen biedt. Uitgebreide experimenten met open-source MLLMs laten zien dat EAGLE consistent beter presteert dan bestaande methoden in betrouwbaarheid, lokalisatie en hallucinatie-diagnose, terwijl het aanzienlijk minder GPU-geheugen vereist. Deze resultaten onderstrepen de effectiviteit en praktische bruikbaarheid voor het bevorderen van de interpreteerbaarheid van MLLMs. De code is beschikbaar op https://github.com/RuoyuChen10/EAGLE.

HiGS: Geschiedenis-Gestuurde Steekproefname voor Plug-and-Play Verbetering van Diffusiemodellen
HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

Sep 26

BySeyedmorteza Sadat, Farnood Salehi, Romann M. Weber

Hoewel diffusiemodellen opmerkelijke vooruitgang hebben geboekt in beeldgeneratie, kunnen hun uitvoer nog steeds onrealistisch lijken en fijne details missen, vooral wanneer een kleiner aantal neurale functie-evaluaties (NFEs) of lagere begeleidingsschalen wordt gebruikt. Om dit probleem aan te pakken, stellen we een nieuwe momentum-gebaseerde samplingtechniek voor, genaamd history-guided sampling (HiGS), die de kwaliteit en efficiëntie van diffusie-sampling verbetert door recente modelvoorspellingen te integreren in elke inferentiestap. Specifiek maakt HiGS gebruik van het verschil tussen de huidige voorspelling en een gewogen gemiddelde van eerdere voorspellingen om het samplingproces te sturen naar meer realistische uitvoer met betere details en structuur. Onze aanpak introduceert praktisch geen extra rekenkracht en integreert naadloos in bestaande diffusieframeworks, zonder extra training of fine-tuning. Uitgebreide experimenten tonen aan dat HiGS consistent de beeldkwaliteit verbetert over diverse modellen en architecturen, en onder verschillende samplingbudgetten en begeleidingsschalen. Bovendien bereikt HiGS, met behulp van een voorgetraind SiT-model, een nieuwe state-of-the-art FID van 1,61 voor onbegeleide ImageNet-generatie op 256x256 met slechts 30 samplingstappen (in plaats van de standaard 250). We presenteren HiGS daarom als een plug-and-play verbetering van standaard diffusie-sampling die snellere generatie met hogere kwaliteit mogelijk maakt.

X-CoT: Uitlegbare Tekst-naar-Video Retrieval via LLM-gebaseerde Ketting-van-Gedachten Redenering
X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

Sep 25

ByPrasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao

Prevalente tekst-naar-video retrievalsystemen maken voornamelijk gebruik van embeddingmodellen voor feature-extractie en berekenen cosinusovereenkomsten voor rangschikking. Dit ontwerp kent echter twee beperkingen. Laagkwalitatieve tekst-video dataparen kunnen de retrieval ondermijnen, maar zijn moeilijk te identificeren en te onderzoeken. Cosinusovereenkomst alleen biedt geen verklaring voor de rangschikkingsresultaten, wat de interpreteerbaarheid beperkt. Wij vragen ons af: kunnen we de rangschikkingsresultaten interpreteren om de retrievalmodellen te evalueren en de tekst-video data te onderzoeken? Dit werk stelt X-CoT voor, een interpreteerbaar retrievalframework gebaseerd op LLM CoT-redenering in plaats van de op embeddingmodellen gebaseerde overeenkomstrangschikking. We breiden eerst de bestaande benchmarks uit met aanvullende videoannotaties om semantisch begrip te ondersteunen en datavooroordelen te verminderen. We ontwerpen ook een retrieval CoT bestaande uit paarsgewijze vergelijkingsstappen, wat gedetailleerde redenering en complete rangschikking oplevert. X-CoT verbetert empirisch de retrievalprestaties en produceert gedetailleerde redeneringen. Het vergemakkelijkt ook de analyse van modelgedrag en datakwaliteit. Code en data zijn beschikbaar op: https://github.com/PrasannaPulakurthi/X-CoT.

StateX: Verbetering van RNN-recall via post-training staatsexpansie
StateX: Enhancing RNN Recall via Post-training State Expansion

Sep 26

ByXingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun

Hoewel Transformer-gebaseerde modellen opmerkelijke prestaties hebben getoond op het gebied van taalmodellering, leiden hun hoge complexiteiten tot hoge kosten bij het verwerken van lange contexten. Daarentegen hebben recurrente neurale netwerken (RNN's), zoals lineaire aandacht en state space-modellen, aan populariteit gewonnen vanwege hun constante complexiteit per token. Deze recurrente modellen hebben echter moeite met taken die een nauwkeurige herinnering van contextuele informatie uit lange contexten vereisen, omdat alle contextuele informatie wordt samengeperst in een constante grootte van de recurrente staat. Eerdere werken hebben aangetoond dat het herinneringsvermogen positief gecorreleerd is met de grootte van de recurrente staat, maar het direct trainen van RNN's met grotere recurrente staten resulteert in hoge trainingskosten. In dit artikel introduceren we StateX, een trainingspijplijn voor het efficiënt uitbreiden van de staten van vooraf getrainde RNN's via post-training. Voor twee populaire klassen van RNN's, lineaire aandacht en state space-modellen, ontwerpen we architectonische aanpassingen voor post-training om de staatsgrootte op te schalen zonder of met een verwaarloosbare toename van modelparameters. Experimenten met modellen tot 1,3B parameters demonstreren dat StateX efficiënt het herinnerings- en in-context leervermogen van RNN's verbetert zonder hoge post-trainingskosten te veroorzaken of andere capaciteiten in gevaar te brengen.

Scale-Wise VAR is in wezen een discreet diffusieproces.
Scale-Wise VAR is Secretly Discrete Diffusion

Sep 26

ByAmandeep Kumar, Nithin Gopalakrishnan Nair, Vishal M. Patel

Autoregressieve (AR) transformatoren zijn naar voren gekomen als een krachtig paradigma voor visuele generatie, grotendeels vanwege hun schaalbaarheid, computationele efficiëntie en uniforme architectuur voor zowel taal als visie. Onder hen heeft next scale prediction Visual Autoregressive Generation (VAR) recentelijk opmerkelijke prestaties laten zien, zelfs superieur aan op diffusie gebaseerde modellen. In dit werk herzien we VAR en ontdekken een theoretisch inzicht: wanneer uitgerust met een Markoviaans aandachtmasker, is VAR wiskundig equivalent aan een discrete diffusie. We noemen deze herinterpretatie Scalable Visual Refinement with Discrete Diffusion (SRDD), waarmee we een principiële brug slaan tussen AR-transformatoren en diffusiemodellen. Door gebruik te maken van dit nieuwe perspectief, laten we zien hoe men de voordelen van diffusie, zoals iteratieve verfijning, direct kan importeren in VAR, wat resulteert in snellere convergentie, lagere inferentiekosten en verbeterde zero-shot reconstructie. Over meerdere datasets tonen we aan dat het op diffusie gebaseerde perspectief van VAR leidt tot consistente verbeteringen in efficiëntie en generatie.

Het bepalen van 3D-posities van verre objecten uit ruizige camerabewegingen en semantische segmentatie-sequenties
Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences

Sep 25

ByJulius Pesonen, Arno Solin, Eija Honkavaara

3D-objectlokalisatie op basis van een reeks camerametingen is essentieel voor veiligheidskritische bewakingstaken, zoals drone-gebaseerde monitoring van bosbranden. Lokalisatie van objecten die met een camera worden gedetecteerd, kan doorgaans worden opgelost met dichte diepteschatting of 3D-scenereconstructie. In de context van verre objecten of taken die beperkt worden door de beschikbare rekenkracht is echter geen van beide oplossingen haalbaar. In dit artikel tonen we aan dat de taak kan worden opgelost met behulp van deeltjesfilters voor zowel scenario's met één als meerdere doelen. De methode werd bestudeerd met behulp van een 3D-simulatie en een drone-gebaseerde beeldsegmentatiereeks met cameraposeschattingen op basis van het Global Navigation Satellite System (GNSS). De resultaten toonden aan dat een deeltjesfilter kan worden gebruikt om praktische lokalisatietaken op te lossen op basis van cameraposes en beeldsegmenten in situaties waarin andere oplossingen falen. Het deeltjesfilter is onafhankelijk van de detectiemethode, waardoor het flexibel is voor nieuwe taken. De studie toont ook aan dat drone-gebaseerde monitoring van bosbranden kan worden uitgevoerd met de voorgestelde methode in combinatie met een bestaand beeldsegmentatiemodel.

Evaluatie van Instructievolging in Functie-aanroepen voor Grote Taalmodellen
Instruction-Following Evaluation in Function Calling for Large Language Models

Sep 22

ByNikolai Skripko

Functie-aanroepen is een kernmogelijkheid van grote taalmodellen, essentieel voor AI-agenten. Bestaande benchmarks zoals het Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) en ACEBench (arXiv:2501.12851) evalueren de correctheid van argumenten, maar testen niet de naleving van formaatinstructies die zijn ingebed in parameterbeschrijvingen, zoals het plaatsen van waarden tussen dubbele aanhalingstekens of het gebruik van ISO-datumformaten. Wij introduceren IFEval-FC, een benchmark geïnspireerd door IFEval (arXiv:2311.07911) die het nauwkeurig opvolgen van instructies bij functie-aanroepen beoordeelt. IFEval-FC codeert verifieerbare formaten direct binnen JSON-schemabeschrijvingen, bijvoorbeeld door te specificeren dat een waarde geen leestekens mag bevatten. Het omvat 750 testgevallen, elk bestaande uit een functie met een ingebed formaat voor een van zijn invoerparameters en een bijbehorende gebruikersvraag. De evaluatie is volledig algoritmisch, wat objectiviteit, reproduceerbaarheid en schaalbaarheid garandeert. Onze resultaten tonen aan dat zelfs state-of-the-art propriëtaire modellen, waaronder GPT-5 en Claude 4.1 Opus, vaak falen in het volgen van basisformatteringsregels, wat een praktische beperking voor real-world agentsystemen benadrukt. De volledige codebase en gegevens zijn openbaar beschikbaar op https://github.com/Skripkon/IFEval-FC.