HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

18 papers found

Technisch Rapport LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

Wij introduceren LongCat-Flash-Thinking-2601, een open-source Mixture-of-Experts (MoE) redeneermodel met 560 miljard parameters en superieure agent-gebaseerde redeneercapaciteiten. LongCat-Flash-Thinking-2601 behaalt state-of-the-art prestaties onder open-source modellen op een breed scala aan agent-gebaseerde benchmarks, waaronder agent-gebaseerd zoeken, het gebruik van tools door agents en tool-geïntegreerd redeneren. Naast benchmarkprestaties toont het model sterke generalisatie naar complexe toolinteracties en robuust gedrag onder rumoerige, real-world omstandigheden. Deze geavanceerde capaciteit zijn het resultaat van een uniform trainingsraamwerk dat domein-parallelle experttraining combineert met latere fusie, samen met een end-to-end co-design van dataconstructie, omgevingen, algoritmen en infrastructuur, uitgespreid van pre-training tot post-training. In het bijzonder wordt de sterke generalisatiecapaciteit van het model bij complex toolgebruik aangedreven door onze diepgaande verkenning van omgevingsschaling en principiële taakconstructie. Om langstaartige, scheve generatie en multi-turn agent-interacties te optimaliseren, en om stabiele training over meer dan 10.000 omgevingen verspreid over meer dan 20 domeinen mogelijk te maken, breiden we ons asynchrone reinforcement learning-raamwerk, DORA, systematisch uit voor stabiele en efficiënte grootschalige multi-omgevingstraining. Verder, erkennend dat real-world taken inherent rumoerig zijn, voeren we een systematische analyse en decompositie uit van real-world ruispatronen en ontwerpen we gerichte trainingsprocedures om dergelijke imperfecties expliciet in het trainingsproces op te nemen, wat resulteert in verbeterde robuustheid voor real-world toepassingen. Om de prestaties op complexe redeneertaken verder te verbeteren, introduceren we een Heavy Thinking-modus die effectieve schaling tijdens testtijd mogelijk maakt door gezamenlijk de redeneerdiepte en -breedte uit te breiden via intensief parallel denken.

SWE-Pruner: Zelf-adaptieve contextpruning voor codeeragentschappen
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

LLM-agents hebben opmerkelijke capaciteiten getoond in softwareontwikkeling, maar hun prestaties worden belemmerd door lange interactiecontexten, die hoge API-kosten en latentie met zich meebrengen. Hoewel diverse contextcompressiebenaderingen zoals LongLLMLingua zijn ontstaan om deze uitdaging aan te pakken, baseren deze zich doorgaans op vaste metrieken zoals PPL, waarbij de taakspecifieke aard van codebegrip wordt genegeerd. Hierdoor verstoren ze veelal de syntactische en logische structuur en slagen ze er niet in kritieke implementatiedetails te behouden. In dit artikel stellen we SWE-Pruner voor, een zelf-adaptief contextpruningframework toegesneden op coderingsagents. Geïnspireerd door hoe menselijke programmeurs broncode "selectief skimmen" tijdens ontwikkeling en debugging, voert SWE-Pruner taakbewuste adaptieve pruning uit voor lange contexten. Gegeven de huidige taak formuleert de agent een expliciet doel (bijvoorbeeld "focus op foutafhandeling") als hint om de pruningdoelen te sturen. Een lichtgewicht neurale skimmer (0.6B parameters) wordt getraind om dynamisch relevante regels uit de omringende context te selecteren gegeven het doel. Evaluaties over vier benchmarks en meerdere modellen valideren de effectiviteit van SWE-Pruner in diverse scenario's, met een tokenreductie van 23-54% op agenttaken zoals SWE-Bench Verified en tot 14.84x compressie op enkelvoudige taken zoals LongCodeQA met minimale prestatie-impact.

TwinBrainVLA: Het Vrijmaken van het Potentieel van Generalistische VLMs voor Belichaamde Taken via Asymmetrisch Mixture-of-Transformers
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

Standaard Vision-Language-Action (VLA)-modellen fine-tunen doorgaans een monolithisch Vision-Language Model (VLM)-backbone expliciet voor robotbesturing. Deze aanpak creëert echter een kritieke spanning tussen het behouden van hoogwaardig algemeen semantisch begrip en het aanleren van laagwaardige, fijnmazige sensomotorische vaardigheden, wat vaak leidt tot 'catastrofale vergetelheid' van de open-wereldcapaciteiten van het model. Om dit conflict op te lossen, introduceren wij TwinBrainVLA, een nieuwe architectuur die een generalistische VLM die universeel semantisch begrip behoudt, coördineert met een gespecialiseerde VLM die is toegewijd aan belichaamde proprioceptie voor gezamenlijke robotbesturing. TwinBrainVLA brengt een bevroren "Linker Hersenhelft", die robuuste algemene visuele redeneervaardigheden behoudt, synergetisch samen met een trainbare "Rechter Hersenhelft", gespecialiseerd in belichaamde perceptie, via een nieuw Asymmetrisch Mixture-of-Transformers (AsyMoT)-mechanisme. Dit ontwerp stelt de Rechter Hersenhelft in staat om dynamisch semantische kennis op te vragen uit de bevroren Linker Hersenhelft en deze te versmelten met proprioceptieve toestanden, wat een rijke conditionering biedt voor een Flow-Matching Actie-Expert om precieze continue besturingen te genereren. Uitgebreide experimenten op de SimplerEnv- en RoboCasa-benchmarks tonen aan dat TwinBrainVLA superieure manipulatieresultaten behaalt in vergelijking met state-of-the-art baseline-modellen, terwijl het expliciet de uitgebreide visuele begripscapaciteiten van het vooraf getrainde VLM behoudt. Dit biedt een veelbelovende richting voor het bouwen van robots voor algemene toepassingen die gelijktijdig hoogwaardig semantisch begrip en laagwaardige fysieke behendigheid bereiken.

VisGym: Diverse, Aanpasbare en Schaalbare Omgevingen voor Multimodale Agents
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

Moderne Vision-Language Models (VLMs) blijven slecht gekarakteriseerd in multi-stap visuele interacties, met name in hoe ze perceptie, geheugen en actie over lange tijdshorizons integreren. Wij introduceren VisGym, een gymnasium van 17 omgevingen voor het evalueren en trainen van VLMs. De suite omvat symbolische puzzels, begrip van echte afbeeldingen, navigatie en manipulatie, en biedt flexibele controle over moeilijkheidsgraad, inputrepresentatie, planningshorizon en feedback. Wij bieden ook multi-stap oplossers die gestructureerde demonstraties genereren, wat supervised finetuning mogelijk maakt. Onze evaluaties tonen aan dat alle frontier-modellen moeite hebben in interactieve settings, met lage slagingspercentages in zowel de makkelijke (46,6%) als moeilijke (26,0%) configuraties. Onze experimenten onthullen opmerkelijke beperkingen: modellen hebben moeite om lange context effectief te benutten en presteren slechter met een onbegrensde geschiedenis dan met afgeknotte vensters. Verder stellen wij vast dat verschillende op tekst gebaseerde symbolische taken aanzienlijk moeilijker worden zodra ze visueel worden weergegeven. Expliciete doelwaarnemingen, tekstuele feedback en verkennende demonstraties in gedeeltelijk waarneembare of onbekende-dynamica settings voor supervised finetuning leveren echter consistente verbeteringen op, wat concrete faalwijzen en verbeterpaden voor multi-stap visuele besluitvorming belicht. Code, data en modellen zijn te vinden op: https://visgym.github.io/.

Memory-V2V: Verbetering van Video-naar-Video Diffusiemodellen met Geheugen
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

Recente fundamentele video-naar-video diffusiemodellen hebben indrukwekkende resultaten behaald bij het bewerken van door gebruikers aangeleverde video's door het uiterlijk, de beweging of camerabeweging aan te passen. Echter, videobewerking in de praktijk is vaak een iteratief proces, waarbij gebruikers resultaten verfijnen over meerdere interactierondes. In deze multi-turn setting hebben huidige videobewerkers moeite om cross-consistentie tussen opeenvolgende bewerkingen te behouden. In dit werk pakken we, voor het eerst, het probleem van cross-consistentie bij multi-turn videobewerking aan en introduceren Memory-V2V, een eenvoudig maar effectief framework dat bestaande video-naar-video modellen uitbreidt met expliciet geheugen. Gegeven een externe cache van eerder bewerkte video's, gebruikt Memory-V2V accurate retrieval- en dynamische tokenisatiestrategieën om de huidige bewerkingsstap te conditioneren op eerdere resultaten. Om redundantie en computationele overhead verder te verminderen, stellen we een leerbare tokencompressor voor binnen de DiT-backbone die redundante conditioneringstokens comprimeert terwijl essentiële visuele aanwijzingen behouden blijven, wat een algehele versnelling van 30% oplevert. We valideren Memory-V2V op uitdagende taken, waaronder novel view synthesis van video's en tekst-geconditioneerde bewerking van lange video's. Uitgebreide experimenten tonen aan dat Memory-V2V video's produceert die aanzienlijk cross-consistenter zijn met minimale computationele overhead, terwijl de taakspecifieke prestaties worden behouden of zelfs verbeterd ten opzichte van state-of-the-art baselines. Projectpagina: https://dohunlee1.github.io/MemoryV2V

Jet-RL: Het mogelijk maken van on-policy FP8-versterkingsleren met een uniforme precisieflow voor training en rollout
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

Versterkend leren (RL) is essentieel voor het verbeteren van de complexe redeneervaardigheden van grote taalmodellen (LLM's). Bestaande RL-trainingspijplijnen zijn echter rekenkundig inefficiënt en resource-intensief, waarbij de rollout-fase meer dan 70% van de totale trainingstijd in beslag neemt. Gekwantiseerde RL-training, met name het gebruik van FP8-precisie, biedt een veelbelovende aanpak om dit knelpunt te verlichten. Een veelgebruikte strategie past FP8-precisie toe tijdens de rollout, maar behoudt BF16-precisie voor de training. In dit werk presenteren we de eerste uitgebreide studie naar FP8 RL-training en tonen we aan dat de veelgebruikte BF16-training + FP8-rollout-strategie lijdt onder ernstige trainingsinstabiliteit en een catastrofale nauwkeurigheidsdaling bij lange rollouts en uitdagende taken. Onze analyse toont aan dat deze mislukkingen voortkomen uit het off-policy karakter van de aanpak, die een aanzienlijke numerieke mismatch tussen training en inferentie introduceert. Gemotiveerd door deze observaties stellen we Jet-RL voor, een FP8 RL-trainingsraamwerk dat robuuste en stabiele RL-optimalisatie mogelijk maakt. Het kernidee is om een uniforme FP8-precisiestroom aan te nemen voor zowel training als rollout, waardoor numerieke discrepanties worden geminimaliseerd en de behoefte aan inefficiënte inter-step-kalibratie wordt geëlimineerd. Uitgebreide experimenten valideren de effectiviteit van Jet-RL: onze methode bereikt een versnelling tot 33% in de rollout-fase, tot 41% versnelling in de trainingsfase en een end-to-end versnelling van 16% ten opzichte van BF16-training, terwijl stabiele convergentie in alle instellingen wordt behouden en met een verwaarloosbare nauwkeurigheidsafname.

Inferentie-schaalvergroting van verificatie: Zelf-evoluerende diepe onderzoeksagenten via rubric-geleide verificatie tijdens de testfase
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

Recente ontwikkelingen in Deep Research Agents (DRA's) transformeren geautomatiseerde kennisontdekking en probleemoplossing. Hoewel de meeste bestaande inspanningen zich richten op het verbeteren van beleidsmogelijkheden via post-training, stellen wij een alternatief paradigma voor: het zelf laten evolueren van het vermogen van de agent door de uitvoer van het beleidsmodel iteratief te verifiëren, geleid door zorgvuldig opgestelde rubrics. Deze aanpak leidt tot de inferentie-tijd schaalvergroting van verificatie, waarbij een agent zichzelf verbetert door zijn gegenereerde antwoorden te evalueren om iteratieve feedback en verfijningen te produceren. Wij leiden de rubrics af op basis van een automatisch geconstrueerde DRA Foutentaxonomie, die agentfouten systematisch classificeert in vijf hoofdcategorieën en dertien subcategorieën. Wij presenteren DeepVerifier, een op rubrics gebaseerde uitkomstbeloningsverificateur die de asymmetrie van verificatie benut en de baseline-methoden van gewone agent-as-judge en LLM-judge met 12%-48% overtreft in F1-score voor meta-evaluatie. Om praktische zelfevolutie mogelijk te maken, integreert DeepVerifier als een plug-and-play module tijdens inferentie op testtijd. De verificateur produceert gedetailleerde, op rubrics gebaseerde feedback, die wordt teruggevoerd naar de agent voor iteratieve bootstrapping, waarbij antwoorden worden verfijnd zonder aanvullende training. Deze schaalvergroting op testtijd levert 8%-11% nauwkeurigheidswinst op op uitdagende subsets van GAIA en XBench-DeepResearch wanneer wordt aangedreven door capabele closed-source LLM's. Ten slotte, ter ondersteuning van de vooruitgang van open source, publiceren wij DeepVerifier-4K, een gecureerde supervised fine-tuning dataset van 4.646 hoogwaardige agentstappen gericht op DRA-verificatie. Deze voorbeelden benadrukken reflectie en zelfkritiek, waardoor open modellen robuuste verificatiemogelijkheden kunnen ontwikkelen.

Eindeloze Terminals: Schaalvergroting van RL-omgevingen voor Terminal Agents
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

Omgevingen vormen de bottleneck voor zelfverbeterende agents. Huidige terminalbenchmarks werden gebouwd voor evaluatie, niet voor training; reinforcement learning vereist een schaalbare pijplijn, niet slechts een dataset. Wij introduceren Endless Terminals, een volledig autonome pijplijn die procedureel terminaltaken genereert zonder menselijke annotatie. De pijplijn kent vier fasen: het genereren van diverse taakbeschrijvingen, het bouwen en valideren van gecontaineriseerde omgevingen, het produceren van voltooiingstests en het filteren op oplosbaarheid. Via deze pijplijn verkrijgen we 3255 taken op het gebied van bestandsbewerkingen, logbeheer, gegevensverwerking, scripting en databaseoperaties. We trainen agents met standaard PPO met binaire beloningen op episodeniveau en een minimale interactielus: geen retrieval, multi-agentcoördinatie of gespecialiseerde tools. Ondanks deze eenvoud tonen modellen getraind op Endless Terminals aanzienlijke vooruitgang: op onze afgezonderde ontwikkelset verbetert Llama-3.2-3B van 4,0% naar 18,2%, Qwen2.5-7B van 10,7% naar 53,3% en Qwen3-8B-openthinker-sft van 42,6% naar 59,0%. Deze verbeteringen transfereren naar door mensen samengestelde benchmarks: modellen getraind op Endless Terminals tonen aanzienlijke winst op afgezonderde, door mensen gecureerde benchmarks: op TerminalBench 2.0 verbetert Llama-3.2-3B van 0,0% naar 2,2%, Qwen2.5-7B van 2,2% naar 3,4% en Qwen3-8B-openthinker-sft van 1,1% naar 6,7%, waarbij ze in elk geval alternatieve benaderingen overtreffen, inclusief modellen met complexere agent-scaffolds. Deze resultaten tonen aan dat eenvoudige reinforcement learning slaagt wanneer omgevingen schalen.

SALAD: Hoog-schamele aandacht bereiken via efficiënte lineaire aandacht-afstemming voor videodiffusietransformers
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

Diffusion Transformers hebben recentelijk opmerkelijke prestaties getoond bij videogeneratie. De lange invoersequenties resulteren echter in een hoge computationele latentie door de kwadratische complexiteit van volledige aandacht. Diverse sparse aandachtmechanismen zijn voorgesteld. Trainingsvrije sparse aandacht wordt beperkt door beperkte sparsiteit en biedt daardoor bescheiden versnelling, terwijl trainingsgebaseerde methoden een veel hogere sparsiteit kunnen bereiken maar aanzienlijke data en rekenkracht voor training vereisen. In dit werk stellen we SALAD voor, waarbij een lichtgewicht lineaire aandachtstak parallel wordt geïntroduceerd aan de sparse aandacht. Door een invoerafhankelijk gatingmechanisme te incorporeren om de twee takken fijn af te stemmen, bereikt onze methode 90% sparsiteit en een 1,72x versnelling van de inferentie, waarbij de generatiekwaliteit vergelijkbaar blijft met de volledige aandacht-basislijn. Bovendien is ons fine-tuningproces zeer efficiënt, met slechts 2.000 videovoorbeelden en 1.600 trainingstappen met een batchgrootte van 8.

Dansen in Ketens: Strategische Overtuiging in Academische Wederlegging via Theory of Mind
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

Hoewel kunstmatige intelligentie (KI) diep is geïntegreerd in diverse fasen van de onderzoeksworkflow en opmerkelijke vooruitgang heeft geboekt, blijft academische weerlegging een significante en onderbelichte uitdaging. Dit komt doordat weerlegging een complex proces van strategische communicatie is onder ernstige informatie-asymmetrie, in plaats van een eenvoudig technisch debat. Als gevolg hiervan worstelen huidige benaderingen, omdat ze voornamelijk oppervlakkige linguïstiek imiteren en het essentiële element van perspectiefinneming dat nodig is voor effectieve overreding missen. In dit artikel introduceren we RebuttalAgent, het eerste raamwerk dat academische weerlegging verankert in de Theory of Mind (ToM), geoperationaliseerd via een ToM-Strategie-Respons (TSR)-pijplijn die de mentale staat van de reviewer modelleert, een overredingsstrategie formuleert en een op strategie gebaseerd antwoord genereert. Om onze agent te trainen, construeren we RebuttalBench, een grootschalige dataset gesynthetiseerd via een nieuwe kritiek-en-verfijn-aanpak. Ons trainingsproces bestaat uit twee fasen, beginnend met een supervised fine-tuning fase om de agent te voorzien van ToM-gebaseerde analyse- en strategische planningscapaciteiten, gevolgd door een reinforcement learning fase die gebruikmaakt van het zelfbeloningsmechanisme voor schaalbare zelfverbetering. Voor betrouwbare en efficiënte geautomatiseerde evaluatie ontwikkelen we verder Rebuttal-RM, een gespecialiseerde beoordelaar getraind op meer dan 100K samples van multi-bron weerleggingsdata, die een scoreconsistentie met menselijke voorkeuren bereikt die de krachtige beoordelaar GPT-4.1 overtreft. Uitgebreide experimenten tonen aan dat RebuttalAgent de basis-model significant overtreft met gemiddeld 18.3% op geautomatiseerde metrieken, terwijl het ook geavanceerde propriëtaire modellen overtreft in zowel geautomatiseerde als menselijke evaluaties. Disclaimer: de gegenereerde weerleggingsinhoud is alleen bedoeld als referentie om auteurs te inspireren en te assisteren bij het opstellen. Het is niet bedoeld om de eigen kritische analyse en reactie van de auteur te vervangen.

GameTalk: Het trainen van grote taalmodelen voor strategische conversatie
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

Strategische besluitvorming in multi-agentomgevingen is een centrale uitdaging voor grote taalmodellen (LLM's), vooral wanneer coördinatie en onderhandeling zich moeten ontvouwen over langere gesprekken. Hoewel recent onderzoek het gebruik van LLM's in geïsoleerde besluitvormingstaken heeft verkend, is er weinig aandacht geweest voor het optimaliseren van langetermijndoelen via dialoog. Wij introduceren GameTalk, een raamwerk voor het trainen van LLM's om strategische beslissingen te nemen via multi-turn interacties. In tegenstelling tot eerder werk dat zich richt op single-turn doelstellingen of statische actievoorspelling, trainen wij LLM's om een globaal doel te optimaliseren over volledige conversaties. Wij bereiken dit door fine-tuningmethoden zoals GRPO, DPO en STaR aan te passen om beloningssignalen op te nemen die afhankelijk zijn van de gehele interactie. Wij evalueren deze aanpak op een reeks steeds complexere spellen, ontworpen om verschillende aspecten van redenering, coördinatie en modellering van tegenstanders te belasten. Onze resultaten tonen aan dat GameTalk aanzienlijk beter presteert dan niet-getrainde modellen, vooral bij 'reward shaping', waarbij DPO consequent de grootste verbeteringen oplevert. Deze bevindingen positioneren conversationele fine-tuning als een veelbelovende weg voor LLM's om te redeneren, onderhandelen en handelen in interactieve omgevingen.

MeepleLM: Een Virtuele Speltester die Diverse Subjectieve Ervaringen Simuleert
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

Recente ontwikkelingen hebben de rol van grote taalmodel(len) in bordspellen uitgebreid van spelende agenten tot creatieve co-ontwerpers. Er blijft echter een kritieke kloof bestaan: huidige systemen missen het vermogen om constructieve kritiek te geven die is gebaseerd op de emergente gebruikerservaring. Het overbruggen van deze kloof is fundamenteel voor het harmoniseren van mens-AI-samenwerking, omdat het ontwerpers in staat stelt hun creaties te verfijnen via externe perspectieven en tegelijkertijd modellen wegstuurt van bevooroordeelde of onvoorspelbare uitkomsten. Het automatiseren van kritiek voor bordspellen kent twee uitdagingen: het afleiden van de onderliggende dynamiek die regels aan gameplay verbindt zonder een expliciete engine, en het modelleren van de subjectieve heterogeniteit van diverse spelersgroepen. Om deze aan te pakken, hebben we een dataset samengesteld van 1.727 structureel gecorrigeerde spelregelboekjes en 150.000 beoordelingen, geselecteerd via kwaliteitsscores en facetbewuste steekproeven. We verrijken deze data met Mechanics-Dynamics-Aesthetics (MDA)-redenering om de causale kloof tussen geschreven regels en spelerservaring expliciet te overbruggen. Verder destilleren we spelerspersona's en introduceren we MeepleLM, een gespecialiseerd model dat persona-specifieke redeneerpatronen internaliseert om de subjectieve feedback van diverse spelersarchetypen nauwkeurig te simuleren. Experimenten tonen aan dat MeepleLM aanzienlijk beter presteert dan de nieuwste commerciële modellen (zoals GPT-5.1, Gemini3-Pro) op het gebied van community-alignering en kritiekkwaliteit, met een voorkeurspercentage van 70% in gebruikersstudies die de bruikbaarheid beoordelen. MeepleLM dient als een betrouwbare virtuele playtester voor algemene interactieve systemen, wat een cruciale stap markeert richting publieksgerichte, ervaringsbewuste mens-AI-samenwerking.

ChartVerse: Schaalvergroting van Grafiekredenering via Betrouwbare Programmatische Synthese vanaf Nul
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

Grafiekredenering is een cruciale vaardigheid voor Vision Language Models (VLM's). De ontwikkeling van open-source modellen wordt echter ernstig belemmerd door een gebrek aan hoogwaardige trainingsdata. Bestaande datasets kampen met een dubbele uitdaging: synthetische grafieken zijn vaak simplistisch en repetitief, terwijl de bijbehorende vraag-antwoordparen gevoelig zijn voor hallucinaties en het ontbreekt ze aan de redeneerdiepte die nodig is voor complexe taken. Om deze kloof te overbruggen, stellen we ChartVerse voor, een schaalbaar framework ontworpen om complexe grafieken en betrouwbare redeneerdata vanaf nul te synthetiseren. (1) Om het knelpunt van eenvoudige patronen aan te pakken, introduceren we eerst Rollout Posterior Entropy (RPE), een nieuwe maatstaf die de complexiteit van een grafiek kwantificeert. Geleid door RPE ontwikkelen we een complexiteitsbewuste grafiekcoder om autonoom diverse, hoogcomplexe grafieken te synthetiseren via uitvoerbare programma's. (2) Om de redeneerrigeur te garanderen, ontwikkelen we een waarheid-verankerde inverse QA-synthese. In tegenstelling tot standaardgeneratie hanteren we een antwoord-eerst paradigma: we extraheren deterministische antwoorden rechtstreeks uit de broncode, genereren vragen conditioneel op deze ankers en voeren strikte consistentieverificatie af. Om de moeilijkheidsgraad en redeneerdiepte verder te verhogen, filteren we samples op basis van model-faalkans en destilleren we hoogwaardige Chain-of-Thought (CoT)-redenering. We hebben ChartVerse-SFT-600K en ChartVerse-RL-40K samengesteld met Qwen3-VL-30B-A3B-Thinking als de leraar. Experimentele resultaten tonen aan dat ChartVerse-8B state-of-the-art prestaties bereikt, waarbij het opvallend genoeg zijn leraar overtreft en kan wedijveren met de sterkere Qwen3-VL-32B-Thinking.

DSGym: Een Holistisch Kader voor de Evaluatie en Training van Data Science Agents
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

Data science-agents beloven de ontdekking en generatie van inzichten te versnellen door data om te zetten in uitvoerbare analyses en bevindingen. Toch schieten bestaande data science-benchmarks tekort door gefragmenteerde evaluatie-interfaces die kruisbenchmarkvergelijking bemoeilijken, beperkte taakdekking en een gebrek aan rigoureuze datagronding. We tonen aan dat een aanzienlijk deel van de taken in huidige benchmarks opgelost kan worden zonder de werkelijke data te gebruiken. Om deze beperkingen aan te pakken, introduceren we DSGym, een gestandaardiseerd raamwerk voor het evalueren en trainen van data science-agents in zelfstandige uitvoeringsomgevingen. In tegenstelling tot statische benchmarks biedt DSGym een modulaire architectuur die het eenvoudig maakt om taken, agent-scaffolds en tools toe te voegen, waardoor het zich positioneert als een levende, uitbreidbare testomgeving. We hebben DSGym-Tasks samengesteld, een holistische takenreeks die bestaande benchmarks standaardiseert en verfijnt via kwaliteits- en shortcut-oplosbaarheidsfiltering. We breiden de dekking verder uit met (1) DSBio: expert-afgeleide bioinformatica-taken gegrond in literatuur en (2) DSPredict: uitdagende voorspellingstaken over domeinen zoals computervisie, moleculaire voorspelling en single-cell perturbatie. Naast evaluatie maakt DSGym agent-training mogelijk via een uitvoeringsgeverifieerde datasynthesepijplijn. Als casestudy bouwden we een trainingsset van 2.000 voorbeelden en trainden een 4B-model in DSGym dat beter presteert dan GPT-4o op gestandaardiseerde analysebenchmarks. Over het geheel genomen stelt DSGym rigoureuze end-to-end meting in staat van of agents data-analyses kunnen plannen, implementeren en valideren in realistische wetenschappelijke contexten.

Kennis is Niet Genoeg: Het Injecteren van RL-vaardigheden voor Continue Aanpassing
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

Grote Taalmodellen (GTM's) kampen met het "kennisafsluitingsprobleem", waarbij hun bevroren parametrische geheugen verhindert dat nieuwe informatie direct wordt geïnternaliseerd. Hoewel Supervised Fine-Tuning (SFT) vaak wordt gebruikt om modelkennis bij te werken, actualiseert het meestal feitelijke inhoud zonder het vermogen van het model om de nieuw geïncorporeerde informatie te gebruiken voor vraagbeantwoording of besluitvorming betrouwbaar te verbeteren. Reinforcement Learning (RL) is essentieel voor het verwerven van redeneervaardigheden; de hoge rekenkosten maken het echter onpraktisch voor efficiënte online-aanpassing. Wij observeren empirisch dat de parameterupdates veroorzaakt door SFT en RL bijna orthogonaal zijn. Gebaseerd op deze observatie stellen wij Parametric Skill Transfer (PaST) voor, een raamwerk dat modulaire vaardigheidsoverdracht ondersteunt voor efficiënte en effectieve kennisaanpassing. Door een domein-agnostische Skill Vector uit een brondomein te extraheren, kunnen wij kennismanipulatievaardigheden lineair injecteren in een doelmodel nadat het een lichtgewicht SFT op nieuwe gegevens heeft ondergaan. Experimenten op het gebied van kennisincorporatie-vraagbeantwoording (SQuAD, LooGLE) en agent-gebaseerde tool-gebruik benchmarks (ToolBench) demonstreren de effectiviteit van onze methode. Op SQuAD presteert PaST tot 9,9 punten beter dan de state-of-the-art zelf-editerende SFT-basislijn. PaST schaalt verder naar vraagbeantwoording met lange context op LooGLE met een absolute nauwkeurigheidswinst van 8,0 punten, en verbetert de zero-shot ToolBench-succespercentages gemiddeld met +10,3 punten met consistente winsten across toolcategorieën, wat duidt op sterke schaalbaarheid en cross-domein overdraagbaarheid van de Skill Vector.

Mecellem Modeller: Vanaf Nul Getrainde en Continu Voorgetrainde Turkse Modellen voor het Juridisch Domein
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

Dit artikel presenteert Mecellem-modellen, een raamwerk voor het ontwikkelen van gespecialiseerde taalmodellen voor het Turkse juridische domein via domeinadaptatiestrategieën. Wij leveren twee bijdragen: (1) Encoder-model van Scratch Voorgetraind: Bidirectionele encoders op basis van ModernBERT, voorgetraind op een Turks-dominant corpus van 112,7 miljard tokens. Wij implementeren een checkpoint-selectiestrategie die de downstream-retrievalprestatie gedurende de training evalueert, waaruit blijkt dat optimale checkpoints de beste retrievalscores behalen voordat de voortrainingsverlies zijn minimum bereikt. Onze encodermodellen behalen top-3 posities op het Turkse retrieval leaderboard, waarbij kleinere modellen (155M parameters) vergelijkbare prestaties leveren als grotere referentiemodellen (307M-567M parameters). Onze aanpak bereikt een productie-efficiëntie van 92,36% in vergelijking met state-of-the-art modellen (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), en eindigt daarmee op de vierde plaats overall, ondanks het lagere computationele resourceverbruik. SOTA-modellen zijn afhankelijk van meerfasige, computationeel intensieve trainingspijplijnen, waardoor onze aanpak van eenfasige voortraining gevolgd door efficiënte natraining een kosteneffectief alternatief vormt; (2) Decoder-model met Continue Voorpretraining (CPT): Qwen3-1.7B en Qwen3-4B modellen aangepast aan het Turkse juridische domein via gecontroleerd curriculumleren. Vierfasige CPT met optimale sample-ratio's maakt een geleidelijke overgang mogelijk van algemene taalkennis naar gespecialiseerde juridische terminologie en redenering over lange contexten. Deze aanpak bereikt een perplexiteitsreductie van 36,2% op Turkse juridische tekst, wat de winst van domeinadaptatie aantoont.

VISTA-PATH: Een interactief foundation model voor pathologiebeeldsegmentatie en kwantitatieve analyse in de computationele pathologie
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

Nauwkeurige semantische segmentatie van histopathologiebeelden is cruciaal voor kwantitatieve weefselanalyse en daaropvolgende klinische modellering. Recente segmentatiefoundationmodellen hebben de generalisatie verbeterd door grootschalige voorafgaande training, maar sluiten nog steeds slecht aan bij de pathologie omdat ze segmentatie behandelen als een statische visuele voorspeltaak. Hier presenteren we VISTA-PATH, een interactief, klassebewust pathologiesegmentatiefoundationmodel dat is ontworpen om heterogene structuren op te lossen, expertfeedback te incorporeren en pixelgewijze segmentaties te produceren die direct betekenisvol zijn voor klinische interpretatie. VISTA-PATH conditioneert segmentatie gezamenlijk op visuele context, semantische weefselbeschrijvingen en optionele door experts verstrekte ruimtelijke prompts, waardoor nauwkeurige multiklasse-segmentatie over heterogene pathologiebeelden mogelijk wordt. Om dit paradigma te ondersteunen, hebben we VISTA-PATH Data samengesteld, een grootschalig pathologiesegmentatiecorpus bestaande uit meer dan 1,6 miljoen beeld-masker-tekst triplets verspreid over 9 organen en 93 weefselklassen. Over uitgebreide achtergehouden en externe benchmarks presteert VISTA-PATH consistent beter dan bestaande segmentatiefoundationmodellen. Belangrijk is dat VISTA-PATH dynamische verfijning met menselijke interactie ondersteunt door schaarse, patchgewijze bounding-box annotatiefeedback te propageren naar whole-slide-segmentatie. Ten slotte tonen we aan dat de hoogwaardige, klassebewuste segmentatie geproduceerd door VISTA-PATH een voorkeursmodel is voor computationele pathologie. Het verbetert weefselmicro-omgevingsanalyse door de voorgestelde Tumor Interactie Score (TIS), die sterke en significante associaties vertoont met patiëntoverleving. Samen vestigen deze resultaten VISTA-PATH als een foundationmodel dat pathologiebeeldsegmentatie verheft van een statische voorspelling naar een interactieve en klinisch onderbouwde representatie voor digitale pathologie. Broncode en demo zijn beschikbaar op https://github.com/zhihuanglab/VISTA-PATH.

Richtlijnen voor het Aansturen van Grote Taalmodellen voor Codegeneratie: Een Empirische Karakterisering
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

Groottaalmodellen (LLM's) worden tegenwoordig uitgebreid ingezet voor diverse soorten software-engineeringtaken, voornamelijk codegeneratie. Eerder onderzoek heeft aangetoond hoe geschikte promptengineering ontwikkelaars kan helpen bij het verbeteren van hun codegeneratie-prompts. Tot op heden bestaan er echter geen specifieke richtlijnen die ontwikkelaars leiden naar het schrijven van geschikte prompts voor codegeneratie. In dit werk leiden we ontwikkelingsspecifieke richtlijnen voor promptoptimalisatie af en evalueren we deze. Ten eerste gebruiken we een iteratieve, testgedreven aanpak om codegeneratie-prompts automatisch te verfijnen, en we analyseren de uitkomst van dit proces om promptverbeteringspunten te identificeren die leiden tot geslaagde tests. We gebruiken deze elementen om 10 richtlijnen voor promptverbetering af te leiden, gerelateerd aan het beter specificeren van I/O, pre- en postcondities, het verstrekken van voorbeelden, diverse soorten details, of het ophelderen van ambiguïteiten. We voeren een evaluatie uit met 50 praktijkbeoefenaars, die hun gebruik van de afgeleide promptverbeteringspatronen rapporteren, evenals hun ervaren nuttigheid, wat niet altijd overeenkomt met het daadwerkelijke gebruik voordat zij onze richtlijnen kenden. Onze resultaten leiden tot implicaties niet alleen voor praktijkbeoefenaars en opleiders, maar ook voor hen die gericht zijn op het creëren van betere met LLM's ondersteunde software-ontwikkeltools.

Technisch Rapport LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

175