HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

19 papers found

SemanticGen: Videogeneratie in Semantische Ruimte
SemanticGen: Video Generation in Semantic Space

Dec 23

ByJianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai

State-of-the-art videogeneratieve modellen leren typisch de verdeling van videolatenten in de VAE-ruimte en zetten deze om naar pixels met behulp van een VAE-decoder. Hoewel deze aanpak hoogwaardige video's kan genereren, lijdt ze onder trage convergentie en is ze rekenkundig kostbaar bij het genereren van lange video's. In dit artikel introduceren we SemanticGen, een nieuwe oplossing om deze beperkingen aan te pakken door video's in de semantische ruimte te genereren. Onze belangrijkste inzicht is dat, vanwege de inherente redundantie in video's, het generatieproces zou moeten beginnen in een compacte, hoogwaardige semantische ruimte voor globale planning, gevolgd door de toevoeging van hoogfrequente details, in plaats van direct een grote set laagwaardige videotokens te modelleren met behulp van bi-directionele aandacht. SemanticGen hanteert een tweestaps generatieproces. In de eerste fase genereert een diffusiemodel compacte semantische videokenmerken, die de globale lay-out van de video bepalen. In de tweede fase genereert een andere diffusiemodel VAE-latenten, geconditioneerd op deze semantische kenmerken, om de uiteindelijke output te produceren. Wij observeren dat generatie in de semantische ruimte leidt tot snellere convergentie in vergelijking met de VAE-latente ruimte. Onze methode is ook effectief en rekenkundig efficiënt wanneer uitgebreid naar lange videogeneratie. Uitgebreide experimenten tonen aan dat SemanticGen hoogwaardige video's produceert en state-of-the-art benaderingen en sterke baseline-modellen overtreft.

Technisch Rapport Step-DeepResearch
Step-DeepResearch Technical Report

Dec 23

ByChen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

Naarmate LLM's zich ontwikkelen naar autonome agents, is Deep Research een cruciale maatstaf geworden. Bestaande academische benchmarks zoals BrowseComp voldoen echter vaak niet aan de praktische eisen voor open-ended onderzoek, dat robuuste vaardigheden vereist in intentieherkenning, besluitvorming over lange tijdshorizons en kruisbronverificatie. Om dit aan te pakken, introduceren we Step-DeepResearch, een kosteneffectieve, end-to-end agent. We presenteren een datasynthesestrategie gebaseerd op atomische capaciteiten om planning en rapportschrijven te versterken, gecombineerd met een progressief trainingspad van agentic mid-training naar SFT en RL. Versterkt door een checklist-stijl beoordelaar verbetert deze aanpak de robuustheid aanzienlijk. Verder richten we ADR-Bench op voor realistische deep research-scenario's om de evaluatiekloof in het Chinese taalgebied te overbruggen. Experimentele resultaten tonen aan dat Step-DeepResearch (32B) 61,4% scoort op de Scale AI Research Rubrics. Op ADR-Bench presteert het significant beter dan vergelijkbare modellen en kan het concurreren met state-of-the-art gesloten modellen zoals OpenAI en Gemini DeepResearch. Deze bevindingen bewijzen dat verfijnde training middelgrote modellen in staat stelt expertniveau te bereiken met toonaangevende kostenefficiëntie.

Bottom-up Policy-optimalisatie: Uw Taalmodel Beleid Bevat Stiekeme Interne Beleidsregels
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Dec 22

ByYuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu

Bestaande reinforcement learning (RL) benaderingen behandelen grote taalmodellen (LLM's) als een enkel verenigd beleid, waarbij hun interne mechanismen over het hoofd worden gezien. Het begrijpen van hoe het beleid evolueert over lagen en modules heen is daarom cruciaal voor het mogelijk maken van gerichtere optimalisatie en het ontrafelen van complexe redeneermechanismen. In dit artikel ontleden we het taalmodelbeleid door gebruik te maken van de intrinsieke splitsing van de Transformer residual stream en de equivalentie tussen de compositie van verborgen toestanden met de unembedding matrix en het resulterende bemonsterbare beleid. Deze decompositie onthult Intern Laagbeleid, corresponderend met bijdragen van individuele lagen, en Intern Modulair Beleid, dat overeenkomt met de self-attention en feed-forward network (FFN) componenten binnen elke laag. Door de entropie van het interne beleid te analyseren, vinden we dat: (a) Vroege lagen een hoge entropie behouden voor exploratie, terwijl toplagen convergeren naar een entropie nabij nul voor verfijning, waarbij convergentiepatronen variëren tussen modelseries. (b) LLama's voorspellingsruimte snel convergeert in de laatste laag, terwijl Qwen-seriële modellen, met name Qwen3, een meer mensachtig, geleidelijk gestructureerd redeneerpatroon vertonen. Gemotiveerd door deze bevindingen stellen we Bottom-up Policy Optimization (BuPO) voor, een nieuwe RL-paradigma dat het interne laagbeleid direct optimaliseert tijdens de vroege training. Door het trainingsdoel af te stemmen op lagere lagen, reconstrueert BuPO fundamentele redeneervermogens en behaalt superieure prestaties. Uitgebreide experimenten op complexe redeneerbenchmarks demonstreren de effectiviteit van onze methode. Onze code is beschikbaar op https://github.com/Trae1ounG/BuPO.

LongVideoAgent: Multi-Agent Redeneren met Lange Video's
LongVideoAgent: Multi-Agent Reasoning with Long Videos

Dec 23

ByRuntao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

Recente vooruitgang in multimodale LLM's en systemen die gebruikmaken van tools voor lange-video QA wijst op de belofte van redeneren over uur-lange afleveringen. Echter, veel methoden comprimeren inhoud nog steeds in lossy samenvattingen of vertrouwen op beperkte toolsetten, wat de temporele verankering verzwakt en fijnmazige aanwijzingen mist. Wij stellen een multi-agent raamwerk voor waarin een hoofd-LLM een verankeringsagent coördineert om vraagrelevante segmenten te lokaliseren en een visie-agent om gerichte tekstuele observaties te extraheren. De hoofdagent plant met een stapgrens, en wordt getraind met reinforcement learning om beknopte, correcte en efficiënte multi-agent samenwerking aan te moedigen. Dit ontwerp helpt de hoofdagent zich te concentreren op relevante fragmenten via verankering, complementeert ondertitels met visuele details, en levert interpreteerbare trajecten op. Op onze voorgestelde LongTVQA en LongTVQA+, wat afleveringsniveau datasets zijn samengesteld uit TVQA/TVQA+, presteert ons multi-agent systeem aanzienlijk beter dan sterke non-agent baseline methoden. Experimenten tonen ook aan dat reinforcement learning het redeneren en plannen voor de getrainde agent verder versterkt. Code en data worden gedeeld op https://longvideoagent.github.io/.

SpatialTree: Hoe ruimtelijke vaardigheden vertakken in MLLM's
SpatialTree: How Spatial Abilities Branch Out in MLLMs

Dec 23

ByYuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang

De cognitieve wetenschap suggereert dat ruimtelijk vermogen zich progressief ontwikkelt – van perceptie naar redeneren en interactie. Toch blijft deze hiërarchie in multimodale taalmodelen (MLLMs) slecht begrepen, aangezien de meeste studies zich richten op een beperkte set taken. Wij introduceren SpatialTree, een op de cognitieve wetenschap geïnspireerde hiërarchie die ruimtelijke vaardigheden organiseert in vier niveaus: laagwaardige perceptie (L1), mentale mapping (L2), simulatie (L3) en agent-gerelateerde competentie (L4). Op basis van deze taxonomie construeren we de eerste capaciteitsgerichte hiërarchische benchmark, die mainstream MLLMs grondig evalueert op 27 subvaardigheden. De evaluatieresultaten onthullen een duidelijke structuur: L1-vaardigheden zijn grotendeels orthogonaal, terwijl vaardigheden op hogere niveaus sterk gecorreleerd zijn, wat wijst op een toenemende onderlinge afhankelijkheid. Via gerichte supervised fine-tuning ontdekken we een verrassende transferdynamiek: negatieve transfer binnen L1, maar sterke cross-level transfer van lage naar hoge vaardigheden met opmerkelijke synergie. Ten slotte onderzoeken we hoe de gehele hiërarchie verbeterd kan worden. We constateren dat naïeve reinforcement learning (RL) die uitgebreid "denken" aanmoedigt onbetrouwbaar is: het helpt bij complex redeneren, maar schaadt intuïtieve perceptie. We stellen een eenvoudige auto-denken-strategie voor die onnodige beraadslaging onderdrukt, waardoor RL consequent de prestaties op alle niveaus kan verbeteren. Door SpatialTree te bouwen, bieden we een proof-of-concept raamwerk voor het begrijpen en systematisch schalen van ruimtelijke vaardigheden in MLLMs.

Versterkend Leren voor Zelfverbeterende Agenten met een Vaardigheidsbibliotheek
Reinforcement Learning for Self-Improving Agent with Skill Library

Dec 18

ByJiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

Op Large Language Model (LLM) gebaseerde agents hebben opmerkelijke capaciteiten getoond op het gebied van complex redeneren en multi-turn interacties, maar hebben moeite met continu verbeteren en aanpassen wanneer ze in nieuwe omgevingen worden ingezet. Een veelbelovende aanpak is de implementatie van vaardigheidsbibliotheken die agents in staat stellen nieuwe vaardigheden te leren, valideren en toepassen. De huidige benaderingen voor vaardigheidsbibliotheken vertrouwen echter voornamelijk op LLM-aansturing, wat een consistente implementatie van de bibliotheek bemoeilijkt. Om deze uitdagingen te overwinnen, stellen we een op Reinforcement Learning (RL) gebaseerde aanpak voor om het zelfverbeteringsvermogen van agents met een vaardigheidsbibliotheek te vergroten. Concreet introduceren we Skill Augmented GRPO for self-Evolution (SAGE), een nieuw RL-framework dat vaardigheden systematisch in het leerproces integreert. De kerncomponent van het framework, Sequential Rollout, zet agents iteratief in over een keten van gelijkaardige taken voor elke rollout. Terwijl agents door de taakketen navigeren, accumuleren vaardigheden die gegenereerd zijn uit eerdere taken in de bibliotheek en worden ze beschikbaar voor volgende taken. Daarnaast verbetert het framework de vaardigheidsgeneratie en -benutting via een Skill-geïntegreerde Beloning die de oorspronkelijke resultaatgebonden beloningen aanvult. Experimentele resultaten op AppWorld tonen aan dat SAGE, wanneer toegepast op een supervised-finetuned model met expertervaring, een 8,9% hogere Scenario Goal Completion bereikt, terwijl het 26% minder interactiestappen vereist en 59% minder tokens genereert. Dit presteert aanzienlijk beter dan bestaande benaderingen in zowel nauwkeurigheid als efficiëntie.

MemEvolve: Meta-evolutie van Agentgeheugensystemen
MemEvolve: Meta-Evolution of Agent Memory Systems

Dec 21

ByGuibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang, He Zhu, Wangchunshu Zhou, Shuicheng Yan

Zelf-evoluerende geheugensystemen hertekenen op ongekende wijze het evolutionaire paradigma van op grote taalmodel (LLM) gebaseerde agents. Eerdere werkzaamheden vertrouwden voornamelijk op handmatig ontworpen geheugenarchitecturen om trajecten op te slaan, ervaring te destilleren en herbruikbare tools te synthetiseren, waardoor agents tijdens omgevingsinteracties dynamisch kunnen evolueren. Dit paradigma wordt echter fundamenteel beperkt door de staticiteit van het geheugensysteem zelf: hoewel geheugen evolutie op agentniveau faciliteert, kan de onderliggende geheugenarchitectuur niet worden mee-afgestemd op diverse taakcontexten. Om deze kloof te dichten, stellen we MemEvolve voor, een meta-evolutionair raamwerk dat zowel de ervaringskennis van agents als hun geheugenarchitectuur gezamenlijk doet evolueren, zodat agentsystemen niet alleen ervaring accumuleren maar ook geleidelijk verfijnen hoe ze ervan leren. Om MemEvolve in eerder onderzoek te verankeren en openheid in toekomstige zelf-evoluerende systemen te bevorderen, introduceren we EvolveLab, een uniforme codebase voor zelf-evoluerend geheugen die twaalf representatieve geheugensystemen destilleert tot een modulaire ontwerpruimte (coderen, opslaan, ophalen, beheren), en zowel een gestandaardiseerd implementatiesubstraat als een eerlijke experimentele arena biedt. Uitgebreide evaluaties op vier uitdagende agent-gebaseerde benchmarks tonen aan dat MemEvolve (I) substantiële prestatieverbeteringen bereikt, met verbeteringen van frameworks zoals SmolAgent en Flash-Searcher tot 17,06%; en (II) sterke generalisatie over taken en LLM's heen vertoont, door geheugenarchitecturen te ontwerpen die effectief transfereren over diverse benchmarks en backbone-modellen.

SAM Audio: Segmenteren van Alles in Audio
SAM Audio: Segment Anything in Audio

Dec 19

ByBowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee

Algemene audiobronscheiding is een essentiële capaciteit voor multimodale AI-systemen die geluid kunnen waarnemen en interpreteren. Ondanks aanzienlijke vooruitgang in recente jaren zijn bestaande scheidingsmodellen ofwel domeinspecifiek, ontworpen voor vaste categorieën zoals spraak of muziek, of beperkt in aanstuurbaarheid, waarbij ze slechts één promptmodaliteit zoals tekst ondersteunen. In dit werk presenteren we SAM Audio, een foundationmodel voor algemene audiobronscheiding dat tekstuele, visuele en temporele prompting verenigt binnen een enkel raamwerk. Gebouwd op een diffusie-transformerarchitectuur wordt SAM Audio getraind met flow matching op grootschalige audiogegevens die spraak, muziek en algemene geluiden omvatten, en kan het flexibel doelbronnen scheiden die worden beschreven door taal, visuele maskers of temporele intervallen. Het model behaalt state-of-the-art prestaties op een diverse reeks benchmarks, waaronder scheiding van algemene geluiden, spraak, muziek en muziekinstrumenten in zowel alledaagse als professioneel geproduceerde audio, en overtreft eerdere algemene en gespecialiseerde systemen aanzienlijk. Verder introduceren we een nieuwe real-world scheidingsbenchmark met door mensen gelabelde multimodale prompts en een referentievrij evaluatiemodel dat sterk correleert met menselijke beoordeling.

INTELLECT-3: Technisch Rapport
INTELLECT-3: Technical Report

Dec 18

ByPrime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann

Wij presenteren INTELLECT-3, een Mixture-of-Experts-model met 106B parameters (12B actief) dat is getraind met grootschalige reinforcement learning op onze end-to-end RL-infrastructuurstack. INTELLECT-3 behaalt state-of-the-art prestaties voor zijn grootte op benchmarks voor wiskunde, code, wetenschap en redeneren, en presteert beter dan veel grotere frontier-modellen. Wij maken het model open source, samen met de volledige infrastructuurstack die gebruikt is om het te creëren, inclusief RL-frameworks, het volledige recept en een brede collectie omgevingen, gebouwd met de verifiers-bibliotheek, voor training en evaluatie vanuit ons communityplatform Environments Hub. Speciaal voor deze inspanning introduceren we prime-rl, een open framework voor grootschalige asynchrone reinforcement learning, dat naadloos schaalt van een enkele node naar duizenden GPU's, en dat is toegesneden op agent-gebaseerde RL met first-class ondersteuning voor multi-turn interacties en toolgebruik. Met behulp van deze stack voeren we zowel SFT- als RL-training uit op basis van het GLM-4.5-Air-Base-model, waarbij we de RL-training opschalen tot 512 H200's met een hoge trainsefficiëntie.

C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling

Dec 24

ByJin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang

We present C2LLM - Contrastive Code Large Language Models, a family of code embedding models in both 0.5B and 7B sizes. Building upon Qwen-2.5-Coder backbones, C2LLM adopts a Pooling by Multihead Attention (PMA) module for generating sequence embedding from token embeddings, effectively 1) utilizing the LLM's causal representations acquired during pretraining, while also 2) being able to aggregate information from all tokens in the sequence, breaking the information bottleneck in EOS-based sequence embeddings, and 3) supporting flexible adaptation of embedding dimension, serving as an alternative to MRL. Trained on three million publicly available data, C2LLM models set new records on MTEB-Code among models of similar sizes, with C2LLM-7B ranking 1st on the overall leaderboard.

Schaalwetten voor Code: Elke Programmeertaal Doet Ertoe
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai

Code Large Language Models (Code LLM's) zijn krachtig maar kostbaar om te trainen, waarbij schaalwetten de prestaties voorspellen op basis van modelgrootte, data en rekenkracht. Echter, verschillende programmeertalen hebben uiteenlopende impact tijdens de voorafgaande training die de basisprestaties van het model significant beïnvloedt, wat leidt tot onnauwkeurige prestatievoorspelling. Bovendien richten bestaande werken zich op taal-agnostische instellingen, waarbij de inherent meertalige aard van moderne softwareontwikkeling wordt verwaarloosd. Daarom is het eerst nodig om de schaalwetten van verschillende programmeertalen te onderzoeken, en vervolgens hun wederzijdse invloeden in overweging te nemen om tot de uiteindelijke meertalige schaalwet te komen. In dit artikel presenteren we de eerste systematische verkenning van schaalwetten voor meertalige code-voorafgaande-training, waarbij we meer dan 1000 experimenten uitvoeren (gelijk aan meer dan 336.000 H800-uren) over meerdere programmeertalen, modelgroottes (0,2B tot 14B parameters) en datasetgroottes (1T tokens). We stellen uitgebreide schaalwetten vast voor code-LLM's over meerdere programmeertalen, waaruit blijkt dat geïnterpreteerde talen (bijv. Python) meer baat hebben bij een grotere modelgrootte en data dan gecompileerde talen (bijv. Rust). De studie toont aan dat meertalige voorafgaande training synergetische voordelen biedt, vooral tussen syntactisch vergelijkbare programmeertalen. Verder verbetert de voorafgaande trainingsstrategie van parallelle koppeling (het aaneenschakelen van codefragmenten met hun vertalingen) de cross-linguale vaardigheden significant met gunstige schaaleigenschappen. Ten slotte wordt een proportie-afhankelijke meertalige schaalwet voorgesteld om trainings-tokens optimaal toe te wijzen door prioriteit te geven aan programmeertalen met hoge bruikbaarheid (bijv. Python), hoog-synergistische paren in evenwicht te brengen (bijv. JavaScript-TypeScript) en de toewijzing aan snel-verzadigende talen (Rust) te verminderen, wat een superieure gemiddelde prestatie over alle programmeertalen bereikt in vergelijking met uniforme verdeling onder hetzelfde rekenbudget.

QuantiPhy: Een kwantitatieve benchmark voor de evaluatie van fysieke redeneervaardigheden van vision-language modellen
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Dec 22

ByLi Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli

Het begrijpen van de fysieke wereld is essentieel voor algemene AI-agenten. Het blijft echter onduidelijk of state-of-the-art visuele perceptiemodellen (zoals grote VLMs) fysieke eigenschappen kwantitatief kunnen redeneren. Bestaande evaluaties zijn overwegend VQA-gebaseerd en kwalitatief van aard, wat beperkt inzicht biedt in of deze modellen kinematische grootheden van bewegende objecten uit video-observaties kunnen afleiden. Om dit aan te pakken, presenteren we QuantiPhy, de eerste benchmark die ontworpen is om het fysieke redeneervermogen van een VLM kwantitatief te meten. QuantiPhy, bestaande uit meer dan 3.3K video-tekst instanties met numerieke grondwaarden, evalueert de prestaties van een VLM bij het schatten van de grootte, snelheid en versnelling van een object op een bepaald tijdstip, waarbij één van deze eigenschappen als invoerprior wordt gebruikt. De benchmark standaardiseert prompts en scoring om numerieke nauwkeurigheid te beoordelen, waardoor eerlijke vergelijkingen tussen modellen mogelijk zijn. Onze experimenten met state-of-the-art VLMs tonen een consistente kloof aan tussen hun kwalitatieve geloofwaardigheid en daadwerkelijke numerieke correctheid. We bieden verder een diepgaande analyse van belangrijke factoren zoals achtergrondruis, contrafeitelijke priors en strategische prompting, en constateren dat state-of-the-art VLMs sterk leunen op vooraf getrainde wereldkennis in plaats van de verstrekte visuele en tekstuele invoer getrouw als referentie te gebruiken bij het kwantitatief redeneren over kinematische eigenschappen. QuantiPhy biedt de eerste rigoureuze, schaalbare testomgeving om VLMs verder te brengen dan louter verbale geloofwaardigheid, richting een numeriek onderbouwd fysiek begrip.

Actieve Intelligentie in Video-avatars via Gesloten-lus Wereldmodellering
Active Intelligence in Video Avatars via Closed-loop World Modeling

Dec 23

ByXuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen

Huidige methoden voor videogeneratie van avatars blinken uit in identiteitsbehoud en bewegingsalignering, maar missen daadwerkelijk handelingsvermogen; ze kunnen niet autonoom langetermijndoelen nastreven via adaptieve interactie met de omgeving. Wij pakken dit aan door de introductie van L-IVA (Long-horizon Interactive Visual Avatar), een taak en benchmark voor het evalueren van doelgericht plannen in stochastische generatieve omgevingen, en ORCA (Online Reasoning and Cognitive Architecture), het eerste framework dat actieve intelligentie in video-avatars mogelijk maakt. ORCA belichaamt Internal World Model (IWM)-capaciteiten door twee belangrijke innovaties: (1) een gesloten OTAR-cyclus (Observeren-Denken-Handelen-Reflecteren) die robuuste staatstracking onderhoudt onder generatieve onzekerheid door voorspelde uitkomsten continu te verifiëren tegen werkelijke generaties, en (2) een hiërarchische dual-systemarchitectuur waarbij Systeem 2 strategisch redeneert met staatspredictie, terwijl Systeem 1 abstracte plannen vertaalt naar precieze, modelspecifieke actiebeschrijvingen. Door avatarcontrole te formuleren als een POMDP en continue geloofsupdating met uitkomstverificatie te implementeren, stelt ORCA autonome multi-stap taakvoltooiing mogelijk in open-domeinscenario's. Uitgebreide experimenten tonen aan dat ORCA open-loop en niet-reflecterende baseline-methoden significant overtreft in taaksuccespercentage en gedragssamenhang, wat onze IWM-geïnspireerde ontwerpvalideert voor het bevorderen van video-avatarintelligentie van passieve animatie naar actief, doelgericht gedrag.

FaithLens: Detecteren en Verklaren van Betrouwbaarheids-Hallucinaties
FaithLens: Detecting and Explaining Faithfulness Hallucination

Dec 23

ByShuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Het herkennen of uitvoer van grote taalmodellen (LLM's) getrouwheidshallucinaties bevat, is cruciaal voor praktische toepassingen zoals retrieval-augmented generation en samenvatting. In dit artikel introduceren we FaithLens, een kostenefficiënt en effectief detectiemodel voor getrouwheidshallucinaties dat gezamenlijk binaire voorspellingen en bijbehorende verklaringen kan leveren om de betrouwbaarheid te verbeteren. Om dit te bereiken, synthetiseren we eerst trainingsgegevens met verklaringen via geavanceerde LLM's en passen we een goed gedefinieerde datafilterstrategie toe om de correctheid van labels, de kwaliteit van verklaringen en de diversiteit van gegevens te waarborgen. Vervolgens fine-tunen we het model op deze zorgvuldig samengestelde trainingsgegevens als koude start en optimaliseren we het verder met op regels gebaseerde reinforcement learning, waarbij we beloningen gebruiken voor zowel de correctheid van voorspellingen als de kwaliteit van verklaringen. Resultaten op 12 diverse taken tonen aan dat de 8B-parameter FaithLens geavanceerde modellen zoals GPT-4.1 en o3 overtreft. FaithLens kan ook hoogwaardige verklaringen produceren, wat een onderscheidende balans biedt tussen betrouwbaarheid, efficiëntie en effectiviteit.

Memory-T1: Reinforcement Learning voor Temporeel Redeneren in Multi-sessie Agenten
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

Dec 23

ByYiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong

Tijdredenering over lange, meersessie-dialogen is een cruciale vaardigheid voor conversationele agents. Bestaande werken en onze pilotstudie tonen echter aan dat, naarmate dialooggeschiedenissen langer worden en ruis accumuleren, huidige long-context modellen moeite hebben om temporeel relevante informatie accuraat te identificeren, wat de redeneerprestatie aanzienlijk schaadt. Om dit aan te pakken, introduceren we Memory-T1, een raamwerk dat een tijdbewust geheugenselectiebeleid leert met behulp van reinforcement learning (RL). Het hanteert een coarse-to-fine strategie: eerst wordt de dialooggeschiedenis uitgedund tot een kandidaatset met behulp van temporele en relevantiefilters, gevolgd door een RL-agent die de precieze bewijssessies selecteert. De RL-training wordt geleid door een meerlagige beloningsfunctie die optimaliseert voor (i) antwoordnauwkeurigheid, (ii) onderbouwing met bewijs, en (iii) temporele consistentie. In het bijzonder biedt de beloning voor temporele consistentie een dicht signaal door de afstemming met het temporele bereik van de query te evalueren op zowel sessieniveau (chronologische nabijheid) als op uitingniveau (chronologische trouw), waardoor de agent subtiele chronologische ambiguïteiten kan oplossen. Op de Time-Dialog benchmark tilt Memory-T1 een 7B-model naar een overall score van 67.0%, wat een nieuwe state-of-the-art prestatie voor open-source modellen vestigt en een 14B baseline met 10.2% overtreft. Ablatiestudies tonen aan dat beloningen voor temporele consistentie en onderbouwing gezamenlijk bijdragen aan een prestatieverbetering van 15.0%. Bovendien handhaaft Memory-T1 robuustheid tot 128k tokens, waar baseline-modellen ineenstorten, wat de effectiviteit aantoont tegen ruis in uitgebreide dialooggeschiedenissen. De code en datasets zijn openbaar beschikbaar op https://github.com/Elvin-Yiming-Du/Memory-T1/.

Simulstream: Open-Source Toolkit voor Evaluatie en Demonstratie van Streaming Spraak-naar-Tekst Vertaalsystemen
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Dec 19

ByMarco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli

Streaming Spraak-naar-Tekst Vertaling (StreamST) vereist dat vertalingen gelijktijdig met de binnenkomende spraak worden geproduceerd, wat strikte latentie-eisen oplegt en modellen vereist die een balans vinden tussen het nemen van beslissingen op basis van gedeeltelijke informatie en hoge vertaalkwaliteit. Onderzoeksinspanningen op dit gebied hebben tot nu toe vertrouwd op de SimulEval-repository, die niet langer wordt onderhouden en systemen die hun uitvoer reviseren niet ondersteunt. Bovendien is deze ontworpen voor het simuleren van de verwerking van korte segmenten, in plaats van langdurige audiostromen, en biedt het geen eenvoudige methode om systemen in een demo te presenteren. Als oplossing introduceren wij SimulStream, het eerste open-source raamwerk dat is toegewijd aan de uniforme evaluatie en demonstratie van StreamST-systemen. Ontworpen voor de verwerking van langdurige spraak, ondersteunt het niet alleen incrementele decodeerbenaderingen, maar ook hervertalingsmethoden, waardoor hun vergelijking binnen hetzelfde raamwerk mogelijk wordt, zowel op het gebied van kwaliteit als latentie. Daarnaast biedt het ook een interactieve webinterface om elk binnen de tool gebouwd systeem te demonstreren.

Multi-LLM Thematische Analyse met Dubbele Betrouwbaarheidsmetrieken: Een Combinatie van Cohens Kappa en Semantische Gelijkenis voor Validatie in Kwalitatief Onderzoek
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Dec 23

ByNilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop

Kwalitatief onderzoek staat voor een cruciale betrouwbaarheidsuitdaging: traditionele methoden voor beoordelaarsovereenstemming vereisen meerdere menselijke codeurs, zijn tijdrovend en leveren vaak matige consistentie op. Wij presenteren een multi-perspectief validatieraamwerk voor op LLM gebaseerde thematische analyse dat ensemble-validatie combineert met dubbele betrouwbaarheidsmetrieken: Cohens Kappa (κ) voor beoordelaarsovereenstemming en cosinusgelijkenis voor semantische consistentie. Ons raamwerk maakt configureerbare analyseparameters mogelijk (1-6 seeds, temperatuur 0.0-2.0), ondersteunt aangepaste promptstructuren met variabele substitutie en biedt consensus-thema-extractie voor elk JSON-formaat. Als proof-of-concept evalueren we drie toonaangevende LLM's (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) op een transcript van een psychedelische kunsttherapie-interview, waarbij we zes onafhanklijke runs per model uitvoeren. Resultaten tonen aan dat Gemini de hoogste betrouwbaarheid bereikt (κ= 0,907, cosinus=95,3%), gevolgd door GPT-4o (κ= 0,853, cosinus=92,6%) en Claude (κ= 0,842, cosinus=92,1%). Alle drie de modellen bereiken een hoge overeenstemming (κ> 0,80), wat de multi-run ensemble-aanpak valideert. Het raamwerk extraheert met succes consensusthema's over de runs heen, waarbij Gemini 6 consensusthema's identificeert (50-83% consistentie), GPT-4o er 5 identificeert en Claude er 4. Onze open-source-implementatie biedt onderzoekers transparante betrouwbaarheidsmetrieken, flexibele configuratie en structuuronafhankelijke consensusextractie, waarmee methodologische fundamenten worden gelegd voor betrouwbaar, door AI ondersteund kwalitatief onderzoek.

Toxiciteit in Aantocht: Voorspelling van Conversatie-ontsporing op GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Dec 17

ByMia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski

Giftige interacties in gemeenschappen van Open Source Software (OSS) verminderen de betrokkenheid van bijdragers en bedreigen de duurzaamheid van projecten. Om dergelijke toxiciteit te voorkomen voordat deze de kop opsteekt, is een duidelijk inzicht nodig in hoe schadelijke gesprekken verlopen. De meeste proactieve moderatiestrategieën zijn echter handmatig en vergen aanzienlijke tijd en inspanning van gemeenschapsbeheerders. Om schaalbare aanpakken te ondersteunen, stellen we een dataset samen van 159 ontspoorde, giftige discussiedraden en 207 niet-giftige draden uit GitHub-discussies. Onze analyse toont aan dat toxiciteit voorspeld kan worden door spanningen, sentimentverschuivingen en specifieke gesprekspatronen. We presenteren een nieuw op Large Language Models (LLM) gebaseerd raamwerk voor het voorspellen van gespreksontsporing op GitHub met behulp van een tweestaps prompting-pijplijn. Eerst genereren we Samenvattingen van Gespreksdynamiek (SCD's) via Least-to-Most (LtM) prompting; vervolgens gebruiken we deze samenvattingen om de waarschijnlijkheid van ontsporing in te schatten. Geëvalueerd op Qwen- en Llama-modellen behaalt onze LtM-strategie F1-scores van respectievelijk 0.901 en 0.852 bij een drempelwaarde van 0.3, wat beter presteert dan gevestigde NLP-baselines voor gespreksontsporing. Externe validatie op een dataset van 308 GitHub-issue-draden (65 giftig, 243 niet-giftig) levert een F1-score op tot 0.797. Onze bevindingen tonen de effectiviteit aan van gestructureerde LLM-prompting voor de vroege detectie van gespreksontsporing in OSS, wat proactieve en uitlegbare moderatie mogelijk maakt.

Leren herfocussen met videodiffusiemodellen
Learning to Refocus with Video Diffusion Models

Dec 22

BySaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin

Scherpstelling is een hoeksteen van de fotografie, maar autofocussystemen slagen er vaak niet in het beoogde onderwerp vast te leggen, en gebruikers willen de scherpte vaak na de opname nog aanpassen. Wij introduceren een nieuwe methode voor realistische nabewerkings-refocussering met behulp van video-diffusiemodellen. Uit één enkel onscherp beeld genereert onze aanpak een perceptueel nauwkeurige focale stapel, weergegeven als een videosequentie, waardoor interactieve refocussering mogelijk wordt en een reeks downstream-toepassingen ontsloten wordt. Ter ondersteuning van dit werk en toekomstig onderzoek publiceren we een grootschalige focale-stapeldataset, verzameld onder diverse real-world smartphone-omstandigheden. Onze methode presteert consistent beter dan bestaande benaderingen, zowel in perceptuele kwaliteit als robuustheid in uitdagende scenario's, en baant zo de weg voor geavanceerdere focusbewerkingsmogelijkheden in de alledaagse fotografie. Code en data zijn beschikbaar op www.learn2refocus.github.io.

Schaalwetten voor Code: Elke Programmeertaal Doet Ertoe
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai