HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

13 papers found

Lumine: Een Open Recept voor het Bouwen van Algemene Agents in 3D Open Werelden
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Nov 12

ByWeihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi

209

We introduceren Lumine, het eerste open recept voor het ontwikkelen van generalistische agents die in staat zijn om urenlange complexe missies in realtime uit te voeren binnen uitdagende 3D open-wereldomgevingen. Lumine hanteert een mensachtig interactieparadigma dat waarneming, redenering en actie op een end-to-end manier verenigt, aangedreven door een vision-language model. Het verwerkt ruwe pixels met een frequentie van 5 Hz om precieze 30 Hz toetsenbord-muisacties te produceren en roept adaptief alleen redenering aan wanneer dit nodig is. Getraind in Genshin Impact, voltooit Lumine met succes het volledige vijf uur durende Mondstadt-hoofdverhaal op een niveau dat vergelijkbaar is met menselijke efficiëntie, en volgt natuurlijke taal instructies om een breed scala aan taken uit te voeren, zowel in 3D open-wereldverkenning als in 2D GUI-manipulatie, variërend van verzamelen, gevechten, puzzeloplossing en NPC-interactie. Naast zijn prestaties binnen het domein, toont Lumine sterke zero-shot cross-game generalisatie. Zonder enige fine-tuning voltooit het 100 minuten durende missies in Wuthering Waves en het volledige vijf uur durende eerste hoofdstuk van Honkai: Star Rail. Deze veelbelovende resultaten onderstrepen de effectiviteit van Lumine over verschillende werelden en interactiedynamieken, wat een concrete stap markeert richting generalistische agents in open-ended omgevingen.

TiDAR: Denken in Diffusie, Praten in Autoregressie
TiDAR: Think in Diffusion, Talk in Autoregression

Nov 12

ByJingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov

126

Diffusietaalmodellen beloven snelle parallelle generatie, terwijl autoregressieve (AR) modellen doorgaans uitblinken in kwaliteit dankzij hun causale structuur die natuurlijk aansluit bij taalmodelering. Dit roept een fundamentele vraag op: kunnen we een synergie bereiken met een hoge doorvoer, hoger GPU-gebruik en AR-kwaliteit? Bestaande methoden slagen er niet in deze twee aspecten effectief in evenwicht te brengen; ze prioriteren ofwel AR door een zwakker model te gebruiken voor sequentiële drafting (speculatieve decodering), wat leidt tot lagere drafting-efficiëntie, of ze gebruiken een vorm van links-naar-rechts (AR-achtige) decoderinglogica voor diffusie, wat nog steeds kwaliteitsverlies veroorzaakt en het parallelle potentieel tenietdoet. Wij introduceren TiDAR, een hybride architectuur op sequentieniveau die tokens draft (Thinking) in Diffusie en de uiteindelijke uitvoer samplet (Talking) AutoRegressief – alles in een enkele voorwaartse pass met speciaal ontworpen gestructureerde aandachtmaskers. Dit ontwerp benut de beschikbare GPU-rekenkracht optimaal en bereikt een sterke balans tussen drafting- en verificatiecapaciteit. Bovendien is TiDAR ontworpen als servicvriendelijk model (lage overhead) dat op zichzelf staat. We evalueren TiDAR uitgebreid tegenover AR-modellen, speculatieve decodering en diffusievarianten voor generatieve en likelihood-taken op 1.5B en 8B schaal. Dankzij de parallelle drafting en sampling, evenals ondersteuning voor een exacte KV-cache, overtreft TiDAR speculatieve decodering in gemeten doorvoer en overstijgt het diffusiemodellen zoals Dream en Llada in zowel efficiëntie als kwaliteit. Opmerkelijk is dat TiDAR de eerste architectuur is die de kwaliteitskloof met AR-modellen dicht, terwijl het 4.71x tot 5.91x meer tokens per seconde levert.

MADD: Multi-Agent Orkest voor Geneesmiddelenontdekking
MADD: Multi-Agent Drug Discovery Orchestra

Nov 11

ByGleb V. Solovev, Alina B. Zhidkovskaya, Anastasia Orlova, Nina Gubina, Anastasia Vepreva, Rodion Golovinskii, Ilya Tonkii, Ivan Dubrovsky, Ivan Gurev, Dmitry Gilemkhanov, Denis Chistiakov, Timur A. Aliev, Ivan Poddiakov, Galina Zubkova, Ekaterina V. Skorb, Vladimir Vinogradov, Alexander Boukhanovsky, Nikolay Nikitin, Andrei Dmitrenko, Anna Kalyuzhnaya, Andrey Savchenko

Hit-identificatie is een centrale uitdaging in de vroege fase van geneesmiddelenontwikkeling, waarvoor traditioneel aanzienlijke experimentele middelen nodig zijn. Recente vooruitgang in kunstmatige intelligentie, met name grote taalmodelen (LLM's), heeft virtuele screeningsmethoden mogelijk gemaakt die de kosten verlagen en de efficiëntie verbeteren. De toenemende complexiteit van deze tools heeft hun toegankelijkheid voor onderzoekers in het natte lab echter beperkt. Multi-agent systemen bieden een veelbelovende oplossing door de interpreteerbaarheid van LLM's te combineren met de precisie van gespecialiseerde modellen en tools. In dit werk presenteren we MADD, een multi-agent systeem dat gepersonaliseerde pijplijnen voor hit-identificatie bouwt en uitvoert op basis van natuurlijke-taalaanvragen. MADD zet vier gecoördineerde agents in voor de belangrijkste deeltaken in de novo generatie en screening van verbindingen. We evalueren MADD in zeven gevallen van geneesmiddelenontwikkeling en tonen de superieure prestaties aan in vergelijking met bestaande op LLM gebaseerde oplossingen. Met behulp van MADD pionieren we met de toepassing van AI-first geneesmiddelontwerp voor vijf biologische targets en maken we de geïdentificeerde hitmoleculen openbaar. Ten slotte introduceren we een nieuwe benchmark van vraag-molecuul paren en dockingscores voor meer dan drie miljoen verbindingen om bij te dragen aan de agent-gebaseerde toekomst van geneesmiddelontwerp.

Tijd-voor-Beweging: Trainingsvrije, bewegingsgestuurde videogeneratie via dual-clock ruimverwijdering
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Nov 9

ByAssaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany

Diffusion-gebaseerde videogeneratie kan realistische video's creëren, maar bestaande conditionering op basis van afbeeldingen en tekst biedt geen nauwkeurige bewegingscontrole. Eerdere methoden voor beweging-gestuurde synthese vereisen doorgaans modelspecifieke fine-tuning, wat rekenkundig kostbaar en beperkend is. Wij introduceren Time-to-Move (TTM), een trainingsvrij, plug-and-play raamwerk voor beweging- en uiterlijk-gestuurde videogeneratie met image-to-video (I2V) diffusion-modellen. Onze belangrijkste inzicht is het gebruik van ruwe referentie-animaties verkregen via gebruiksvriendelijke manipulaties zoals knippen-en-slepen of op diepte gebaseerde reprojectie. Gemotiveerd door SDEdit's gebruik van grove lay-outaanwijzingen voor beeldbewerking, behandelen we de ruwe animaties als grove bewegingsaanwijzingen en passen we het mechanisme aan voor het videodomein. We behouden het uiterlijk met beeldconditionering en introduceren dual-clock denoising, een regio-afhankelijke strategie die sterke uitlijning afdwingt in beweging-gespecificeerde regio's terwijl elders flexibiliteit wordt toegestaan, waardoor trouw aan de gebruikersintentie wordt gebalanceerd met natuurlijke dynamiek. Deze lichtgewicht aanpassing van het samplingproces brengt geen extra trainings- of rekentijdkosten met zich mee en is compatibel met elke backbone. Uitgebreide experimenten op benchmarks voor object- en camerabeweging tonen aan dat TTM de realiteit en bewegingscontrole van bestaande op training gebaseerde basislijnen evenaart of overtreft. Daarnaast introduceert TTM een unieke mogelijkheid: nauwkeurige uiterlijk-controle via pixel-level conditionering, wat de grenzen van alleen-tekst prompting overstijgt. Bezoek onze projectpagina voor video-voorbeelden en code: https://time-to-move.github.io/.

Motif 2 12.7B Technisch Rapport
Motif 2 12.7B technical report

Nov 7

ByJunghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon

Wij introduceren Motif-2-12.7B, een nieuw open-weight foundationmodel dat de efficiëntiegrens van grote taalmodelle verlegt door architecturale innovatie te combineren met systeemniveau-optimalisatie. Ontworpen voor schaalbare taalbegrip en robuuste instructiegeneralizatie onder beperkte rekenbudgetten, bouwt Motif-2-12.7B voort op Motif-2.6B met de integratie van *Grouped Differential Attention* (GDA), dat de representatie-efficiëntie verbetert door signaal- en ruiscontrole-attentiepaden te ontwarren. Het model is voorgetraind op 5,5 biljoen tokens uit diverse linguïstische, wiskundige, wetenschappelijke en programmeerdomeinen met behulp van een curriculum-gestuurde dataplanner die de datasamenstellingsratio geleidelijk verandert. Het trainingssysteem benut de MuonClip-optimizer naast aangepaste high-performance kernels, waaronder gefuseerde PolyNorm-activaties en het Parallel Muon-algoritme, wat aanzienlijke doorvoer- en geheugenefficiëntiewinsten oplevert in grootschalige gedistribueerde omgevingen. De nafase training maakt gebruik van een drietraps *supervised fine-tuning*-pijplijn die achtereenvolgens algemene instructienaleving, compositioneel begrip en linguïstische precisie verbetert. Motif-2-12.7B toont competitieve prestaties in diverse benchmarks, wat aantoont dat doordachte architecturale schaling en geoptimaliseerd trainingsontwerp de capaciteiten van aanzienlijk grotere modellen kunnen evenaren.

WMPO: Wereldmodel-gebaseerd Beleidsoptimalisatie voor Visie-Taal-Actie Modellen
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Nov 12

ByFangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo

Vision-Language-Action (VLA)-modellen hebben een groot potentieel getoond voor algemene robotmanipulatie, maar hun afhankelijkheid van expertdemonstraties beperkt hun vermogen om te leren uit fouten en zelfcorrecties uit te voeren. Reinforcement learning (RL) lost dit op door zelfverbeterende interacties met de fysieke omgeving, maar lijdt onder hoge samplecomplexiteit op echte robots. Wij introduceren World-Model-based Policy Optimization (WMPO), een principieel raamwerk voor on-policy VLA-RL zonder interactie met de echte omgeving. In tegenstelling tot veelgebruikte latente wereldmodellen, richt WMPO zich op pixelgebaseerde voorspellingen die de "verbeelde" trajecten afstemmen op de VLA-functies die zijn voorgetraind met web-schaal beelden. Cruciaal is dat WMPO het beleid in staat stelt om on-policy GRPO uit te voeren, wat betere prestaties biedt dan de vaak gebruikte off-policy methoden. Uitgebreide experimenten in zowel simulatie- als echte robotomgevingen tonen aan dat WMPO (i) de sample-efficiëntie aanzienlijk verbetert, (ii) sterkere algehele prestaties bereikt, (iii) emergent gedrag vertoont zoals zelfcorrectie, en (iv) robuuste generalisatie- en levenslang-leren capaciteiten demonstreert.

LoopTool: Het Sluiten van de Data-Trainingslus voor Robuuste LLM Tool-aanroepen
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Nov 12

ByKangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu

Het verrijken van grote taalmmodellen (LLM's) met externe tools stelt hen in staat complexe, meerstaps taken uit te voeren. Toch wordt toollearning belemmerd door statische synthetische datapijplijnen, waarbij gegevensgeneratie en modeltraining als twee gescheiden, niet-interactieve processen worden uitgevoerd. Deze aanpak faalt in het adaptief focussen op de specifieke zwaktes van een model en laat ruislabels voortbestaan, wat de trainings efficiëntie vermindert. Wij introduceren LoopTool, een volledig geautomatiseerd, modelbewust data-evolutiekader dat deze kringloop sluit door datasynthese en modeltraining nauw te integreren. LoopTool verfijnt iteratief zowel de data als het model via drie synergetische modules: (1) Greedy Capability Probing (GCP) diagnosticeert de beheerste en gefaalde capaciteiten van het model; (2) Judgement-Guided Label Verification (JGLV) gebruikt een open-source beoordelaarsmodel om annotatiefouten te vinden en corrigeren, waardoor de dataset geleidelijk wordt gezuiverd; en (3) Error-Driven Data Expansion (EDDE) genereert nieuwe, uitdagende voorbeelden gebaseerd op geïdentificeerde fouten. Dit gesloten kringloopproces functioneert binnen een kosteneffectief, open-source ecosysteem en elimineert de afhankelijkheid van dure closed-source API's. Experimenten tonen aan dat ons 8B-model, getraind met LoopTool, zijn 32B-datagenerator significant overtreft en nieuwe state-of-the-art resultaten behaalt op de BFCL-v3 en ACEBench benchmarks voor zijn schaal. Ons werk demonstreert dat gesloten, zelfverfijnende datapijplijnen de toolgebruikscapaciteiten van LLM's aanzienlijk kunnen verbeteren.

WebVIA: Een webgebaseerd vision-language agentiekader voor interactieve en verifieerbare UI-naar-code-generatie
WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

Nov 9

ByMingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang

De ontwikkeling van gebruikersinterfaces (UI) vereist het vertalen van ontwerpmodellen naar functionele code, een proces dat repetitief en arbeidsintensief blijft. Hoewel recente Vision-Language Models (VLM's) de UI-naar-Code-generatie automatiseren, genereren ze alleen statische HTML/CSS/JavaScript-lay-outs zonder interactiviteit. Om dit aan te pakken, stellen we WebVIA voor, het eerste agent-gebaseerde raamwerk voor interactieve UI-naar-Code-generatie en -validatie. Het raamwerk bestaat uit drie componenten: 1) een verkenning-agent om UI-screenshots met meerdere statussen vast te leggen; 2) een UI2Code-model dat uitvoerbare interactieve code genereert; 3) een validatiemodule die de interactiviteit verifieert. Experimenten tonen aan dat WebVIA-Agent stabielere en nauwkeurigere UI-verkenning bereikt dan algemene agents (bijv. Gemini-2.5-Pro). Bovendien vertonen onze fijn afgestemde WebVIA-UI2Code-modellen aanzienlijke verbeteringen in het genereren van uitvoerbare en interactieve HTML/CSS/JavaScript-code, waarbij ze hun basis tegenhangers overtreffen op zowel interactieve als statische UI2Code-benchmarks. Onze code en modellen zijn beschikbaar op https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.

MathSE: Verbetering van multimodale wiskundige redeneervaardigheden via zelf-evoluerende iteratieve reflectie en beloningsgestuurde fine-tuning
MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

Nov 10

ByJinhao Chen, Zhen Yang, Jianxin Shi, Tianyu Wo, Jie Tang

Multimodale grote-taalmmodellen (MLLM's) hebben opmerkelijke capaciteiten getoond bij visueel-taalkundige vraag-antwoordtaken. Ondanks hun sterke punten, lopen deze modellen vaak tegen problemen aan bij het uitvoeren van complexe redeneertaken, zoals het oplossen van wiskundige problemen. Eerdere onderzoeken richtten zich op fine-tuning met gespecialiseerde wiskundige datasets. Deze datasets worden echter doorgaans direct gedistilleerd uit leraarmodellen, die alleen statische redeneerpatronen vastleggen, wat aanzienlijke verschillen oplevert in vergelijking met leerlingmodellen. Deze afhankelijkheid van vaste, door de leraar gegenereerde datasets beperkt niet alleen het vermogen van het model om zich aan te passen aan nieuwe of complexere vragen die buiten de grenzen van de trainingsdata vallen, maar ontbeert ook de iteratieve diepgang die nodig is voor robuuste generalisatie. Om deze beperkingen te overwinnen, stellen wij \method voor, een Mathematisch Zelf-Evoluerend raamwerk voor MLLM's. In tegenstelling tot traditionele one-shot fine-tuning paradigma's, verfijnt \method het model iteratief door cycli van inferentie, reflectie en op beloning gebaseerde feedback. Specifiek benutten wij iteratieve fine-tuning door correcte redeneerpaden van inferentie uit de vorige fase te incorporeren en reflecties van een gespecialiseerd Uitkomst-Beloningsmodel (Outcome Reward Model, ORM) te integreren. Om de effectiviteit van \method te verifiëren, evalueren we het op een reeks uitdagende benchmarks, waarbij significante prestatieverbeteringen ten opzichte van de basismodellen worden aangetoond. Opmerkelijk is dat onze experimentele resultaten op MathVL-test het toonaangevende open-source multimodale wiskundige redeneermodel QVQ overtreffen. Onze code en modellen zijn beschikbaar op https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.

Aanpassen van Webagents met Synthetische Supervisie
Adapting Web Agents with Synthetic Supervision

Nov 8

ByZhaoyang Wang, Yiming Liang, Xuchao Zhang, Qianhui Wu, Siwei Han, Anson Bastos, Rujia Wang, Chetan Bansal, Baolin Peng, Jianfeng Gao, Saravan Rajmohan, Huaxiu Yao

Webagents hebben moeite om zich aan te passen aan nieuwe websites vanwege de schaarste aan taak- en demonstratiespecifieke omgevingen. Recente onderzoeken hebben synthetische datageneratie verkend om deze uitdaging aan te pakken, maar zij kampen met kwaliteitsproblemen waarbij gesynthetiseerde taken hallucinaties bevatten die niet uitgevoerd kunnen worden, en verzamelde trajecten ruis bevatten met redundante of fout uitgelijnde acties. In dit artikel stellen we SynthAgent voor, een volledig synthetisch supervisiekader dat streeft naar verbetering van de synthetische datakwaliteit via dubbele verfijning van zowel taken als trajecten. Onze aanpak begint met het synthetiseren van diverse taken door gecategoriseerde verkenning van webelementen, wat een efficiënte dekking van de doelomgeving waarborgt. Tijdens de trajectverzameling verfijnen we taken wanneer conflicten met werkelijke observaties worden gedetecteerd, waardoor hallucinaties worden verminderd terwijl de taakconsistentie behouden blijft. Na de verzameling voeren we trajectverfijning uit met een globale context om mogelijke ruis of misaligneringen te mitigeren. Ten slotte fine-tunen we open-source webagents op de verfijnde synthetische gegevens om ze aan te passen aan de doelomgeving. Experimentele resultaten tonen aan dat SynthAgent bestaande synthetische datamethoden overtreft, wat het belang van hoogwaardige synthetische supervisie valideert. De code zal openbaar beschikbaar zijn op https://github.com/aiming-lab/SynthAgent.

Naar de Grenzen van Betrouwbare Diffusiebemonstering via Adversariële Sinkhorn-Aandachtsturing
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Nov 10

ByKwanyoung Kim

Diffusiemodellen hebben sterke generatieve prestaties getoond bij gebruik van begeleidingsmethoden zoals classifier-free guidance (CFG), die de uitvoerkwaliteit verbeteren door het bemonsteringspad aan te passen. Deze methoden verbeteren doorgaans een doeluitvoer door opzettelijk een andere, vaak de onvoorwaardelijke uitvoer, te verslechteren met behulp van heuristische perturbatiefuncties zoals identiteitsmenging of vervaagde condities. Deze benaderingen missen echter een principieel fundament en zijn afhankelijk van handmatig ontworpen verstoringen. In dit werk stellen we Adversarial Sinkhorn Attention Guidance (ASAG) voor, een nieuwe methode die attentiescores in diffusiemodellen herinterpreteert vanuit het perspectief van optimaal transport en opzettelijk de transportkosten verstoort via het Sinkhorn-algoritme. In plaats van het aandachtmechanisme op een naïeve manier te corrumperen, injecteert ASAG een adversariële kost in self-attention-lagen om de pixelgewijze gelijkenis tussen queries en keys te verminderen. Deze opzettelijke degradatie verzwakt misleidende aandachtssamenkomsten en leidt tot verbeterde voorwaardelijke en onvoorwaardelijke samplekwaliteit. ASAG toont consistente verbeteringen in tekst-naar-beeld diffusie en verhoogt de bestuurbaarheid en trouw in downstreamtoepassingen zoals IP-Adapter en ControlNet. De methode is lichtgewicht, plug-and-play, en verbetert de betrouwbaarheid zonder enige modelhertraining te vereisen.

Agentisch Refactoring: Een Empirische Studie naar AI-codeeragenten
Agentic Refactoring: An Empirical Study of AI Coding Agents

Nov 6

ByKosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan

Agentische codeertools, zoals OpenAI Codex, Claude Code en Cursor, transformeren het landschap van software-engineering. Deze AI-gestuurde systemen functioneren als autonome teamleden die complexe ontwikkeltaken kunnen plannen en uitvoeren. Agents zijn actieve deelnemers geworden bij refactoring, een hoeksteen van duurzame software-ontwikkeling die gericht is op het verbeteren van de interne codekwaliteit zonder waarneembaar gedrag te veranderen. Ondanks hun toenemende adoptie is er een kritisch gebrek aan empirisch begrip over hoe agentische refactoring in de praktijk wordt gebruikt, hoe het zich verhoudt tot mensgestuurde refactoring en welk effect het heeft op de codekwaliteit. Om deze empirische kloof te dichten, presenteren wij een grootschalige studie naar AI-agent-gegenereerde refactorings in real-world open-source Java-projecten, waarbij we 15.451 refactoring-instanties analyseren verspreid over 12.256 pull-requests en 14.988 commits afkomstig uit de AIDev-dataset. Onze empirische analyse toont aan dat refactoring een veelvoorkomende en intentionele activiteit is in dit ontwikkelparadigma, waarbij agents expliciet gericht zijn op refactoring in 26,1% van de commits. Analyse van refactoring-types onthult dat agentische inspanningen worden gedomineerd door low-level, consistentiegerichte bewerkingen, zoals Change Variable Type (11,8%), Rename Parameter (10,4%) en Rename Variable (8,5%), wat een voorkeur weerspiegelt voor gelokaliseerde verbeteringen boven de high-level designwijzigingen die gebruikelijk zijn bij menselijke refactoring. Daarnaast richten de motivaties achter agentische refactoring zich overweldigend op interne kwaliteitszorgen, met onderhoudbaarheid (52,5%) en leesbaarheid (28,1%) als belangrijkste drijfveren. Verder toont kwantitatieve evaluatie van codekwaliteitsmetrieken aan dat agentische refactoring kleine maar statistisch significante verbeteringen oplevert in structurele metrieken, met name voor medium-level veranderingen, waarbij klassegrootte en complexiteit worden verminderd (bijvoorbeeld Class LOC mediaan Δ = -15,25).

Het Tegengaan van Hallucinaties in Taalmodellen met een Licentie-Oracle
Stemming Hallucination in Language Models Using a Licensing Oracle

Nov 8

BySimeon Emanuilov, Richard Ackermann

Taalmodellen vertonen opmerkelijke natuurlijke-taalgeneratiecapaciteiten, maar blijven vatbaar voor hallucinaties waarbij feitelijk onjuiste informatie wordt gegenereerd ondanks het produceren van syntactisch coherente antwoorden. Deze studie introduceert de Licensing Oracle, een architecturale oplossing ontworpen om hallucinaties in taalmodellen in te perken door waarheidsbeperkingen af te dwingen via formele validatie tegen gestructureerde kennisgrafen. In tegenstelling tot statistische benaderingen die vertrouwen op dataschaalvergroting of fine-tuning, integreert de Licensing Oracle een deterministische validatiestap in het generatieve proces van het model, waarmee wordt gegarandeerd dat alleen feitelijk accurate beweringen worden gedaan. We evalueerden de effectiviteit van de Licensing Oracle via experimenten waarbij we deze vergeleken met verschillende state-of-the-art methoden, waaronder baseline-generatie door taalmodellen, fine-tuning voor feitelijke recall, fine-tuning voor abstinentiegedrag en retrieval-augmented generation (RAG). Onze resultaten tonen aan dat hoewel RAG en fine-tuning de prestaties verbeteren, zij hallucinaties niet elimineren. De Licensing Oracle daarentegen bereikte een perfecte abstinentieprecisie (AP = 1,0) en nul foutieve antwoorden (FAR-NE = 0,0), waarbij werd gegarandeerd dat alleen geldige beweringen werden gegenereerd met 89,1% nauwkeurigheid in feitelijke antwoorden. Dit werk toont aan dat architecturale innovaties, zoals de Licensing Oracle, een noodzakelijke en voldoende oplossing bieden voor hallucinaties in domeinen met gestructureerde kennisrepresentaties, waarbij ze garanties bieden die statistische methoden niet kunnen evenaren. Hoewel de Licensing Oracle specifiek is ontworpen voor hallucinaties in feitelijke domeinen, legt het kader de basis voor waarheidsbeperkte generatie in toekomstige AI-systemen, en biedt het een nieuw pad naar betrouwbare, epistemisch gefundeerde modellen.

Agentisch Refactoring: Een Empirische Studie naar AI-codeeragenten
Agentic Refactoring: An Empirical Study of AI Coding Agents

Nov 6

ByKosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan