Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusietaalmodellen beloven snelle parallelle generatie, terwijl autoregressieve (AR) modellen doorgaans uitblinken in kwaliteit dankzij hun causale structuur die natuurlijk aansluit bij taalmodelering. Dit roept een fundamentele vraag op: kunnen we een synergie bereiken met een hoge doorvoer, hoger GPU-gebruik en AR-kwaliteit? Bestaande methoden slagen er niet in deze twee aspecten effectief in evenwicht te brengen; ze prioriteren ofwel AR door een zwakker model te gebruiken voor sequentiële drafting (speculatieve decodering), wat leidt tot lagere drafting-efficiëntie, of ze gebruiken een vorm van links-naar-rechts (AR-achtige) decoderinglogica voor diffusie, wat nog steeds kwaliteitsverlies veroorzaakt en het parallelle potentieel tenietdoet. Wij introduceren TiDAR, een hybride architectuur op sequentieniveau die tokens draft (Thinking) in Diffusie en de uiteindelijke uitvoer samplet (Talking) AutoRegressief – alles in een enkele voorwaartse pass met speciaal ontworpen gestructureerde aandachtmaskers. Dit ontwerp benut de beschikbare GPU-rekenkracht optimaal en bereikt een sterke balans tussen drafting- en verificatiecapaciteit. Bovendien is TiDAR ontworpen als servicvriendelijk model (lage overhead) dat op zichzelf staat. We evalueren TiDAR uitgebreid tegenover AR-modellen, speculatieve decodering en diffusievarianten voor generatieve en likelihood-taken op 1.5B en 8B schaal. Dankzij de parallelle drafting en sampling, evenals ondersteuning voor een exacte KV-cache, overtreft TiDAR speculatieve decodering in gemeten doorvoer en overstijgt het diffusiemodellen zoals Dream en Llada in zowel efficiëntie als kwaliteit. Opmerkelijk is dat TiDAR de eerste architectuur is die de kwaliteitskloof met AR-modellen dicht, terwijl het 4.71x tot 5.91x meer tokens per seconde levert.
We introduceren Lumine, het eerste open recept voor het ontwikkelen van generalistische agents die in staat zijn om urenlange complexe missies in realtime uit te voeren binnen uitdagende 3D open-wereldomgevingen. Lumine hanteert een mensachtig interactieparadigma dat waarneming, redenering en actie op een end-to-end manier verenigt, aangedreven door een vision-language model. Het verwerkt ruwe pixels met een frequentie van 5 Hz om precieze 30 Hz toetsenbord-muisacties te produceren en roept adaptief alleen redenering aan wanneer dit nodig is. Getraind in Genshin Impact, voltooit Lumine met succes het volledige vijf uur durende Mondstadt-hoofdverhaal op een niveau dat vergelijkbaar is met menselijke efficiëntie, en volgt natuurlijke taal instructies om een breed scala aan taken uit te voeren, zowel in 3D open-wereldverkenning als in 2D GUI-manipulatie, variërend van verzamelen, gevechten, puzzeloplossing en NPC-interactie. Naast zijn prestaties binnen het domein, toont Lumine sterke zero-shot cross-game generalisatie. Zonder enige fine-tuning voltooit het 100 minuten durende missies in Wuthering Waves en het volledige vijf uur durende eerste hoofdstuk van Honkai: Star Rail. Deze veelbelovende resultaten onderstrepen de effectiviteit van Lumine over verschillende werelden en interactiedynamieken, wat een concrete stap markeert richting generalistische agents in open-ended omgevingen.
Hit-identificatie is een centrale uitdaging in de vroege fase van geneesmiddelenontwikkeling, waarvoor traditioneel aanzienlijke experimentele middelen nodig zijn. Recente vooruitgang in kunstmatige intelligentie, met name grote taalmodelen (LLM's), heeft virtuele screeningsmethoden mogelijk gemaakt die de kosten verlagen en de efficiëntie verbeteren. De toenemende complexiteit van deze tools heeft hun toegankelijkheid voor onderzoekers in het natte lab echter beperkt. Multi-agent systemen bieden een veelbelovende oplossing door de interpreteerbaarheid van LLM's te combineren met de precisie van gespecialiseerde modellen en tools. In dit werk presenteren we MADD, een multi-agent systeem dat gepersonaliseerde pijplijnen voor hit-identificatie bouwt en uitvoert op basis van natuurlijke-taalaanvragen. MADD zet vier gecoördineerde agents in voor de belangrijkste deeltaken in de novo generatie en screening van verbindingen. We evalueren MADD in zeven gevallen van geneesmiddelenontwikkeling en tonen de superieure prestaties aan in vergelijking met bestaande op LLM gebaseerde oplossingen. Met behulp van MADD pionieren we met de toepassing van AI-first geneesmiddelontwerp voor vijf biologische targets en maken we de geïdentificeerde hitmoleculen openbaar. Ten slotte introduceren we een nieuwe benchmark van vraag-molecuul paren en dockingscores voor meer dan drie miljoen verbindingen om bij te dragen aan de agent-gebaseerde toekomst van geneesmiddelontwerp.
Diffusion-gebaseerde videogeneratie kan realistische video's creëren, maar bestaande conditionering op basis van afbeeldingen en tekst biedt geen nauwkeurige bewegingscontrole. Eerdere methoden voor beweging-gestuurde synthese vereisen doorgaans modelspecifieke fine-tuning, wat rekenkundig kostbaar en beperkend is. Wij introduceren Time-to-Move (TTM), een trainingsvrij, plug-and-play raamwerk voor beweging- en uiterlijk-gestuurde videogeneratie met image-to-video (I2V) diffusion-modellen. Onze belangrijkste inzicht is het gebruik van ruwe referentie-animaties verkregen via gebruiksvriendelijke manipulaties zoals knippen-en-slepen of op diepte gebaseerde reprojectie. Gemotiveerd door SDEdit's gebruik van grove lay-outaanwijzingen voor beeldbewerking, behandelen we de ruwe animaties als grove bewegingsaanwijzingen en passen we het mechanisme aan voor het videodomein. We behouden het uiterlijk met beeldconditionering en introduceren dual-clock denoising, een regio-afhankelijke strategie die sterke uitlijning afdwingt in beweging-gespecificeerde regio's terwijl elders flexibiliteit wordt toegestaan, waardoor trouw aan de gebruikersintentie wordt gebalanceerd met natuurlijke dynamiek. Deze lichtgewicht aanpassing van het samplingproces brengt geen extra trainings- of rekentijdkosten met zich mee en is compatibel met elke backbone. Uitgebreide experimenten op benchmarks voor object- en camerabeweging tonen aan dat TTM de realiteit en bewegingscontrole van bestaande op training gebaseerde basislijnen evenaart of overtreft. Daarnaast introduceert TTM een unieke mogelijkheid: nauwkeurige uiterlijk-controle via pixel-level conditionering, wat de grenzen van alleen-tekst prompting overstijgt. Bezoek onze projectpagina voor video-voorbeelden en code: https://time-to-move.github.io/.
Wij introduceren Motif-2-12.7B, een nieuw open-weight foundationmodel dat de efficiëntiegrens van grote taalmodelle verlegt door architecturale innovatie te combineren met systeemniveau-optimalisatie. Ontworpen voor schaalbare taalbegrip en robuuste instructiegeneralizatie onder beperkte rekenbudgetten, bouwt Motif-2-12.7B voort op Motif-2.6B met de integratie van *Grouped Differential Attention* (GDA), dat de representatie-efficiëntie verbetert door signaal- en ruiscontrole-attentiepaden te ontwarren. Het model is voorgetraind op 5,5 biljoen tokens uit diverse linguïstische, wiskundige, wetenschappelijke en programmeerdomeinen met behulp van een curriculum-gestuurde dataplanner die de datasamenstellingsratio geleidelijk verandert. Het trainingssysteem benut de MuonClip-optimizer naast aangepaste high-performance kernels, waaronder gefuseerde PolyNorm-activaties en het Parallel Muon-algoritme, wat aanzienlijke doorvoer- en geheugenefficiëntiewinsten oplevert in grootschalige gedistribueerde omgevingen. De nafase training maakt gebruik van een drietraps *supervised fine-tuning*-pijplijn die achtereenvolgens algemene instructienaleving, compositioneel begrip en linguïstische precisie verbetert. Motif-2-12.7B toont competitieve prestaties in diverse benchmarks, wat aantoont dat doordachte architecturale schaling en geoptimaliseerd trainingsontwerp de capaciteiten van aanzienlijk grotere modellen kunnen evenaren.
Het verrijken van grote taalmmodellen (LLM's) met externe tools stelt hen in staat complexe, meerstaps taken uit te voeren. Toch wordt toollearning belemmerd door statische synthetische datapijplijnen, waarbij gegevensgeneratie en modeltraining als twee gescheiden, niet-interactieve processen worden uitgevoerd. Deze aanpak faalt in het adaptief focussen op de specifieke zwaktes van een model en laat ruislabels voortbestaan, wat de trainings efficiëntie vermindert. Wij introduceren LoopTool, een volledig geautomatiseerd, modelbewust data-evolutiekader dat deze kringloop sluit door datasynthese en modeltraining nauw te integreren. LoopTool verfijnt iteratief zowel de data als het model via drie synergetische modules: (1) Greedy Capability Probing (GCP) diagnosticeert de beheerste en gefaalde capaciteiten van het model; (2) Judgement-Guided Label Verification (JGLV) gebruikt een open-source beoordelaarsmodel om annotatiefouten te vinden en corrigeren, waardoor de dataset geleidelijk wordt gezuiverd; en (3) Error-Driven Data Expansion (EDDE) genereert nieuwe, uitdagende voorbeelden gebaseerd op geïdentificeerde fouten. Dit gesloten kringloopproces functioneert binnen een kosteneffectief, open-source ecosysteem en elimineert de afhankelijkheid van dure closed-source API's. Experimenten tonen aan dat ons 8B-model, getraind met LoopTool, zijn 32B-datagenerator significant overtreft en nieuwe state-of-the-art resultaten behaalt op de BFCL-v3 en ACEBench benchmarks voor zijn schaal. Ons werk demonstreert dat gesloten, zelfverfijnende datapijplijnen de toolgebruikscapaciteiten van LLM's aanzienlijk kunnen verbeteren.
Vision-Language-Action (VLA)-modellen hebben een groot potentieel getoond voor algemene robotmanipulatie, maar hun afhankelijkheid van expertdemonstraties beperkt hun vermogen om te leren uit fouten en zelfcorrecties uit te voeren. Reinforcement learning (RL) lost dit op door zelfverbeterende interacties met de fysieke omgeving, maar lijdt onder hoge samplecomplexiteit op echte robots. Wij introduceren World-Model-based Policy Optimization (WMPO), een principieel raamwerk voor on-policy VLA-RL zonder interactie met de echte omgeving. In tegenstelling tot veelgebruikte latente wereldmodellen, richt WMPO zich op pixelgebaseerde voorspellingen die de "verbeelde" trajecten afstemmen op de VLA-functies die zijn voorgetraind met web-schaal beelden. Cruciaal is dat WMPO het beleid in staat stelt om on-policy GRPO uit te voeren, wat betere prestaties biedt dan de vaak gebruikte off-policy methoden. Uitgebreide experimenten in zowel simulatie- als echte robotomgevingen tonen aan dat WMPO (i) de sample-efficiëntie aanzienlijk verbetert, (ii) sterkere algehele prestaties bereikt, (iii) emergent gedrag vertoont zoals zelfcorrectie, en (iv) robuuste generalisatie- en levenslang-leren capaciteiten demonstreert.
De ontwikkeling van gebruikersinterfaces (UI) vereist het vertalen van ontwerpmodellen naar functionele code, een proces dat repetitief en arbeidsintensief blijft. Hoewel recente Vision-Language Models (VLM's) de UI-naar-Code-generatie automatiseren, genereren ze alleen statische HTML/CSS/JavaScript-lay-outs zonder interactiviteit. Om dit aan te pakken, stellen we WebVIA voor, het eerste agent-gebaseerde raamwerk voor interactieve UI-naar-Code-generatie en -validatie. Het raamwerk bestaat uit drie componenten: 1) een verkenning-agent om UI-screenshots met meerdere statussen vast te leggen; 2) een UI2Code-model dat uitvoerbare interactieve code genereert; 3) een validatiemodule die de interactiviteit verifieert. Experimenten tonen aan dat WebVIA-Agent stabielere en nauwkeurigere UI-verkenning bereikt dan algemene agents (bijv. Gemini-2.5-Pro). Bovendien vertonen onze fijn afgestemde WebVIA-UI2Code-modellen aanzienlijke verbeteringen in het genereren van uitvoerbare en interactieve HTML/CSS/JavaScript-code, waarbij ze hun basis tegenhangers overtreffen op zowel interactieve als statische UI2Code-benchmarks. Onze code en modellen zijn beschikbaar op https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
Multimodale grote-taalmmodellen (MLLM's) hebben opmerkelijke capaciteiten getoond bij visueel-taalkundige vraag-antwoordtaken. Ondanks hun sterke punten, lopen deze modellen vaak tegen problemen aan bij het uitvoeren van complexe redeneertaken, zoals het oplossen van wiskundige problemen. Eerdere onderzoeken richtten zich op fine-tuning met gespecialiseerde wiskundige datasets. Deze datasets worden echter doorgaans direct gedistilleerd uit leraarmodellen, die alleen statische redeneerpatronen vastleggen, wat aanzienlijke verschillen oplevert in vergelijking met leerlingmodellen. Deze afhankelijkheid van vaste, door de leraar gegenereerde datasets beperkt niet alleen het vermogen van het model om zich aan te passen aan nieuwe of complexere vragen die buiten de grenzen van de trainingsdata vallen, maar ontbeert ook de iteratieve diepgang die nodig is voor robuuste generalisatie. Om deze beperkingen te overwinnen, stellen wij \method voor, een Mathematisch Zelf-Evoluerend raamwerk voor MLLM's. In tegenstelling tot traditionele one-shot fine-tuning paradigma's, verfijnt \method het model iteratief door cycli van inferentie, reflectie en op beloning gebaseerde feedback. Specifiek benutten wij iteratieve fine-tuning door correcte redeneerpaden van inferentie uit de vorige fase te incorporeren en reflecties van een gespecialiseerd Uitkomst-Beloningsmodel (Outcome Reward Model, ORM) te integreren. Om de effectiviteit van \method te verifiëren, evalueren we het op een reeks uitdagende benchmarks, waarbij significante prestatieverbeteringen ten opzichte van de basismodellen worden aangetoond. Opmerkelijk is dat onze experimentele resultaten op MathVL-test het toonaangevende open-source multimodale wiskundige redeneermodel QVQ overtreffen. Onze code en modellen zijn beschikbaar op https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Webagents hebben moeite om zich aan te passen aan nieuwe websites vanwege de schaarste aan taak- en demonstratiespecifieke omgevingen. Recente onderzoeken hebben synthetische datageneratie verkend om deze uitdaging aan te pakken, maar zij kampen met kwaliteitsproblemen waarbij gesynthetiseerde taken hallucinaties bevatten die niet uitgevoerd kunnen worden, en verzamelde trajecten ruis bevatten met redundante of fout uitgelijnde acties. In dit artikel stellen we SynthAgent voor, een volledig synthetisch supervisiekader dat streeft naar verbetering van de synthetische datakwaliteit via dubbele verfijning van zowel taken als trajecten. Onze aanpak begint met het synthetiseren van diverse taken door gecategoriseerde verkenning van webelementen, wat een efficiënte dekking van de doelomgeving waarborgt. Tijdens de trajectverzameling verfijnen we taken wanneer conflicten met werkelijke observaties worden gedetecteerd, waardoor hallucinaties worden verminderd terwijl de taakconsistentie behouden blijft. Na de verzameling voeren we trajectverfijning uit met een globale context om mogelijke ruis of misaligneringen te mitigeren. Ten slotte fine-tunen we open-source webagents op de verfijnde synthetische gegevens om ze aan te passen aan de doelomgeving. Experimentele resultaten tonen aan dat SynthAgent bestaande synthetische datamethoden overtreft, wat het belang van hoogwaardige synthetische supervisie valideert. De code zal openbaar beschikbaar zijn op https://github.com/aiming-lab/SynthAgent.
Diffusiemodellen hebben sterke generatieve prestaties getoond bij gebruik van begeleidingsmethoden zoals classifier-free guidance (CFG), die de uitvoerkwaliteit verbeteren door het bemonsteringspad aan te passen. Deze methoden verbeteren doorgaans een doeluitvoer door opzettelijk een andere, vaak de onvoorwaardelijke uitvoer, te verslechteren met behulp van heuristische perturbatiefuncties zoals identiteitsmenging of vervaagde condities. Deze benaderingen missen echter een principieel fundament en zijn afhankelijk van handmatig ontworpen verstoringen. In dit werk stellen we Adversarial Sinkhorn Attention Guidance (ASAG) voor, een nieuwe methode die attentiescores in diffusiemodellen herinterpreteert vanuit het perspectief van optimaal transport en opzettelijk de transportkosten verstoort via het Sinkhorn-algoritme. In plaats van het aandachtmechanisme op een naïeve manier te corrumperen, injecteert ASAG een adversariële kost in self-attention-lagen om de pixelgewijze gelijkenis tussen queries en keys te verminderen. Deze opzettelijke degradatie verzwakt misleidende aandachtssamenkomsten en leidt tot verbeterde voorwaardelijke en onvoorwaardelijke samplekwaliteit. ASAG toont consistente verbeteringen in tekst-naar-beeld diffusie en verhoogt de bestuurbaarheid en trouw in downstreamtoepassingen zoals IP-Adapter en ControlNet. De methode is lichtgewicht, plug-and-play, en verbetert de betrouwbaarheid zonder enige modelhertraining te vereisen.
Agentische codeertools, zoals OpenAI Codex, Claude Code en Cursor, transformeren het landschap van software-engineering. Deze AI-gestuurde systemen functioneren als autonome teamleden die complexe ontwikkeltaken kunnen plannen en uitvoeren. Agents zijn actieve deelnemers geworden bij refactoring, een hoeksteen van duurzame software-ontwikkeling die gericht is op het verbeteren van de interne codekwaliteit zonder waarneembaar gedrag te veranderen. Ondanks hun toenemende adoptie is er een kritisch gebrek aan empirisch begrip over hoe agentische refactoring in de praktijk wordt gebruikt, hoe het zich verhoudt tot mensgestuurde refactoring en welk effect het heeft op de codekwaliteit. Om deze empirische kloof te dichten, presenteren wij een grootschalige studie naar AI-agent-gegenereerde refactorings in real-world open-source Java-projecten, waarbij we 15.451 refactoring-instanties analyseren verspreid over 12.256 pull-requests en 14.988 commits afkomstig uit de AIDev-dataset. Onze empirische analyse toont aan dat refactoring een veelvoorkomende en intentionele activiteit is in dit ontwikkelparadigma, waarbij agents expliciet gericht zijn op refactoring in 26,1% van de commits. Analyse van refactoring-types onthult dat agentische inspanningen worden gedomineerd door low-level, consistentiegerichte bewerkingen, zoals Change Variable Type (11,8%), Rename Parameter (10,4%) en Rename Variable (8,5%), wat een voorkeur weerspiegelt voor gelokaliseerde verbeteringen boven de high-level designwijzigingen die gebruikelijk zijn bij menselijke refactoring. Daarnaast richten de motivaties achter agentische refactoring zich overweldigend op interne kwaliteitszorgen, met onderhoudbaarheid (52,5%) en leesbaarheid (28,1%) als belangrijkste drijfveren. Verder toont kwantitatieve evaluatie van codekwaliteitsmetrieken aan dat agentische refactoring kleine maar statistisch significante verbeteringen oplevert in structurele metrieken, met name voor medium-level veranderingen, waarbij klassegrootte en complexiteit worden verminderd (bijvoorbeeld Class LOC mediaan Δ = -15,25).
Taalmodellen vertonen opmerkelijke natuurlijke-taalgeneratiecapaciteiten, maar blijven vatbaar voor hallucinaties waarbij feitelijk onjuiste informatie wordt gegenereerd ondanks het produceren van syntactisch coherente antwoorden. Deze studie introduceert de Licensing Oracle, een architecturale oplossing ontworpen om hallucinaties in taalmodellen in te perken door waarheidsbeperkingen af te dwingen via formele validatie tegen gestructureerde kennisgrafen. In tegenstelling tot statistische benaderingen die vertrouwen op dataschaalvergroting of fine-tuning, integreert de Licensing Oracle een deterministische validatiestap in het generatieve proces van het model, waarmee wordt gegarandeerd dat alleen feitelijk accurate beweringen worden gedaan. We evalueerden de effectiviteit van de Licensing Oracle via experimenten waarbij we deze vergeleken met verschillende state-of-the-art methoden, waaronder baseline-generatie door taalmodellen, fine-tuning voor feitelijke recall, fine-tuning voor abstinentiegedrag en retrieval-augmented generation (RAG). Onze resultaten tonen aan dat hoewel RAG en fine-tuning de prestaties verbeteren, zij hallucinaties niet elimineren. De Licensing Oracle daarentegen bereikte een perfecte abstinentieprecisie (AP = 1,0) en nul foutieve antwoorden (FAR-NE = 0,0), waarbij werd gegarandeerd dat alleen geldige beweringen werden gegenereerd met 89,1% nauwkeurigheid in feitelijke antwoorden. Dit werk toont aan dat architecturale innovaties, zoals de Licensing Oracle, een noodzakelijke en voldoende oplossing bieden voor hallucinaties in domeinen met gestructureerde kennisrepresentaties, waarbij ze garanties bieden die statistische methoden niet kunnen evenaren. Hoewel de Licensing Oracle specifiek is ontworpen voor hallucinaties in feitelijke domeinen, legt het kader de basis voor waarheidsbeperkte generatie in toekomstige AI-systemen, en biedt het een nieuw pad naar betrouwbare, epistemisch gefundeerde modellen.