Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recursieve of geloopte taalmodellen zijn recent naar voren gekomen als een nieuwe schaalas door iteratief dezelfde modelberekening over latente toestanden te verfijnen om redenering te verdiepen. Wij breiden dit schaalprincipe uit van een enkel model naar multi-agent systemen, en vragen: Kan agentcollaboratie zelf worden opgeschaald door recursie? Hiertoe introduceren wij RecursiveMAS, een recursief multi-agent raamwerk dat het gehele systeem als een verenigde latentieruimte-recursieve berekening modelleert. RecursiveMAS verbindt heterogene agenten als een collaboratielus via de lichtgewicht RecursiveLink module, waardoor in-distributie generatie van latente gedachten en overdracht van latente toestanden tussen agenten mogelijk wordt. Om ons raamwerk te optimaliseren, ontwikkelen wij een binnen-buitenste-lus-leeralgoritme voor iteratieve co-optimalisatie van het gehele systeem via gedeelde op gradienten gebaseerde credit assignment over recursierondes. Theoretische analyses van runtimecomplexiteit en leer dynamica tonen aan dat RecursiveMAS efficiënter is dan standaard op tekst gebaseerde MAS en stabiele gradienten behoudt tijdens recursieve training. Empirisch instantiëren wij RecursiveMAS onder 4 representatieve agentcollaboratiepatronen en evalueren over 9 benchmarks in wiskunde, wetenschap, geneeskunde, zoeken en codegeneratie. In vergelijking met geavanceerde enkel-/multi-agent- en recursieve berekenings-baselines, levert RecursiveMAS consequent een gemiddelde nauwkeurigheidsverbetering van 8,3%, samen met een 1,2x-2,4x end-to-end inferentieversnelling en een vermindering van tokengebruik met 34,6%-75,6%. Code en Data zijn beschikbaar op https://recursivemas.github.io.
Het betrouwbaar overbrengen van gespecialiseerde menselijke kennis uit tekst naar grote taalmodelen blijft een fundamentele uitdaging in de kunstmatige intelligentie. Fine-tuning op domeincorpora heeft aanzienlijke vooruitgang in capaciteiten mogelijk gemaakt, maar het proces verloopt zonder feedback: wanneer een model faalt bij een domeintaak, is er geen methode om te diagnosticeren wat er ontbreekt in de trainingsdata, en de enige oplossing is om ongericht meer data toe te voegen. Hier tonen we aan dat wanneer een gestructureerde kennisrepresentatie, geëxtraheerd uit het broncorpus, dient als de gedeelde basis voor zowel trainingsdata als evaluatie, de volledige data-engineering levenscyclus op een precieze en operationele manier wordt afgebeeld op de software-ontwikkelingslevenscyclus: trainingsdata wordt broncode die specificeert wat het model moet leren, modeltraining wordt compilatie, benchmarken wordt unittesten, en foutgedreven data-reparatie wordt debuggen. Onder deze correspondentie ontbinden modelfouten zich in conceptuele hiaten en redeneerketenbreuken die kunnen worden teruggeleid naar specifieke tekortkomingen in de data en gerepareerd kunnen worden via gerichte patches, waarbij elke reparatiecyclus consistente verbeteringen oplevert across modelschalen en -architecturen zonder afbreuk te doen aan algemene capaciteiten. Wij formaliseren dit principe als Programmeren met Data en implementeren het across zestien disciplines in de natuurwetenschappen, techniek, biomedische wetenschappen en sociale wetenschappen, waarbij we een gestructureerde kennisbank, een benchmark suite en een trainingscorpus als open bronnen vrijgeven. Door aan te tonen dat de relatie tussen trainingsdata en modelgedrag structureel traceerbaar en systematisch repareerbaar is, legt dit werk een principiële basis voor het betrouwbaar inbouwen van menselijke expertise in taalmodelen.
Real-world data visualisatie (DV) vereist een natuurlijke inbedding in de werkomgeving, evolutie over platformen heen, en proactieve afstemming van intenties. Toch kampen bestaande benchmarks vaak met beperkingen door code-sandboxes, taken die zich enkel op creatie in één taal richten, en de aanname van perfecte intentie. Om deze kloof te dichten, introduceren we DV-World, een benchmark met 260 taken ontworpen om DV-agenten te evalueren over de volledige professionele levenscyclus heen. DV-World omvat drie domeinen: DV-Sheet voor het natuurlijk manipuleren van spreadsheets, inclusief het maken van grafieken en dashboards alsook diagnostisch herstel; DV-Evolution voor het aanpassen en herstructureren van referentie-visualisaties om nieuwe data te accommoderen over diverse programmeerparadigma's heen; en DV-Interact voor proactieve intentie-afstemming met een gebruikerssimulator die ambiguïteit uit de praktijk nabootst. Ons hybride evaluatieraamwerk integreert Table-value Alignment voor numerieke precisie en MLLM-as-a-Judge met rubrics voor semantisch-visuele beoordeling. Experimenten tonen aan dat state-of-the-art modellen minder dan 50% algemene prestaties halen, wat kritieke tekortkomingen blootstelt in het omgaan met de complexe uitdagingen van real-world data visualisatie. DV-World biedt een realistische testomgeving om de ontwikkeling te sturen naar de veelzijdige expertise die vereist is in bedrijfswerkstromen. Onze data en code zijn beschikbaar op https://github.com/DA-Open/DV-World.
Autonoom wetenschappelijk onderzoek wordt aanzienlijk bevorderd door de ontwikkeling van AI-agenten. Een cruciale stap in dit proces is het vinden van de juiste wetenschappelijke literatuur, of het nu gaat om het verkennen van bestaande kennis voor een onderzoeksprobleem, of om het vergaren van bewijs voor het verifiëren van aannames en het ondersteunen van beweringen. Om het vermogen van AI-agenten om dit proces te sturen te evalueren, presenteren we AutoResearchBench, een toegewijd benchmark voor autonome wetenschappelijke literatuurontdekking. AutoResearchBench bestaat uit twee complementaire taaktypen: (1) Diepgaand Onderzoek, waarbij een specifiek doelartikel moet worden opgespoord via een progressief, meerstaps verkenningsproces, en (2) Breed Onderzoek, waarbij een set artikelen die aan gegeven voorwaarden voldoen, uitgebreid moet worden verzameld. In vergelijking met eerdere benchmarks voor agentgestuurd webnavigeren, onderscheidt AutoResearchBench zich langs drie dimensies: het is onderzoeksgericht, wat een diepgaand begrip van wetenschappelijke concepten vereist; literatuurgericht, wat een gedetailleerd gebruik van gedetailleerde informatie vereist; en open-eindig, waarbij een onbekend aantal gekwalificeerde artikelen betrokken is en dus weloverwogen redeneren en zoeken vereist is. Deze eigenschappen maken AutoResearchBench bijzonder geschikt voor het evalueren van autonome onderzoekscapaciteiten, en uitzonderlijk uitdagend. Zelfs de krachtigste LLM's, die algemene agentgestuurde webnavigatiebenchmarks zoals BrowseComp grotendeels hebben overwonnen, behalen slechts 9,39% nauwkeurigheid op Diepgaand Onderzoek en 9,31% IoU op Breed Onderzoek, terwijl veel andere sterke baseline-methoden onder de 5% blijven. We maken de dataset, evaluatiepipeline en code openbaar beschikbaar op https://github.com/CherYou/AutoResearchBench om toekomstig onderzoek in deze richting te faciliteren.
Unificatie multimodale begrips-/generatieve modellen hebben verbeterde prestaties bij beeldbewerking getoond door fijnmazig begrip te integreren in hun Chain-of-Thought (CoT)-proces. Een cruciale vraag blijft echter onderbelicht: welke vormen van CoT en trainingsstrategie kunnen gezamenlijk zowel de begripsgranulariteit als de generalisatie verbeteren? Om dit aan te pakken, stellen we Meta-CoT voor, een paradigma dat een tweeledige decompositie uitvoert van elke beeldbewerkingsoperatie met twee kerneigenschappen: (1) Decomposeerbaarheid. We observeren dat elke bewerkingsintentie kan worden voorgesteld als een triplet - (taak, doel, vereist begripsvermogen). Geïnspireerd hierop decomposeert Meta-CoT zowel de bewerkingstaak als het doel, genereert het taakspecifieke CoT en doorloopt het bewerkingsoperaties op alle doelen. Deze decompositie verbetert de begripsgranulariteit van het model voor bewerkingsoperaties en leidt het om elk element van het triplet tijdens de training te leren, wat de bewerkingscapaciteit aanzienlijk verbetert. (2) Generaliseerbaarheid. Op het tweede decompositieniveau verdelen we bewerkingstaken verder in vijf fundamentele meta-taken. We ontdekken dat training op deze vijf meta-taken, samen met de andere twee elementen van het triplet, voldoende is om sterke generalisatie te bereiken over uiteenlopende, ongeziene bewerkingstaken. Om het bewerkingsgedrag van het model verder af te stemmen op zijn CoT-redenering, introduceren we de CoT-Bewerkingsconsistentiebeloning, die een nauwkeurigere en effectievere benutting van CoT-informatie tijdens het bewerken aanmoedigt. Experimenten tonen aan dat onze methode een algehele verbetering van 15,8% bereikt over 21 bewerkingstaken, en effectief generaliseert naar ongeziene bewerkingstaken wanneer getraind op slechts een kleine set meta-taken. Onze code, benchmark en model zijn vrijgegeven op https://shiyi-zh0408.github.io/projectpages/Meta-CoT/
Geünificeerde multimodale modellen (UMM's) integreren visueel begrip en -generatie binnen een enkel raamwerk. Voor tekst-naar-beeld (T2I) taken stelt deze geünificeerde capaciteit UMM's in staat om uitvoer te verfijnen na de initiële generatie, wat de bovengrens van de prestaties mogelijk kan verleggen. Huidige op UMM's gebaseerde verfijningsmethoden volgen voornamelijk een *refinement-via-editing* (RvE) paradigma, waarbij UMM's bewerkingsinstructies genereren om niet-overeenkomende regio's aan te passen terwijl correct uitgelijnde inhoud behouden blijft. Bewerkingsinstructies beschrijven de misalignering tussen prompt en beeld echter vaak slechts in grove lijnen, wat leidt tot onvolledige verfijning. Bovendien beperkt pixelbehoud, hoewel noodzakelijk voor bewerking, de effectieve modificatieruimte voor verfijning onnodig. Om deze beperkingen aan te pakken, stellen wij *Refinement via Regeneration* (RvR) voor, een nieuw raamwerk dat verfijning herformuleert als conditionele beeldregeneratie in plaats van bewerking. In plaats van te vertrouwen op bewerkingsinstructies en strikte inhoudsbehoud af te dwingen, regenereert RvR beelden conditioneel op basis van de doelprompt en de semantieke tokens van het initiële beeld, waardoor een volledigere semantieke uitlijning met een grotere modificatieruimte mogelijk wordt. Uitgebreide experimenten tonen de effectiviteit van RvR aan, met verbeteringen van Geneval van 0,78 naar 0,91, DPGBench van 84,02 naar 87,21, en UniGenBench++ van 61,53 naar 77,41.
In dit werk stellen we Mutual Forcing voor, een raamwerk voor snelle autoregressieve audio-videogeneratie met een lange-termijn audio-video-synchronisatie. Onze aanpak adresseert twee belangrijke uitdagingen: gezamenlijke audio-video-modellering en snelle autoregressieve generatie. Om de gezamenlijke audio-video-optimalisatie te vergemakkelijken, hanteren we een tweefasen-trainingsstrategie: eerst trainen we unimodale generatoren en koppelen deze vervolgens in een verenigd audio-videomodel voor gezamenlijke training op gepaarde data. Voor streaminggeneratie onderzoeken we of een native, snelle causaal audio-videomodel direct getraind kan worden, in plaats van de bestaande streamingdistillatiepijplijnen te volgen die typisch eerst een bidirectioneel model trainen en dit vervolgens via meerdere distillatiefasen omzetten in een causale generator. Ons antwoord is Mutual Forcing, dat direct voortbouwt op een native autoregressief model en weinestaps- en meerstapsgeneratie integreert binnen een enkel gewichtsgedeeld model, waardoor zelfdistillatie en verbeterde consistentie tussen training en inferentie mogelijk worden. De meerstapsmodus verbetert de weinestapsmodus via zelfdistillatie, terwijl de weinestapsmodus historische context genereert tijdens de training om de consistentie tussen training en inferentie te verbeteren; omdat de twee modi parameters delen, versterken deze twee effecten elkaar binnen een enkel model. In vergelijking met eerdere benaderingen zoals Self-Forcing, elimineert Mutual Forcing de noodzaak van een extra bidirectioneel leraarmodel, ondersteunt het flexibelere trainingssequentielengtes, vermindert het de trainingsoverhead en stelt het het model in staat om direct te verbeteren vanuit echte gepaarde data in plaats van een vaste leraar. Experimenten tonen aan dat Mutual Forcing evenaart of sterke baselinebenaderingen overtreft die ongeveer 50 samplingstappen vereisen, terwijl het zelf slechts 4 tot 8 stappen gebruikt, wat aanzienlijke voordelen demonstreert in zowel efficiëntie als kwaliteit. De projectpagina is beschikbaar op https://mutualforcing.github.io.
Recente vooruitgang in grote audiotalmodellen heeft Chain-of-Thought (CoT)-redenering uitgebreid naar het auditieve domein, waardoor modellen steeds complexere akoestische en gesproken taken kunnen aanpakken. Om deze uitgebreide redeneerketens op te wekken en te onderhouden, vertrouwt het heersende paradigma – gedreven door het succes van op tekst gebaseerde redeneermodellen – overweldigend op Reinforcement Learning with Verified Rewards (RLVR). Naarmate modellen echter strikt worden geoptimaliseerd om rijke, continue auditieve contexten te destilleren tot geïsoleerde, verifieerbare tekstlabels, rijst een fundamentele vraag: bevorderen we ware audio-intelligentie, of reduceren we een continu zintuiglijk medium slechts tot een discreet raadsel? Wij identificeren dit als de "valstrik van de verifieerbare beloning". Hoewel RLVR opmerkelijke scores behaalt op gestandaardiseerde objectieve benchmarks, degradeert het systematisch het realistische gespreksgevoel van audiomodellen. Door geïsoleerde correctheid boven akoestische nuance te stellen, reduceert RLVR dynamische interacties tot mechanische "antwoordmachines", wat de prosodische natuurlijkheid, emotionele continuïteit en gebruikersimmersie ernstig aantast, vooral in lange dialogen. Om de kloof te overbruggen tussen mechanische objectieve verificatie en echte zintuiglijke empathie, introduceren we Step-Audio-R1.5, wat een paradigmaverschuiving markeert naar Reinforcement Learning from Human Feedback (RLHF) in audioredenatie. Uitgebreide evaluaties tonen aan dat Step-Audio-R1.5 niet alleen robuuste analytische redeneervaardigheden behoudt, maar ook de interactieve ervaring diepgaand transformeert, waardoor de grenzen van diepgaand meeslepende, lange gesproken dialogen worden herzien.
Hoewel diffusiemodellen hoogwaardige videoclips genereren, blijft het een uitdaging om ze te transformeren tot coherente verhaalengines. Huidige agent-gebaseerde pijplijnen automatiseren dit via geketende modules, maar lijden onder semantische drift en cascade-fouten door onafhankelijke, handmatig gemaakte prompts. Wij presenteren Co-Director, een hiërarchisch multi-agent raamwerk dat videoverhaalvorming formaliseert als een globaal optimalisatieprobleem. Voor semantische samenhang introduceren we hiërarchische parameterisatie: een multi-armed bandit identificeert globaal veelbelovende creatieve richtingen, terwijl een lokale multimodale zelfverfijningslus identiteitsdrift beperkt en consistentie op sequentieniveau waarborgt. Dit balanceert de exploratie van nieuwe narratieve strategieën met de exploitatie van effectieve creatieve configuraties. Voor evaluatie introduceren we GenAD-Bench, een dataset met 400 scenario's van fictieve producten voor gepersonaliseerde advertenties. Experimenten tonen aan dat Co-Director state-of-the-art baseline-methoden significant overtreft, en biedt een principiële aanpak die naadloos generaliseert naar bredere cinematische narratieven. Projectpagina: https://co-director-agent.github.io/
Het implementeren van beveiligingsmaatregelen voor aangepaste beleidsregels blijft een uitdaging, omdat generieke veiligheidsmodellen niet in staat zijn taakspecifieke vereisten vast te leggen, terwijl het aansturen van grote taalmodellen (LLM's) lijdt onder inconsistente prestaties bij grenssituaties en hoge inferentiekosten. Het trainen van aangepaste classificatoren bereikt zowel nauwkeurigheid als efficiëntie, maar vereist aanzienlijke gelabelde data die kostbaar is om te verkrijgen. Wij presenteren BARRED (Boundary Alignment Refinement through REflection and Debate), een raamwerk voor het genereren van betrouwbare en diverse synthetische trainingsdata met uitsluitend een taakbeschrijving en een kleine set ongelabelde voorbeelden. Onze aanpak deelt de domeinruimte op in dimensies om volledige dekking te garanderen en gebruikt multi-agent debat om de correctheid van labels te verifiëren, wat resulteert in een hoogwaardige trainingscorpus. Experimenten met diverse aangepaste beleidsregels tonen aan dat kleine taalmodellen die zijn gefinetuned op onze synthetische data consistent superieure prestaties leveren vergeleken met state-of-the-art propriëtaire LLM's (inclusief redeneermodellen) en gespecialiseerde beveiligingsmodellen. Ablatiestudies bevestigen dat zowel dimensiedecompositie als op debat gebaseerde verificatie cruciaal zijn voor het waarborgen van de diversiteit en labelfideliteit die nodig zijn voor effectieve finetuning. Het BARRED-raamwerk elimineert de afhankelijkheid van uitgebreide menselijke annotatie en biedt een schaalbare oplossing voor nauwkeurige, aangepaste beveiligingsmaatregelen.
On-policy distillatie (OPD) heeft een sterk potentieel getoond voor het overdragen van redeneervermogen van geavanceerde of domeinspecifieke modellen naar kleinere studentmodellen. Hoewel effectief voor statische taken met één beurt, blijft het gedrag in multi-turn agent-omgevingen onderbelicht. In dit werk identificeren we een belangrijke beperking van standaard OPD in dergelijke settings, die we Trajectory-Level KL-instabiliteit noemen. Concreet observeren we dat de KL-divergentie toeneemt samen met een daling van het succespercentage, en dat zelfs na convergentie de KL hoog blijft, wat leidt tot onstabiele training. Deze instabiliteit ontstaat door de cumulatie van fouten tussen beurten: naarmate fouten zich opstapelen, wordt het studentmodel buiten het effectieve ondersteuningsgebied van het leraarmodel gedreven, waardoor het supervisiesignaal onbetrouwbaar wordt. Om dit aan te pakken, stellen we TCOD (Temporal Curriculum On-Policy Distillation) voor, een eenvoudig maar effectief raamwerk dat de trajectdiepte die aan de student wordt blootgesteld controleert en deze progressief uitbreidt van kort naar lang volgens een curriculumplan. Experimentele resultaten over vier student-leraar paren op drie multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) tonen aan dat TCOD KL-escalatie vermindert en de KL-stabiliteit gedurende de hele training verbetert, wat de agentprestatie met tot 18 punten verbetert ten opzichte van standaard OPD. Verdere evaluaties tonen aan dat TCOD zelfs de prestaties van de leraar kan overtreffen en kan generaliseren naar taken waarop de leraar faalt.
Terminale agents hebben een sterk potentieel getoond voor autonome commandoregeluitvoering, maar hun training blijft beperkt door de schaarste aan hoogwaardige en diverse uitvoeringstrajecten. Bestaande benaderingen verlichten dit knelpunt door grootschalige terminaltaakinstanties te synthetiseren voor trajectmonsters. Zij richten zich echter voornamelijk op het opschalen van het aantal taken, terwijl ze slechts beperkte controle bieden over de diversiteit van uitvoeringstrajecten die agents daadwerkelijk ervaren tijdens de training. In dit artikel presenteren we SkillSynth, een geautomatiseerd raamwerk voor terminaltaaksynthese, gebaseerd op een scenario-gemedieerde vaardigheidsgraaf. SkillSynth construeert eerst een grootschalige vaardigheidsgraaf, waarbij scenario's fungeren als intermediare transitieknopen die diverse commandoregelvaardigheden verbinden. Vervolgens bemonstert het paden vanuit deze graaf als abstracties van real-world werkstromen, en gebruikt het een multi-agent systeem om deze te instantiëren naar uitvoerbare taakinstanties. Door taaksynthese te grondvesten in graf-bemonsterde werkstroompaden, beheerst SkillSynth expliciet de diversiteit van minimale uitvoeringstrajecten die nodig zijn om de gesynthetiseerde taken op te lossen. Experimenten op Terminal-Bench demonstreren de effectiviteit van SkillSynth. Bovendien zijn taakinstanties gesynthetiseerd door SkillSynth geadopteerd om Hy3 Preview te trainen, wat bijdraagt aan diens verbeterde agent-mogelijkheden in terminal-gebaseerde omgevingen.
Het traditioneel creëren van interactieve STEM-cursusmaterialen vereist expertise in HTML/CSS/JavaScript, wat een barrière vormt voor docenten. Hoewel generatieve AI HTML-code kan produceren, genereren bestaande tools statische presentaties in plaats van interactieve simulaties, worstelen ze met lange documenten en ontbreekt het hen aan mechanismen voor pedagogische nauwkeurigheid. Bovendien vereist volledige regeneratie voor aanpassingen 200-600 seconden, wat de creatieve flow verstoort. Wij presenteren MAIC-UI, een zero-code auteursysteem dat docenten in staat stelt interactieve cursusmaterialen te creëren en snel te bewerken vanuit tekstboeken, PPT's en PDF's. MAIC-UI hanteert: (1) gestructureerde kennisanalyse met multimodaal begrip om pedagogische nauwkeurigheid te garanderen; (2) een tweefasen generate-verify-optimaliseer-pijplijn die contentalignatie scheidt van visuele verfijning; en (3) Click-to-Locate-bewerking met Unified Diff-gebaseerde incrementele generatie die iteratiecycli van minder dan 10 seconden bereikt. Een gecontroleerde laboratoriumstudie met 40 deelnemers toont aan dat MAIC-UI bewerkingsiteraties vermindert (4,9 vs. 7,0) en de leerbaarheid en bestuurbaarheid significant verbetert vergeleken met directe Text-to-HTML-generatie. Een implementatie van drie maanden in de klas met 53 middelbare scholieren demonstreert dat MAIC-UI leeragentie bevordert en resultaatverschillen reduceert – de pilotklas behaalde 9,21-puntswinst in STEM-vakken vergeleken met -2,32 punten in controleklassen. Onze code is beschikbaar op https://github.com/THU-MAIC/MAIC-UI.
Het afstemmen van denoisende generatieve modellen op menselijke voorkeuren of verifieerbare beloningen blijft een grote uitdaging. Hoewel policy-gradient online reinforcement learning (RL) een principieel post-training raamwerk biedt, wordt de directe toepassing ervan belemmerd door de onhanteerbare likelihoods van deze modellen. Eerdere werk optimaliseert daarom ofwel een geïnduceerd Markov decision process (MDP) over sample-trajectories, wat stabiel maar inefficiënt is, of gebruikt likelihood-surrogaten gebaseerd op de diffusion evidence lower bound (ELBO), die tot dusver onderpresteerden bij visuele generatie. Onze belangrijkste bevinding is dat de ELBO-gebaseerde aanpak in feite zowel stabiel als efficiënt gemaakt kan worden. Door de variantie van het surrogaat te verlagen en gradientstappen te controleren, tonen we aan dat deze aanpak MDP-gebaseerde methodes kan verslaan. Hiertoe introduceren we Variational GRPO (V-GRPO), een methode die ELBO-gebaseerde surrogaten integreert met het Group Relative Policy Optimization (GRPO) algoritme, samen met een reeks eenvoudige maar essentiële technieken. Onze methode is eenvoudig te implementeren, sluit aan bij pre-trainingsdoelstellingen en vermijdt de beperkingen van MDP-gebaseerde methodes. V-GRPO behaalt state-of-the-art prestaties in tekst-naar-beeld synthese, terwijl het een 2x snelheidsverbetering oplevert ten opzichte van MixGRPO en een 3x snelheidsverbetering ten opzichte van DiffusionNFT.
Hoewel grootschalige videodiffusiemodellen indrukwekkende prestaties leveren in het genereren van hoogwaardige en semantisch rijke content, blijft er een aanzienlijke kloof bestaan tussen hun voorgetrainde prestaties en de eisen voor praktische implementatie. Dit komt door kritieke problemen zoals promptgevoeligheid, temporele inconsistentie en prohibitieve inferentiekosten. Om deze kloof te overbruggen, stellen we een uitgebreid post-training framework voor dat voorgetrainde modellen systematisch afstemt op gebruikersintenties via vier synergetische fasen: eerst passen we Supervised Fine-Tuning (SFT) toe om het basismodel om te vormen tot een stabiel instructievolgend beleid, gevolgd door een Reinforcement Learning from Human Feedback (RLHF)-fase die gebruikmaakt van een nieuwe Group Relative Policy Optimization (GRPO)-methode, speciaal ontworpen voor videodiffusie, om de perceptuele kwaliteit en temporele coherentie te verbeteren; vervolgens integreren we Prompt Enhancement via een gespecialiseerd taalmodel om gebruikersinputs te verfijnen, en ten slotte pakken we systeemefficiëntie aan via Inference Optimization. Gezamenlijk bieden deze componenten een systematische aanpak om de visuele kwaliteit, temporele coherentie en instructievolging te verbeteren, waarbij de tijdens de voortraining verworven beheersbaarheid behouden blijft. Het resultaat is een praktische blauwdruk voor het bouwen van schaalbare post-training pijplijnen die stabiel, aanpasbaar en effectief zijn in praktische implementatie. Uitgebreide experimenten tonen aan dat deze verenigde pijplijn veelvoorkomende artefacten effectief vermindert en de beheersbaarheid en visuele esthetiek aanzienlijk verbetert, binnen strikte beperkingen van de steekproefkosten.
Crowdsourced paarsgewijze evaluatie is naar voren gekomen als een schaalbare aanpak voor het beoordelen van foundation-modellen. Het toepassen ervan op Text-to-Speech (TTS) introduceert echter een hoge variantie vanwege de linguïstische diversiteit en de multidimensionale aard van spraakperceptie. Wij presenteren een gecontroleerd multidimensionaal paarsgewijze evaluatieraamwerk voor meertalige TTS dat linguïstische controle combineert met perceptueel onderbouwde annotatie. Met behulp van meer dan 5.000 zinnen in moedertaal en code-switching in 10 Indiase talen evalueren we 7 state-of-the-art TTS-systemen en verzamelen we meer dan 120.000 paarsgewijze vergelijkingen van meer dan 1900 moedertaalbeoordelaars. Naast een algemene voorkeur verstrekken de beoordelaars ook oordelen over 6 perceptuele dimensies: verstaanbaarheid, expressiviteit, stemkwaliteit, levendigheid, ruis en hallucinaties. Met behulp van Bradley-Terry-modellering construeren we een meertalig leaderboard, interpreteren we menselijke voorkeur met SHAP-analyse en analyseren we de betrouwbaarheid van het leaderboard naast de sterke punten en afwegingen van modellen over de perceptuele dimensies heen.
Grote Vision-Language Models (VLMs) worden steeds vaker ingezet om de uitvoer van andere modellen te evalueren, zowel voor beeld-naar-tekst (I2T) taken zoals visuele vraagbeantwoording als voor tekst-naar-beeld (T2I) generatietaken. Ondanks deze groeiende afhankelijkheid is de betrouwbaarheid van deze Evaluator-VLMs nog onvoldoende onderzocht. In dit werk evalueren we systematisch de betrouwbaarheid van Evaluator-VLMs voor zowel I2T- als T2I-taken. We introduceren gerichte perturbaties die de uitvoerkwaliteit verslechteren langs cruciale foutdimensies, waaronder objecthallucinaties, ruimtelijk redeneren, feitelijke onderbouwing en visuele geloofwaardigheid. Deze perturbaties testen of Evaluator-VLMs op betrouwbare wijze rekening kunnen houden met deze kwaliteitsverslechterende fouten in hun evaluaties. Met behulp van een uitgebreide benchmark van meer dan 4000 verstoorde instanties, verspreid over 40 perturbatiedimensies, evalueren we 4 prominente VLMs met behulp van enkel-antwoord scoring, paarsgewijze vergelijking en referentie-gestuurde paradigma's. Onze bevindingen onthullen dat huidige VLM-evaluatoren aanzienlijke blinde vlekken vertonen: ze slagen er vaak niet in verstoorde uitvoer te detecteren – in sommige gevallen meer dan 50%, ze hebben vooral moeite met fijnmazige compositionele en ruimtelijke fouten, en zijn vaak ongevoelig voor gehallucineerde inhoud die in tegenspraak is met de invoerafbeelding. Paarsgewijze vergelijking blijkt betrouwbaarder, hoewel faalpercentages aanhouden. Deze resultaten benadrukken de onbetrouwbare aard van de huidige Evaluator-VLMs en pleiten voor voorzichtigheid bij hun inzet voor benchmark-doeleinden en ontwikkelingsbeslissingen. Code en data zijn openbaar gemaakt.
Recente vooruitgang in tekstgestuurde generatie van menselijke beweging stelt modellen in staat realistische bewegingssequenties te synthetiseren vanuit natuurlijke taal beschrijvingen. De meeste bestaande benaderingen gaan echter uit van identiteitsneutrale beweging en genereren bewegingen met een canonieke lichaamsrepresentatie, waarbij de sterke invloed van lichaamsmorfologie op bewegingsdynamica wordt genegeerd. In de praktijk beïnvloeden attributen zoals lichaamsverhoudingen, massaverdeling en leeftijd hoe handelingen worden uitgevoerd aanzienlijk, en het negeren van deze koppeling leidt vaak tot fysiek inconsistente bewegingen. Wij stellen een identiteitsbewust bewegingsgeneratiekader voor dat expliciet de relatie tussen lichaamsmorfologie en bewegingsdynamica modelleert. In plaats van te vertrouwen op expliciete geometrische metingen, wordt identiteit gerepresenteerd met multimodale signalen, waaronder natuurlijke taal beschrijvingen en visuele aanwijzingen. Verder introduceren we een gezamenlijk bewegings-vorm-generatieparadigma dat simultaan bewegingssequenties en lichaamsvormparameters synthetiseert, waardoor identiteitsaanwijzingen de bewegingsdynamica direct kunnen moduleren. Uitgebreide experimenten op motion capture-datasets en grootschalige video's uit de praktijk tonen verbeterde bewegingsrealisme en beweging-identiteit consistentie aan, met behoud van hoge bewegingskwaliteit. Projectpagina: https://vjwq.github.io/IAM
AI-agenten worden steeds vaker ingezet voor complexe, domeinspecifieke workflows: ze navigeren door enterprise-webapplicaties die tientallen klikken en formulierinvullingen vereisen, ze orkestreren meerstaps onderzoekspijplijnen die zoeken, extractie en synthese omvatten, ze automatiseren code-review in onbekende repositories, en ze behandelen klantescalaties die genuanceerde domeinkennis vergen. Elk nieuw taakdomein vereist nauwgezette, door experts gedreven 'harness'-engineering: het ontwerpen van de prompts, tools, orkestratielogica en evaluatiecriteria die een foundation model effectief maken. Wij presenteren een tweelagenframework dat dit proces automatiseert. Op het eerste niveau optimaliseert de Harness Evolution Loop de harness H van een worker-agent voor een enkele taak: een Worker Agent W_{H} voert de taak uit, een Evaluator Agent V diagnosticeert adversarieel fouten en scoort de prestaties, en een Evolution Agent E past de harness aan op basis van de volledige historie van eerdere pogingen. Op het tweede niveau optimaliseert de Meta-Evolution Loop het evolutieprotocol Λ = (W_{H}, H^{(0)}, V, E) zelf over diverse taken heen, waarbij een protocol Λ^{(beste)} wordt geleerd dat een snelle harness-convergentie op elke nieuwe taak mogelijk maakt – zodat het aanpassen van een agent aan een nieuw domein helemaal geen menselijke harness-engineering meer vereist. We formaliseren de correspondentie met meta-learning en presenteren beide algoritmen. Het framework verschuift handmatige harness-engineering naar geautomatiseerde harness-engineering, en zet nog een stap verder – door het ontwerp van de automatisering zelf te automatiseren.
Autonome agents die in staat zijn om grafische gebruikersinterfaces (GUI's) te navigeren, hebben het potentieel om de digitale productiviteit te revolutionariseren. Het bereiken van ware digitale autonomie gaat echter verder dan reactieve elementherkenning; het vereist een voorspellend mentaal model van interfacedynamiek en het vermogen om de "digitale wereldstatus" te voorzien die uit interacties voortvloeit. Ondanks de perceptuele capaciteiten van moderne Vision-Language Models (VLM's) blijven bestaande benchmarks gespleten (gericht op óf black-box taakuitvoering óf statische, oppervlakkige grounding), waardoor ze niet kunnen beoordelen of agents daadwerkelijk de impliciete functionaliteit en overgangslogica van GUI's begrijpen. Om deze kloof te overbruggen, introduceren wij AutoGUI-v2, een uitgebreide benchmark ontworpen om diepgaand functioneel begrip van GUI's en voorspelling van interactieresultaten te evalueren. Wij construeren de benchmark met behulp van een nieuwe VLM-menselijke collaboratieve pijplijn die recursief screenshots van meerdere platformen parseert in hiërarchische functionele regio's om diverse evaluatietaken te genereren. Met 2.753 taken verspreid over zes besturingssystemen, test AutoGUI-v2 agents rigoureus op semantiek, grounding en dynamische statusvoorspelling op region- en elementniveau. Onze evaluatie onthult een opvallende tweedeling in VLM's: hoewel open-source modellen die zijn gefinetuned op agentdata (bijv. Qwen3-VL) uitblinken in functionele grounding, domineren commerciële modellen (bijv. Gemini-2.5-Pro-Thinking) in functionele beschrijving. Cruciaal is dat alle modellen moeite hebben met de complexe interactielogica van ongebruikelijke acties, wat aantoont dat diep functioneel begrip een significante horde blijft. Door deze fundamentele capaciteiten systematisch te meten, biedt AutoGUI-v2 een nieuwe lens voor de vooruitgang van de volgende generatie GUI-agents.
Graphical User Interface (GUI) element grounding (het precies lokaliseren van elementen op schermafbeeldingen op basis van natuurlijke taal instructies) is fundamenteel voor agents die met GUI's interageren. Het direct inzetten van deze mogelijkheid op apparaten met beperkte bronnen, zoals mobiele telefoons, wordt steeds kritischer voor GUI-agents die lage latentie vereisen. Dit doel wordt echter geconfronteerd met een aanzienlijke uitdaging, omdat huidige methoden voor visuele grounding typisch grote vision-language modellen (VLM's) gebruiken (meer dan 2,5 miljard parameters), waardoor ze onpraktisch zijn voor uitvoering op het apparaat zelf vanwege geheugen- en rekenbeperkingen. Om dit aan te pakken, introduceert dit artikel GoClick, een lichtgewicht VLM voor GUI-element grounding met slechts 230 miljoen parameters, die een uitstekende nauwkeurigheid voor visuele grounding bereikt, zelfs vergelijkbaar met aanzienlijk grotere modellen. Het simpelweg verkleinen van bestaande decoder-only VLM's is een eenvoudige manier om een lichtgewicht model te ontwerpen, maar onze experimenten tonen aan dat deze aanpak suboptimale resultaten oplevert. In plaats daarvan selecteren we een encoder-decoder architectuur, die beter presteert dan decoder-only alternatieven bij kleine parameterschalen voor GUI-grounding taken. Bovendien moedigt de beperkte capaciteit van kleine VLM's ons aan om een Progressive Data Refinement pijplijn te ontwikkelen die gebruikmaakt van taaktypefiltering en aanpassing van dataverhoudingen om een hoogwaardige kernset van 3,8 miljoen samples te extraheren uit een ruwe dataset van 10,8 miljoen samples. Het trainen van GoClick met deze kernset levert aanzienlijke verbeteringen in groundingnauwkeurigheid op. Onze experimenten tonen aan dat GoClick uitblinkt op meerdere benchmarks voor GUI-element grounding, terwijl het een kleine omvang en hoge inferentiesnelheid behoudt. GoClick verbetert ook de prestaties van GUI-agents wanneer het wordt geïntegreerd in een device-cloud samenwerkingsframework, waarbij GoClick cloudgebaseerde taakplanners helpt bij het uitvoeren van precieze elementlokalisatie en het behalen van hogere slagingspercentages. We hopen dat onze methode dient als een betekenisvolle verkenning binnen de GUI-agent gemeenschap.
De evaluatie van eerlijkheid in aanbevelingssystemen is steeds belangrijker geworden, vooral met recente wetgeving die de ontwikkeling van eerlijke en verantwoorde kunstmatige intelligentie benadrukt. Dit heeft geleid tot de opkomst van diverse eerlijkheidsevaluatiematen, die eerlijkheid kwantificeren op basis van verschillende definities. Veel van dergelijke maten worden echter eenvoudigweg voorgesteld en gebruikt zonder verdere analyse van hun robuustheid. Hierdoor is er onvoldoende inzicht en bewustzijn van de beperkingen van de maten. Onder andere is niet bekend wat voor soort modeluitkomsten de (on)eerlijkste score produceren, hoe de maatscores empirisch zijn verdeeld, en of er gevallen zijn waarin de maten niet kunnen worden berekend (bijvoorbeeld door deling door nul). Deze problemen veroorzaken moeilijkheden bij het interpreteren van de maatscores en verwarring over welke maat of maten moeten worden gebruikt voor een specifiek geval. Dit proefschrift presenteert een reeks artikelen die verschillende theoretische, empirische en conceptuele beperkingen van bestaande eerlijkheidsevaluatiematen voor aanbevelingssystemen beoordelen en overwinnen. Wij onderzoeken een breed scala aan offline evaluatiematen voor verschillende eerlijkheidsnoties, onderverdeeld op basis van de evaluatie-onderwerpen (gebruikers en items) en voor verschillende evaluatiegranulariteiten (groepen onderwerpen en individuele onderwerpen). Ten eerste voeren wij theoretische en empirische analyses uit op de maten, waarbij wij gebreken blootleggen die hun interpreteerbaarheid, expressiviteit of toepasbaarheid beperken. Ten tweede dragen wij nieuwe evaluatiebenaderingen en maten bij die deze beperkingen overwinnen. Ten slotte, rekening houdend met de beperkingen van de maten, bevelen wij richtlijnen aan voor het juiste gebruik van de maten, waardoor een meer precieze selectie van eerlijkheidsevaluatiematen in praktijkscenario's mogelijk wordt. Al met al draagt dit proefschrift bij aan de verbetering van de state-of-the-art offline evaluatie van eerlijkheid in aanbevelingssystemen.