Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement Learning is een standaardparadigma geworden voor het afstemmen van Large Language Modellen op menselijke intenties en taakvereisten. Hoewel Group Relative Policy Optimization een efficiënt, waarde-modelvrij alternatief biedt voor Proximal Policy Optimization, blijft het aanpassen ervan aan realistische multi-reward omgevingen uitdagend. Standaard scalarisation praktijken, zoals Reward Combination en Advantage Combination, hebben aanzienlijke nadelen: Reward Combination genereert vaak advantages met extreem grote gekwadrateerde magnitudes die leiden tot trainingsinstabiliteit, terwijl Advantage Combination afhankelijk is van statische hyperparameters en cross-objective correlaties negeert. Om deze beperkingen aan te pakken, stellen we Dynamic Variance-adaptive Advantage Optimization (DVAO) voor, dat dynamisch combinatiegewichten aanpast op basis van de empirische reward variantie van elke objective binnen een rollout group, waardoor objectives met een sterker leersignaal effectief worden opgewaardeerd en ruizige worden onderdrukt. We bewijzen wiskundig dat DVAO begrensde advantage magnitudes handhaaft voor stabiele training en een zelfadaptief cross-objective regularisatiemechanisme introduceert. Uitgebreide experimenten op wiskundige redeneer- en toolgebruik benchmarks met Qwen3 en Qwen2.5 modellen tonen aan dat DVAO significant beter presteert dan baseline methoden, met een superieure multi-objectieve Pareto frontier en robuuste trainingsstabiliteit.
Interactieve wereldmodellen ontwikkelen zich snel, maar bestaande benchmarks dekken slechts een deel van de vereiste competenties, waardoor er geen uniforme standaard is voor systematische evaluatie. Om deze leemte op te vullen introduceren we WBench, een uitgebreide multi-turn benchmark voor evaluatie van interactieve wereldmodellen op vijf dimensies: videokwaliteit, setting-naleving, interactie-naleving, consistentie en natuurkundige conformiteit. WBench bevat 289 testgevallen en 1.058 interactierondes, waarbij elk geval een wereldinstelling en een multi-turn interactiesequentie specificeert, met een breed scala aan scènes, stijlen, onderwerpen en zowel eerste- als derdepersoonsperspectieven, samen met vier interactietypen: navigatie, subjectactie, gebeurtenisbewerking en perspectiefwisseling. Voor navigatie verenigt WBench tekst, 6-DoF-houding en discrete-actieregeling, waardoor evaluatie mogelijk is van modellen met verschillende native invoerinterfaces. Evaluatie gebruikt 22 automatische submetrieken die specialistische vision-modellen combineren met grote multimodale modellen, en alle metrieken zijn gevalideerd op basis van menselijke oordelen. Bij 20 state-of-the-art modellen zien we dat geen enkel model sterk presteert op alle dimensies. We geven gedetailleerde diagnostische inzichten in de karakteristieke sterke punten, zwakke punten en openstaande uitdagingen van elk model. Code en data zijn beschikbaar op https://github.com/meituan-longcat/WBench.
Naarmate persoonlijke agenten evolueren om complexe, gebruikersgerichte taken aan te kunnen, wordt statische platte-tekstchat snel een knelpunt. Generatieve UI komt naar voren als de noodzakelijke nieuwe interfacelaag, die in realtime dynamisch de juiste besturingselementen, opties en toestand uit de interactiecontext synthetiseert. We presenteren Macaron-A2UI, een model voor Generatieve UI in persoonlijke agenten. Ons doel is om verder te gaan dan alleen tekstinteractie door agenten in staat te stellen natuurlijke taal te genereren samen met lichtgewicht, uitvoerbare UI-acties voor het verzamelen van informatie, het verfijnen van voorkeuren, bevestiging en het organiseren van meerdere doelen. We bouwen een grootschalig Generatieve UI-corpus uit heterogene dialoogbronnen, introduceren A2UI-Bench voor gecontroleerde evaluatie, en trainen 30B-, 235B- en 754B-modellen met parameter-efficiënt LoRA-gebaseerd gesuperviseerd fine-tunen, gevolgd door beloningsgestuurd reinforcement learning. Het beste Macaron-A2UI-model behaalt een totaalscore van 75,6 op A2UI-Bench zonder expliciete schema-hints, waarmee het de sterkste volledige-schema-voorhoedebaseline overtreft. We geven de modellen, de benchmark en het evaluatieprotocol vrij ter ondersteuning van toekomstig onderzoek naar Generatieve UI voor persoonlijke agenten.
Autonome agenten evolueren van hulpmiddelen naar een laag van sociale infrastructuur: ze browsen, kopen, implementeren software, beheren systemen en gaan steeds meer met elkaar interacteren. Naarmate deze systemen opschalen, verschuift de bottleneck van ruwe modelcapaciteit naar coördinatie. Agenten moeten betrouwbare relaties opbouwen, multi-agentwerk organiseren, waarde uitwisselen, een AI-economie ondersteunen en veilig en verantwoord blijven onder toezicht in de echte wereld. Dit artikel introduceert het Foundation Protocol (FP), een graaf-eerste coördinatielaag voor een opkomende mens-AI-samenleving. FP verenigt heterogene entiteiten, waaronder agenten, tools, resources, mensen, instituten en organisaties, en ondersteunt native multi-party-organisatie en op gebeurtenissen gebaseerde samenwerking. Het biedt ook economische primitieven voor meting, ontvangstbewijzen en afwikkeling, en behandelt beleid, herkomst en audit als eersteklas aandachtspunten. FP is ontworpen om bestaande protocollen te omhullen en te overbruggen in plaats van ze te vervangen, waardoor incrementele adoptie mogelijk wordt terwijl de integratie- en beheersoverhead wordt verminderd. Het doel is om autonome agency composable te houden terwijl verantwoordelijkheid niet onderhandelbaar blijft, zodat coördinatie zelf een gedeelde infrastructuur kan worden voor een mens-AI-samenleving die open, pluralistisch en bestuurbaar is.
Sparse-view 3D-reconstructie wordt steeds vaker aangepakt met feed-forward splatting-netwerken die expliciete primitieven rechtstreeks uit beelden voorspellen. Toch blijven de meeste bestaande methoden gericht op Gauss-primitieven en geven ze oppervlakken slechts indirect bloot: het extraheren van een bruikbare mesh voor downstreamsimulatie, fysische redenering of belichaamde interactie vereist nog steeds dure nabewerkingsstappen die de feed-forward-belofte doorbreken. Deze beperking is vooral uitgesproken in pose-vrije omgevingen, waar scenestructuur en cameraparameters gezamenlijk moeten worden geschat uit schaarse waarnemingen. Wij presenteren TriSplat, een feed-forward reconstructienetwerk dat scènes representeert met georiënteerde driehoekprimitieven en rechtstreeks simulatieklare mesh-scènes exporteert in één enkele forward pass. Gegeven invoerbeelden voorspelt het netwerk lokale 3D-puntkaarten, driehoekattributen, cameraposities en optionele intrinsieke parameters. In plaats van driehoekoriëntatie te regresseren als een onbeperkte latente variabele, construeert onze aanpak geometrienormalen uit de voorspelde puntkaarten, verfijnt ze met een beeldgeconditioneerde normalenkop en zet ze om in stabiele lokale frames voor driehoekparametrisatie. Een mono-normaal bootstrap-schema stabiliseert de vroege training verder, terwijl transparantie- en vervagingsplanning de geleerde oppervlakterepresentatie progressief verscherpt voor directe mesh-extractie. Experimenten op RealEstate10K en DL3DV tonen aan dat deze representatie geometrisch getrouwere reconstructies oplevert dan Gauss-feed-forward-baselines, terwijl de kwaliteit van novel-view-rendering concurrerend blijft. Omdat de renderprimitieven zelf oppervlaktedriehoeken zijn, kan de uitvoer rechtstreeks worden ingevoerd in fysica-engines, botsingsdetectoren en standaardrenderingspijplijnen zonder enige conversie, wat het een praktische, simulatieklare oplossing maakt voor feed-forward 3D-scènereconstructie.
Multimodale modellering vormt een cruciale stap van modaliteits-agnostisch redeneren naar wereldmodellering. Terwijl vroege benaderingen voornamelijk vertrouwden op late fusie, die encoders en bevroren taalruggengraat combineert met uitvoerkoppen, hebben recente inspanningen het paradigma verschoven naar natieve multimodale modellering (NMM) met intrinsieke integratie van modaliteiten voor superieure multimodale prestaties. Ondanks het potentieel is de ontwerpruimte van natieve architecturen nog onvoldoende gedefinieerd. In dit artikel presenteren we de gemeenschap een geformaliseerde routekaart voor deze overgang. Specifiek definiëren we formeel de architecturale nativiteit, waarbij we middenfusie en vroege fusie onderscheiden van niet-natieve paradigma's. Verder ordenen we de bestaande natieve modellen door de lens van invoer-uitvoer dualiteit in drie categorieën: (i) Multi-naar-Tekst voor cross-modaal begrip met alleen tekstuitvoer; (ii) Multi-naar-Doel voor scenario-georiënteerde generatie, bijvoorbeeld afbeelding, audio en videogeneratie; en (iii) Multi-naar-Multi voor uniforme modellering met symmetrische invoer-uitvoer. We leveren een uitgebreid en industrieel onderzoek naar de overgang naar het definitieve NMM-framework, waar begrip en generatie naadloos naast elkaar bestaan binnen een uniform transformatorparadigma. We pakken systematisch de end-to-end pijplijn uit vanuit industriële perspectieven, van architecturale coördinatie, massale gegevenscuratie, tot full-stack trainingsrecepten, inferentie en implementatie, en de uitgebreide evaluatie voor echt native modellering.
Het trainen van grote multimodale modellen (LMM's) via reinforcement learning (RL) om native videoverwerkingstools (bijv. bijsnijden) aan te roepen, is een veelbelovende route geworden voor het begrijpen van lange video's. Bestaande native-RL-methoden sturen toolaanroepen echter sequentieel (d.w.z. één per beurt): een enkele verkeerde bijsnijding verspreidt fouten zonder peer-correctie, multi-turn toolaanroepen verstoren de context, en de inferentiekosten schalen lineair met het aantal beurten. We introduceren ParaVT, het eerste multi-agent end-to-end RL-getrainde raamwerk voor Parallelle Video Tool-aanroeping, waarbij meerdere tijdvenster-bijsnijdingen in één beurt worden verstuurd voor een schonere context en betere fouttolerantie. Het toepassen van standaard RL op ParaVT onthult echter een obstakel dat we de Tool Prior Paradox noemen: de voorgetrainde tool-priors die toolverkenning mogelijk maken, destabiliseren ook de koudgestarte structurele opmaak en leggen de skip-tool-beloningsshortcut bloot onder temperatuursampling. Een cross-model vergelijking op een zwakkere-prior LMM ondersteunt deze bewering: de opmaak blijft stabiel, maar RL levert nul toolaanroepen op, wat aangeeft dat priorsterkte de gemeenschappelijke drijfveer is van zowel formaatcollaps als toolverkenning. We stellen PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO) voor, dat standaard RL verrijkt met twee complementaire mechanismen: (i) een gerichte formaatbeloning die alleen wordt toegepast op de structurele tokenposities die het meest vatbaar zijn voor collaps, en (ii) een per-prompt frame-budget randomisatie die trainingsprompts creëert waarbij het aanroepen van de tool een meetbaar beloningssignaal oplevert ten opzichte van het overslaan ervan. Over zes benchmarks voor het begrijpen van lange video's verbetert ParaVT de Qwen3-VL-baseline met gemiddeld +7,9%, waarbij PARA-GRPO de trainingsformaatnaleving verhoogt van 0,13 naar 0,64. Naarmate toolmogelijkheden steeds meer worden geïnternaliseerd in moderne LMM's, moet RL samenwerken met de resulterende priors, en ParaVT biedt een algemeen recept voor agentic RL. Code, data en modelgewichten zijn openbaar beschikbaar.
Diepgaande onderzoeksagenten breiden de rol van zoekmachines uit van het ophalen van trefwoord-overeenkomende pagina's naar het synthetiseren van kennis, wat fundamenteel verandert hoe mensen met informatie omgaan. Huidige geavanceerde systemen blijven echter propriëtair, terwijl bestaande open agenten vaak slecht generaliseren over verschillende taaktypen, waardoor onduidelijk blijft hoe een breed inzetbare diepgaande onderzoeksagent getraind kan worden. We publiceren QUEST, een familie van open modellen (variërend van 2B tot 35B) die dienen als algemene diepgaande onderzoeksagenten, ontworpen om een breed scala aan langdurige zoektaken aan te kunnen, met sterke capaciteiten op het gebied van feitenonderzoek, citatie-verankering en reportsynthese. Om QUEST te bouwen, stellen we een effectieve trainingsreceptuur voor die mid-training, supervised fine-tuning en reinforcement learning combineert. Centraal in dit recept staat een gecureerde datasynthese-pijplijn gebaseerd op uniforme rubriekbomen, die toepasbaar is op verschillende taaktypen en het mogelijk maakt om trainingsdata met verifieerbare beloningen te synthetiseren zonder menselijke annotatie. Daarnaast bevat QUEST een ingebouwd contextbeheermechanisme dat effectief langdurig redeneren en kennissynthese mogelijk maakt. Met slechts 8K gesynthetiseerde taken benadert of overtreft QUEST huidige propriëtaire gesloten bron-agenten op acht diepgaande onderzoeksbenchmarks die diverse taaktypen beslaan, en behaalt het de beste algehele prestaties onder recente open-gewicht agenten. We hebben alles gepubliceerd: modellen, data en trainingsscripts.
Efficiënte aandachtalgoritmen zijn cruciaal om de kwadratische kosten van aandacht bij werklasten met lange context te verminderen. Eerder werk maakt gebruik van blokgeschalde kwantisatietechnieken op Blackwell-GPU's om de aandachtsberekening naar 4-bit-precisie te verplaatsen en zo de inferentie te versnellen. Deze technieken leiden echter tot aanzienlijke kwaliteitsvermindering in omgevingen met lange context. Wij tonen aan dat de uitvoerimpact van kwantisatiefouten sterk niet-uniform is en toeneemt naarmate het belang van elke query-sleutelinteractie groter wordt, waarbij functioneel relevante fouten zich concentreren in een klein aantal aandachtsblokken die de belangrijkste tokens bevatten. Wij stellen ThriftAttention voor, een laag-bits-aandachtvariant die bijna FP16-kwaliteit voor lange context levert met FP4-inferentie-efficiëntie. Deze aanpak verloopt in twee fasen. Ten eerste selecteert een heuristiek snel een klein aantal belangrijke query-sleutelblokparen voor FP16-precisie. Ten tweede worden de geselecteerde blokken in FP16 berekend en de overige blokken in FP4, waarbij beide paden via online softmax worden samengevoegd tot één uitvoer. Wij tonen aan over benchmarks voor lange context en modelfamilies heen dat door slechts 5% van de query-sleutelblokken in FP16 te berekenen, ThriftAttention gemiddeld 89,1% van de FP4-naar-FP16-prestatiekloof herstelt. Wij laten zien dat het voordeel van ThriftAttention toeneemt met de sequentielengte, waardoor de systematische FP4-kwaliteitsvermindering die bij langere contexten wordt waargenomen, wordt beperkt. De code is beschikbaar op https://github.com/joesharratt1229/ThriftAttention.
Wetenschappelijk onderzoek wordt hervormd door AI-systemen die verder gaan dan geïsoleerde ondersteuning en zich richten op workflows met een langere horizon, die literatuurverankering, hypothesengeneratie, experimentatie, validatie, rapportage en revisie omvatten. Deze verschuiving markeert een overgang van taakniveau-AI voor wetenschap naar onderzoeksautomatisering op workflowniveau. Toch blijven huidige systemen gefragmenteerd, met verschillen in autonomie, domeinbereik, uitvoeringsomgeving, validatiemechanisme en menselijk toezicht, terwijl ze nog steeds worstelen met bewijsbewaring, reproduceerbaarheid, afwijzing van zwakke richtingen, herkomstregistratie, cross-domein robuustheid en verantwoorde wetenschappelijke afsluiting. Dit overzicht onderzoekt deze ontwikkelingen via AutoResearch, gedefinieerd als het ontwikkelingsspectrum van AI-gestuurde automatisering van wetenschappelijke workflows. Binnen dit spectrum staat Vibe Research voor het mensgestuurde gebied van promptgebaseerde ondersteuning en door mensen geverifieerde uitvoering, terwijl opkomende AI-geleide systemen grotere delen van de ontdekkingscyclus coördineren zonder robuuste autonomie te bereiken. We analyseren hoe onderzoekssystemen controle, bewijs, uitvoering, validatie en verantwoordelijkheid herverdelen over workflows en ordenen het veld rond vijf workflowcondities: literatuur- en onderzoeksverankering; hypothesievorming en planning; experimentatie en toolgebruik; feedback, validatie en review; en rapportage en kenniscommunicatie. Verder synthetiseren we AI-wetenschappersystemen, mixed-initiative co-onderzoekskaders, benchmarks, domeinimplementaties en open-source-infrastructuren. Tot slot stellen we vijf evaluatiedimensies voor—nieuwheid, validiteit, impact, betrouwbaarheid en herkomst—en tonen aan dat AutoResearch-autonomie domeingebonden is, geloofwaardiger in gestructureerde, uitvoerbare en snel verifieerbare omgevingen, maar beperkt in belichaamde, vertraagde, heterogene, ethische of institutioneel verantwoorde contexten.
Multimodale retrieval steunt sterk op enkel-vector retrievers, die rijke, sequentiële tokenreeksen comprimeren in één enkele globale representatie. Hoewel efficiënt, verwerpen ze fijnmazig, lokaal bewijs dat cruciaal is voor dense retrievaltaken. Multi-vector benaderingen werden geïntroduceerd als oplossing, maar ze vereisen strikt training en velen negeren de noodzaak van een globaal samenvattende representatie. Om dit aan te pakken introduceren we SMART, een raamwerk dat de latente multi-vector mogelijkheden van standaard enkel-vector modellen ontgrendelt. We tonen eerst aan dat standaard contrastieve training op de gepoolde embedding impliciet de retrievalgeometrie van voorgaande verborgen toestanden vormgeeft via gradiëntstroom. Door directe late-interactie toe te passen over deze bevroren verborgen toestanden tijdens inferentie, fungeert SMART als een plug-and-play upgrade die consistent de prestaties over diverse modaliteiten verbetert, en zelfs de state-of-the-art modellen verder verbetert op MMEB-V2. We onthullen ook de superieure prestaties van SMART, aangezien eenvoudige lichtgewicht post-training niet alleen tijd en rekenkracht bespaart, maar ook verdere verbetering oplevert op visuele documentretrieval, waardoor een enkel-vector model de state-of-the-art multi-vector tegenhangers overtreft. Uiteindelijk biedt SMART zowel een zeer efficiënte inferentieverbetering als een krachtige finetuning-techniek voor multimodale retrieval. We stellen onze code en gewichten open source beschikbaar op https://github.com/HanSolo9682/SMART.
Het genereren van complete digitale tweelingen uit video's vereist nauwkeurige camerabesturing, wereldwijde scènedekking en strikte ruimtelijk-temporele consistentiebeperkingen die uitdagend blijven voor perspectiefvideogeneratoren vanwege hun beperkte gezichtsveld (FoV). Hun smalle gezichtsveld dwingt tot lange of multi-view trajecten, wat cross-view inconsistentie en temporele drift versterkt. Wij stellen dat 360° videogeneratie een natuurlijke oplossing biedt: panoramische dekking vereenvoudigt het trajectontwerp en biedt een sterke mondiale context voor het behouden van coherentie. We introduceren Pantheon360: het temmen van digitale tweelinggeneratie via 3D-bewuste 360° videodiffusie, een beheersbaar raamwerk voor 360° videogeneratie dat hoogwaardige video's synthetiseert uit spaarzame 360° invoer. Het kernidee is een expliciete 3D-cache, gereconstrueerd uit de invoer, die dient als geometrische steiger voor elk door de gebruiker gedefinieerd camerapad. Hierdoor kan het diffusiemodel zich richten op fotorealistische textuurverfijning, terwijl de 3D-cache wereldwijde geometrische consistentie afdwingt. Experimenten tonen aan dat Pantheon360 superieure visuele kwaliteit en ongeëvenaarde geometrische coherentie bereikt, wat betrouwbare en flexibele 360° scènegeneratie mogelijk maakt voor stroomafwaartse simulatie- en digitale tweelingtoepassingen.
Reinforcement learning met verifieerbare beloningen (RLVR) heeft doorbraken mogelijk gemaakt in domeinen zoals wiskunde, toolgebruik en software-engineering, maar de uitbreiding ervan naar computergebruikagenten (CUAs) wordt gebottlenecked door de schaarste aan schaalbare trainingsdata met deterministische beloningen. Het construeren van dergelijke data voor CUAs vereist consistente taakinstructies, een uitvoerbare omgeving en een verifieerbare beloning. Handmatig samengestelde benchmarks bereiken echter een hoge beloningsgetrouwheid, maar bestrijken slechts een beperkt aantal toepassingen, terwijl datasets op basis van LLM-als-rechter wel breed schalen, maar geen betrouwbare verificatie bieden. We presenteren CUA-Gym, een schaalbare pijplijn die taakinstructies, omgevingstoestanden en beloningsfuncties co-genereert. Concreet construeert een Generatoragent de initiële en gouden omgevingstoestanden, en een aparte Discriminatoragent schrijft de beloningsfunctie op basis van de taakspecificatie. Een orkestratoragent drijft de twee door middel van iteratieve rondes tijdens uitvoering aan. Gegenereerde tuples passeren vervolgens een eindfilter dat LLM-meerderheidsstemming combineert met agent-uitrols, wat de kwaliteit waarborgt, voorbij de per-taak adversary-lus. Om de schaarste aan trainingsomgevingen aan te pakken, synthetiseren we bovendien CUA-Gym-Hub, een brede suite van hooggetrouwe mock-webapplicaties die gebaseerd zijn op realistische softwaregebruiksverdelingen, waarmee de schaal van CUA-RLVR-data met een orde van grootte wordt vergroot. Met deze pijplijn construeren we CUA-Gym, een dataset van 32.112 geverifieerde RLVR-trainingsduples, geworteld in 110 omgevingen. Getraind met GSPO op CUA-Gym, bereiken onze CUA-Gym-A3B en CUA-Gym-A17B respectievelijk 62,1% en 72,6% op OSWorld-Verified, waarmee ze eerdere open-source CUAs van vergelijkbare schaal overtreffen, met een soepele schaling in zowel datavolume als omgevingsdiversiteit. Dezelfde checkpoints verbeteren ook op de aparte WebArena-benchmark, wat wijst op transfer buiten de trainingsomgevingen. We zullen de volledige synthese-pijplijn, dataset, CUA-Gym-Hub-omgevingen en modellen open-sourcen.
Bestaande op deep learning gebaseerde methoden voor verbetering bij weinig licht worden doorgaans getraind op beperkte datasets met enkelvoudige verbeterdoelen, wat hun generalisatievermogen en controleerbaarheid in praktijktoepassingen beperkt. Om deze beperkingen te overwinnen, introduceren we ControlLight, een controleerbaar, consistent en generaliseerbaar raamwerk voor verbetering bij weinig licht. We construeren eerst een grootschalige dataset van echte gedegradeerde beelden met continue supervisie van de lichtsterkte. Om consistente uitvoer onder verschillende controlesterktes te garanderen, introduceren we een misalignatie-bewust gewogen stroommatchingverlies dat de beeldstructuur behoudt over continue verbetersterktes. ControlLight stelt gebruikers in staat om echte gedegradeerde beelden bij weinig licht te bewerken naar bevredigende verbeterresultaten door flexibel de sterkte te regelen, terwijl visuele consistentie en realisme behouden blijven. Uitgebreide experimenten tonen aan dat ControlLight state-of-the-art prestaties levert ten opzichte van bestaande benaderingen voor verbetering bij weinig licht, terwijl het sterke continue controleerbaarheid en generalisatie naar praktijkscenario's laat zien.
Grote taalmodellen agents worden steeds vaker gezien als altijd actieve persoonlijke assistenten met toegang tot alles wat relevant is in de digitale wereld van de gebruiker. Toch werken huidige systemen slechts over smalle delen van die wereld, wat contextgevoelig redeneren en effectieve ondersteuning beperkt. Bestaande benchmarks bieden eveneens slechts gedeeltelijke gebruikersstatus en slagen er daarom niet in om prestaties in zo'n brede, altijd actieve setting te meten. Om deze lacune aan te pakken, introduceren we Claw-Anything, een benchmark die de agentcontext uitbreidt langs drie dimensies: lange-termijnactiviteitengeschiedenissen, onderling afhankelijke backenddiensten en geïntegreerde GUI- en CLI-interactie over meerdere apparaten. Om deze setting te instantiëren, simuleren we maanden van gebruikersactiviteit door middel van meerronde gebeurtenisinjectie, wat complexe wereldtoestanden en realistische ruis oplevert, inclusief irrelevante gebeurtenissen en tegenstrijdige signalen. Agenten moeten redeneren over rijke contextuele omgevingen terwijl ze robuust blijven tegen dergelijke ruis. Deze uitgebreide reikwijdte maakt ook de evaluatie van proactieve ondersteuning mogelijk, waarbij agenten de behoeften van gebruikers moeten anticiperen en tijdige aanbevelingen moeten doen. Experimenten tonen aan dat GPT-5.5 slechts 34,5% pass@1 behaalt, aanzienlijk lager dan eerdere benchmarks, wat een kloof onderstreept tussen huidige agentcapaciteiten en de eisen van altijd actieve persoonlijke assistentie. Naast de benchmark publiceren we een geautomatiseerde datageneratiepijplijn die 2.000 trainingsomgevingen oplevert en het basismodel met 23,7% verbetert, wat het nut van schaalbare datainfrastructuur aantoont.
Hoewel AI-agenten opmerkelijke capaciteiten vertonen op het gebied van redeneren en het gebruik van hulpmiddelen, blijven ze fundamenteel reactief: ze berekenen antwoorden pas na expliciete gebruikersaanwijzingen. Dit paradigma laat een cruciale kans liggen: de inactieve tijd tussen interacties wordt grotendeels verspild, waardoor agenten niet in staat zijn zich voor te bereiden op toekomstige gebruikersbehoeften. Om deze kloof te overbruggen introduceren we ProAct, een proactieve agentarchitectuur die rekentijd tijdens inactiviteit benut om waarschijnlijke toekomstige gebruikersbehoeften te anticiperen en te vervullen. Door de evoluerende dialooggeschiedenis samen met aanhoudend geheugen te analyseren, voorspelt ProAct aankomende behoeften en verzamelt iteratief informatie, waardoor de agent kennislacunes kan oplossen en bewijsmateriaal kan voorbereiden voordat de gebruiker een vraag stelt. Om proactieve capaciteiten rigoureus te evalueren, introduceren we ook ProActEval, een uitgebreide benchmark met 200 scenario's in 40 domeinen, met voorspelbare behoeftenketens en uiteenlopende cognitieve gebruikersprofielen. Empirische resultaten tonen significante voordelen aan ten opzichte van reactieve basislijnen. ProAct versnelt taakvoltooiing door het benodigde aantal beurten met 14,8% te verminderen, vermindert gebruikersinspanning met 11,7% en verlaagt hallucinatiepercentages met 28,1% op ProActEval. Bovendien bevestigen MemBench-evaluaties dat ProAct state-of-the-art reflectieve nauwkeurigheid bereikt, wat de aanhoudende en robuuste prestaties benadrukt.
Autoregressieve videogeneratoren zijn aantrekkelijk voor streaming, langdurige en interactieve toepassingen, maar het distilleren van sterke black-box-leraren naar causale studenten blijft moeilijk. De student moet leren onder zijn eigen rollout-distributie, terwijl praktische leraren alleen prompt-geconditioneerde voltooide video's kunnen tonen en kunnen verschillen in architectuur, capaciteit, temporeel ontwerp en bemonsteringsschema. Deze interface maakt supervised fine-tuning off-policy, op scores gebaseerde distillatie niet toepasbaar, en directe adversariële imitatie te schaars voor creditassignment tijdens denoising. Wij stellen Adversarial Flow Distillation (AFD) voor, een on-policy-raamwerk voor heterogene black-box-videodistillatie. AFD bevraagt de leraar en rolt de huidige student uit op dezelfde prompts, traint een prompt-gepaarde Bradley-Terry-discriminator om de discrepantie tussen leraar en student op schone samples te schatten, en converteert het resulterende on-policy-voordeel naar forward-process-flow-matching-updates op de eigen geruisde toestanden van de student. AFD biedt dus dichte snelheidsveldsupervisie zonder dat er lerarenscores, latents, denoisingtrajecten, stapafstemming of reverse-chain-reinforcement-learning nodig is. Experimenten met twee causale AR-studentenfamilies tonen aan dat AFD consistent de generatie van bewegings- en fysicagevoelige aspecten verbetert terwijl de algemene videokwaliteit behouden blijft, en ablatiestudies bevestigen het belang van adaptieve on-policy-feedback en forward-process-creditassignment. De methode vereist alleen schone lerarenvideo's en student-rollouts, wat een praktische route biedt voor het distilleren van propriëtaire of heterogene videogeneratoren naar efficiënte autoregressieve studenten.
Grote taalmodellen (LLM’s) die als agenten fungeren, bouwen tijdens het oplossen van realistische taken rijke episodische trajecten op, maar het is onduidelijk of dergelijke ervaring kan worden gedistilleerd tot herbruikbare procedurele vaardigheden. Wij introduceren SkillEvolBench, een diagnostische benchmark om deze stap van ervaringshergebruik naar vaardigheidsvorming te evalueren. De benchmark omvat 180 taken verspreid over zes realistische agentomgevingen, georganiseerd in rolgebonden taakfamilies met gedeelde latente procedures. Agenten leren van verwervingstaken, werken een externe vaardigheidsbibliotheek bij met behulp van gecomprimeerde trajecten en verificatorfeedback, en worden vervolgens geconfronteerd met bevroren implementatietaken die contextverschuiving, tegenstrijdige snelkoppelingen en compositie testen. Door zelf gegenereerde en van een gecureerde start voorziene vaardigheidsevolutie te vergelijken met controles zonder vaardigheden en met ruwe trajecten, scheidt SkillEvolBench procedurele abstractie van basisvaardigheid, gecureerde voorkennis en direct hergebruik van episodische sporen. Over tien modelconfiguraties en drie agent-harnassen heen vinden we dat huidige agenten zich vaak lokaal aanpassen, maar zelden robuuste herbruikbare vaardigheden vormen. Op vaardigheden gebaseerde condities kunnen de verwerving of herhaling verbeteren, en individuele modellen boeken soms vooruitgang op specifieke implementatie-assen, maar deze winst is onstabiel onder bevroren implementatie. Hergebruik van ruwe trajecten presteert vaak beter dan gedistilleerde vaardigheden, wat erop wijst dat huidige abstractieprocedures contextuele en procedurele aanwijzingen weggooien die nuttig blijven voor toekomstige taken. Capaciteits- en kostenanalyses tonen verder aan dat het schrijven van meer vaardigheden of grotere Tier-3-bronnenbibliotheken niet voldoende is: extra updates kunnen de dekking verbeteren, maar introduceren ook episodespecifieke drift en procedurele rommel. Deze bevindingen positioneren SkillEvolBench als een testbed om te meten wanneer eenmalige ervaring verandert in duurzame procedurele kennis in plaats van taaklokaal geheugen.
We presenteren Kanaalgewijze Vectorkwantisering (CVQ), een nieuwe beeldtokenisatieparadigma dat patchgewijze tokens vervangt door kanaalgewijze tokens. In tegenstelling tot conventionele vectorkwantisering, die een discreet token toewijst aan elke patchkenmerkvector, kwantiseert CVQ elk kanaal van de kenmerkenkaart. Deze formulering stelt een beeld voor als discrete niveaus van visuele details, in plaats van als een grid van ruimtelijke patches. Op basis van CVQ introduceren we een nieuw visueel autoregressief raamwerk met "volgende-kanaalvoorspelling". In plaats van beelden patch voor patch in rastervolgorde weer te geven, voorspelt ons Kanaalgewijze Autoregressieve (CAR) model opeenvolgend de kanalen, wat leidt tot progressief verrijkte visuele details. Specifiek schetst het eerst de globale structuur en verfijnt het daarna de fijnmazige attributen, vergelijkbaar met de werkwijze van een menselijke kunstenaar. Empirisch tonen we aan dat: (1) CVQ een 100% codeboekgebruik bereikt met een codeboekgrootte van 16K+ zonder enige extra trucs, en de reconstructiekwaliteit aanzienlijk verbetert ten opzichte van conventionele VQ; en (2) CAR een DPG-score van 86,7 en een GenEval-score van 0,79 behaalt, wat de sterke effectiviteit voor tekst-naar-beeld generatie aantoont.
Geheugen is een fundamenteel onderdeel voor het mogelijk maken van LLM-agenten met lange context, waarbij persistente toestand wordt ondersteund in interacties door middel van een continue server-en-updatelcyclus. Ondanks aanzienlijk eerder werk, lijden bestaande systemen onder aanzienlijke onderhoudsoverhead vanwege twee belangrijke beperkingen: grofkorrelig toestandsbeheer en inherent sequentiële updatepijplijnen. In het bijzonder zijn updates vaak nauw gekoppeld aan LLM-inferentie en vereisen ze volledige toestandsherschrijvingen, wat leidt tot slechte schaalbaarheid en toenemende latentie naarmate het geheugen accumuleert. Om deze uitdagingen aan te pakken, presenteren we MemForest, een geheugenframework dat agentgeheugen herformuleert als een schrijfefficiënt tijdelijk gegevensbeheerprobleem. MemForest doorbreekt de sequentiële bottleneck via parallelle chunkextractie, waardoor geheugenconstructie wordt ontkoppeld in gelijktijdige, onafhankelijke bewerkingen. Om grofkorrelig onderhoud verder te elimineren, introduceren we MemTree, een hiërarchische temporele index die geheugen organiseert als tijdsgeordende bomen in plaats van platte globale samenvattingen. Dit ontwerp vervangt volledige toestandsherschrijvingen door gelokaliseerde per-node-updates, waardoor onderhoudskosten worden beperkt tot de getroffen boompaden terwijl tijdelijk evoluerende toestanden natuurlijk behouden blijven. We evalueren MemForest op twee lange-context-geheugenbenchmarks, LongMemEval-S en LoCoMo. Op LongMemEval-S behaalt MemForest de beste algehele prestaties onder stateful-baselines, met een pass@1-nauwkeurigheid van 79,8% terwijl het een geheugenconstructiedoorvoer handhaaft die ongeveer 6x hoger is dan state-of-the-art benaderingen, waaronder EverMemOS.
Recente vooruitgang in generatieve modellen benadrukt de kracht van geometriebewuste modellering in variëteit-gebonden omgevingen. Voor natuurlijke beelden blijft het vakgebied echter beperkt tot Euclidische aannames, zonder gebruik te maken van het potentieel van intrinsieke geometrische structuren binnen de data. In dit werk onderzoeken we de geometrie van natuurlijke beelden en observeren we dat semantische informatie voornamelijk is gecodeerd in directionele componenten, terwijl normcomponenten kunnen worden benaderd door het globale gemiddelde. Deze eigenschap geldt voor zowel RGB- als latente ruimtes, wat suggereert dat natuurlijke beelden effectief kunnen worden gemodelleerd op een hypersfeer. Voortbouwend op deze bevinding introduceren we Sferische Optimale Transport Stroom Matching (SOT-CFM), gebruikmakend van hoekafstand, en Sferische Stroom Matching (SFM), die dynamica direct op de variëteit beperkt. Onze experimenten tonen aan dat deze geometriebewuste methoden superieure prestaties leveren ten opzichte van Euclidische basislijnen. Dit werk biedt uiteindelijk een nieuw perspectief dat de kloof overbrugt tussen modellering op basis van Riemannse variëteiten en de generatie van natuurlijke beelden.
In dit artikel introduceren we InstructSAM, een uniform en gestroomlijnd raamwerk ontworpen voor multi-instantiesegmentatie onder willekeurige instructies. We formuleren instructiegestuurde instantiesegmentatie als een set-gestructureerd queryvoorspellingsprobleem en stellen een expliciete redenering-naar-instantie queryinterface voor die elegant een visie-taalmodel (VLM) en SAM3 met elkaar verbindt. Specifiek wordt een verzameling leerbare instantiequeries in de VLM geïnjecteerd en gecontextualiseerd met instructie en visuele informatie, waardoor elke query kan dienen als een instantiebewuste slot. Een hybride-aandachtsmechanisme bevordert verder de interactie tussen deze queries, visuele tokens en instructietokens, wat de instantie-enumeratie verbetert en dubbele voorspellingen vermindert. De resulterende LLM-geconditioneerde queries worden geprojecteerd in de detectorqueryruimte van SAM3 om nauwkeurige multi-instantiesegmentatie in één enkele voorwaartse doorgang te realiseren. Dit ontwerp voorziet SAM3 van hoogwaardig instructiebegrip, compositioneel redeneren en instantieniveau-setvoorspelling zonder de kernarchitectuur te wijzigen. Ter ondersteuning van training en evaluatie construeren we verder Inst2Seg, een hoogwaardige en grootschalige instructiegebaseerde instantiesegmentatiedataset en benchmark die vrije-vorminstructies koppelt aan instantieniveau-maskers. Uitgebreide experimenten tonen aan dat alleen InstructSAM op 2B-schaal sterke resultaten behaalt op complexe instructiegestuurde en zinsniveaurefererende segmentatiebenchmarks, waarbij het eerdere end-to-endmethoden en de agentische pijplijn van SAM3 overtreft en tegelijkertijd efficiënte single-pass multi-instantievoorspelling mogelijk maakt.
Redeneringsketens (chains of thought, CoTs) zijn centraal komen te staan bij het interpreteren en auditen van het gedrag van grote taalmodellen. Toch wijst groeiend bewijs erop dat deze sporen vaak niet getrouw de berekeningen weergeven die achter de voorspellingen van een model zitten. Er zijn verschillende metrieken voor getrouwheid voorgesteld, maar of ze daadwerkelijk getrouwheid meten blijft onbekend. Het beantwoorden hiervan vereist grondwaarheidslabels, die moeilijk te verkrijgen zijn omdat interne berekeningen niet direct waarneembaar zijn. Bijgevolg rapporteren de meeste studies die metrieken voorstellen alleen absolute scores of vergelijkingen met eerdere metrieken, en de weinige bestaande benchmarks gebruiken proxies zoals plausibiliteit of belangrijkheid – eigenschappen die orthogonaal zijn aan getrouwheid en kunnen misleiden over de mate waarin een CoT betrouwbaar is. Wij pakken deze uitdaging aan door taken te construeren waarvan de uitkomsten onthullen welke tussenliggende berekeningen ze moeten hebben opgeleverd, en ontwikkelen een geautomatiseerde labelpijplijn die grondwaarheidslabels voor getrouwheid oplevert op zowel stap- als CoT-niveau. Voortbouwend op deze methodologie presenteren we BonaFide, een benchmark van 3.066 gelabelde CoTs over 13 taken en 10 modellen, en gebruiken we deze om de eerste systematische evaluatie van prominente getrouwheidsmetrieken uit te voeren. Onze experimenten tonen aan dat de meeste metrieken niet beter presteren dan toeval, sterke voorspellingsvertekeningen vertonen en achteruitgaan bij langere CoTs. De beste metriek haalt slechts 0,70 AUROC op CoT-niveau, terwijl een andere 0,59 haalt op stapniveau, waarbij geen van beide overdraagbaar is over settings, en beide gepaard gaan met prohibitief hoge rekenkosten. Onze resultaten leggen fundamentele hiaten bloot in de huidige evaluatie van getrouwheid en roepen op tot de ontwikkeling van betrouwbaardere en efficiëntere metrieken.
Op transformatoren gebaseerde grote taalmodellen worden steeds vaker gebruikt voor taken met een lange tijdshorizon; hun aandachtsmechanisme schaalt echter slecht met de contextlengte. Om dit aan te pakken, bestuderen we een slaapachtig consolidatiemechanisme waarin een model periodiek recente context omzet in persistente snelle gewichten voordat het de key-value cache wist. Tijdens de slaap voert het model N offline recurrente passages uit over de geaccumuleerde context en werkt het de snelle gewichten in de toestandsruimtemodel (SSM) blokken bij via een aangeleerde lokale regel. Tijdens de inferentie verplaatst dit extra berekening naar de slaap, terwijl de latentie van voorspelling tijdens wakkertijd behouden blijft. We testen onze methode op gecontroleerde synthetische taken, waaronder cellulaire automaten en multi-hop graafretrieval, evenals een realistische wiskundige redeneertaak, waar een reguliere transformator en SSM-aandacht hybride modellen falen. Vervolgens tonen we aan dat het verhogen van de slaapduur N voor onze modellen de prestaties verbetert, met de grootste winst bij voorbeelden die diepere redenering vereisen.
Huidige video-naar-4D-methoden hebben moeite met complexe topologieveranderingen, transparante materialen, dunne structuren en binnenoppervlakken. Wij presenteren Helix4D, een raamwerk voor dynamische meshgeneratie dat de expressieve representatie van Trellis2 overneemt en deze aanpast van beeld-naar-3D naar video-geconditioneerde 4D-generatie. Ons ontwerp komt voort uit twee kernvragen: (a) hoe kan de frame-lokale aandacht van Trellis2 informatie uitwisselen tussen frames, terwijl de voorgetrainde kwaliteit op zeldzame gevallen zoals transparante objecten en binnenoppervlakken behouden blijft, en (b) hoe kan temporele informatie worden geïnjecteerd in een puur 3D-positionele codering zonder de voorgetrainde capaciteiten te verstoren. We pakken (a) aan met een schuifraam-kruisframe-aandacht die verankerd is op het eerste frame. Het eerste frame wordt gegenereerd door het basismodel Trellis2 en in ons model geïnjecteerd, zodat het via kruisframe-aandacht de kwaliteit van Trellis2 in zeldzame gevallen overneemt. We pakken (b) aan met een 4D-temporele codering die redundante laagfrequente ruimtelijke RoPE-banden hergebruikt voor tijd, waardoor de codering wordt uitgebreid van 3D zonder extra parameters. Uitgebreide experimenten tonen de effectiviteit van Helix4D voor hoogwaardige dynamische meshgeneratie op ActionBench en onze eigen uitdagende complexe-dynamicaset.
Videovoorspelling wordt steeds vaker gezien als een weg naar generaliseerbare wereldmodellen, maar het blijft onduidelijk of deze systemen onderliggende causale structuur leren of slechts oppervlakkige visuele correlaties exploiteren voor toekomstvoorspelling. We introduceren CRONOS, een op interventies gebaseerde benchmark ontworpen om contrafeitelijke fysieke consistentie te evalueren: of de voorspellingen van een model van fysieke gebeurtenissen op gepaste wijze reageren op gecontroleerde veranderingen in de visuele input, zoals variaties in scènecontext, gezichtspunt, objectuiterlijk en objectcategorie. Gebouwd in een fotorealistische Unreal Engine-omgeving maakt CRONOS gecontroleerde, hoogwaardige generatie van video's over diverse scènes en dynamieken mogelijk. In tegenstelling tot eerdere benchmarks grijpt CRONOS systematisch in op vier sleutelfactoren – gezichtspunt, scène, objectcategorie en objectuiterlijk – terwijl het onderliggende fysieke gebeurtenistype, zoals een botsing, occlusie of val, vast blijft. Onze evaluatie van recente open-source videogeneratoren onthult substantiële falen in contrafeitelijke fysieke consistentie: voorspellingskwaliteit voor hetzelfde fysieke gebeurtenistype wordt beïnvloed door uiterlijk, omgeving, en met name door veranderingen van gezichtspunt. CRONOS biedt een gecontroleerd en reproduceerbaar testbed voor het diagnosticeren van hoe de kwaliteit van gegenereerde video's verandert bij verschillende interventies, waarmee een concreet doel wordt gesteld voor het ontwikkelen van modellen die consistent presteren over veranderingen van meerdere omstandigheden. De dataset en code zijn beschikbaar op onze projectpagina.
Metaforische video's komen veelvuldig voor in diverse realistische scenario's om complexe ideeën over te brengen, en het begrijpen ervan vereist doorgaans hogere cognitieve vermogens. Het ontbreken van systematische studies naar het begrijpen van metaforische video's beperkt niet alleen de praktische toepasbaarheid van MMLM's, maar belemmert ook de grondige beoordeling van hun hogere cognitieve vermogens. Om deze kloof te overbruggen, introduceren we MetaphorVU-Bench, de eerste systematische en uitgebreide benchmark die specifiek gericht is op het begrijpen van metaforische video's. Uit experimenten blijkt dat huidige MMLM's moeite hebben met accuraat begrip van metaforische video's en ver achterblijven op menselijk niveau, voornamelijk vanwege gebrekkige cross-domain mapping. Naar aanleiding van deze bevinding construeren we een metaforenkennisdatagraaf als mapping-augmentatie en stellen we MetaphorBoost voor, een raamwerk voor verbetering tijdens inferentie dat consistente prestatieverbeteringen oplevert. Onze benchmark, analyse en methode bieden nuttige inzichten en een basis voor toekomstig onderzoek naar de vooruitgang van MMLM's.
Unified multimodale begrips- en generatiemodellen maken rijkere mens-AI-interactie mogelijk. Het gezamenlijk aanpassen van het persona, de dialoogstijl en de visuele identiteit van een personage, terwijl de outputconsistentie over modaliteiten behouden blijft, is echter grotendeels onontgonnen. Om deze kloof te dichten, introduceren we een nieuwe taak: Customized Multimodal Role-Play (CMRP). We construeren de RoleScape-20-dataset bestaande uit 20 personages, met trainings- en evaluatiegegevens die persona, stilistische beschrijvingen, visuele/expressieve aanwijzingen en tekst-beeldinteracties omvatten. Voortbouwend op een unified model, ontwikkelen we UniCharacter, een tweetraps trainingsframework met Unified Supervised Finetuning (Unified-SFT) en personagespecifieke groepsrelatieve beleidsoptimalisatie (Character-GRPO). Met slechts 10 afbeeldingen plus bijbehorende interactievoorbeelden verwerft het model het doelpersonage en vertoont het een coherent persona, stijl en visuele identiteit in zowel gegenereerde tekst als afbeeldingen. Dit proces duurt ongeveer 100 GPU-uren. Experimenten op de RoleScape-20-dataset tonen aan dat de voorgestelde methode aanzienlijk beter presteert dan eerdere benaderingen. Ablatiestudies bevestigen verder de effectiviteit van onze cross-modale consistentieontwerp en few-shot-aanpassingsstrategie. We stellen dat CMRP, gekoppeld aan unified modeling, een basis biedt voor de volgende generatie karaktervolle en meeslepende interactieve agenten.
Tekst-naar-beeld diffusiemodellen zoals Stable Diffusion genereren hoogwaardige afbeeldingen vanuit tekst, maar missen een manier om visuele sturing (bijv. schetsen, stijlen) tijdens inferentie te injecteren zonder hertraining. Bestaande methoden vereisen ofwel rekenintensieve finetuning of vertrouwen op stijloverdrachttechnieken die het risico lopen op semantische misalignatie met tekstuele prompts. Wij introduceren Visual Concept Fusion (VCF), de eerste methode die dubbele conditionering biedt op zowel een afbeelding als een tekstprompt tijdens inferentie, zonder enige conceptspecifieke training. VCF maakt visuele conceptinjectie in Stable Diffusion mogelijk door CLIP-beeldkenmerken uit te lijnen met de tekstinbeddingsruimte. VCF bestaat uit drie componenten: (1) een lichtgewicht aligner die beeldtokens naar de tekstinbeddingsmanifold in kaart brengt met behulp van InfoNCE- en cross-attention reconstructieverliezen, (2) een fusiestrategie die zowel tekstuele als visuele semantiek behoudt, en (3) een optionele Prompt-Noise Optimization (PNO)-module voor testtijdverfijning. Onze experimenten tonen aan dat VCF met succes visuele attributen zoals stijl, compositie en kleurenpalet van referentiebeelden overdraagt, terwijl de trouw aan de prompt behouden blijft. Kwantitatieve resultaten tonen een afweging aan tussen tekstalignatie (CLIP-score) en visuele correspondentie (LPIPS), waarbij VCF de basislijnen overtreft in referentietrouw.
Generatieve prior in beeld-superresolutie (SR) gaat vaak ten koste van getrouwe reconstructie; wij schrijven deze beperking toe aan een fundamentele spectrale afwijking tussen isotrope doelstellingen en de intrinsieke natuurlijke beeldvariëteit. Hoewel Direct Preference Optimization een pad naar afstemming biedt, schiet de afhankelijkheid van spectraal vlakke Gaussische ruis tekort om authentieke hoogfrequente details van hallucinaties te onderscheiden. Om deze geometrische kloof te overbruggen, stellen we ASASR voor, een theoretisch onderbouwd raamwerk dat de generatieve stroom hervormt tot een Sobolev-geïnduceerde Riemann-meetkunde door expliciet de ruisovergangskern te kleuren om het natuurlijke spectrale verval te weerspiegelen. Ter aandrijving van deze geometrische afstemming integreren we een parametrische tegenstander gebaseerd op de Riesz-representatiestelling, die gerichte negatieve monsters synthetiseert die equivalent zijn aan Sobolev-gradiënten in het slechtste geval, om optimalisatie te sturen langs de raakruimte van plausibele structurele fouten. Uitgebreide evaluaties tonen aan dat ASASR beter presteert dan toonaangevende generatieve basislijnen, met name in het behouden van spectrale consistentie en structurele getrouwheid, en biedt een robuuste oplossing die artefacten effectief vermindert.
Large Language Model (LLM)-agenten worden steeds vaker verbeterd door interactie, maar de meeste zelfevolutiemethoden passen ofwel het beleid ofwel de leeromgeving afzonderlijk aan. Wij identificeren deze structurele leemte als een afstemmingsprobleem tussen agent en omgeving (Agent-Environment Misalignment): de vaardigheidsgrens van de agent verandert tijdens de training, terwijl de omgeving die toezicht biedt statisch blijft of slechts zwak gekoppeld is aan de onthulde tekortkomingen van de agent. Wij stellen SEAL voor, een gesloten-lus co-evolutieraamwerk voor interactieve tool-gebruikende agenten. SEAL verzamelt on-policy trajecten onder uitvoerbare verificatie, diagnosticeert mislukte rollouts in faallabels op beurtniveau en gebruikt deze diagnoses als een gedeeld signaal voor zowel omgevingsaanpassing als modelbeleidsoptimalisatie. De omgeving evolueert haar trainingsinterface door duidelijkere aanwijzingen voor tool-affordanties, beperkingsinformatie en herstelgerichte feedback bloot te leggen, terwijl het beleid wordt bijgewerkt met diagnose-geleide herweging van voordelen. Uitgebreide experimenten met multi-turn tool-gebruiksevaluaties binnen en buiten de distributie tonen aan dat SEAL het leren van agenten met weinig middelen verbetert: met slechts 400 trainingssamples levert het +8,25 tot +26,25 gemiddelde puntwinsten op over drie backbones en vertoont het positieve buitendistributietransfer. Deze resultaten tonen de waarde aan van het gezamenlijk aanpassen van de lerende en zijn trainingsleersubstraat voor robuuste zelfverbeterende LLM-agenten.
Recentelijk hebben Reinforcement Learning with Verifiable Rewards (RLVR) en Test-Time Scaling (TTS) de LLM-codegeneratie vooruitgeholpen door middel van uitvoerbare verificatie. Toch blijven Grondwaarheid Eenheidstests (GT UTs) een knelpunt: state-of-the-art RLVR-methoden hebben ze nodig voor dure training, terwijl bestaande TTS-methoden zonder hen concurrentievermogen verliezen. Dit motiveert GT-vrije TTS, waarbij bestaande methoden direct zelf gegenereerde UTs gebruiken om codekandidaten te verfijnen en selecteren. Toch zijn dergelijke UTs vaak ruisachtig of onecht gekoppeld aan verkeerde code, en de UT-kwaliteit kan op zijn beurt niet worden gevalideerd zonder betrouwbare code. De belangrijkste uitdaging is dan ook om beide gezamenlijk te verbeteren. Hiertoe presenteren we CoSPlay, een GT-vrij, trainingsvrij raamwerk dat codes en UTs gezamenlijk verbetert door middel van coöperatief zelfspel. Het verkent eerst diverse oplossingsideeën en identificeert hun potentiële faalwijzen om onderscheidende UT-ideeën te produceren. Vervolgens gebruikt het bidirectionele geslaagd-telsignalen van de Code-UT-uitvoeringsmatrix om iteratief zwakke codes te snoeien of te repareren en onbetrouwbare UTs te vernieuwen of te vervangen, waardoor de twee pools co-evolueren. Ten slotte, wanneer meerdere codes gebonden blijven op de hoogste geslaagd-telling, kiest het de uiteindelijke code uit het grootste output-consensuscluster, aangezien correcte codes het eens zijn over dezelfde invoer terwijl verkeerde codes uiteenlopen. Experimenten op vier uitdagende benchmarks tonen aan dat CoSPlay op Qwen2.5-7B-Instruct de gemiddelde BoN verbetert van 22,1% naar 33,2% en de UT-nauwkeurigheid van 14,6% naar 78,3%, wat overeenkomt met of beter is dan het RLVR-model CURE-7B. Wanneer toegepast op CURE-7B, verbetert het de BoN verder met 5,7%. CoSPlay generaliseert ook over diverse backbones en presteert beter dan GT-vrije TTS-baselines onder vergelijkbare tokenbudgetten, met voortdurende winst naarmate het budget opschaalt. Deze resultaten suggereren een schaalbare inferentiestrategie voor competitieve codegeneratie zonder enige GT-gegevens.
Recente vooruitgang in weinig-staps diffusiedestillatie heeft efficiënte beeldgeneratie mogelijk gemaakt, maar het afstemmen van deze modellen op menselijke voorkeuren blijft uitdagend. Wij stellen Beloning-gekantelde Distributie-Matching-Destillatie (RTDMD) voor, een tweefasenraamwerk dat distributie-matching-destillatie verenigt met beloning-gestuurd versterkend leren voor weinig-staps flowgeneratoren. We laten zien dat het minimaliseren van de KL-divergentie naar een beloning-gekantelde docentdistributie op natuurlijke wijze uiteenvalt in een distributie-matchingterm en een beloningsmaximalisatieterm. In de eerste fase introduceren we Omgevingsconsistente Distributie-Matching-Destillatie (AC-DMD), die subinterval-gewijze distributie-matching uitvoert en de nepscore-doelstelling aanvult met een consistentieregularisator om het nepscoremodel te helpen de verschuivende generatorverdeling te volgen onder beperkte updates. In de tweede fase optimaliseren we beide termen gezamenlijk: voor de beloningsmaximalisatieterm leiden we een hybride beleidsgradiënt af die een GRPO-achtige schatter voor de stochastische tussentijdse overgangen combineert met directe beloningsterugpropagatie door de deterministische laatste stap, en introduceren we verder stap-subset GRPO (SubGRPO) om de variantie te reduceren. Experimenten op SD3, SD3.5 en FLUX.2 tonen aan dat RTDMD nieuwe state-of-the-art resultaten behaalt op preferentie-, esthetische en compositiemetrieken met slechts 4 inferentiestappen, waarmee het eerdere weinig-staps tekst-naar-beeld generatiemethoden overtreft. Code en modellen zijn beschikbaar op https://github.com/Harahan/RTDMD.
Nu agenten op basis van grote taalmodellen (Large Language Models, LLM's) steeds vaker deelnemen aan online discours, is het red-teamen van hun vermogen om politieke beïnvloedingscampagnes te ondersteunen van cruciaal belang voor de integriteit van informatie. Om dit doel na te streven, richten we ons op lokaal ingezette open-source LLM's, in tegenstelling tot geavanceerde API-only modellen, vanwege hun betere afstemming op de operationele beperkingen van privacybewuste kwaadwillende actoren die actief zijn in sociale media-omgevingen. We introduceren een empirisch red-teaming raamwerk voor het meten van LLM Overton Windows (OW's), gedefinieerd als het bereik van politieke opvattingen dat een model betrouwbaar kan uiten over controversiële onderwerpen, en voor het kwantificeren hoe eenvoudige natuurlijke-taal jailbreaks dat bereik vergroten. We evalueren meer dan 30 LLM's verspreid over 10 modelfamilies en vijf landen van herkomst. We vinden systematische asymmetrieën in politieke expressiviteit: open-source LLM's zijn doorgaans meer bereid om linksgeoriënteerde sociale media-inhoud te genereren, OW's hebben de neiging om omgekeerd evenredig met de modelgrootte te krimpen, en regionale verschillen zijn aanzienlijk ondanks ongelijke vertegenwoordiging in het open-source ecosysteem. De effectiviteit van jailbreaks varieert ook sterk tussen modelfamilies, wat een werkwijze motiveert om effectieve combinaties van jailbreaktechnieken te identificeren. Alles bij elkaar genomen vestigen onze resultaten een praktisch raamwerk voor het auditen van de politieke stuurbaarheid van open-source LLM's en voor het helpen van toekomstige onderzoekers om sterkere tegenmaatregelen te ontwerpen tegen door LLM's mogelijk gemaakte beïnvloedingscampagnes.
Reward hacking ontstaat wanneer een model een proxy-beloning verbetert door shortcuts te misbruiken in plaats van de beoogde taak op te lossen. We bestuderen deze faalmodus via de geometrie van reinforcement learning-updates in taalmodellen en stellen dat hacking ontstaat wanneer optimalisatie afdrijft van een stabiel laagdimensionaal leertraject. We analyseren deze drift via dominante singuliere richtingen van parameterupdates en tonen aan dat reward-hacking-runs aanzienlijk grotere directionele veranderingen vertonen dan schone runs. Gemotiveerd door deze observatie introduceren we trusted-direction projection, die gradiënten beperkt om binnen een schone referentie-subruimte te blijven. In reward-hacking-experimenten op wiskundig redeneren vertraagt de voorgestelde aanpak de exploitatie van shortcuts en behoudt deze beter de taakprestaties.
Spaarzame encoders bieden retrieval met hoge precisie door het belang van termen in een vocabulaire-ruimte weer te geven, maar hun Engels-centrische structuren vormen een kritieke belemmering voor taaloverdracht naar niet-Engelse talen. Om deze structurele beperking te overwinnen, stellen we SemBridge voor, een nieuwe inbeddingsinitialisatiemethode ontworpen voor cross-linguale aanpassing in spaarzame encoders door gebruik te maken van meertalige brugmodellen. SemBridge brengt semantische afstemmingen tot stand tussen bron- en doelvocabulaires door meertalige dichte inbeddingen als brug te gebruiken. In plaats van rechtstreeks te vertrouwen op alle bron-tokens, selecteert SemBridge een kleine set semantisch gerelateerde bron-tokens en gebruikt deze om elk doeltaal-token te initialiseren, waardoor semantische ruis effectief wordt uitgefilterd en doeltokens worden gereconstrueerd als precieze lineaire combinaties van kerntaal-synoniemen. Dit versnelt convergentie tijdens fine-tuning en verbetert de trainingsefficiëntie. Uitgebreide experimenten over vijf talen en vier spaarzame architecturen tonen aan dat SemBridge superieure zero-shot retrievalprestaties behaalt en consequent de retrievalprestaties na fine-tuning verbetert in vergelijking met bestaande basislijnen. Deze resultaten valideren SemBridge als een praktische oplossing voor het inzetten van hoogwaardige spaarzame retrievalsystemen in diverse taalkundige omgevingen.
Mobiele GUI-agenten aangedreven door grote taalmodellen hebben zich snel ontwikkeld, wat dringende behoeften creëert aan realistische en uitgebreide evaluatie. Bestaande benchmarks prioriteren reproduceerbaarheid, maar zijn vaak beperkt tot open-source apps of bestandsbewerkingstaken vanwege de moeilijkheid om beloningen te construeren op echte toepassingen, waardoor er een kloof ontstaat tussen benchmarkinstellingen en reëel gebruik. Bovendien richten de meeste benchmarks zich op basisgronding en navigatie, met een beperkte dekking van complexe langetermijninteracties. Om deze beperkingen aan te pakken, introduceren wij SimuWoB, een volledig synthetische benchmark voor mobiele GUI-agenten met 120 uitdagende taken die diverse typen en moeilijkheidsniveaus bestrijken. Wij bouwen een robuust raamwerk voor virtuele omgevingsgeneratie dat hoogwaardige taken en omgevingen synthetiseert en automatisch geldige beloningen voor elke taak levert. Elke omgeving wordt geïmplementeerd als een backend-vrije webpagina die toegankelijk is via URL, wat efficiënte en reproduceerbare evaluatie mogelijk maakt. Wij voeren uitgebreide experimenten uit met verschillende state-of-the-art mobiele GUI-agenten. Het gemiddelde succespercentage is slechts 27,92%, en daalt tot 17,82% bij langetermijntaken, wat aanzienlijke zwakke punten blootlegt in huidige agenten onder complexe scenario's. Vergelijking van evaluatieresultaten met voorbeeldtaken uit de echte wereld toont aan dat agentbeoordelingen op basis van onze synthetische omgeving goed generaliseren. Wij bieden verder diagnostische inzichten over belangrijke capaciteitsdimensies en bespreken implicaties voor de toekomstige ontwikkeling van mobiele GUI-agenten.
Temporele krediettoewijzing in reinforcement learning is al lang een centrale uitdaging. Geïnspireerd door de multi-tijdschaalcodering van het dopaminesysteem in de neurobiologie heeft recent onderzoek geprobeerd meerdere discountfactoren te introduceren in Actor-Critic-architecturen, zoals Proximal Policy Optimization (PPO), om korte-termijnresponsies in evenwicht te brengen met lange-termijnplanning. Dit artikel onthult echter dat het blindelings combineren van multi-tijdschaalsignalen in complexe taken met vertraagde beloningen kan leiden tot ernstige algoritmische pathologieën. We tonen systematisch aan dat het blootstellen van een temporeel aandachtsrouteringsmechanisme aan beleidsgradiënten leidt tot surrogaatdoelwit-manipulatie, terwijl het toepassen van gradiëntvrije onzekerheidsweging een onomkeerbare myopische degeneratie teweegbrengt – een fenomeen dat we de Paradox van Temporele Onzekerheid noemen. Om deze problemen aan te pakken stellen we een Target Decoupling-architectuur voor: aan de Critic-zijde behouden we multi-tijdschaalvoorspellingen om hulprepresentatie-leren af te dwingen, terwijl we aan de Actor-zijde korte-termijnsignalen strikt isoleren en het beleid uitsluitend bijwerken op basis van lange-termijnvoordelen. Grondige empirische evaluaties over meerdere onafhankelijke random seeds in de LunarLander-v2-omgeving tonen aan dat onze voorgestelde architectuur statistisch significante prestatieverbeteringen behaalt. Zonder te vertrouwen op hyperparameter-manipulatie overschrijdt het consistent de 'Environment Solved'-drempel met minimale variantie, elimineert het volledig beleidsinstorting en ontsnapt het aan de stagnerende lokale optima waarin single-tijdschaal-baselines vastzitten. De broncode om onze experimenten te reproduceren is openbaar beschikbaar op https://github.com/ben-dlwlrma/Representation-Over-Routing.
Communicatie maakt coördinatie mogelijk in multi-agent reinforcement learning (MARL), maar veel praktische toepassingen, zoals search-and-rescue met dronezwermen, opereren onder strikte bandbreedtebeperkingen. Veel communicatiearchitecturen vertonen nog steeds een gekoppeld knelpunt waarbij een gedeelde latente representatie wordt gebruikt voor zowel beleidsuitvoering als inter-agent communicatie. Hierdoor beperkt het verkleinen van de berichtgrootte direct de latente ruimte van het beleid, wat vaak leidt tot aanzienlijke prestatievermindering. We pakken dit aan met twee bijdragen. Ten eerste introduceren we β, een genormaliseerd per-agent bandbreedtebudget dat sparsiteit, rondes en berichtdimensie verenigt in één vergelijkbare beperking. Ten tweede bieden we SLIM, een minimale architectuur die het communicatiepad ontkoppelt van de latente representatie van het beleid, waardoor we het effect van bandbreedte kunnen isoleren van het effect van beleidscapaciteit, terwijl we profiteren van communicatie binnen dezelfde stap. We evalueren onze methode op verschillende gedeeltelijk waarneembare MARL-benchmarks waar communicatie essentieel is. Onze aanpak behaalt state-of-the-art prestaties en vertoont schaalbaarheid en robuustheid onder beperkte communicatie, met slechts marginale degradatie naarmate de bandbreedte wordt verminderd.
Evaluatieharnassen zijn softwaresystemen die modelevaluatie orchestreren door het beheer van modelaanroeping, gegevens laden, metriekberekening en resultaatrapportage. Ondanks hun kritieke rol in de machine learning-infrastructuur hebben hun operationele uitdagingen en technische aandachtspunten tot dusver beperkte aandacht gekregen. We presenteren een empirische studie van 57 evaluatieharnassen, waarbij we een vijffasen harnasmodel afleiden en 16.560 problemen classificeren per workflowfase en grondoorzaak. De meeste operationele uitdagingen van harnassen concentreren zich in de specificatiefase (41,4% van de problemen), waar harnassen externe modellen, datasets en scoringbeoordelaars integreren. De drie meest voorkomende grondoorzaken van operationele uitdagingen zijn niet-geïmplementeerde functies (24,3%), documentatiehiaten (20,3%) en ontbrekende invoervalidatie (17,2%), die samen 61,7% van de geclassificeerde problemen uitmaken, zowel defecten in bestaande functionaliteit als capaciteitshiaten die beoogde workflows blokkeren. Grondoorzaken variëren ook per workflowfase: omgevingsincompatibiliteit en breuk van externe afhankelijkheden zijn verantwoordelijk voor 36,2% van de provisioneringsproblemen, terwijl algoritmische fout (25,9%) en validatiekloof (22,5%) de beoordelingsproblemen domineren. Samen leggen deze bijdragen een empirische basis voor het behandelen van evaluatie-engineering als een aparte software-engineeringdiscipline.
CLI-agents zijn het dichtst dat taalmodellen bij een belichaamde omgeving komen: het model geeft commando's, de terminal voert ze uit, en de geretourneerde stroom – stdout, fouten, bestanden, logs en traces – legt de gevolgen vast. Wij stellen dat deze stroom een supervisiesignaal is, maar standaard agent RL negeert het: GRPO-stijl training update actietokens met schaarse uitkomst-niveau beloningen terwijl omgevingsresponsen die al in de rollout aanwezig zijn, worden genegeerd. Mislukte rollouts geven weinig beleidsgradiëntsignaal ondanks dat ze rijke informatie bevatten over hoe de omgeving reageert. We introduceren ECHO (Environment Cross-entropy Hybrid Objective), een hybride doelstelling die de standaard beleidsgradiëntverlies op actietokens combineert met een hulpverlies dat het beleid traint om omgevingsobservatietokens te voorspellen die het gevolg zijn van zijn eigen acties. ECHO hergebruikt dezelfde forward pass als GRPO, vereist geen extra rollouts, en zet terminalfeedback om in dichte supervisie voor alle rollouts. ECHO verdubbelt GRPO pass@1 op TerminalBench-2.0: Qwen3-8B verbetert van 2,70% naar 5,17%, en Qwen3-14B van 5,17% naar 10,79%. ECHO produceert ook beleid dat terminaldynamiek beter voorspelt, zelfs op trajecten die het niet heeft gegenereerd: over uitgesloten rollouts heen vermindert het de omgevingstoken-cross-entropie sterk terwijl GRPO alleen die nauwelijks verandert. Vanaf basis Qwen3-8B evenaart ECHO de expert-SFT-gevolgd-door-GRPO-prestatie op uitgesloten terminaltaken zonder expertdemonstraties, en herstelt ongeveer de helft van het expert-SFT-initialisatievoordeel op TerminalBench-2.0. In sommige instellingen stelt het omgevingsvoorspellingsverlies alleen al verifier-vrije zelfverbetering mogelijk, waardoor beleid kan verbeteren op ongeziene OOD-taken door alleen te leren van omgevingsinteracties. Samen suggereren deze resultaten dat omgevingsobservaties niet slechts context zijn voor toekomstige acties, maar een dicht, on-policy supervisiesignaal dat al aanwezig is in elke rollout.
Verkeersveiligheidsanalyse vereist de integratie van ongevalsgegevens, wegeigenschappen en georuimtelijke data via op GIS gebaseerde workflows, maar de toegang blijft ongelijk verdeeld over instanties en gemeenschapsbelanghebbenden. Technische randvoorwaarden creëren een kloof tussen de analytische instrumenten die essentieel zijn voor veiligheidsplanning en de praktijkmensen die ze kunnen gebruiken. Lokale instanties, schoolcommissies en bewoners kunnen wel veiligheidskwesties hebben, maar slechts beperkte capaciteit om relevante gegevens te verkrijgen, filteren, in kaart te brengen en te analyseren. Generatieve AI biedt een manier om deze kloof te verkleinen, maar het gebruik ervan in de publieke sector roept vragen op over betrouwbaarheid, reproduceerbaarheid en governance. Dit artikel presenteert een schemagebonden natuurlijke taalinterface voor verkeersveiligheidsanalyse, die gebruikmaakt van een groot taalmodel (LLM) om de intentie van de gebruiker te interpreteren, terwijl deterministische, controleerbare uitvoering tegen een gezaghebbende database behouden blijft. Gebruikersvragen worden vertaald naar gestructureerde semantische kaders, gevalideerd door een op regels gebaseerde laag, gecompileerd in een getypeerde gerichte acyclische graaf van ruimtelijke operaties en uitgevoerd tegen een PostGIS-database. Dit begrensde ontwerp scheidt taalinterpretatie van deterministische uitvoering, waardoor resultaten reproduceerbaar en schemagebonden blijven, terwijl toegangsbarrières worden weggenomen. Het raamwerk wordt geëvalueerd met behulp van een landelijke verkeersveiligheidsdatabase in Massachusetts, waarin ongevalsgegevens, wegeigenschappen en georuimtelijke lagen zoals scholen, bushaltes, oversteekplaatsen en gemeentegrenzen zijn geïntegreerd. Alle queries werden succesvol uitgevoerd; de validatielaag corrigeert fouten in 29% van de evaluatiequeries, wat de kloof weerspiegelt tussen flexibele natuurlijke taal en strikte schemagebonden eisen. De resultaten suggereren dat het combineren van natuurlijke taaltoegankelijkheid met deterministische uitvoering een praktische richting is voor het verbreden van de toegang tot verkeersveiligheidsgegevens, met implicaties voor betrouwbare AI in planning in de publieke sector.
Online 3D-reconstructie vereist het schatten van camerapositie en scènegeometrie onder strikte causale en geheugenbegrensde beperkingen. Bestaande methoden hebben vaak last van drift, jitter of instorting bij lange sequenties. We herleiden deze fouten tot een fundamentele mismatch. Stromingsgeometrie is inherent temporeel heterogeen, met bewijs variërend van kortstondige correspondentie tot aanhoudende globale schaal. Huidige architecturen leggen echter uniforme en pathologische invloedspatronen op. Zo dwingen schuifvensters harde afkappingen af, terwijl niet-gegate recurrente en causale attention leiden tot cacheverzadiging en piekachtige attention sinks. Om dit op te lossen formaliseren we geometrische propagatie als een bewijsinvloedkern en stellen we HorizonStream voor, een lange-horizon Transformer die deze kern expliciet factoriseert. Voor de temporele factor op lange afstand leert Geometric Linear Attention kanaalsgewijze vervalsnelheden, wat een begrensde, meerschalige propagatie van geometrisch bewijs mogelijk maakt. Voor de ruimtelijke factor op korte afstand voert Geometric Local Attention met Spatiotemporal RoPE betrouwbare 3D-matching uit, terwijl attention sinks worden onderdrukt. Ten slotte herstellen Metric Readout Tokens stabiele schaal en rigide positie direct uit de persistente geometrische toestand. Uitgebreide experimenten tonen aan dat HorizonStream, getraind op clips van slechts 48 frames, stabiel generaliseert naar sequenties van meer dan 10.000 frames met constant geheugen en lineaire tijd, wat resulteert in state-of-the-art streaming 3D-reconstructieprestaties. Projectpagina: https://3dagentworld.github.io/horizonstream/
Naarmate interactieve, op LLM gebaseerde toepassingen worden gecreëerd en verfijnd, moeten modelontwikkelaars de kwaliteit van gegenereerde tekst langs vele mogelijke assen evalueren. Voor eenvoudigere systemen kan menselijke evaluatie praktisch zijn, maar in complexe systemen zoals conversationele chatbots kan de hoeveelheid gegenereerde tekst de middelen voor menselijke annotatie overweldigen. Modelontwikkelaars zijn sterk gaan vertrouwen op auto-evaluatie, waarbij LLM's ook worden gebruikt om de generatiekwaliteit te beoordelen. Bestaande LLM-als-rechter benchmarks richten zich echter grotendeels op eenvoudige Q&A-taken die niet overeenkomen met de complexiteit van meerbeurtsgesprekken. We introduceren RankJudge, een benchmarkgenerator voor het evalueren van LLM-als-rechter bij meerbeurtsgesprekken die zijn gebaseerd op referentiedocumenten. RankJudge creëert paren van gesprekken waarbij één gesprek een enkele fout bevat die in één beurt is geïnjecteerd. Deze constructie maakt het mogelijk om gepaarde gesprekken ondubbelzinnig als beter of slechter te labelen, en faalcategorieën precies te isoleren tot individuele beurten, waardoor een strikt gezamenlijk correctheidscriterium voor beoordeling mogelijk wordt. We implementeren RankJudge in de domeinen van machinaal leren, biomedicine en financiën, evalueren 21 grensverleggende LLM-rechters en rangschikken deze rechters via het Bradley-Terry-model. Onze formulering maakt het ook mogelijk om elk gesprekspaar te rangschikken met moeilijkheidsgraden, die we gebruiken om de evaluatieset dynamisch samen te stellen om labelruis te verminderen, zoals bevestigd door menselijke annotatie. We vinden dat rechterrangschikkingen stabiel zijn onder gedeeltelijke waarneembaarheid, grovere correctheidscriteria en een alternatief random-walk beoordelingsalgoritme.
Huidige bewegingsgestuurde beeld-naar-video generatiemodellen volgen rigide door gebruikers verstrekte trajecten die vaak schaars, onnauwkeurig en causaal onvolledig zijn. Een dergelijke afhankelijkheid leidt vaak tot onnatuurlijke of onwaarschijnlijke uitkomsten, vooral door het missen van secundaire causale gevolgen. Om dit aan te pakken introduceren we MotiMotion, een nieuw raamwerk dat bewegingscontrole herformuleert als een redeneren-dan-genereren probleem. Om causaal onderbouwde en met gezond verstand overeenkomende interacties te stimuleren, gebruiken we een trainingsvrije visie-taal redeneerder om beeldruimtecoördinaten van primaire trajecten te verfijnen en plausibele secundaire bewegingen te hallucineren. Om de natuurlijkheid van beweging verder te verbeteren, stellen we een vertrouwensbewust regelschema voor dat de sturingssterkte moduleert, waardoor het model plannen met hoge betrouwbaarheid nauwkeurig kan volgen terwijl het artefacten corrigeert bij invoer met lage betrouwbaarheid met behulp van zijn interne generatieve prioriteiten. Ter ondersteuning van systematische evaluatie stellen we een nieuwe beeld-naar-video benchmark samen, MotiBench, bestaande uit interactiegerichte scènes waarin nieuwe gebeurtenissen door beweging worden veroorzaakt. Zowel VLM-gebaseerde evaluatie als een menselijke studie op MotiBench tonen aan dat MotiMotion video's produceert met meer plausibel objectgedrag en interactie, en de voorkeur krijgt boven bestaande benaderingen.
Geautomatiseerde beoordeling van wegbeschadiging vereist meer dan classificatie op afbeeldingsniveau of grove detectie met begrenzingskaders; het vraagt om nauwkeurige lokalisatie van dunne, vertakkende en onregelmatige scheuren om de geometrische precisie te bereiken die nodig is voor onderhoudsrelevante kwantificering. Dit artikel presenteert een op visie gebaseerd wegbeschadigingsanalysesysteem dat gebruikmaakt van Mask R-CNN-instantiesegmentatie en evalueert dit op UWGB-StreetCrack, een eigen, in het veld verzamelde wegoppervlaktebeelddataset verkregen met een in een voertuig gemonteerde smartphone en handmatig geannoteerd met polygoonlabels voor longitudinale scheuren, transversale scheuren, krokodillenscheuren en kuilen. Vijf op Detectron2 gebaseerde Mask R-CNN-backbonevarianten werden overwogen onder een consistent fijnstemmingsprotocol. Het best presterende model, Mask R-CNN met een ResNet-101 FPN-backbone, behaalde een precisie van 84,23%, een recall van 90,04% en een F1-score van 87,04% onder het projectspecifieke protocol voor matching met begrenzingskaders. Hetzelfde model produceerde een geaggregeerde voorspelde scheuroppervlaktefractie van 2,164%, die dicht in de buurt komt van de grondwaarheid-scheuroppervlaktefractie van 2,170%. Om het segmentatiesysteem in context te plaatsen ten opzichte van een detectiegericht alternatief, werd ook een op CSPDarknet53 gebaseerde YOLO-detector aangepast en opnieuw getraind op de dataset, wat resulteerde in een precisie van 27,5% en een recall van 20,7% in het validatieprotocol. De resultaten tonen aan dat instantiesegmentatie een praktische richting is voor wegoppervlaktebeelden in het veld en voor geaggregeerde scheuroppervlakteschatting, terwijl ook openstaande uitdagingen worden blootgelegd op het gebied van annotatieconsistentie, klasse-onbalans, confounder-rejectie en maskerniveau-benchmarking.
Uitgebreide beeldbeschrijving (long-form image captioning) legt een probleem van beloningsgranulariteit bloot in RL: beschrijvingen worden beoordeeld als hele sequenties, terwijl de belangrijke fouten zich voordoen op het niveau van individuele visuele claims. Een goede dense caption moet zowel getrouw als informatief zijn, waarbij hallucinatie wordt vermeden zonder opvallende details weg te laten. Toch comprimeren paarsgewijze voorkeuren, referentiegebaseerde metrieken en holistische scalaire beloningen deze lokale fouten in een enkel signaal op sequentieniveau, waardoor de afweging tussen feitelijkheid en dekking wordt vertroebeld. Wij introduceren ClaimDiff-RL, een raamwerk dat referentie-geconditioneerde atomaire claimverschillen gebruikt als de beloningseenheid voor caption-RL. Gegeven een afbeelding, een actor-beschrijving en een referentiebeschrijving, somt een multimodale beoordelaar visueel gefundeerde verschillen op, verifieert elk verschil tegen de afbeelding, wijst open-vocabulaire fouttypen en ernstniveaus toe, en produceert per-verschil statistieken voor de samenstelling van de beloning. Dit maakt gehallucineerde claims en weggelaten opvallende feiten afzonderlijk meetbaar en afstelbaar. Experimenten tonen aan dat holistische scalaire beloningen hallucinatie kunnen verminderen door ontbrekende feiten te vergroten, terwijl ClaimDiff-RL deze afweging tussen getrouwheid en dekking blootlegt en meer gebalanceerde werkpunten mogelijk maakt. Op een door mensen geannoteerde diagnostische benchmark van 160 afbeeldingen, openbare captioning-benchmarks en VQA-benchmarks verbetert ClaimDiff-RL de balans tussen hallucinatie en ontbrekende feiten, behoudt algemene capaciteit, en overtreft zelfs Gemini-3-Pro-Preview op verschillende fijnmazige Capability-dimensies zoals objecttelling, ruimtelijke relaties en scèneherkenning. Deze resultaten suggereren dat getypeerde, verifieerbare claimverschillen een effectieve beloningseenheid zijn voor fijnmazige en diagnoseerbare caption-RL.
Grote Redeneermodellen (LRMs) vertonen backtracking- en zelfverificatiemechanismen waarmee ze tussenstappen kunnen herzien en tot correcte oplossingen komen, wat leidt tot sterke prestaties op complexe logische benchmarks. Wij veronderstellen dat dergelijk gedrag alleen nuttig is wanneer het model een voldoende sterk 'kritiekvermogen' heeft om zijn eigen fouten te detecteren. Dit werk onderzoekt systematisch hoe huidige LRMs herstellen van fouten door rekenfouten in hun tussenliggende redeneerstappen in te voegen. Opmerkelijk is dat we een eigenaardig maar belangrijk fenomeen ontdekken: ondanks dat de fout zich door de hele denkketen (CoT) verspreidt zonder enige verwoorde correctie, bereikt het model nog steeds het juiste eindantwoord nadat het denkproces is voltooid. Dit herstel impliceert het bestaan van een intern mechanisme dat het model helpt fouten te detecteren en zelfcorrectie in gang te zetten, wat we het verborgen kritiekvermogen noemen. Voortbouwend op analyse van de kenmerkruimte identificeren we een zeer interpreteerbare kritiekvector die dit gedrag vertegenwoordigt. Uitgebreide experimenten over meerdere modelschalen en -families tonen aan dat het sturen van latente representaties met deze vector het foutdetectievermogen van het model verbetert en de prestaties van testtijd schaling verbetert zonder extra trainingskosten. Onze bevindingen bieden een waardevol begrip van het kritiekgedrag van LRMs, wat een veelbelovende richting suggereert om hun zelfverificatiemechanisme te controleren en te verbeteren. Onze code is beschikbaar op: https://github.com/mail-research/lrm-critique-vectors.
Log-anomaliedetectie is een kritieke taak voor systeembewerking en beveiligingsborging. In grootschalige genetwerkte systemen worden loggegevens echter op enorme schaal gegenereerd, terwijl annotaties op instantieniveau prohibitief duur zijn, wat grote problemen oplevert voor fijnmazige anomalielokalisatie. Om deze uitdaging aan te pakken, stellen wij LogMILP (Log anomaly localization based on Multi-Instance Learning enhanced by prototypes and Perturbation) voor, een zwak begeleid raamwerk dat zowel anomaliedetectie op zakniveau als anomalielokalisatie op instantieniveau mogelijk maakt met alleen labels op zakniveau. Onze methode leidt het model naar het aanwijzen van de kritieke logitems met behulp van prototype-gestuurde structuurmodellering in combinatie met regularisatie van counterfactuele perturbatieconsistentie, waardoor de betrouwbaarheid van lokalisatie en interpreteerbaarheid onder grofkorrelige supervisie wordt verbeterd. Experimentele resultaten op drie openbare datasets tonen aan dat LogMILP concurrerende detectieprestaties levert en tegelijkertijd aanzienlijk betrouwbaardere lokalisatie op instantieniveau oplevert. Onze code is open source beschikbaar op https://github.com/YUK1207/LogMILP.