Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een gangbare opvatting in het nabehandelingsproces van grote taalmodellen (LLM's) is dat supervised finetuning (SFT) leidt tot memoriseren, terwijl reinforcement learning (RL) generalisatie bevordert. Wij heroverwegen deze stelling voor SFT met redeneervaardigheden waarbij lange chain-of-thought (CoT) supervisie wordt gebruikt, en komen tot de bevinding dat generalisatie naar andere domeinen niet afwezig is, maar voorwaardelijk. Het wordt gezamenlijk gevormd door optimalisatiedynamiek, trainingsdata en de capaciteiten van het basismodel. Sommige gerapporteerde mislukkingen blijken artefacten van onderoptimalisatie: de prestaties op andere domeinen verslechteren eerst, om vervolgens te herstellen en te verbeteren bij langere training (een dip-en-herstelpatroon). Hierdoor kunnen checkpoints van korte training de generalisatie onderschatten. Zowel de kwaliteit als de structuur van de data zijn van belang: oplossingen van lage kwaliteit schaden de generalisatie in brede zin, terwijl geverifieerde lange-CoT-sporen consistente winst opleveren voor andere domeinen. De capaciteit van het model is essentieel: sterkere modellen internaliseren overdraagbare procedurele patronen (zoals backtracking), zelfs vanuit een eenvoudig rekenkundig spel, terwijl zwakkere modellen alleen de oppervlakkige breedsprakigheid imiteren. Deze generalisatie is echter asymmetrisch: redeneervaardigheden verbeteren, maar veiligheidsaspecten verslechteren. Dit herformuleert de vraag van *of* redeneer-SFT generaliseert, naar *onder welke voorwaarden* en *tegen welke kosten*.
Grootschalige taalmodelagenten (LLM's) zoals OpenClaw vertrouwen op herbruikbare vaardigheden om complexe taken uit te voeren, maar deze vaardigheden blijven na implementatie grotendeels statisch. Hierdoor worden vergelijkbare werkstromen, toolgebruikspatronen en faalwijzen steeds opnieuw ontdekt door verschillende gebruikers, wat voorkomt dat het systeem leert van ervaring. Hoewel interacties van verschillende gebruikers complementaire signalen opleveren over wanneer een vaardigheid wel of niet werkt, ontbreekt het bestaande systemen aan een mechanisme om dergelijke heterogene ervaringen om te zetten in betrouwbare vaardigheidsupdates. Om deze problemen aan te pakken, presenteren wij SkillClaw, een raamwerk voor collectieve vaardigheidsevolutie in multi-user agent-ecosystemen, dat interacties tussen gebruikers en over tijd beschouwt als het primaire signaal voor het verbeteren van vaardigheden. SkillClaw aggregeert continu tijdens gebruik gegenereerde trajecten en verwerkt deze met een autonome 'evolver', die terugkerende gedragspatronen identificeert en deze vertaalt naar updates van de vaardighedenset door bestaande vaardigheden te verfijnen of uit te breiden met nieuwe mogelijkheden. De resulterende vaardigheden worden onderhouden in een gedeelde repository en gesynchroniseerd tussen gebruikers, waardoor verbeteringen die in één context worden ontdekt zich systeembreed kunnen verspreiden zonder extra inspanning van gebruikers. Door multi-user ervaring te integreren in doorlopende vaardigheidsupdates, maakt SkillClaw kruisende kennisoverdracht en cumulatieve capaciteitsverbetering mogelijk. Experimenten op WildClawBench tonen aan dat het, met beperkte interactie en feedback, de prestaties van Qwen3-Max in real-world agentscenario's aanzienlijk verbetert.
AI-agents kunnen wellicht je inbox automatiseren, maar kunnen ze ook andere routinematige aspecten van je leven automatiseren? Alledaagse online taken bieden een realistisch, maar nog onopgelost, testplatform voor het evalueren van de volgende generatie AI-agents. Hiertoe introduceren we ClawBench, een evaluatieraamwerk bestaande uit 153 eenvoudige taken die mensen regelmatig in hun leven en werk moeten voltooien, verspreid over 144 live platformen in 15 categorieën, van het afronden van aankopen en het boeken van afspraken tot het indienen van sollicitaties. Deze taken vereisen veeleisende capaciteiten die verder gaan dan bestaande benchmarks, zoals het verkrijgen van relevante informatie uit door de gebruiker verstrekte documenten, het navigeren door meerstappenwerkstromen op diverse platformen en schrijfintensieve operaties zoals het correct invullen van gedetailleerde formulieren. In tegenstelling tot bestaande benchmarks die agents evalueren in offline sandboxen met statische pagina's, opereert ClawBench op productiewebsites, waarbij de volledige complexiteit, dynamische aard en uitdagingen van real-world webinteractie behouden blijven. Een lichtgewicht interceptielaag vangt en blokkeert alleen de definitieve indieningsaanvraag, waardoor een veilige evaluatie zonder real-world neveneffecten wordt gegarandeerd. Onze evaluaties van 7 frontier-modellen tonen aan dat zowel propriëtaire als open-source modellen slechts een klein deel van deze taken kunnen voltooien. Claude Sonnet 4.6 behaalt bijvoorbeeld slechts 33,3%. Vooruitgang op ClawBench brengt ons dichter bij AI-agents die kunnen functioneren als betrouwbare algemene assistenten.
Wij introduceren HY-Embodied-0.5, een familie van foundation-modellen die specifiek zijn ontworpen voor embodied agents in de echte wereld. Om de kloof te overbruggen tussen algemene Vision-Language Models (VLM's) en de eisen van embodied agents, zijn onze modellen ontwikkeld om de kerncapaciteiten die vereist zijn voor embodied intelligence te verbeteren: ruimtelijke en temporele visuele waarneming, naast geavanceerde embodied reasoning voor voorspelling, interactie en planning. De HY-Embodied-0.5-suite omvat twee primaire varianten: een efficiënt model met 2B geactiveerde parameters voor edge-implementatie, en een krachtig model met 32B geactiveerde parameters gericht op complexe redeneertaken. Om de fijnmazige visuele waarneming, essentieel voor embodied taken, te ondersteunen, adopteren we een Mixture-of-Transformers (MoT)-architectuur om modalitiespecifieke verwerking mogelijk te maken. Door het incorporeren van latente tokens verbetert dit ontwerp effectief de perceptorische representatie van de modellen. Om de redeneercapaciteiten te verbeteren, introduceren we een iteratief, zelf-evoluerend post-training paradigma. Verder gebruiken we on-policy distillatie om de geavanceerde capaciteiten van het grote model over te dragen naar de kleinere variant, waardoor het prestatiepotentieel van het compacte model wordt gemaximaliseerd. Uitgebreide evaluaties over 22 benchmarks, variërend van visuele waarneming en ruimtelijk redeneren tot embodied understanding, tonen de effectiviteit van onze aanpak aan. Ons MoT-2B model presteert beter dan state-of-the-art modellen van vergelijkbare grootte op 16 benchmarks, terwijl de 32B-variant prestaties bereikt die vergelijkbaar zijn met frontier modellen zoals Gemini 3.0 Pro. In downstream robotbesturingsexperimenten benutten we onze robuuste VLM-foundation om een effectief Vision-Language-Action (VLA) model te trainen, waarbij overtuigende resultaten worden behaald in fysieke evaluaties in de echte wereld. Code en modellen zijn open-source beschikbaar op https://github.com/Tencent-Hunyuan/HY-Embodied.
Tekst-naar-video-diffusiemodellen hebben open-ended videosynthese mogelijk gemaakt, maar hebben vaak moeite met het genereren van het juiste aantal objecten dat in een prompt is gespecificeerd. Wij introduceren NUMINA, een trainingsvrij identify-then-guide raamwerk voor verbeterde numerieke uitlijning. NUMINA identificeert prompt-lay-out inconsistenties door onderscheidende zelf- en kruis-attentiekopjes te selecteren om een telbare latente lay-out af te leiden. Vervolgens verfijnt het deze lay-out conservatief en moduleert het kruis-attentie om regeneratie te sturen. Op de geïntroduceerde CountBench verbetert NUMINA de telnauwkeurigheid met tot 7,4% op Wan2.1-1.3B, en met respectievelijk 4,9% en 5,5% op 5B- en 14B-modellen. Bovendien wordt CLIP-uitlijning verbeterd terwijl temporele consistentie behouden blijft. Deze resultaten tonen aan dat structurele begeleiding zaadzoeken en promptverbetering complementeert, en een praktisch pad biedt naar telnauwkeurige tekst-naar-video-diffusie. De code is beschikbaar op https://github.com/H-EmbodVis/NUMINA.
In dit artikel introduceren we MegaStyle, een nieuwe en schaalbare data-curatiepijplijn die een stijlgegevensset construeert met een consistente intra-stijl, inter-stijldiversiteit en hoge kwaliteit. We bereiken dit door gebruik te maken van de consistente tekst-naar-beeld stijlmapping-capaciteit van huidige grote generatieve modellen, die afbeeldingen in dezelfde stijl kunnen genereren vanuit een gegeven stijlbeschrijving. Op deze basis cureren we een diverse en gebalanceerde promptgalerij met 170K stijlprompts en 400K inhoudsprompts, en genereren we een grootschalige stijlgegevensset MegaStyle-1.4M via combinaties van inhouds- en stijlprompts. Met MegaStyle-1.4M stellen we stijlgesuperviseerd contrastief leren voor om een stijlencoder, MegaStyle-Encoder, te fine-tunen voor het extraheren van expressieve, stijlspecifieke representaties, en trainen we ook een FLUX-gebaseerd stijloverdrachtsmodel, MegaStyle-FLUX. Uitgebreide experimenten tonen het belang aan van het handhaven van intra-stijlconsistentie, inter-stijldiversiteit en hoge kwaliteit voor een stijlgegevensset, evenals de effectiviteit van de voorgestelde MegaStyle-1.4M. Bovendien bieden MegaStyle-Encoder en MegaStyle-FLUX, wanneer getraind op MegaStyle-1.4M, betrouwbare stijlgelijkheidsmeting en generaliseerbare stijloverdracht, wat een significante bijdrage levert aan de stijloverdrachtsgemeenschap. Meer resultaten zijn beschikbaar op onze projectwebsite https://jeoyal.github.io/MegaStyle/.
Performance, de externalisering van intentie, emotie en persoonlijkheid via visueel, vocaal en tijdgebonden gedrag, is wat een personage tot leven brengt. Het leren van dergelijke performance vanuit video is een veelbelovend alternatief voor traditionele 3D-pipelines. Bestaande videomodellen slagen er echter niet in om tegelijkertijd hoge expressiviteit, real-time inferentie en identiteitsstabiliteit op lange termijn te bereiken, een spanning die wij de performance-trilemma noemen. Conversatie is het meest uitgebreide performancescenario, aangezien personages tegelijkertijd spreken, luisteren, reageren en emoties tonen, terwijl ze hun identiteit in de tijd behouden. Om dit aan te pakken, presenteren wij LPM 1.0 (Large Performance Model), gericht op single-person full-duplex audiovisuele conversatieperformance. Concreet bouwen we een multimodaal mensgericht dataset via strikte filtering, spreek-luister audio-video pairing, performancebegrip en identiteitsbewuste multi-referentie-extractie; trainen we een 17B-parameter Diffusion Transformer (Base LPM) voor hoogst controleerbare, identiteitsconsistente performance via multimodale conditionering; en destilleren we deze naar een causale streaming generator (Online LPM) voor interactie met lage latentie en oneindige lengte. Tijdens inferentie genereert LPM 1.0, gegeven een karakterafbeelding met identiteitsbewuste referenties, luistervideo's vanuit gebruikersaudio en spreekvideo's vanuit gesynthetiseerde audio, met tekstprompts voor bewegingscontrole, alles op real-time snelheid met identiteitsstabiele, oneindig lange generatie. LPM 1.0 dient zo als een visuele engine voor conversationele agents, livestreamingkarakters en game-NPC's. Om deze setting systematisch te evalueren, stellen we LPM-Bench voor, de eerste benchmark voor interactieve karakterperformance. LPM 1.0 behaalt state-of-the-art resultaten op alle geëvalueerde dimensies, terwijl het real-time inferentie behoudt.
Group Relative Policy Optimization (GRPO) is naar voren gekomen als de feitelijke Reinforcement Learning (RL)-doelstelling die de recente vooruitgang in Multimodale Large Language Models aanstuurt. Het uitbreiden van dit succes naar opensource multimodale generalistische modellen wordt echter sterk beperkt door twee primaire uitdagingen: de extreme variantie in reward-topologieën over diverse visuele taken, en de inherente moeilijkheid om fijnmazige perceptie in evenwicht te brengen met meerstaps redeneervermogen. Om deze problemen aan te pakken, introduceren we Gaussian GRPO (G²RPO), een nieuwe RL-trainingsdoelstelling die standaard lineaire schaling vervangt door niet-lineaire distributionele matching. Door wiskundig af te dwingen dat de advantage-verdeling van een gegeven taak strikt convergeert naar een standaardnormale verdeling, N(0,1), garandeert G²RPO theoretisch inter-task gradient-gelijkwaardigheid, vermindert het de kwetsbaarheid voor uitschieters met zware staarten en biedt het symmetrische updates voor positieve en negatieve rewards. Gebruikmakend van de verbeterde trainigsstabiliteit van G²RPO, introduceren we twee taakniveau shaping-mechanismen om naadloos perceptie en redeneren in balans te brengen. Ten eerste: response length shaping, dat dynamisch uitgebreide redeneerketens oproept voor complexe queries terwijl het directe outputs afdwingt om visuele grounding te versterken. Ten tweede: entropy shaping, dat de exploratiezone van het model strak begrenst en effectief zowel entropie-instorting als entropie-explosie voorkomt. Door integratie van deze methodologieën presenteren we OpenVLThinkerV2, een uiterst robuust, algemeen multimodaal model. Uitgebreide evaluaties over 18 diverse benchmarks tonen zijn superieure prestaties aan ten opzichte van sterke opensource- en toonaangevende propriëtaire frontier-modellen.
Wij presenteren DMax, een nieuw paradigma voor efficiënte diffusie-taalmodellen (dLLM's). Het vermindert foutaccumulatie bij parallel decoderen, waardoor agressieve decoderingparalleliteit mogelijk wordt zonder in te boeten aan generatiekwaliteit. In tegenstelling tot conventionele gemaskeerde dLLM's die decoderen via een binaire masker-naar-token-overgang, herformuleert DMax decoderen als een progressieve zelfverfijning van masker-embeddingen naar token-embeddingen. De kern van onze aanpak is On-Policy Uniform Training, een nieuwe trainingsstrategie die gemaskeerde en uniforme dLLM's efficiënt verenigt en het model in staat stelt om schone tokens te herstellen vanuit zowel gemaskeerde invoer als zijn eigen foutieve voorspellingen. Voortbouwend op deze basis stellen we verder Soft Parallel Decoding voor. Wij vertegenwoordigen elke tussenliggende decoderingstoestand als een interpolatie tussen de voorspelde token-embedding en de masker-embedding, wat iteratieve zelfrevisie in de embeddingruimte mogelijk maakt. Uitgebreide experimenten op diverse benchmarks tonen de effectiviteit van DMax aan. Vergeleken met de originele LLaMA-2.0-mini verbetert onze methode de TPF op GSM8K van 2,04 naar 5,47 terwijl de nauwkeurigheid behouden blijft. Op MBPP verhoogt het de TPF van 2,71 naar 5,86 met behoud van vergelijkbare prestaties. Op twee H200 GPU's behaalt ons model gemiddeld 1.338 TPS bij batchgrootte 1. Code is beschikbaar op: https://github.com/czg1225/DMax
Grootschalige taalmodel (LLM) agenten worden tegenwoordig steeds minder gebouwd door modelgewichten aan te passen, en meer door de runtime eromheen te herorganiseren. Capaciteiten die eerdere systemen verwachtten dat het model intern zou verwerven, worden nu naar buiten gebracht in geheugenopslag, herbruikbare vaardigheden, interactieprotocollen en het omringende raamwerk dat deze modules in de praktijk betrouwbaar maakt. Dit artikel belicht deze verschuiving door de lens van externalisatie. Voortbordurend op het idee van cognitieve artefacten, beargumenteren we dat agentinfrastructuur van belang is, niet slechts omdat het hulpcomponenten toevoegt, maar omdat het zware cognitieve lasten transformeert naar vormen die het model betrouwbaarder kan oplossen. In dit perspectief externaliseert geheugen toestand over tijd, externaliseren vaardigheden procedurele expertise, externaliseren protocollen interactiestructuur, en dient raamwerktechniek als de integratielaag die deze coördineert tot beheerde uitvoering. We volgen een historische progressie van gewichten naar context naar raamwerk, analyseren geheugen, vaardigheden en protocollen als drie onderscheiden maar gekoppelde vormen van externalisatie, en onderzoeken hoe zij binnen een groter agentsysteem interacteren. We bespreken verder de afweging tussen parametrische en geëxternaliseerde capaciteit, identificeren opkomende richtingen zoals zelf-evoluerende raamwerken en gedeelde agentinfrastructuur, en bespreken open uitdagingen op het gebied van evaluatie, governance en de lange-termijn co-evolutie van modellen en externe infrastructuur. Het resultaat is een systeemniveau-raamwerk om uit te leggen waarom praktische vooruitgang bij agenten steeds meer afhangt van niet alleen sterkere modellen, maar ook van betere externe cognitieve infrastructuur.
Gepersonaliseerde mobiele agents die gebruikersvoorkeuren afleiden en proactieve ondersteuning afstemmen, houden grote belofte in als alledaagse digitale assistenten. Toch slagen bestaande benchmarks er niet in vast te leggen wat dit vereist. Eerder werk evalueert het herstellen van voorkeuren uit statische geschiedenissen of intentievoorspelling uit vaste contexten. Geen van beide test of een agent ontbrekende voorkeuren kan achterhalen via interactie, noch of deze kan beslissen wanneer hij moet ingrijpen, toestemming moet vragen of stil moet blijven in een live GUI-omgeving. Wij introduceren KnowU-Bench, een online benchmark voor gepersonaliseerde mobiele agents, gebouwd op een reproduceerbare Android-emulatieomgeving. Deze omvat 42 algemene GUI-taken, 86 gepersonaliseerde taken en 64 proactieve taken. In tegenstelling tot eerder werk dat gebruikersvoorkeuren als statische context behandelt, verbergt KnowU-Bench het gebruikersprofiel voor de agent en toont het alleen gedragslogboeken, wat echte voorkeursafleiding afdwingt in plaats van contextopzoeking. Om meerronde voorkeursbepaling te ondersteunen, instantieert het een door LLM aangedreven gebruikerssimulator die is gebaseerd op gestructureerde profielen, waardoor realistische verduidelijkingsdialogen en proactieve toestemmingsafhandeling mogelijk worden. Naast personalisatie biedt KnowU-Bench een uitgebreide evaluatie van de volledige proactieve beslissingsketen, inclusief gegronde GUI-uitvoering, toestemmingsonderhandeling en terughoudendheid na afwijzing, geëvalueerd via een hybride protocol dat regelgebaseerde verificatie combineert met LLM-as-a-Judge-beoordeling. Onze experimenten tonen een opvallende achteruitgang: agents die uitblinken in expliciete taakuitvoering, presteren onder vage instructies die gebruikersvoorkeursafleiding of interventiecalibratie vereisen, zelfs voor topmodellen zoals Claude Sonnet 4.6, onder de 50%. De belangrijkste knelpunten zijn niet GUI-navigatie, maar voorkeursverwerving en interventiecalibratie, wat een fundamentele kloof blootlegt tussen bekwaam interfacegebruik en betrouwbare persoonlijke assistentie.
De opkomst van agentische multimodale modellen heeft systemen in staat gesteld actief te interacteren met externe omgevingen. Huidige agenten kampen echter met een fundamenteel metacognitief tekort: ze worstelen met de afweging tussen het benutten van interne kennis en het raadplegen van externe hulpmiddelen. Als gevolg daarvan vervallen ze vaak in blinde toolaanroepingen, waarbij ze terugvallen op reflexmatige tooluitvoering, zelfs wanneer vragen oplosbaar zijn vanuit de ruwe visuele context. Dit pathologische gedrag veroorzaakt ernstige latentieknelpunten en introduceert buitensporige ruis die een degelijke redenering ontspoort. Bestaande reinforcement learning-protocollen proberen dit te mitigeren via een gescalariseerde beloning die toolgebruik bestraft. Deze gekoppelde formulering creëert echter een onoplosbaar optimalisatiedilemma: een agressieve straf onderdrukt essentieel toolgebruik, terwijl een milde straf volledig wordt overschaduwd door de variantie van de nauwkeurigheidsbeloning tijdens advantage-normalisatie, waardoor deze machteloos staat tegenover toolovergebruik. Om dit knelpunt te overstijgen, stellen we HDPO voor, een raamwerk dat taalefficiëntie herformuleert van een concurrerende scalaire doelstelling naar een strikt conditionele. Door reward-scalarisatie achterwege te laten, handhaaft HDPO twee orthogonale optimalisatiekanalen: een nauwkeurigheidskanaal dat de taakcorrectheid maximaliseert, en een efficiëntiekanaal dat uitvoeringseconomie afdwingt uitsluitend binnen nauwkeurige trajecten via conditionele advantage-schatting. Deze ontkoppelde architectuur induceert van nature een cognitief curriculum – waarbij de agent eerst taakoplossing moet beheersen voordat deze zijn zelfredzaamheid verfijnt. Uitgebreide evaluaties tonen aan dat ons resulterende model, Metis, toolaanroepingen met ordes van grootte reduceert en tegelijkertijd de redeneernauwkeurigheid verhoogt.
Webagents – autonome systemen die namens gebruikers op het web navigeren en taken uitvoeren – hebben het potentieel om te veranderen hoe mensen met de digitale wereld omgaan. De krachtigste webagentschappen van vandaag zijn echter gebaseerd op propriëtaire modellen met onbekende trainingsdata en -methoden, wat wetenschappelijk begrip, reproduceerbaarheid en gemeenschapsgedreven vooruitgang beperkt. Wij geloven dat agents voor het open web ook open ontwikkeld moeten worden. Daarom introduceren we (1) MolmoWebMix, een grote en diverse mix van browsertaakdemonstraties en web-GUI-perceptiedata, en (2) MolmoWeb, een familie van volledig open multimodale webagentschappen. Concreet combineert MolmoWebMix meer dan 100K synthetische taaktrajecten uit meerdere complementaire generatiepijplijnen met 30K+ menselijke demonstraties, trajecten van atomaire webvaardigheden, en GUI-perceptiedata, waaronder *referring expression grounding* en *screenshot question answering*. MolmoWeb-agents functioneren als instructie-gestuurde visueel-talige actiebeleidsmodellen: gegeven een taakinstructie en een webpagina-screenshot voorspellen zij de volgende browseractie, zonder toegang tot HTML, *accessibility trees* of gespecialiseerde API's. Beschikbaar in 4B en 8B formaat, behalen MolmoWeb-agents state-of-the-art resultaten op browsergebruiksbenchmarks zoals WebVoyager, Online-Mind2Web en DeepShop, waarbij ze vergelijkbare open *weight-only* modellen zoals Fara-7B, UI-Tars-1.5-7B en Holo1-7B overtreffen. MolmoWeb-8B overtreft zelfs *set-of-marks* (SoM)-agents die zijn gebouwd op veel grotere gesloten *frontier*-modellen zoals GPT-4o. We tonen verder consistente verbeteringen aan door *test-time scaling* via parallelle *rollouts* met *best-of-N* selectie, waarbij respectievelijk 94,7% en 60,5% pass@4 wordt bereikt (vergeleken met 78,2% en 35,3% pass@1) op WebVoyager en Online-Mind2Web. We zullen modelcheckpoints, trainingsdata, code en een uniform evaluatiekader vrijgeven om reproduceerbaarheid mogelijk te maken en open onderzoek naar webagents te versnellen.
Ruimtelijk begrip is een fundamentele hoeksteen van menselijk niveau intelligentie. Desalniettemin richt huidig onderzoek zich voornamelijk op domeinspecifieke dataproductie, wat een kritieke leemte achterlaat: het ontbreken van een principieel, open-source systeem dat in staat is de potentie van hoogwaardige ruimtelijke data volledig te benutten. Om deze kloof te overbruggen, lichten we de ontwerpprincipes van een robuust datageneratiesysteem toe en introduceren we OpenSpatial – een open-source data-engine ontworpen voor hoge kwaliteit, uitgebreide schaalbaarheid, brede taakdiversiteit en geoptimaliseerde efficiëntie. OpenSpatial hanteert 3D-boundingboxes als fundamentele primitief om een uitgebreide datahiërarchie op te bouwen voor vijf fundamentele taken: Ruimtelijke Meting (SM), Ruimtelijke Relaties (SR), Cameraperceptie (CP), Multi-view Consistentie (MC) en Scène-bewust Redeneren (SAR). Gebruikmakend van deze schaalbare infrastructuur, hebben we OpenSpatial-3M samengesteld, een grootschalige dataset bestaande uit 3 miljoen hoogwaardige samples. Uitgebreide evaluaties tonen aan dat veelzijdige modellen die op onze dataset zijn getraind, state-of-the-art prestaties bereiken op een breed spectrum van ruimtelijke redeneerbenchmarks. Opmerkelijk is dat het best presterende model een substantiële gemiddelde verbetering van 19 procent laat zien, relatief gezien. Verder bieden we een systematische analyse van hoe data-attributen ruimtelijke perceptie beïnvloeden. Door zowel de engine als de dataset op 3M-schaal open source te maken, bieden we een robuuste basis om toekomstig onderzoek in ruimtelijke intelligentie te versnellen.
Om de versterkt leren post-training paradigma uit te breiden naar omni-modale modellen voor gelijktijdige versterking van video-audio begrip en collaboratief redeneren, stellen we OmniJigsaw voor, een generiek zelfgesuperviseerd raamwerk gebaseerd op een proxytaak van temporele herordening. Gecentreerd rond de chronologische reconstructie van geschudde audiovisuele clips, orkestreert dit paradigma visuele en auditieve signalen strategisch om cross-modale integratie af te dwingen via drie afzonderlijke strategieën: Gezamenlijke Modaliteitsintegratie, Modaliteitsselectie op Monsterniveau en Modaliteitsmaskering op Clipniveau. Omdat we erkennen dat de effectiviteit van dergelijke proxytaken fundamenteel verbonden is met de kwaliteit van de puzzel, ontwerpen we een tweefasen datafilteringspijplijn van grof naar fijn, die de efficiënte aanpassing van OmniJigsaw aan massale ongelabelde omni-modale data vergemakkelijkt. Onze analyse onthult een "bi-modale kortsluitingfenomeen" in gezamenlijke modaliteitsintegratie en toont aan dat fijnmazige modaliteitsmaskering op clipniveau dit probleem vermindert en tegelijkertijd modaliteitsselectie op monsterniveau overtreft. Uitgebreide evaluaties op 15 benchmarks tonen substantiële vooruitgang in video, audio en collaboratief redeneren, wat OmniJigsaw valideert als een schaalbaar paradigma voor zelfgesuperviseerd omni-modale leren.
Het gebruik van vaardigheden is een kernonderdeel geworden van moderne agentsystemen en kan het vermogen van agents om complexe taken te volbrengen aanzienlijk verbeteren. In realistische omgevingen, waar agents talloze persoonlijke applicaties, webbrowsers en andere omgevingsinterfaces moeten monitoren en ermee moeten interacteren, kunnen vaardigheidsbibliotheken uitgroeien tot duizenden herbruikbare vaardigheden. Het opschalen naar grotere vaardigheidsverzamelingen brengt twee belangrijke uitdagingen met zich mee. Tenelijk belast het laden van de volledige set de contextruimte tot aan de limiet, wat leidt tot hogere tokenkosten, hallucinaties en latentie. In dit artikel presenteren wij Graph of Skills (GoS), een structurele retrievallaag tijdens de inferentie voor grote vaardigheidsbibliotheken. GoS construeert offline een uitvoerbare vaardigheidsgrafiek uit vaardigheidspakketten, en haalt tijdens de inferentie een begrensde, afhankelijkheidsbewuste vaardigheidsbundel op via hybride semantisch-lexicale seeding, omgekeerd-gewogen Gepersonaliseerde PageRank en context-begroting hydratatie. Op SkillsBench en ALFWorld verbetert GoS de gemiddelde beloning met 43,6% ten opzichte van de baseline met volledige vaardigheidslading, terwijl de input-tokens met 37,8% worden verminderd, en generaliseert het over drie modelfamilies: Claude Sonnet, GPT-5.2 Codex en MiniMax. Aanvullende ablatiestudies over vaardigheidsbibliotheken variërend van 200 tot 2.000 vaardigheden tonen verder aan dat GoS consistent beter presteert dan zowel volledige vaardigheidslading als eenvoudige vectorretrieval in het balanceren van beloning, tokenefficiëntie en uitvoeringstijd.
Gegeven een persoon en een kledingstukafbeelding, heeft virtueel passen (Virtual Try-On, VTO) als doel een realistische afbeelding te synthetiseren van de persoon die het kledingstuk draagt, waarbij de oorspronkelijke houding en identiteit behouden blijven. Hoewel recente VTO-methoden uitblinken in het visualiseren van het uiterlijk van kledingstukken, negeren ze grotendeels een cruciaal aspect van de paservaring: de nauwkeurigheid van de pasvorm – bijvoorbeeld het weergeven van hoe een extra groot shirt eruitziet op een extra kleine persoon. Een belangrijk obstakel is het ontbreken van datasets die precieze informatie verschaffen over kleding- en lichaamsmaten, met name voor gevallen van 'slechte pasvorm', waarbij kledingstukken aanzienlijk te groot of te klein zijn. Dientengevolge genereren huidige VTO-methoden standaard goed passende resultaten, ongeacht de maat van het kledingstuk of de persoon. In dit artikel zetten we de eerste stappen naar het oplossen van dit open probleem. We introduceren FIT (Fit-Inclusive Try-on), een grootschalige VTO-dataset bestaande uit meer dan 1,13 miljoen try-on beeldtripletten, vergezeld van precieze lichaams- en kledingmaten. We overwinnen de uitdagingen van gegevensverzameling via een schaalbare synthetische strategie: (1) We genereren programmatisch 3D-kledingstukken met behulp van GarmentCode en draperen deze via fysicasimulatie om realistische pasvorm vast te leggen. (2) We gebruiken een nieuw hertextureringsraamwerk om synthetische weergaven om te zetten in fotorealistische beelden, waarbij de geometrie strikt behouden blijft. (3) We introduceren het behoud van persoonlijke identiteit in ons hertextureringsmodel om gepaarde persoonbeelden te genereren (zelfde persoon, verschillende kledingstukken) voor gesuperviseerde training. Ten slotte benutten we onze FIT-dataset om een baseline model voor pasvormbewust virtueel passen te trainen. Onze data en resultaten vestigen de nieuwe state-of-the-art voor pasvormbewust virtueel passen en bieden tegelijkertijd een robuuste benchmark voor toekomstig onderzoek. We zullen alle data en code openbaar beschikbaar stellen op onze projectpagina: https://johannakarras.github.io/FIT.
Frontier-LLM's kunnen complexe websites navigeren, maar hun kosten en afhankelijkheid van third-party API's maken lokale implementatie onpraktisch. Wij introduceren 'Agent-as-Annotators', een raamwerk dat de synthetische generatie van trajecten voor webagents structureert naar analogie van menselijke annotatierollen, waarbij de Task Designer, Annotator en Supervisor worden vervangen door modulaire LLM-componenten. Met Gemini 3 Pro als 'teacher' genereren we 3.000 trajecten in zes webomgevingen en fine-tunen een studentmodel met 9B parameters via pure supervised learning op de 2.322 trajecten die de kwaliteitsfiltering doorstaan. Het resulterende model behaalt 41,5% op WebArena, wat gesloten modellen zoals Claude 3.5 Sonnet (36,0%) en GPT-4o (31,5%) overtreft onder hetzelfde evaluatieprotocol, en verdubbelt bijna het vorige beste open-weight resultaat (Go-Browse, 21,7%). De capaciteiten transfereren naar onbekende omgevingen, met een winst van 18,2 procentpunt op WorkArena L1 (een enterprise-platform dat niet tijdens de training werd gezien) en consistente verbeteringen op drie aanvullende benchmarks. Ablatieonderzoek bevestigt dat elke pijplijncomponent betekenisvol bijdraagt, waarbij Judge-filtering, evaluatiehints en redeneersporen elk meetbare winst opleveren. Deze resultaten tonen aan dat gestructureerde trajectensynthese met een enkele frontier-teacher voldoende is om competitieve, lokaal inzetbare webagents te produceren. Projectpagina: https://agent-as-annotators.github.io
Vision-language-action (VLA)-modellen hebben robotmanipulatie vooruitgebracht door grootschalige voorafgaande training, maar de inzet in de echte wereld blijft een uitdaging vanwege gedeeltelijke observeerbaarheid en vertraagde feedback. Reinforcement learning pakt dit aan via waardefuncties, die de voortgang van de taak beoordelen en het verbeteren van het beleid sturen. Bestaande waardemodellen die zijn gebouwd op vision-language models (VLMs) hebben echter moeite met het vastleggen van temporele dynamiek, wat betrouwbare waardeschatting in taken met een lange tijdshorizon ondermijnt. In dit artikel stellen we ViVa voor, een video-generatief waardemodel dat een vooraf getrainde videogenerator hergebruikt voor waardeschatting. ViVo neemt de huidige observatie en robotproprioceptie als invoer en voorspelt gezamenlijk de toekomstige proprioceptie en een scalaire waarde voor de huidige toestand. Door gebruik te maken van de spatiotemporele voorkennis van een vooraf getrainde videogenerator, verankert onze aanpak waardeschatting in anticiperende embodiment-dynamiek, waardoor verder wordt gegaan dan statische momentopnames en waarde intrinsiek wordt gekoppeld aan vooruitziendheid. Geïntegreerd in RECAP levert ViVa aanzienlijke verbeteringen op bij echte montagetaken met dozen. Kwalitatieve analyse over alle drie de taken bevestigt dat ViVa betrouwbaardere waardesignalen produceert, die de taakvoortgang nauwkeurig weerspiegelen. Door gebruik te maken van spatiotemporele voorkennis uit videocorpora, generaliseert ViVo ook naar nieuwe objecten, wat de belofte van video-generatieve modellen voor waardeschatting benadrukt.
Het aanpassen van multimodale grote taalmodellen (MLLM's) voor video's van urenlang wordt beperkt door contextlimieten. Dichte visuele stromen verzadigen de tokenbudgetten en verergeren het 'lost-in-the-middle'-fenomeen. Bestaande heuristieken, zoals sparse sampling of uniform pooling, offeren blindelings nauwkeurigheid op door beslissende momenten te verwijderen en bandbreedte te verspillen aan irrelevante achtergronden. Wij stellen Tempo voor, een efficiënt query-aware raamwerk dat lange video's comprimeert voor downstream begrip. Tempo benut een Small Vision-Language Model (SVLM) als een lokale temporele compressor, waarbij tokenreductie wordt gegoten als een vroeg cross-modale distillatieproces om compacte, intentie-uitgelijnde representaties te genereren in een enkele voorwaartse pass. Om strikte budgetten af te dwingen zonder causaliteit te breken, introduceren we Adaptive Token Allocation (ATA). Door gebruik te maken van de zero-shot relevantieprior en semantische front-loading van de SVLM, fungeert ATA als een trainingsvrije O(1) dynamische router. Het wijst dichte bandbreedte toe aan query-kritieke segmenten terwijl redundanties worden gecomprimeerd tot minimale temporele ankers om het globale verhaal te behouden. Uitgebreide experimenten tonen aan dat onze 6B-architectuur state-of-the-art prestaties bereikt met agressieve dynamische compressie (0,5-16 tokens/frame). Op de extreem lange LVBench (4101s) scoort Tempo 52,3 onder een strikt 8K visueel budget, beter dan GPT-4o en Gemini 1.5 Pro. Schalen naar 2048 frames bereikt 53,7. Cruciaal is dat Tempo video's van urenlang substantieel onder theoretische limieten comprimeert, wat bewijst dat echt langdurig videobegrip steunt op intentie-gedreven efficiëntie in plaats van op hebberig opgevulde contextvensters.
Robotmanipulatie met vervormbare objecten vertegenwoordigt een data-intensief regime in embodied learning, waarbij vorm, contact en topologie gezamenlijk evolueren op manieren die de variabiliteit van rigide lichamen ver overstijgen. Hoewel simulatie soelaas belooft voor de kosten van gegevensverzameling in de echte wereld, blijven gangbare sim-to-real-pipelines verankerd in rigide-lichaamabstracties, wat leidt tot ongepaste geometrie, fragiele zachte dynamiek en bewegingsprimitieven die slecht geschikt zijn voor interactie met textiel. Wij stellen dat simulatie niet faalt omdat ze synthetisch is, maar omdat ze niet gegrond is. Om dit aan te pakken, introduceren wij SIM1, een fysica-gelijkende real-to-sim-to-real data-engine die simulatie verankert in de fysieke wereld. Gegeven een beperkt aantal demonstraties digitaliseert het systeem scènes tot metriek-consistente tweelingen, kalibreert vervormbare dynamica via elastische modellering, en breidt gedrag uit via diffusiegebaseerde trajectgeneratie met kwaliteitsfiltering. Deze pijplijn transformeert schaarse observaties naar geschaalde synthetische supervisie met een getrouwheid die bijna gelijk is aan de demonstratie. Experimenten tonen aan dat beleidsregels, getraind op puur synthetische data, een gelijkwaardigheid bereiken met baseline-methoden die op echte data zijn getraind, bij een equivalentieverhouding van 1:15, terwijl ze in real-world-implementatie 90% zero-shot-succes en 50% generalisatiewinst opleveren. Deze resultaten valideren fysica-gelijkende simulatie als schaalbare supervisie voor vervormbare manipulatie en een praktische weg naar data-efficiënt beleidsleren.
De kwadratische computationele complexiteit van standaard aandachtmechanismen vormt een ernstige schaalbaarheidsbeperking voor grote taalmodel(len) in scenario's met lange context. Hoewel hybride aandachtmechanismen die Volledige Aandacht (VA) en Sparse Aandacht (SA) combineren een mogelijke oplossing bieden, zijn bestaande methoden doorgaans gebaseerd op statische toewijzingsverhoudingen die niet kunnen voldoen aan de variabele retrievalbehoeften van verschillende taken. Bovendien introduceert dynamische sparse aandacht op het niveau van aandachtskoppen vaak een ernstige onevenwichtige rekenlast en synchronisatielange staarten, wat hardwareversnelling tijdens autoregressieve decodering belemmert. Om deze kloof te overbruggen, introduceren wij Flux Aandacht, een contextbewust raamwerk dat de aandachtberekening dynamisch optimaliseert op het laagniveau. Door een lichtgewicht Laagrouter te integreren in bevroren, vooraf getrainde grote taalmodel(len), routeert de voorgestelde methode elke laag adaptief naar VA of SA op basis van de invoercontext. Deze routing per laag behoudt hoogwaardige informatie-retrieval en zorgt tegelijkertijd voor aaneengesloten geheugentoegang, wat theoretische rekenreducties vertaalt naar praktische snelheidswinst in werkelijke tijd. Als een parameter-efficiënte aanpak vereist ons raamwerk slechts 12 uur training op 8xA800 GPU's. Uitgebreide experimenten op meerdere benchmarks voor lange context en wiskundig redeneren tonen aan dat Flux Aandacht een superieure balans bereikt tussen prestaties en inferentiesnelheid in vergelijking met baseline-modellen, met snelheidsverbeteringen tot 2,8x en 2,0x in respectievelijk de prefill- en decodeerfasen.
Database systemen integreren een steeds groter aantal functies in hun kernels (ook wel database-native functies genoemd) voor scenario's zoals ondersteuning van nieuwe applicaties en bedrijfsmigratie. Deze groei veroorzaakt een dringende vraag naar automatische synthese van database-native functies. Hoewel recente vooruitgang in op LLM gebaseerde codegeneratie (bijv. Claude Code) veelbelovend is, zijn deze technieken te generiek voor databasespecifieke ontwikkeling. Ze hallucineren vaak of negeren kritieke context, omdat functiesynthese voor databases inherent complex en foutgevoelig is: het synthetiseren van een enkele functie kan het registreren van meerdere functie-eenheden, het koppelen van interne referenties en het correct implementeren van logica omvatten. Daarom stellen wij DBCooker voor, een op LLM gebaseerd systeem voor het automatisch synthetiseren van database-native functies. Het bestaat uit drie componenten. Ten eerste aggregeert de functiekarakteriseringsmodule declaraties uit meerdere bronnen, identificeert functie-eenheden die gespecialiseerde codering vereisen en traceert afhankelijkheden tussen eenheden. Ten tweede ontwerpen we operaties om de belangrijkste synthese-uitdagingen aan te pakken: (1) een op pseudocode gebaseerde generator van codeerplannen die gestructureerde implementatieskeletten construeert door belangrijke elementen zoals herbruikbare referentiefuncties te identificeren; (2) een hybride invulmodel, geleid door probabilistische prioriteiten en componentbewustzijn, om kernlogica te integreren met herbruikbare routines; en (3) drietraps progressieve validatie, inclusief syntaxiscontrole, naleving van standaarden en door LLM geleide semantische verificatie. Tot slot verenigt een adaptieve orkestratiestrategie deze operaties met bestaande tools en sequentieert ze dynamisch via de orkestratiegeschiedenis van vergelijkbare functies. Resultaten tonen aan dat DBCooker andere methoden overtreft op SQLite, PostgreSQL en DuckDB (gemiddeld 34,55% hogere nauwkeurigheid), en nieuwe functies kan synthetiseren die afwezig zijn in de nieuwste SQLite (v3.50).
De opkomst van grootschalige taalmodel(len) (Large Language Models, LLMs) heeft het potentieel voor een algemeen bruikbare gebruikerssimulator belicht. Bestaande benchmarks blijven echter beperkt tot geïsoleerde scenario's, smalle actieruimten of synthetische data, waardoor zij de holistische aard van authentiek menselijk gedrag niet kunnen vatten. Om deze kloof te overbruggen, introduceren wij OmniBehavior, de eerste gebruikerssimulatiebenchmark die volledig is opgebouwd uit real-world data en die langetermijn-, cross-scenario- en heterogene gedragspatronen integreert in een uniform raamwerk. Op basis van deze benchmark leveren wij eerst empirisch bewijs dat eerdere datasets met geïsoleerde scenario's lijden aan tunnelvisie, terwijl real-world besluitvorming steunt op langetermijn- en cross-scenario causaalrelaties. Uitgebreide evaluaties van state-of-the-art LLMs onthullen dat huidige modellen moeite hebben om deze complexe gedragingen accuraat te simuleren, waarbij de prestaties een plateau bereiken zelfs wanneer de contextvensters worden vergroot. Cruciaal is dat een systematische vergelijking tussen gesimuleerd en authentiek gedrag een fundamentele structurele bias blootlegt: LLMs neigen ernaar te convergeren naar een positief gemiddeld persoon, waarbij zij hyperactiviteit, persona-homogenisering en een utopische bias vertonen. Dit resulteert in het verlies van individuele verschillen en long-tail-gedragingen, wat cruciale richtingen voor toekomstig hoogfidelity simulatieonderzoek benadrukt.
Fundamentele modellen bieden sterke perceptie, maar zijn vaak te rekenintensief voor implementatie, en aanpassing vereist doorgaans kostbare annotaties. Wij introduceren een semi-gesuperviseerd kennisdistillatie (SSKD) raamwerk dat vooraf getrainde visuele fundamentele modellen (VFM's) comprimeert tot compacte experts met behulp van beperkte gelabelde en overvloedige ongelabelde data, en concretiseren dit voor instantiesegmentatie waar per-pixel labels bijzonder kostbaar zijn. Het raamwerk verloopt in drie fasen: (1) domeinaanpassing van de VFM('s) via zelftraining met contrastieve calibratie, (2) kennisoverdracht middels een verenigde multi-objectieve lossfunctie, en (3) studentverfijning om resterende pseudo-label bias te mitigeren. Centraal in onze aanpak staat een instance-aware pixelgewijze contrastieve loss die maskscores en klassescores fuseert om informatieve negatieven te extraheren en duidelijke inter-instance marges af te dwingen. Door dit contrastieve signaal te handhaven tijdens zowel aanpassing als distillatie, aligneren we teacher- en student-embeddings en benutten we ongelabelde afbeeldingen effectiever. Op Cityscapes en ADE20K verbetert onze circa 11x kleinere student ten opzichte van zijn zero-shot VFM-teacher(s) met +11.9 en +8.6 AP, overtreft aangepaste teacher(s) met +3.4 en +1.5 AP, en presteert beter dan state-of-the-art SSKD-methoden op benchmarks.
Diffusiemodellen hebben opmerkelijke vooruitgang geboekt in videogeneratie, maar hun bestuurbaarheid blijft een grote beperking. Belangrijke scenefactoren zoals opstelling, belichting en cameratraject zijn vaak verweven of slechts zwak gemodelleerd, wat hun toepasbaarheid beperkt in domeinen zoals filmproductie en virtual production waar expliciete scènecontrole essentieel is. Wij presenteren LiVER, een op diffusie gebaseerd raamwerk voor scene-bestuurbare videogeneratie. Hiertoe introduceren we een nieuw raamwerk dat videosynthese conditioneert op expliciete 3D-scène-eigenschappen, ondersteund door een nieuwe grootschalige dataset met dichte annotaties van objectopstelling, belichting en cameraparameters. Onze methode ontwart deze eigenschappen door besturingssignalen te renderen vanuit een uniforme 3D-representatie. We stellen een lichtgewicht conditioneringsmodule en een progressieve trainingsstrategie voor om deze signalen te integreren in een fundamenteel videodiffusiemodel, waarbij stabiele convergentie en hoge kwaliteit worden gegarandeerd. Ons raamwerk maakt een breed scala aan toepassingen mogelijk, inclusief beeld-naar-video en video-naar-video synthese waarbij de onderliggende 3D-scène volledig bewerkbaar is. Om de bruikbaarheid verder te verbeteren, ontwikkelen we een scene-agent die hoogwaardige gebruikersinstructies automatisch vertaalt naar de vereiste 3D-besturingssignalen. Experimenten tonen aan dat LiVER state-of-the-art fotorealisme en temporele consistentie bereikt, terwijl het precieze, ontwarde controle over scenefactoren mogelijk maakt, waarmee het een nieuwe standaard zet voor bestuurbare videogeneratie.
Wij onderzoeken of getrainde capaciteiten tussen modellen kunnen worden overgedragen zonder hertraining, met een focus op overdracht tussen verschillende modelschalen. Wij stellen de Master Key-hypothese voor, die stelt dat modelcapaciteiten corresponderen met richtingen in een laagdimensionale latente deelruimte die specifiek gedrag induceren en overdraagbaar zijn tussen modellen via lineaire alignering. Gebaseerd op deze hypothese introduceren wij UNLOCK, een trainingsvrij en labelvrij framework dat een capaciteitsrichting extraheert door activeringen te contrasteren tussen bronvarianten met en zonder de capaciteit, deze aligneert met een doelmodel via een lineaire laag-rangtransformatie, en deze tijdens inferentie toepast om het gedrag op te wekken. Experimenten met redeneergedrag, waaronder Chain-of-Thought (CoT) en wiskundig redeneren, tonen substantiële verbeteringen tussen modelschalen zonder training. Zo levert overdracht van CoT-redenering van Qwen1.5-14B naar Qwen1.5-7B een nauwkeurigheidswinst op van 12,1% op MATH, en verbetert overdracht van een wiskundige redeneerrichting van Qwen3-4B-Base naar Qwen3-14B-Base de AGIEval Math-nauwkeurigheid van 61,1% naar 71,3%, wat de 67,8% van het getrainde 14B-model overtreft. Onze analyse toont aan dat het succes van overdracht afhangt van de tijdens de voortraining verworven capaciteiten, en dat onze interventie latente capaciteiten versterkt door de uitvoerverdeling te verscherpen naar succesvolle redeneertrajecten.
Multimodale redeneermodellen (MRM's) die zijn getraind met reinforcement learning met verifieerbare beloningen (RLVR) vertonen een verbeterde nauwkeurigheid op visuele redeneerbenchmarks. Wij observeren echter dat nauwkeurigheidswinst vaak ten koste gaat van de redeneerkwaliteit: gegenereerde Chain-of-Thought (CoT)-sporen zijn vaak inconsistent met het uiteindelijke antwoord en slecht verankerd in het visuele bewijs. Wij bestuderen dit fenomeen systematisch in zeven uitdagende real-world ruimtelijke redeneerbenchmarks en constateren dat het van invloed is op hedendaagse MRM's zoals ViGoRL-Spatial, TreeVGR, evenals op onze eigen modellen die zijn getraind met standaard Group Relative Policy Optimization (GRPO). Wij karakteriseren de CoT-redeneerkwaliteit langs twee complementaire assen: "logische consistentie" (leidt de CoT logisch tot het eindantwoord?) en "visuele verankering" (beschrijft elke redeneerstap objecten, attributen en ruimtelijke relaties in de afbeelding accuraat?). Om dit aan te pakken, stellen wij Faithful GRPO (FGRPO) voor, een variant van GRPO die consistentie en verankering als constraints afdwingt via Lagrangiaanse dual ascent. FGRPO integreert batch-level consistentie- en verankeringsconstraints in de advantage-berekening binnen een groep, en past het relatieve belang van constraints adaptief aan tijdens de optimalisatie. Wij evalueren FGRPO op Qwen2.5-VL-7B en 3B backbones over zeven ruimtelijke datasets. Onze resultaten tonen aan dat FGRPO de redeneerkwaliteit aanzienlijk verbetert: de inconsistentieratio daalt van 24,5% naar 1,7% en de visuele verankeringsscores verbeteren met +13%. Het verbetert ook de nauwkeurigheid van het eindantwoord ten opzichte van eenvoudige GRPO, wat aantoont dat betrouwbaar redeneren betere antwoorden mogelijk maakt.
Recente vooruitgang in generatieve videomodellering, aangedreven door grootschalige datasets en krachtige architecturen, heeft opmerkelijke visuele realistisch opgeleverd. Er zijn echter aanwijzingen dat het simpelweg opschalen van data en modelgrootte deze systemen niet begrip geeft van de onderliggende natuurwetten die de dynamiek in de echte wereld beheersen. Bestaande benaderingen slagen er vaak niet in om dergelijke fysische consistentie vast te leggen of af te dwingen, wat resulteert in onrealistische beweging en dynamiek. In ons werk onderzoeken we of het integreren van de inferentie van latente fysische eigenschappen direct in het videogeneratieproces modellen het vermogen kan geven om fysisch plausibele video's te produceren. Hiertoe stellen we Phantom voor, een Physics-Infused Video Generation-model dat zowel de visuele inhoud als de latente fysische dynamiek gezamenlijk modelleert. Gekonditioneerd op waargenomen videobeelden en afgeleide fysische toestanden, voorspelt Phantom gezamenlijk de latente fysische dynamiek en genereert het toekomstige videobeelden. Phantom maakt gebruik van een fysica-bewuste videorepresentatie die dient als een abstracte doch informatieve embedding van de onderliggende fysica, wat de gezamenlijke voorspelling van fysische dynamiek naast videocontent vergemakkelijkt zonder dat een expliciete specificatie van een complexe set fysische dynamiek en eigenschappen vereist is. Door de inferentie van fysica-bewuste videorepresentatie direct te integreren in het videogeneratieproces, produceert Phantom videoreeksen die zowel visueel realistisch als fysisch consistent zijn. Kwantitatieve en kwalitatieve resultaten op zowel standaard videogeneratie- als fysica-bewuste benchmarks tonen aan dat Phantom niet alleen bestaande methoden overtreft wat betreft naleving van fysische dynamiek, maar ook competitieve perceptuele kwaliteit levert.
Hoewel Vision-Language Models (VLMs) een opmerkelijke vooruitgang hebben geboekt in statisch visueel begrip, blijft hun inzet in complexe 3D-omgevingen met belichaming ernstig beperkt. Bestaande benchmarks lijden onder vier kritieke tekortkomingen: (1) passieve perceptietaken omzeilen interactieve dynamiek; (2) vereenvoudigde 2D-omgevingen slagen er niet in dieptewaarneming te beoordelen; (3) het lekken van geprivilegieerde statusinformatie omzeilt echt visueel verwerken; en (4) humane evaluatie is verbijsterend duur en niet schaalbaar. Wij introduceren PokeGym, een visueel-gestuurde benchmark voor lange-termijntaken, geïnstantieerd binnen Pokémon Legends: Z-A, een visueel complex 3D open-wereld Role-Playing Game. PokeGym handhaaft strikte isolatie op code-niveau: agenten opereren uitsluitend op basis van ruwe RGB-waarnemingen, terwijl een onafhankelijke evaluator het succes verifieert via geheugenscannen. Dit garandeert zuiver op visie gebaseerde besluitvorming en geautomatiseerde, schaalbare beoordeling. De benchmark omvat 30 taken (30-220 stappen) die navigatie, interactie en gemengde scenario's bestrijken, met drie instructie-granulariteiten (Visueel-Gestuurd, Stap-voor-Stap-Gestuurd, Alleen-Doel) om visuele verankering, semantisch redeneren en autonome verkenning systematisch te deconstrueren. Onze evaluatie onthult een belangrijke beperking van huidige VLMs: het herstellen van fysieke impasses (deadlocks), in plaats van planning op hoog niveau, vormt de primaire bottleneck, waarbij impasses een sterke negatieve correlatie vertonen met taaksucces. Verder ontdekken we een metacognitieve divergentie: zwakkere modellen lijden vooral aan Onbewuste Impasses (zich niet bewust van insluiting), terwijl geavanceerdere modellen Bewuste Impasses vertonen (insluiting herkennen maar niet kunnen herstellen). Deze bevindingen benadrukken de noodzaak om expliciete ruimtelijke intuïtie te integreren in VLM-architecturen. De code en benchmark zullen beschikbaar zijn op GitHub.
Zero-shot anomaliedetectie heeft als doel abnormale regio's in een afbeelding te detecteren en lokaliseren zonder toegang tot in-domein trainingsafbeeldingen. Hoewel recente benaderingen vision-language-modellen (VLM's) zoals CLIP inzetten om hoogwaardige conceptkennis over te dragen, blijven methoden gebaseerd op puur vision foundation-modellen (VFM's) zoals DINOv2 achter in prestaties. Wij stellen dat deze kloof voortkomt uit twee praktische problemen: (i) beperkte diversiteit in bestaande hulpdatalabels voor anomaliedetectie en (ii) te oppervlakkige VFM-aanpassingsstrategieën. Om beide uitdagingen aan te pakken, presenteren we AnomalyVFM, een algemeen en effectief raamwerk dat elk voorgetraind VFM omzet in een sterke zero-shot anomaliedetector. Onze aanpak combineert een robuust drie-fasen synthetisch datageneratieschema met een parameter-efficiënt aanpassingsmechanisme, gebruikmakend van low-rank feature-adapters en een vertrouwensgewogen pixelverlies. Samen stellen deze componenten moderne VFM's in staat om huidige state-of-the-art methoden aanzienlijk te overtreffen. Concreet behaalt AnomalyVFM met RADIO als backbone een gemiddeld image-level AUROC van 94,1% over 9 diverse datasets, wat een significante verbetering van 3,3 procentpunten ten opzichte van eerdere methoden vertegenwoordigt. Projectpagina: https://maticfuc.github.io/anomaly_vfm/
Het inzetten van grote taalmodellen (LLM's) op heterogene edge-apparaten vereist raamwerken die energie-efficiëntie, inferentiekwaliteit en betrouwbaarheid gezamenlijk optimaliseren. Onze eerdere QEIL v1 (Kumar & Jha, 2026) behaalde een 4,82x IPW-verbetering, maar steunde op statische efficiëntiefactoren, hebberige optimalisatie en ongeverifieerde kandidaatselectie. QEIL v2 vervangt elke statische heuristiek door fysica-gestuurde, runtime-adaptieve modellen. Wij introduceren drie apparaat-workload metrieken: DASI (roofline-afgeleide rekenbenutting), CPQ (geheugendruk uit allocatietheorie) en Phi (thermische opbrengst uit CMOS-lekfysica), die een uniforme energievergelijking vormen waarbij elke coëfficiënt herleidbaar is tot halfgeleiderfysica. Voor optimalisatie minimaliseert PGSAM (Pareto-Guided Simulated Annealing with Momentum) gelijktijdig energie, latentie en apparaatonderbenutting. Tijdens inferentie biedt de EAC/ARDE-selectiecascade met CSVET-vroege stopzetting progressieve verificatie tussen herhaalde samples. Geëvalueerd op WikiText-103, GSM8K en ARC-Challenge over zeven modelfamilies (125M-8B parameters, inclusief een vooraf gekwantiseerde variant), behaalt QEIL v2 75,7% pass@k bij 63,8W (IPW=0,9749), een 2,86x verbetering ten opzichte van standaard inferentie. Toegepast op een 4-bit Llama-3.1-8B bereikt QEIL v2's fysica-gestuurde routering IPW=1,024 bij 54,8W – het eerste edge-orchestratatiesysteem dat het empirische referentieniveau IPW=1,0 overschrijdt, waarbij de winst volledig toe te schrijven is aan QEIL v2's workload-adaptieve apparaattoewijzing op een model met verminderde geheugenbandbreedtebehoefte. Totale energie daalt met 75,6% ten opzichte van standaard, met 38,3% latentiereductie, geen thermische beperking en 100% foutherstel over alle benchmarks en modelfamilies.
Vision-language modellen (VLMs) behalen sterke multimodale prestaties, maar hoe computationele verwerking georganiseerd is over populaties van neuronen blijft grotendeels onbegrepen. In dit werk bestuderen we VLMs door de lens van neurale topologie, waarbij we elke laag representeren als een graaf van binnenlaagcorrelaties, afgeleid van neuron-neuron co-activaties. Deze invalshoek stelt ons in staat te onderzoeken of de populatiestructuur gedragsrelevant is, hoe deze verandert tussen modaliteiten en in diepte, en of deze causaal invloedrijke interne componenten identificeert onder interventie. Wij tonen aan dat correlatietopologie herleidbaar gedragssignaal bevat; bovendien consolideert de cross-modale structuur progressief met de diepte rond een compacte set van recurrente hubneuronen, waarvan gerichte perturbatie de modeloutput aanzienlijk verandert. Neurale topologie komt zo naar voren als een betekenisvolle tussenliggende schaal voor VLM-interpreteerbaarheid: rijker dan lokale attributie, beter hanteerbaar dan volledige circuitreconstructie, en empirisch verbonden met multimodaal gedrag. Code is publiekelijk beschikbaar op https://github.com/he-h/vlm-graph-probing.
Recent onderzoek heeft zich gericht op het optimaliseren van beeldverwerkingspijplijnen (ISP) voor diverse taken door vooraf gedefinieerde modules samen te stellen en aan te passen aan taakspecifieke doelstellingen. Het gezamenlijk optimaliseren van modulesequenties en parameters blijft echter een uitdaging. Bestaande methoden steunen op neurale architectuurzoekalgoritmen (NAS) of stapsgewijze reinforcement learning (RL), maar NAS lijdt onder een kloof tussen training en inferentie, terwijl stapsgewijze RL leidt tot instabiele training en hoge rekenkosten door gefaseerde besluitvorming. Wij stellen POS-ISP voor, een sequentieel RL-raamwerk dat modulaire ISP-optimalisatie formuleert als een globaal sequentievoorspelingsprobleem. Onze methode voorspelt de volledige modulesequentie en bijbehorende parameters in één enkele voorwaartse doorloop en optimaliseert de pijplijn met een eindtaakbeloning, waardoor tussenliggend toezicht en redundante uitvoeringen overbodig worden. Experimenten met meerdere downstreamtaken tonen aan dat POS-ISP de taakprestatie verbetert en tegelijkertijd de rekenkosten verlaagt, wat sequentieel optimaliseren benadrukt als een stabiel en efficiënt paradigma voor taakbewuste beeldverwerking. De projectpagina is beschikbaar op https://w1jyun.github.io/POS-ISP.
Moderne tekst-naar-beeldmodellen (T2I) genereren visueel hoogwaardige beelden, maar blijven onverschillig voor individuele gebruikersvoorkeuren. Hoewel bestaande beloningsmodellen optimaliseren voor een 'gemiddelde' menselijke aantrekkingskracht, slagen zij er niet in de inherente subjectiviteit van esthetisch oordeel te vatten. In dit werk introduceren we een nieuwe dataset en een voorspellend raamwerk, genaamd PAMELA, dat is ontworpen om gepersonaliseerde beeldbeoordelingen te modelleren. Onze dataset omvat 70.000 beoordelingen van 5.000 diverse beelden gegenereerd door state-of-the-art modellen (Flux 2 en Nano Banana). Elk beeld wordt beoordeeld door 15 unieke gebruikers, wat een rijke verdeling van subjectieve voorkeuren oplevert across domeinen zoals kunst, design, mode en cinematografische fotografie. Gebruikmakend van deze data stellen we een gepersonaliseerd beloningsmodel voor dat gezamenlijk wordt getraind op onze hoogwaardige annotaties en bestaande subsets voor esthetische beoordeling. We tonen aan dat ons model individuele voorkeuren met een hogere nauwkeurigheid voorspelt dan de meerderheid van de huidige state-of-the-art methoden die op populatieniveau voorspellen. Met behulp van onze gepersonaliseerde predictor demonstreren we hoe eenvoudige promptoptimalisatiemethoden kunnen worden gebruikt om gegenereerde beelden af te stemmen op individuele gebruikersvoorkeuren. Onze resultaten benadrukken het belang van data-kwaliteit en personalisatie om de subjectiviteit van gebruikersvoorkeuren te hanteren. We stellen onze dataset en model beschikbaar om gestandaardiseerd onderzoek te faciliteren naar gepersonaliseerde T2I-afstemming en subjectieve visuele kwaliteitsbeoordeling.
Recente vooruitgang in vision-language modellen (VLM's) heeft beeldbeschrijving voor cultureel erfgoed verbeterd. Het afleiden van gestructureerde culturele metadata (bijvoorbeeld maker, herkomst, periode) uit visuele input blijft echter onderbelicht. Wij introduceren een multicategorie, cross-culturele benchmark voor deze taak en evalueren VLM's met een LLM-as-Judge raamwerk dat de semantische alignering met referentieannotaties meet. Om cultureel redeneren te beoordelen, rapporteren we exacte-overeenkomst, gedeeltelijke-overeenkomst en attribuutnauwkeurigheid over culturele regio's heen. Resultaten tonen aan dat modellen gefragmenteerde signalen oppikken en aanzienlijke prestatievariatie vertonen tussen culturen en metadatatypes, wat leidt tot inconsistente en zwak onderbouwde voorspellingen. Deze bevindingen benadrukken de beperkingen van huidige VLM's bij het afleiden van gestructureerde culturele metadata voorbij de visuele perceptie.
Versterkingsleren (RL) is een effectieve benadering geworden om de redeneervaardigheden van grote taalmodellen (LLM's) te verbeteren door de strategische integratie van externe zoekmachines. Huidige RL-gebaseerde zoekagenten vertrouwen echter vaak op een proces van stochastische exploratie, geleid door zorgvuldig ontworpen uitkomstbeloningen, wat leidt tot inefficiënte redeneertrajecten en instabiele training. Om deze problemen aan te pakken, stellen we een nieuw raamwerk voor, Hierarchical Experience (HiExp), om de prestaties en trainingsstabiliteit van zoekagenten te verbeteren. Concreet extraheren we empirische kennis door middel van contrastieve analyse en een multi-level clusteringmechanisme, waarbij we ruwe redeneertrajecten omzetten in hiërarchische ervaringskennis. Door gebruik te maken van ervaringsgericht trainen, reguleren we effectief stochastische exploratie en evolueert deze naar een strategisch en ervaringsgestuurd zoekproces. Uitgebreide evaluaties op meerdere complexe benchmarks voor agentgestuurd zoeken en wiskundig redeneren tonen aan dat onze aanpak niet alleen aanzienlijke prestatieverbeteringen bereikt, maar ook sterke generalisatie vertoont over taken en algoritmen heen.
Bestaande geheugenbenchmarks voor LLM-agenten evalueren expliciete herinnering van feiten, maar negeren impliciet geheugen waarbij ervaring geautomatiseerd gedrag wordt zonder bewuste herinnering. Deze leemte is cruciaal: effectieve assistenten moeten geleerde procedures automatisch toepassen of mislukte handelingen vermijden zonder expliciete herinneringen. Wij introduceren ImplicitMemBench, de eerste systematische benchmark die impliciet geheugen evalueert via drie cognitief onderbouwde constructen ontleend aan standaard cognitiewetenschappelijke verklaringen van niet-declaratief geheugen: Procedureel Geheugen (eenmalige vaardigheidsverwerving na interferentie), Priming (themagestuurde bias via gepaarde experimentele/controlegevallen) en Klassieke Conditionering (geconditioneerde stimulus--ongeconditioneerde stimulus (GS--OGS) associaties die eerste beslissingen vormen). Onze set van 300 items hanteert een uniform Leer/Priming-Interfereer-Test protocol met eerste-poging-scoring. Evaluatie van 17 modellen onthult ernstige beperkingen: geen enkel model overschrijdt 66% algemeen, met top presteerders DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) en GPT-5 (63,0%) ver onder menselijke basislijnen. Analyse onthult dramatische asymmetrieën (remming 17,6% vs. voorkeur 75,0%) en universele knelpunten die architectonische innovaties vereisen voorbij parameterschaling. ImplicitMemBench herformuleert evaluatie van "wat agenten herinneren" naar "wat zij automatisch uitvoeren".
Wij introduceren RewardFlow, een inversievrij raamwerk dat vooraf getrainde diffusie- en flow-matchingmodellen tijdens de inferentie aanstuurt via multi-reward Langevin-dynamica. RewardFlow verenigt complementaire differentieerbare beloningen voor semantische uitlijning, perceptuele kwaliteit, gelokaliseerde verankering, objectconsistentie en menselijke voorkeur, en introduceert verder een differentieerbare op VQA gebaseerde beloning die fijnmazig semantisch toezicht verschaft door middel van taal-visie redenering. Om deze heterogene doelstellingen te coördineren, ontwerpen we een prompt-afhankelijk adaptief beleid dat semantische primitieven uit de instructie haalt, de bewerkingsintentie afleidt en de beloningsgewichten en stapgroottes gedurende de steekproefname dynamisch moduleert. Op verscheidene benchmarks voor beeldbewerking en compositionele generatie levert RewardFlow state-of-the-art bewerkingsnauwkeurigheid en compositionele uitlijning.
Gesuperviseerde laag-niveau visuele modellen zijn afhankelijk van pixelgewijze verliezen ten opzichte van gepaarde referenties, maar gepaarde trainingssets vertonen per-paar fotometrische inconsistentie; verschillende beeldparen vereisen bijvoorbeeld verschillende globale helderheid, kleur- of witbalans-mapping. Deze inconsistentie ontstaat door taak-intrinsieke fotometrische overdracht (bijvoorbeeld contrastverbetering bij weinig licht) of onbedoelde acquisitieverschuivingen (bijvoorbeeld regenverwijdering), en veroorzaakt in beide gevallen een optimalisatiepathologie. Standaard reconstructieverliezen wijzen een onevenredig groot gradientenbudget toe aan conflicterende per-paar fotometrische doelen, wat ten koste gaat van inhoudsherstel. In dit artikel onderzoeken we dit probleem en bewijzen we dat, onder een kleinste-kwadraten-decompositie, de fotometrische en structurele componenten van de residu tussen voorspelling en doel orthogonaal zijn, en dat de ruimtelijk dichte fotometrische component de gradient-energie domineert. Gemotiveerd door deze analyse stellen we het Fotometrische Afstemmingsverlies (PAL) voor. Dit flexibele supervisiedoel discount storende fotometrische discrepantie via een gesloten-formule affiene kleurafstemming, terwijl het voor herstel relevante supervisie behoudt. Het vereist alleen covariantiestatistieken en een kleine matrixinversie met verwaarloosbare overhead. Over 6 taken, 16 datasets en 16 architecturen heen verbetert PAL consistent de metrieken en generalisatie. De implementatie staat in de appendix.
Zelf-gesuperviseerde surround-view diepteschatting maakt dichte, goedkope 3D-perceptie mogelijk met een 360° gezichtsveld op basis van meerdere minimaal overlappende beelden. Toch lijden de meeste bestaande methoden onder diepteschattingen die inconsistent zijn tussen overlappende beelden. Om deze beperking aan te pakken, stellen we een nieuwe geometrie-gestuurde methode voor voor gekalibreerde, tijdsgesynchroniseerde multi-camera-opstellingen die dichte metrische diepte voorspelt. Onze aanpak richt zich op twee hoofdoorzaken van inconsistentie: het beperkte receptieve veld in randgebieden bij enkelbeeld-diepteschatting, en de moeilijkheid van correspondentiematching. We verlichten deze twee problemen door het receptieve veld over views heen uit te breiden en cross-view aandacht te beperken tot een kleine omgeving. Hiertoe stellen we de nabuurschapsrelaties tussen beelden vast door de beeld-specifieke kenmerkposities op een gedeelde cilinder af te beelden. Gebaseerd op de cilindrische posities passen we een expliciet ruimtelijk aandachtmechanisme toe, met niet-aangeleerde gewichting, dat kenmerken over beelden aggregeert volgens hun afstanden op de cilinder. De gemoduleerde kenmerken worden vervolgens per view gedecodeerd naar een dieptekaart. Geëvalueerd op de DDAD- en nuScenes-datasets verbetert onze methode zowel de cross-view diepteconsistentie als de algehele dieptenauwkeurigheid in vergelijking met state-of-the-art benaderingen. Code is beschikbaar op https://abualhanud.github.io/CylinderDepthPage.