Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Geheugen is cruciaal voor AI-agenten, maar het veelgebruikte statische geheugen, dat gericht is op het van tevoren creëren van direct beschikbaar geheugen, is onvermijdelijk onderhevig aan ernstig informatieverlies. Om deze beperking aan te pakken, stellen we een nieuw raamwerk voor genaamd general agentic memory (GAM). GAM volgt het principe van "just-in-time (JIT) compilatie", waarbij het zich richt op het creëren van geoptimaliseerde contexten voor zijn cliënt tijdens runtime, terwijl het alleen eenvoudig maar nuttig geheugen behoudt tijdens de offline fase. Hiertoe maakt GAM gebruik van een duo-ontwerp met de volgende componenten. 1) Memorizer, dat belangrijke historische informatie benadrukt met behulp van een lichtgewicht geheugen, terwijl het volledige historische informatie behoudt binnen een universele pagina-opslag. 2) Researcher, dat nuttige informatie ophaalt en integreert uit de pagina-opslag voor zijn online verzoek, geleid door het vooraf geconstrueerde geheugen. Dit ontwerp stelt GAM in staat om de agentische capaciteiten en de schaalbaarheid tijdens tests van geavanceerde grote taalmodellen (LLMs) effectief te benutten, terwijl het ook end-to-end prestatieoptimalisatie mogelijk maakt door middel van reinforcement learning. In onze experimentele studie tonen we aan dat GAM aanzienlijke verbeteringen bereikt in verschillende scenario's voor taakvoltooiing die gebaseerd zijn op geheugen, vergeleken met bestaande geheugensystemen.
Mensen passen zich van nature aan diverse omgevingen aan door onderliggende regels te leren in werelden met verschillende dynamiek, observaties en beloningsstructuren. Bestaande agents verbeteren daarentegen meestal via zelfevolutie binnen één domein, waarbij impliciet wordt aangenomen dat de omgevingsdistributie vastligt. Leren over omgevingen heen is grotels ongemeten gebleven: er bestaat geen standaardverzameling van controleerbare, heterogene omgevingen, noch een uniforme manier om weer te geven hoe agents leren. Wij adresseren deze leemtes in twee stappen. Ten eerste stellen we AutoEnv voor, een geautomatiseerd framework dat omgevingen behandelt als factoriseerbare distributies over transities, observaties en beloningen, wat de goedkope (gemiddeld 4,12 USD) generatie van heterogene werelden mogelijk maakt. Met AutoEnv construeren we AutoEnv-36, een dataset van 36 omgevingen met 358 gevalideerde niveaus, waarop zeven taalmodellen een genormaliseerde beloning van 12-49% behalen, wat de uitdaging van AutoEnv-36 aantoont. Ten tweede formaliseren we agentleren als een componentgericht proces, aangedreven door drie fasen van Selectie, Optimalisatie en Evaluatie toegepast op een verbeterbaar agentcomponent. Met deze formulering ontwerpen we acht leermethoden en evalueren deze op AutoEnv-36. Empirisch neemt de winst van elke individuele leermethode snel af naarmate het aantal omgevingen toeneemt, wat aantoont dat vaste leermethoden niet schalen over heterogene omgevingen heen. Omgevingsadaptieve selectie van leermethoden verbetert de prestaties aanzienlijk, maar vertoont afnemende meeropbrengsten naarmate de methoderuimte uitbreidt. Deze resultaten benadrukken zowel de noodzaak als de huidige beperkingen van agentleren voor schaalbare generalisatie over omgevingen heen, en positioneren AutoEnv en AutoEnv-36 als een testomgeving voor het bestuderen van agentleren over omgevingen heen. De code is beschikbaar op https://github.com/FoundationAgents/AutoEnv.
Pixeldiffusie heeft als doel om op een end-to-end manier direct afbeeldingen in de pixelruimte te genereren. Deze aanpak vermijdt de beperkingen van VAE in tweestaps latente diffusie en biedt een hogere modelcapaciteit. Bestaande pixeldiffusiemodellen kampen met trage training en inferentie, omdat ze meestal zowel hoogfrequente signalen als laagfrequente semantiek modelleren binnen een enkele diffusietransformer (DiT). Om een efficiënter pixeldiffusieparadigma na te streven, stellen we het frequentie-ontkoppelde pixeldiffusieraamwerk voor. Gebaseerd op de intuïtie om de generatie van hoog- en laagfrequente componenten te ontkoppelen, benutten we een lichtgewicht pixeldecoder om hoogfrequente details te genereren, geconditioneerd op semantische begeleiding van de DiT. Hierdoor kan de DiT zich specialiseren in het modelleren van laagfrequente semantiek. Daarnaast introduceren we een frequentiebewust flow-matching-verlies dat visueel saliënte frequenties benadrukt en onbelangrijke onderdrukt. Uitgebreide experimenten tonen aan dat DeCo superieure prestaties behaalt onder pixeldiffusiemodellen, met een FID van 1.62 (256x256) en 2.22 (512x512) op ImageNet, waardoor de kloof met latente diffusiemethoden wordt gedicht. Bovendien behaalt ons voorgetrainde tekst-naar-afbeelding-model een leidende overall score van 0.86 op GenEval in systeemniveauvergelijking. Code is openbaar beschikbaar op https://github.com/Zehong-Ma/DeCo.
Diepgaande onderzoeksmodellen voeren meerstapsonderzoek uit om uitgebreide, goed toegeschreven antwoorden te genereren. De meeste open diepgaande onderzoeksmodellen worden echter getraind op eenvoudig verifieerbare kort-antwoordtaken via reinforcement learning met verifieerbare beloningen (RLVR), wat niet toepasbaar is op realistische langere taken. Wij pakken dit aan met Reinforcement Learning met Evolving Rubrics (RLER), waarbij we rubrics construeren en onderhouden die co-evolueren met het beleidsmodel tijdens de training; hierdoor kunnen de rubrics nieuw verkende informatie integreren en onderscheidende, on-policy feedback geven. Met RLER ontwikkelen we Deep Research Tulu (DR Tulu-8B), het eerste open model dat rechtstreeks is getraind voor open-eind, langdurig diepgaand onderzoek. Op vier langere onderzoeksbenchmarks in wetenschap, gezondheidszorg en algemene domeinen presteert DR Tulu aanzienlijk beter dan bestaande open diepgaande onderzoeksmodellen, en evenaart of overtreft het propriëtaire diepgaande onderzoekssystemen, terwijl het aanzienlijk kleiner en goedkoper per query is. Om toekomstig onderzoek te vergemakkelijken, geven we alle data, modellen en code vrij, inclusief onze nieuwe op MCP gebaseerde agentinfrastructuur voor diepgaande onderzoekssystemen.
Computer-Use Agents (CUA's) worden steeds beter in staat om autonoom digitale omgevingen te bedienen via Grafische Gebruikersinterfaces (GUI's). Toch zijn de meeste GUI's nog steeds voornamelijk ontworpen voor mensen—met prioriteit voor esthetiek en bruikbaarheid—waardoor agents mensgerichte gedragingen moeten aannemen die niet noodzakelijk zijn voor efficiënte taakuitvoering. Tegelijkertijd hebben snelle vooruitgangen in code-gerichte taalmodellen (Coder) het automatisch GUI-ontwerp getransformeerd. Dit roept een fundamentele vraag op: Kunnen CUA's als beoordelaar fungeren om Coder te assisteren bij automatisch GUI-ontwerp? Om dit te onderzoeken, introduceren we AUI-Gym, een benchmark voor Automatische GUI-ontwikkeling, die 52 applicaties bestrijkt across diverse domeinen. Met behulp van taalmodellen synthetiseren we 1560 taken die realistische scenario's simuleren. Om de taakbetrouwbaarheid te waarborgen, ontwikkelen we verder een verifier die programmatisch controleert of elke taak uitvoerbaar is binnen zijn omgeving. Hierop voortbouwend stellen we een Coder-CUA in Samenwerkingsframework voor: de Coder fungeert als Ontwerper, die websites genereert en reviseert, terwijl de CUA dient als Rechter, die de functionaliteit evalueert en ontwerpen verfijnt. Succes wordt niet gemeten aan visueel uiterlijk, maar aan taakoplosbaarheid en het navigatiesuccespercentage van de CUA. Om CUA-feedback om te zetten in bruikbare richtlijnen, ontwerpen we een CUA Dashboard dat meerstaps navigatiegeschiedenissen comprimeert tot beknopte visuele samenvattingen, wat interpreteerbare richtlijnen biedt voor iteratieve herontwerpen. Door agents te positioneren als zowel ontwerpers als beoordelaars, verschuift ons framework interface-ontwerp richting agent-native efficiëntie en betrouwbaarheid. Ons werk zet een stap in de richting van het verschuiven van agents van passief gebruik naar actieve participatie in digitale omgevingen. Onze code en dataset zijn beschikbaar op https://github.com/showlab/AUI.
Diffusion Transformers hebben recentelijk sterke tekst-naar-beeldgeneratie rond 1K-resolutie geleverd, maar wij tonen aan dat het uitbreiden naar native 4K over diverse beeldverhoudingen een sterk gekoppelde faalmodus blootlegt die positionele codering, VAE-compressie en optimalisatie omvat. Het afzonderlijk aanpakken van een van deze factoren laat aanzienlijke kwaliteit onbenut. Daarom nemen wij een data-model co-design perspectief in en introduceren UltraFlux, een Flux-gebaseerde DiT die natieve wordt getraind op 4K met MultiAspect-4K-1M, een 4K-corpus van 1 miljoen afbeeldingen met gecontroleerde multi-AR-dekking, tweetalige bijschriften en rijke VLM/IQA-metadata voor resolutie- en AR-bewuste sampling. Aan modelzijde combineert UltraFlux (i) Resonance 2D RoPE met YaRN voor trainvenster-, frequentie- en AR-bewuste positionele codering op 4K; (ii) een eenvoudig, niet-adversarieel VAE-post-trainingsschema dat de 4K-reconstructiefideliteit verbetert; (iii) een SNR-bewust Huber Wavelet-doel dat gradienten herbalanceert over tijdstappen en frequentiebanden; en (iv) een gefaseerde Aesthetic Curriculum Learning-strategie die hoog-esthetisch toezicht concentreert op hoog-ruis stappen, gestuurd door de modelprior. Gezamenlijk leveren deze componenten een stabiele, detailbewarende 4K DiT op die generaliseert over brede, vierkante en hoge beeldverhoudingen. Op de Aesthetic-Eval at 4096 benchmark en multi-AR 4K-instellingen presteert UltraFlux consistent beter dan sterke open-source basislijnen op het gebied van fideliteit, esthetiek en alignatie, en – met een LLM-promptverfijner – evenaart of overtreft het de propriëtaire Seedream 4.0.
Grootschalige videogeneratieve modellen hebben recentelijk sterke visuele capaciteiten gedemonstreerd, waardoor ze toekomstige frames kunnen voorspellen die voldoen aan de logische en fysieke aanwijzingen in de huidige observatie. In dit werk onderzoeken we of dergelijke capaciteiten benut kunnen worden voor controleerbare beeld-naar-video-generatie door visuele signalen die in de frames zijn ingebed te interpreteren als instructies, een paradigma dat we In-Video-instructie noemen. In tegenstelling tot op prompts gebaseerde controle, die tekstuele beschrijvingen biedt die inherent globaal en grof zijn, codeert In-Video-instructie gebruikersrichtlijnen rechtstreeks in het visuele domein via elementen zoals overliggende tekst, pijlen of trajecten. Dit maakt expliciete, ruimtelijk bewuste en ondubbelzinnige correspondenties mogelijk tussen visuele subjecten en hun beoogde handelingen door verschillende instructies toe te wijzen aan verschillende objecten. Uitgebreide experimenten met drie state-of-the-art generatoren, waaronder Veo 3.1, Kling 2.5 en Wan 2.2, tonen aan dat videomodellen dergelijke visueel ingebedde instructies betrouwbaar kunnen interpreteren en uitvoeren, met name in complexe multi-objectscenario's.
Een betrouwbare beloningsfunctie is essentieel voor reinforcement learning (RL) bij beeldgeneratie. De meeste huidige RL-benaderingen zijn afhankelijk van vooraf getrainde voorkeursmodellen die scalaire beloningen uitvoeren om menselijke voorkeuren te benaderen. Deze beloningen slagen er echter vaak niet in de menselijke perceptie te vatten en zijn kwetsbaar voor 'reward hacking', waarbij hogere scores niet overeenkomen met betere beelden. Om dit aan te pakken, introduceren we Adv-GRPO, een RL-raamwerk met een adversariële beloning die zowel het beloningsmodel als de generator iteratief bijwerkt. Het beloningsmodel wordt gesuperviseerd met referentiebeelden als positieve voorbeelden en kan grotendeels worden beschermd tegen hacking. In tegenstelling tot KL-regularisatie die parameterupdates beperkt, leidt onze aangeleerde beloning de generator rechtstreeks via zijn visuele outputs, wat leidt tot beelden van hogere kwaliteit. Bovendien, hoewel het optimaliseren van bestaande beloningsfuncties 'reward hacking' kan verlichten, blijven hun inherente vertekeningen bestaan. PickScore kan bijvoorbeeld de beeldkwaliteit aantasten, terwijl OCR-gebaseerde beloningen vaak de esthetische trouw verminderen. Om dit aan te pakken, nemen we het beeld zelf als beloning, waarbij we referentiebeelden en vision foundation-modellen (bijv. DINO) gebruiken om rijke visuele beloningen te bieden. Deze dense visuele signalen, in plaats van een enkele scalair, leiden tot consistente verbeteringen op het gebied van beeldkwaliteit, esthetiek en taakspecifieke metrieken. Ten slotte tonen we aan dat het combineren van referentievoorbeelden met beloningen uit foundation-modellen distributieoverdracht en flexibele stijlaanpassing mogelijk maakt. In humane evaluatie presteert onze methode beter dan Flow-GRPO en SD3, met winstpercentages van respectievelijk 70,0% en 72,4% voor beeldkwaliteit en esthetiek. Code en modellen zijn vrijgegeven.
Vision-Language Models (VLMs) blinken uit in redeneren binnen de linguïstische ruimte, maar hebben moeite met perceptueel begrip dat een dichte visuele waarneming vereist, zoals ruimtelijk redeneren en geometrisch bewustzijn. Deze beperking komt voort uit het feit dat huidige VLMs beperkte mechanismen hebben om dichte visuele informatie over ruimtelijke dimensies te vangen. Wij introduceren Chain-of-Visual-Thought (COVT), een raamwerk dat VLMs in staat stelt niet alleen in woorden te redeneren, maar ook door middel van continue visuele tokens - compacte latente representaties die rijke perceptuele aanwijzingen coderen. Binnen een klein budget van ongeveer 20 tokens destilleert COVT kennis van lichtgewicht vision-experts, waarbij complementaire eigenschappen worden vastgelegd zoals 2D-uiterlijk, 3D-geometrie, ruimtelijke lay-out en randstructuur. Tijdens de training voorspelt de VLM met COVT autoregressief deze visuele tokens om dichte supervisiesignalen te reconstrueren (bijv. diepte, segmentatie, randen en DINO-features). Tijdens inferentie redeneert het model direct in de continue visuele tokenruimte, waarbij de efficiëntie behouden blijft terwijl optioneel dichte voorspellingen worden gedecodeerd voor interpreteerbaarheid. Evaluatie over meer dan tien diverse perceptiebenchmarks, waaronder CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA en HRBench, toont aan dat integratie van COVT in sterke VLMs zoals Qwen2.5-VL en LLaVA consistent de prestaties verbetert met 3% tot 16%. Dit demonstreert dat compact, continu visueel denken een nauwkeurigere, beter gefundeerde en interpreteerbare multimodale intelligentie mogelijk maakt.
Het opschalen van rekenkracht tijdens het testen verbetert de prestaties van grote taalmodellen (LLM's) voor diverse taken, een principe dat eveneens is uitgebreid naar met tools versterkte agents. Voor deze agents houdt opschaling niet alleen "denken" in tokens in, maar ook "handelen" via toolaanroepen. Het aantal toolaanroepen bepaalt direct de interactie van de agent met de externe omgeving. Wij constateren echter dat het simpelweg verlenen van een groter toolaanroepplafond aan agents de prestaties niet verbetert, omdat zij geen "budgetbewustzijn" hebben en snel een plafond in prestaties bereiken. Om dit aan te pakken, bestuderen wij hoe dergelijke agents effectief kunnen worden opgeschaald onder expliciete toolaanroepplafonds, met focus op webzoekagents. Wij introduceren eerst de Budget Tracker, een lichtgewicht plug-in die de agent continu budgetbewustzijn biedt, wat eenvoudige doch effectieve opschaling mogelijk maakt. Vervolgens ontwikkelen wij BATS (Budget Aware Test-time Scaling), een geavanceerd framework dat dit bewustzijn benut om dynamisch zijn plannings- en verificatiestrategie aan te passen, waarbij het beslist of het "dieper moet graven" in een veelbelovend spoor of moet "pivotten" naar nieuwe paden op basis van resterende middelen. Om kost-prestatieverhouding gecontroleerd te analyseren, formaliseren wij een uniforme kostmaatstaf die gezamenlijk rekening houdt met token- en toolverbruik. Wij presenteren de eerste systematische studie naar budgetbeperkte agents, waarin wij aantonen dat budgetbewuste methoden gunstigere schaalcurves produceren en de kost-prestatie-Pareto-grens verleggen. Ons werk biedt empirische inzichten voor een transparanter en meer principieel begrip van opschaling bij met tools versterkte agents.
Wij presenteren HunyuanVideo 1.5, een lichtgewicht maar krachtig open-source videogeneratiemodel dat met slechts 8,3 miljard parameters state-of-the-art visuele kwaliteit en bewegingscoherentie bereikt, waardoor efficiënte inferentie op consumenten-GPU's mogelijk is. Deze prestatie is gebouwd op verschillende cruciale componenten: zorgvuldige datacuratie, een geavanceerde DiT-architectuur met selectieve en glijdende tegelattention (SSTA), verbeterd tweetalig begrip via glyph-bewuste tekstcodering, progressieve voortraining en natraining, en een efficiënt netwerk voor videoresolutieverbetering. Door gebruik te maken van deze ontwerpen ontwikkelden we een uniform framework dat hoogwaardige tekst-naar-video- en beeld-naar-videogeneratie ondersteunt voor meerdere duur- en resolutieformaten. Uitgebreide experimenten tonen aan dat dit compacte en vaardige model een nieuwe state-of-the-art vestigt onder open-source videogeneratiemodellen. Door de release van de code en modelgewichten bieden we de gemeenschap een hoogwaardige foundation die de drempel voor videoproductie en onderzoek verlaagt, waardoor geavanceerde videogeneratie toegankelijker wordt voor een breder publiek. Alle open-source bronnen zijn openbaar beschikbaar op https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
Radiologie speelt een integrale rol in de moderne geneeskunde, maar de stijgende beeldvormingsvolumes hebben de groei van de arbeidskracht ver overtroffen. Foundation-modellen bieden een weg naar ondersteuning bij het volledige spectrum van radiologische taken, maar bestaande medische modellen blijven beperkt: ze verwerken volumetrische CT- en MRI-scans als 2D-slices met lage resolutie, verwijderen kritische grijswaardecontrastinformatie en ontberen evaluatieraamwerken die de echte klinische praktijk weerspiegelen. Wij introduceren Pillar-0, een radiologisch foundation-model voorgetraind op 42.990 abdomen-pelvis CT-scans, 86.411 thorax-CT-scans, 14.348 hoofd-CT-scans en 11.543 borst-MRI's van een groot academisch centrum, samen met RATE, een schaalbaar raamwerk dat gestructureerde labels voor 366 radiologische bevindingen extraheert met bijna perfecte nauwkeurigheid met behulp van LLM's. Over interne testsets van 14.230 abdomen-pelvis CT-scans, 10.646 thorax-CT-scans, 4.906 hoofd-CT-scans en 1.585 borst-MRI's vestigt Pillar-0 een nieuwe prestatiegrens, met gemiddelde AUROC's van 86,4, 88,0, 90,1 en 82,9, waarmee het MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) en Merlin (Stanford) met 7,8-15,8 AUROC-punten overtreft en als beste scoort in 87,2% (319/366) van de taken. Pillar-0 overtreft eveneens alle baseline-modellen in een externe validatie op de Stanford Abdominal CT-dataset, inclusief Merlin (82,2 vs 80,6 AUROC). Pillar-0 strekt zich uit tot taken buiten zijn voorafgaande training, zoals langetermijnrisicovoorspelling voor longkanker, waar het de state-of-the-art Sybil met 3,0 C-index punten verbetert op de NLST, en generaliseert met winsten van 5,9 (MGH) en 1,9 (CGMH). Bij de detectie van hersenbloedingen behaalde Pillar-0 een AUROC van >95 met slechts 1/20e van de data van de op een na meest data-efficiënte baseline. Pillar-0 en RATE samen bieden een open, klinisch rigoureuze basis voor het bouwen van hoogpresterende radiologische systemen, waardoor toepassingen mogelijk worden die voorheen onhaalbaar waren vanwege computationele, data- en evaluatiebeperkingen.
Multi-agent systemen presteren goed op algemene redeneertaken. De afwezigheid van training in gespecialiseerde domeinen beperkt echter hun nauwkeurigheid. Huidige trainingsmethoden trainen één uniform groot taalmodel (LLM) voor alle agents in het systeem. Dit kan de prestaties beperken omdat verschillende agents onderliggend verschillende verdelingen hebben. Daarom zou het trainen van multi-agent systemen met verschillende LLM's de volgende te zetten stap moeten zijn. Deze aanpak introduceert echter optimalisatie-uitdagingen. Zo werken agents op verschillende frequenties, omvatten rollouts uiteenlopende sub-agent aanroepen, en worden agents vaak op aparte servers ingezet, wat de end-to-end gradientstroom verstoort. Om deze problemen aan te pakken, stellen we M-GRPO voor, een hiërarchische uitbreiding van Group Relative Policy Optimization ontworpen voor verticale multi-agent systemen met een hoofd-agent (planner) en meerdere sub-agents (multi-turn tool executors). M-GRPO berekent groep-relatieve advantages voor zowel hoofd- als sub-agents, waarbij hiërarchische credit assignment behouden blijft. Het introduceert ook een trajectory-alignment schema dat vaste batchgroottes genereert ondanks variabele sub-agent aanroepen. We implementeren een ontkoppeld trainingspipeline waarin agents op aparte servers draaien en minimale statistieken uitwisselen via een gedeelde opslag. Dit maakt schaalbare training mogelijk zonder backpropagatie tussen servers. In experimenten op real-world benchmarks (zoals GAIA, XBench-DeepSearch en WebWalkerQA) presteert M-GRPO consistent beter dan zowel single-agent GRPO als multi-agent GRPO met bevroren sub-agents, wat verbeterde stabiliteit en sample efficiency aantoont. Deze resultaten tonen aan dat het aligneren van heterogene trajecten en het ontkoppelen van optimalisatie over gespecialiseerde agents tool-augmented redeneertaken verbetert.
Wij presenteren M^3-Bench, de eerste benchmark voor het evalueren van multimodaal gereedschapsgebruik onder het Model Context Protocol. De benchmark richt zich op realistische, multi-hop en multi-threaded workflows die visuele verankering en tekstueel redeneren, afhankelijkheden tussen gereedschappen en persistentie van intermediaire bronnen tussen stappen vereisen. Wij introduceren een op gelijkenis gebaseerde alignering die elke gereedschapsaanroep serialiseert, signaturen inbedt met een zin-encoder en *similarity-bucketed* Hongaarse matching uitvoert om controleerbare één-op-één correspondenties te verkrijgen. Bovenop deze alignering rapporteren wij interpreteerbare metrieken die semantische trouw ontkoppelen van workflowconsistentie. De benchmark omvat 28 servers met 231 gereedschappen en biedt gestandaardiseerde trajecten, samengesteld via een Executor & Judge-pijplijn met menselijke verificatie; een ensemble van vier grote taalmodel(len) als hulprechters rapporteert Taakvoltooiing en informatieverankering voor de eindtaak. Evaluaties van representatieve state-of-the-art Multimodale Taalmodellen (MMT's) onthullen aanhoudende tekortkomingen in multimodaal MCP-gereedschapsgebruik, met name in argumenttrouw en structuurconsistentie, wat de noodzaak onderstreept van methoden die gezamenlijk redeneren over afbeeldingen, tekst en gereedschapsgrafen. De anonieme repository van onze benchmark bevindt zich op https://github.com/EtaYang10th/Open-M3-Bench.
Diffusion Transformers hebben indrukwekkende capaciteiten getoond in visuele synthese, maar worstelen vaak met semantisch redeneren op hoog niveau en planning over langere tijdshorizons. Deze beperking leidt frequent tot visuele hallucinaties en afwijkingen van gebruikersinstructies, vooral in scenario's met complexe scènebegrip, mens-object interacties, meerstapsacties en in-context bewegingsredenering. Om deze uitdagingen aan te pakken, stellen we Plan-X voor, een raamwerk dat expliciet semantische planning op hoog niveau afdwingt om het videogeneratieproces aan te sturen. De kern bestaat uit een Semantische Planner, een leerbaar multimodaal taalmodel dat redeneert over de intentie van de gebruiker op basis van zowel tekstprompts als visuele context, en autogressief een reeks tekstgebonden ruimtelijk-temporele semantische tokens genereert. Deze semantische tokens, complementair aan begeleiding op hoog niveau via tekstprompts, dienen als gestructureerde "semantische schetsen" in de tijd voor het videodiffusiemodel, dat sterk is in het synthetiseren van visuele details met hoge geloofwaardigheid. Plan-X integreert effectief de kracht van taalmodellen in multimodaal in-context redeneren en planning, samen met de kracht van diffusiemodellen in fotorealistische videosynthese. Uitgebreide experimenten tonen aan dat ons raamwerk visuele hallucinaties aanzienlijk vermindert en fijnmazige, instructie-afgestemde videogeneratie mogelijk maakt die consistent is met de multimodale context.
Wij presenteren One4D, een uniform raamwerk voor 4D-generatie en -reconstructie dat dynamische 4D-inhoud produceert als gesynchroniseerde RGB-frames en pointmaps. Door variërende sparse conditieframes consistent te verwerken via een Uniform Masked Conditioning (UMC)-mechanisme, kan One4D naadloos schakelen tussen 4D-generatie vanuit een enkele afbeelding, 4D-reconstructie vanuit een volledige video, en gemengde generatie en reconstructie vanuit sparse frames. Ons raamwerk past een krachtig videogeneratiemodel aan voor gezamenlijke RGB- en pointmap-generatie, met zorgvuldig ontworpen netwerkarchitecturen. De veelgebruikte diffusie-finetuningstrategieën voor depthmap- of pointmap-reconstructie falen vaak bij gezamenlijke RGB- en pointmap-generatie, waarbij het basismodel voor video snel degradeert. Om deze uitdaging aan te pakken, introduceren we Decoupled LoRA Control (DLC), dat twee modalitiespecifieke LoRA-adapters gebruikt om ontkoelde rekenbranches voor RGB-frames en pointmaps te vormen, verbonden door lichtgewicht, nul-geïnitialiseerde controlelinks die geleidelijk onderlinge pixelconsistentie leren. Getraind op een mix van synthetische en echte 4D-datasets met bescheiden rekenbudgetten, produceert One4D hoogwaardige RGB-frames en nauwkeurige pointmaps in zowel generatie- als reconstructietaken. Dit werk vertegenwoordigt een stap in de richting van algemene, hoogwaardige op geometrie gebaseerde 4D-wereldmodellering met behulp van videodiffusiemodellen. Projectpagina: https://mizhenxing.github.io/One4D
Meerkeuzevraagbeantwoording (MCQA) is een populair formaat geweest voor de evaluatie en reinforcement fine-tuning (RFT) van moderne multimodale taalmodel(len). Het beperkte uitvoerformaat maakt vereenvoudigde, deterministische automatische verificatie mogelijk. Wij constateren echter dat de opties uitbuitbare signalen kunnen lekken, waardoor de nauwkeurigheidsmetingen onbetrouwbaar worden als indicator van werkelijke capaciteiten en dit expliciet of impliciet gokgedrag bij antwoorden tijdens RFT aanmoedigt. Wij stellen ReVeL (Rewrite and Verify by LLM) voor, een raamwerk dat meerkeuzevragen herschrijft naar open vragen terwijl de antwoorden waar mogelijk verifieerbaar blijven. Het raamwerk categoriseert vragen volgens verschillende antwoordtypes en past respectievelijk verschillende herschrijf- en verificatieschema's toe. Bij toepassing voor RFT hebben wij 20k MCQA-voorbeelden geconverteerd en GRPO gebruikt om Qwen2.5-VL-modellen te finetunen. Modellen getraind op ReVeL-OpenQA evenaren de MCQA-nauwkeurigheid op meerkeuze benchmarks en verbeteren de OpenQA-nauwkeurigheid met ongeveer zes procentpunt, wat wijst op een betere data-efficiëntie en robuustere beloningssignalen dan op MCQA gebaseerde training. Wanneer gebruikt voor evaluatie, onthult ReVeL tevens een score-inflatie van tot 20 procentpunt in MCQA-benchmarks (ten opzichte van OpenQA), verbetert de beoordelingsnauwkeurigheid en vermindert zowel de kosten als de latentie. Wij zullen de code en data openbaar vrijgeven.
Wij stellen een volledig data-gedreven aanpak voor om schatters voor wederzijdse informatie (WI) te ontwerpen. Aangezien elke WI-schatter een functie is van de waargenomen steekproef van twee willekeurige variabelen, parametriseren we deze functie met een neuraal netwerk (MIST) en trainen we het end-to-end om WI-waarden te voorspellen. De training wordt uitgevoerd op een grote meta-dataset van 625.000 synthetische gezamenlijke verdelingen met bekende grondwaarden voor WI. Om variabele steekproefgroottes en dimensies te hanteren, gebruiken we een tweedimensionaal attentiemechanisme dat permutatie-invariantie over de invoersteekproeven waarborgt. Om onzekerheid te kwantificeren, optimaliseren we een kwantielregressieverlies, waardoor de schatter in staat is de steekproefverdeling van WI te benaderen in plaats van een enkel puntschatting te retourneren. Dit onderzoeksprogramma wijkt af van eerder werk door een volledig empirische route te volgen, waarbij universele theoretische garanties worden ingeruild voor flexibiliteit en efficiëntie. Empirisch gezien overtreffen de geleerde schatters klassieke referentiemethoden aanzienlijk over verschillende steekproefgroottes en dimensies, ook op gezamenlijke verdelingen die niet tijdens de training zijn gezien. De resulterende op kwantielen gebaseerde intervallen zijn goed gekalibreerd en betrouwbaarder dan op bootstrap gebaseerde betrouwbaarheidsintervallen, terwijl de inferentie ordes van grootte sneller is dan bij bestaande neurale referentiemethoden. Naast onmiddellijke empirische winst levert dit raamwerk trainbare, volledig differentieerbare schatters op die kunnen worden ingebed in grotere leerpijplijnen. Bovendien kan, door gebruik te maken van de invariantie van WI voor inverteerbare transformaties, de meta-dataset worden aangepast aan willekeurige datamodaliteiten via normalizing flows, waardoor flexibele training voor diverse doel-meta-verdelingen mogelijk wordt.
Dit werk presenteert Controleerbare Laagdecompositie (CLD), een methode voor het bereiken van fijnmazige en controleerbare meerlaagse scheiding van rasterafbeeldingen. In praktische workflows genereren en bewerken ontwerpers typisch elke RGBA-laag onafhankelijk voordat ze worden samengesteld tot een uiteindelijke rasterafbeelding. Dit proces is echter onomkeerbaar: eenmaal samengesteld is bewerking op laagniveau niet langer mogelijk. Bestaande methoden zijn vaak gebaseerd op image matting en inpainting, maar blijven beperkt in controleerbaarheid en segmentatienauwkeurigheid. Om deze uitdagingen aan te pakken, stellen we twee kernmodules voor: LayerDecompose-DiT (LD-DiT), welke beeldcomponenten ontkoppelt in afzonderlijke lagen en fijnmazige controle mogelijk maakt; en de Multi-Layer Conditionele Adapter (MLCA), welke doelbeeldinformatie injecteert in meerlaagse tokens om precieze conditionele generatie te bereiken. Om een uitgebreide evaluatie mogelijk te maken, bouwen we een nieuwe benchmark en introduceren we op maat gemaakte evaluatiemetrieken. Experimentele resultaten tonen aan dat CLD consequent superieur presteert ten opzichte van bestaande methoden, zowel in decompositiekwaliteit als in controleerbaarheid. Bovendien kunnen de door CLD gescheiden lagen direct worden gemanipuleerd in veelgebruikte ontwerptools zoals PowerPoint, wat de praktische waarde en toepasbaarheid in real-world creatieve workflows onderstreept.
Hoewel de kwaliteit van webgegevens cruciaal is voor grote taalmodel(len), richten de meeste inspanningen voor datacuratie zich op filtering en deduplicatie, waarbij HTML-naar-tekst-extractie wordt behandeld als een vaste voorverwerkingsstap. Bestaande webcorpora vertrouwen op op heuristieken gebaseerde extractors zoals Trafilatura, die moeite hebben om de documentstructuur te behouden en vaak gestructureerde elementen zoals formules, code en tabellen beschadigen. Wij veronderstellen dat het verbeteren van de extractiekwaliteit even impactvol kan zijn als agressieve filterstrategieën voor de downstream-prestaties. Wij introduceren MinerU-HTML, een nieuwe extractiepipeline die contentextractie herformuleert als een sequentielabelingsprobleem opgelost door een taalmodel met 0,6 miljard parameters. In tegenstelling tot tekstdichtheid-heuristieken, benut MinerU-HTML semantisch begrip en gebruikt het een tweestaps opmaakpipeline die semantische elementen expliciet categoriseert voordat ze naar Markdown worden omgezet. Cruciaal is dat de modelgebaseerde aanpak inherent schaalbaar is, terwijl heuristische methoden beperkte verbeteringsmogelijkheden bieden. Op MainWebBench, onze benchmark met 7.887 geannoteerde webpagina's, behaalt MinerU-HTML 81,8% ROUGE-N F1 vergeleken met Trafilatura's 63,6%, met een uitzonderlijk behoud van gestructureerde elementen (90,9% voor codeblokken, 94,0% voor formules). Met MinerU-HTML construeren we AICC (AI-ready Common Crawl), een meertalig corpus van 7,3 biljoen tokens uit twee Common Crawl-momentopnames. In gecontroleerde pre-trainingexperimenten waarbij AICC en het met Trafilatura geëxtraheerde TfCC identieke filtering ondergaan, behalen modellen getraind op AICC (62B tokens) een gemiddelde nauwkeurigheid van 50,8% over 13 benchmarks, wat TfCC met 1,08 procentpunt overtreft - dit levert direct bewijs dat extractiekwaliteit de modelcapaciteiten significant beïnvloedt. AICC overtreft ook RefinedWeb en FineWeb op belangrijke benchmarks. Wij geven MainWebBench, MinerU-HTML en AICC openbaar vrij, waarmee we aantonen dat HTML-extractie een kritieke, vaak onderschatte component is van webcorpusconstructie.
Informatie zoeken is een kernvaardigheid voor AI-agenten, die vereist dat ze informatie verzamelen die door tools is gegenereerd en hierover redeneren over lange trajecten. Dergelijke meerstaps taken voor informatievergaring blijven echter een uitdaging voor agenten die worden aangedreven door taalmodel(len). Hoewel procesbeloningsmodellen (PRM's) agenten kunnen sturen door kandidaatstappen tijdens tests te rangschikken, kunnen bestaande PRM's, die zijn ontworpen voor kort redeneren met binaire beoordeling, geen rijkere dimensies van informatiezoekstappen vastleggen, zoals toolinteracties en redeneren over tooloutputs, noch omgaan met de snel groeiende context in taken met een lange tijdshorizon. Om deze beperkingen aan te pakken, introduceren we PRInTS, een generatief PRM dat is getraind met dubbele capaciteiten: (1) dichte scoring op basis van de redenering van het PRM over meerdere dimensies van stapkwaliteit (bijv. interpretatie van tooloutputs, informatieve waarde van toolaanroepen) en (2) trajectsamenvatting die de groeiende context comprimeert terwijl essentiële informatie voor stapevaluatie behouden blijft. Uitgebreide evaluaties op de benchmarks FRAMES, GAIA (niveaus 1-3) en WebWalkerQA (makkelijk-moeilijk) voor meerdere modellen, samen met ablatiestudies, tonen aan dat best-of-n bemonstering met PRInTS de informatiezoekvaardigheden van open-source modellen evenals gespecialiseerde agenten verbetert, waarbij de prestaties van frontiermodellen worden geëvenaard of overtroffen met een veel kleinere backbone-agent en waarbij andere sterke beloningsmodelleer-baselines worden overtroffen.
Wij presenteren Upsample Anything, een lichtgewicht test-time optimalisatie (TTO) raamwerk dat laagresolutiekenmerken herstelt naar hoogresolutie, pixelgewijze uitvoer zonder enige training. Hoewel Vision Foundation Models een sterke generalisatie vertonen over diverse downstreamtaken, worden hun representaties typisch met 14x/16x verkleind (bijv. ViT), wat hun directe gebruik in pixelgebaseerde toepassingen beperkt. Bestaande benaderingen voor het vergroten van kenmerken zijn afhankelijk van datasetspecifieke hertraining of zware impliciete optimalisatie, wat de schaalbaarheid en generalisatie beperkt. Upsample Anything lost deze problemen op via een eenvoudige per-image optimalisatie die een anisotrope Gaussiaanse kernel leert, waarbij ruimtelijke en intensiteitscues worden gecombineerd, en zo effectief een brug slaat tussen Gaussian Splatting en Joint Bilateral Upsampling. De geleerde kernel fungeert als een universele, randbewuste operator die naadloos overdraagbaar is tussen architecturen en modaliteiten, en zo precieze hoogresolutie-reconstructie van kenmerken, diepte of waarschijnlijkheidskaarten mogelijk maakt. Het draait in slechts circa 0.419 s per 224x224 afbeelding en behaalt state-of-the-art prestaties op semantische segmentatie, diepteschatting, en zowel het vergroten van diepte- als waarschijnlijkheidskaarten. Projectpagina: https://seominseok0429.github.io/Upsample-Anything/
Vision Language Models (VLMs) presteren goed op standaard videotaken, maar hebben moeite met fysica-gestuurd redeneren dat betrekking heeft op bewegingsdynamiek en ruimtelijke interacties. Deze beperking vermindert hun vermogen om echte of door AI gegenereerde content (AIGC) video's te interpreteren en fysiek consistente content te genereren. Wij presenteren een aanpak die deze kloof dicht door contextuele aanwijzingen uit de fysieke wereld te vertalen naar interpreteerbare representaties die zijn afgestemd op de perceptie, het begrip en het redeneervermogen van VLMs. Wij introduceren MASS-Bench, een uitgebreide benchmark bestaande uit 4.350 real-world en AIGC video's en 8.361 vrije-vorm video-vraag-antwoordparen, gericht op fysica-gerelateerde begriptaken, met gedetailleerde annotaties inclusief visuele detecties, sub-segment grounding en volledige-sequentie 3D-bewegingtracking van entiteiten. Verder presenteren wij MASS, een model-agnostische methode die ruimtelijk-temporele signalen injecteert in de VLM-taalspace via op diepte gebaseerde 3D-codering en visuele grounding, gekoppeld aan een bewegingstracker voor objectdynamiek. Om cross-modale afstemming en redenering te versterken, passen wij reinforcement fine-tuning toe. Experimenten en ablatiestudies tonen aan dat onze verfijnde VLMs vergelijkbare en grotere baseline-modellen, evenals eerdere state-of-the-art modellen, met respectievelijk 8.7% en 6.0% overtreffen, waarbij zij prestaties bereiken die vergelijkbaar zijn met closed-source SoTA VLMs zoals Gemini-2.5-Flash op het gebied van fysica-redenering en -begrip. Deze resultaten valideren de effectiviteit van onze aanpak.
Langetermijn-robotmanipulatie blijft een uitdaging voor Vision-Language-Action (VLA)-modellen, ondanks recente vooruitgang in zero-shot generalisatie en simulatie-naar-echte-wereld transfer. Huidige VLA-modellen lijden onder fase-hallucinatie, waarbij agents grove evaluatiesignalen misbruiken om meerstappentaken te verkorten, waarbij ze hoge voortgang rapporteren zonder deze daadwerkelijk te voltooien. Wij presenteren EvoVLA, een zelfgesuperviseerd VLA-raamwerk dat dit probleem aanpakt via drie complementaire componenten: Stage-Aligned Reward (SAR), dat triplet contrastief leren gebruikt met door Gemini gegenereerde hard negatives om visuele shortcuts te voorkomen; Pose-Based Object Exploration (POE), dat nieuwsgierigheid verankert in relatieve object-grijper poses in plaats van ruwe pixels; en Long-Horizon Memory, dat selectieve contextretentie en gegate fusie gebruikt om intrinsieke shaping te stabiliseren tijdens uitgebreide rollouts. Uitgebreide evaluaties op Discoverse-L, een langetermijn-manipulatiebenchmark met drie meerstappentaken, tonen aan dat EvoVLA de gemiddelde taaksucces verbetert met 10,2 procentpunt ten opzichte van de sterkste baseline (OpenVLA-OFT), tot 69,2 procent. EvoVLA bereikt ook een anderhalf keer betere sample-efficiëntie en reduceert fase-hallucinatie van 38,5 procent naar 14,8 procent. Implementatie in de echte wereld op fysieke robots bereikt een gemiddeld succespercentage van 54,6 procent over vier manipulatietaken, wat OpenVLA-OFT met 11 punten overtreft, wat effectieve sim-to-real transfer en sterke generalisatie aantoont. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
State-of-the-art stroommodellen bereiken een opmerkelijke kwaliteit, maar vereisen een trage, iteratieve sampling. Om dit te versnellen kunnen stroomkaarten worden gedistilleerd uit voorgetrainde teachers, een procedure die conventioneel het bemonsteren van een externe dataset vereist. Wij stellen dat deze data-afhankelijkheid een fundamenteel risico op Teacher-Data Mismatch met zich meebrengt, omdat een statische dataset een onvolledige of zelfs verkeerd uitgelijnde weergave kan bieden van de volledige generatieve capaciteiten van de teacher. Dit leidt ertoe dat we ons afvragen of deze afhankelijkheid van data werkelijk noodzakelijk is voor succesvolle stroomkaartdistillatie. In dit werk verkennen we een data-vrij alternatief dat enkel bemonstert vanuit de prior-verdeling, een verdeling die de teacher door zijn constructie gegarandeerd volgt, waardoor het mismatch-risico volledig wordt omzeild. Om de praktische haalbaarheid van deze filosofie aan te tonen, introduceren we een principieel framework dat leert om het samplingpad van de teacher te voorspellen, terwijl het actief zijn eigen cumulerende fouten corrigeert om een hoge kwaliteit te waarborgen. Onze aanpak overtreft alle op data gebaseerde tegenhangers en vestigt met een aanzienlijke marge een nieuwe state-of-the-art. Specifiek bereikt onze methode, bij distillatie vanuit SiT-XL/2+REPA, een indrukwekkende FID van 1.45 op ImageNet 256x256 en 1.49 op ImageNet 512x512, beide met slechts 1 samplingstap. Wij hopen dat ons werk een robuuster paradigma vestigt voor het versnellen van generatieve modellen en de bredere adoptie van stroomkaartdistillatie zonder data motiveert.
Hoewel recente wereldmodellen zeer realistische video's genereren, blijft hun vermogen om robotpadplanning uit te voeren onduidelijk en niet gekwantificeerd. Wij introduceren Target-Bench, de eerste benchmark die specifiek is ontworpen om wereldmodellen te evalueren op kaartloze padplanning naar semantische doelen in real-world omgevingen. Target-Bench biedt 450 door robots verzamelde videosequenties verspreid over 45 semantische categorieën, met op SLAM gebaseerde grondwaarheidstrajecten. Onze evaluatiepipeline herstelt de camerabeweging uit gegenereerde video's en meet de planningsprestatie met vijf complementaire metrieken die de doelbereikbaarheid, trajectnauwkeurigheid en directionele consistentie kwantificeren. Wij evalueren state-of-the-art modellen, waaronder Sora 2, Veo 3.1 en de Wan-reeks. Het beste kant-en-klare model (Wan2.2-Flash) behaalt slechts een algemene score van 0.299, wat significante beperkingen van huidige wereldmodellen voor robotplanningstaken aan het licht brengt. Wij tonen aan dat het finetunen van een open-source model met 5B parameters op slechts 325 scenario's uit onze dataset een algemene score van 0.345 oplevert – een verbetering van meer dan 400% ten opzichte van de basisversie (0.066) en 15% hoger dan het beste kant-en-klare model. Wij zullen de code en dataset open source maken.
Grote taalmmodellen (LLM's) worden veel gebruikt voor feitelijke taken zoals "Wat behandelt astma?" of "Wat is de hoofdstad van Letland?". Het blijft echter onduidelijk hoe stabiel LLM's de onderscheiden tussen ware, onware en noch-waar-noch-onware inhoud coderen in hun interne probabilistische representaties. Wij introduceren *representatiestabiliteit* als de robuustheid van de waarheidsrepresentaties van een LLM tegen perturbaties in de operationele definitie van waarheid. We beoordelen representatiestabiliteit door (i) een lineaire probe te trainen op de activaties van een LLM om ware van niet-ware uitspraken te scheiden en (ii) te meten hoe de geleerde beslissingsgrens verschuift onder gecontroleerde labelveranderingen. Met behulp van activaties van zestien open-source modellen en drie feitelijke domeinen vergelijken we twee soorten 'noch'-uitspraken. De eerste zijn feitachtige beweringen over entiteiten waarvan we geloven dat ze afwezig zijn in alle trainingsdata. We noemen deze *onbekende noch-uitspraken*. De tweede zijn niet-feitelijke claims afkomstig uit bekende fictionele contexten. We noemen deze *bekende noch-uitspraken*. De onbekende uitspraken veroorzaken de grootste grensverschuivingen, met tot 40% omgekeerde waarheidsoordelen in fragiele domeinen (zoals woorddefinities), terwijl bekende fictionele uitspraken coherenter gegroepeerd blijven en kleinere veranderingen opleveren (≤ 8,2%). Deze resultaten suggereren dat representatiestabiliteit meer voortkomt uit epistemische bekendheid dan uit linguïstische vorm. In bredere zin biedt onze aanpak een diagnostisch hulpmiddel voor het auditen en trainen van LLM's om coherente waarheidstoekenningen te behouden onder semantische onzekerheid, in plaats van alleen te optimaliseren voor uitvoernauwkeurigheid.
Hand-Object Interactie (HOI)-generatie speelt een cruciale rol in de vooruitgang van toepassingen in animatie en robotica. Huidige, op video gebaseerde methoden zijn overwegend enkelvoudig van perspectief, wat een uitgebreid 3D-geometriebegrip belemmert en vaak leidt tot geometrische vervormingen of onrealistische bewegingspatronen. Hoewel 3D-HOI-benaderingen dynamisch plausibele bewegingen kunnen genereren, beperkt hun afhankelijkheid van hoogwaardige 3D-gegevens, vastgelegd in gecontroleerde laboratoriumomgevingen, de generalisatie naar realistische scenario's ernstig. Om deze beperkingen te overwinnen, introduceren wij SyncMV4D, het eerste model dat gesynchroniseerde multi-view HOI-video's en 4D-bewegingen gezamenlijk genereert door visuele voorkennis, bewegingsdynamica en multi-view geometrie te verenigen. Ons raamwerk kent twee kerninnovaties: (1) een Multi-view Joint Diffusion (MJD)-model dat gezamenlijk HOI-video's en tussenliggende bewegingen genereert, en (2) een Diffusion Points Aligner (DPA) die de grove tussenliggende beweging verfijnt tot globaal uitgelijnde 4D-metrische puntbanen. Om de 2D-weergave strak te koppelen aan de 4D-dynamica, vestigen we een gesloten, elkaar versterkende cyclus. Tijdens het diffusie-denoisingsproces conditioneert de gegenereerde video de verfijning van de 4D-beweging, terwijl de uitgelijnde 4D-puntbanen worden teruggeprojecteerd om de gezamenlijke generatie in de volgende stap te sturen. Experimenteel toont onze methode superieure prestaties aan ten opzichte van state-of-the-art alternatieven op het gebied van visuele realiteit, bewegingsgeloofwaardigheid en multi-view consistentie.
Uitlegfideliteit, die meet hoe nauwkeurig een uitleg de werkelijke redenering van een model weergeeft, blijft in aanbevelingssystemen ernstig onderbelicht. Wij introduceren SPINRec (Stochastic Path Integration for Neural Recommender Explanations), een model-agnostische benadering die padintegratietechnieken aanpast aan de spaarzaamheid en impliciete aard van aanbevelingsdata. Om de beperkingen van eerdere methoden te overwinnen, gebruikt SPINRec stochastische basislijnbemonstering: in plaats van te integreren vanaf een vaste of onrealistische basislijn, bemonstert het meerdere plausibele gebruikersprofielen uit de empirische datadistributie en selecteert het het meest getrouwe attributiepad. Dit ontwerp vangt de invloed van zowel waargenomen als niet-waargenomen interacties, wat resulteert in stabielere en meer gepersonaliseerde uitleg. Wij voeren de meest uitgebreide fideliteitsevaluatie tot nu toe uit over drie modellen (MF, VAE, NCF), drie datasets (ML1M, Yahoo! Music, Pinterest) en een reeks contrafeitelijke metrieken, inclusief op AUC gebaseerde verstoringscurves en diagnostieken met vaste lengte. SPINRec presteert consistent beter dan alle referentiemethoden en stelt daarmee een nieuwe standaard voor getrouwe verklaarbaarheid in aanbevelingen. Code en evaluatietools zijn openbaar beschikbaar op https://github.com/DeltaLabTLV/SPINRec.
Wij presenteren een methode voor het extraheren van monosemantische neuronen, gedefinieerd als latente dimensies die overeenkomen met coherente en interpreteerbare concepten, uit gebruikers- en item-embeddings in aanbevelingssystemen. Onze aanpak gebruikt een Sparse Autoencoder (SAE) om de semantische structuur binnen voorgetrainde representaties bloot te leggen. In tegenstelling tot werk met taalmodellen moet monosemantie bij aanbevelingen de interacties tussen afzonderlijke gebruikers- en item-embeddings behouden. Om dit te bereiken, introduceren we een prediction aware trainingsdoel dat terugpropagatie door een bevroren aanbevelingssysteem uitvoert en de geleerde latente structuur afstemt op de voorspellingen van gebruikers-itemaffiniteit van het model. De resulterende neuronen vangen eigenschappen zoals genre, populariteit en temporele trends vast en ondersteunen post hoc controle-operaties, waaronder gerichte filtering en contentpromotie, zonder het basismodel aan te passen. Onze methode generaliseert over verschillende aanbevelingsmodellen en datasets, en biedt een praktisch hulpmiddel voor interpreteerbare en controleerbare personalisatie. Code en evaluatieresources zijn beschikbaar op https://github.com/DeltaLabTLV/Monosemanticity4Rec.
Camouflage-objectdetectie is een opkomende en uitdagende computervisietaak die het identificeren en segmenteren vereist van objecten die naadloos opgaan in hun omgeving door hoge gelijkenis in kleur, textuur en grootte. Deze taak wordt verder bemoeilijkt door omstandigheden met weinig licht, gedeeltelijke occlusie, kleine objectgrootte, ingewikkelde achtergrondpatronen en meerdere objecten. Hoewel er veel geavanceerde methoden voor deze taak zijn voorgesteld, worstelen huidige methoden nog steeds met het nauwkeurig detecteren van gecamoufleerde objecten in complexe scenario's, vooral bij kleine en meerdere objecten, wat wijst op ruimte voor verbetering. Wij stellen een Multi-Schaal Recursief Netwerk voor dat multi-schaalkenmerken extraheert via een Pyramid Vision Transformer-backbone en deze combineert via gespecialiseerde Attention-Based Scale Integration Units, waardoor selectieve kenmerksamenvoging mogelijk wordt. Voor nauwkeurigere objectdetectie verfijnt onze decoder kenmerken recursief door Multi-Granularity Fusion Units te integreren. Een nieuwe recursief-feedback-decoderingsstrategie is ontwikkeld om het globaal contextbegrip te verbeteren, wat het model helpt de uitdagingen in deze taak te overwinnen. Door multi-schaaller en recursieve kenmerkoptimalisatie gezamenlijk te benutten, behaalt onze voorgestelde methode prestatieverbeteringen en detecteert zij succesvol kleine en meerdere gecamoufleerde objecten. Ons model behaalt state-of-the-art resultaten op twee benchmarkdatasets voor camouflage-objectdetectie en staat op de tweede plaats op de overige twee. Onze codes, modelgewichten en resultaten zijn beschikbaar op https://github.com/linaagh98/MSRNet.