Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Supervised Fine-Tuning (SFT) is het standaardparadigma voor domeinaanpassing, maar het gaat vaak gepaard met catastrofaal vergeten. In schril contrast hiermee behoudt on-policy Reinforcement Learning (RL) de algemene capaciteiten effectief. Wij onderzoeken dit verschil en identificeren een fundamentele distributionele kloof: waar RL aansluit bij het interne geloof van het model, dwingt SFT het model om zich aan te passen aan externe supervisie. Deze mismatch manifesteert zich vaak als "Zelfverzekerde Conflicten" (Confident Conflicts): tokens die worden gekenmerkt door een lage waarschijnlijkheid maar ook een lage entropie. In deze gevallen is het model zeer overtuigd van zijn eigen voorspelling, maar wordt het gedwongen om een afwijkende grondwaarheid aan te leren, wat destructieve gradient-updates triggert. Om dit aan te pakken, stellen wij Entropie-Adaptieve Fine-Tuning (EAFT) voor. In tegenstelling tot methodes die uitsluitend op voorspellingswaarschijnlijkheid vertrouwen, gebruikt EAFT token-level entropie als een gating-mechanisme om onderscheid te maken tussen epistemische onzekerheid en kennisfconflict. Hierdoor kan het model leren van onzekere voorbeelden, terwijl het gradients op conflicterende data onderdrukt. Uitgebreide experimenten met de Qwen- en GLM-reeksen (variërend van 4B tot 32B parameters) in wiskundige, medische en agent-gerichte domeinen bevestigen onze hypothese. EAFT evenaart consistent de downstream-prestaties van standaard SFT, terwijl het de degradatie van algemene capaciteiten aanzienlijk vermindert.
Wij bestuderen continue vaardigheidsverwerving in open-ended, belichaamde omgevingen waarin een agent een uitbreidende bibliotheek van uitvoerbare vaardigheden moet opbouwen, verfijnen en hergebruiken. Wij introduceren het Programmeerbaar Vaardigheidsnetwerk (PVN), een raamwerk waarin vaardigheden uitvoerbare symbolische programma's zijn die een compositioneel netwerk vormen dat evolueert door ervaring. PVN definieert drie kernmechanismen geïmplementeerd via grote taalmodel(len): (1) REFLECT voor gestructureerde foutlokalisatie in vaardigheidscomposities, (2) progressieve optimalisatie met rijpingsbewuste update-gating dat betrouwbare vaardigheden stabiliseert terwijl plasticiteit voor onzekere vaardigheden behouden blijft, en (3) canonieke structurele refactoring met rollback-validatie die de netwerkcompactheid handhaaft. Verder tonen wij aan dat de leer dynamiek van PVN structurele parallellen vertoont met de training van neurale netwerken. Experimenten op MineDojo en Crafter demonstreren robuust vaardigheidshergebruik, snelle aanpassing en sterke generalisatie over open-ended taakdistributies.\footnote{Wij zijn van plan de code open-source te maken.}
De integratie van grote taalmmodellen (LLM's) met externe tools heeft de mogelijkheden van AI-agenten aanzienlijk uitgebreid. Naarmate de diversiteit van zowel LLM's als tools toeneemt, wordt het selecteren van de optimale model-toolcombinatie echter een hoogdimensionaal optimalisatieprobleem. Bestaande benaderingen vertrouwen vaak op een enkel model of vaste tool-aanroeplogica, waardoor ze geen gebruik maken van prestatieverschillen tussen heterogene model-toolparen. In dit artikel presenteren we ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), een dual-path raamwerk voor dynamisch toolgebruik bij domeinoverschrijdend complex redeneren. ATLAS werkt via een dual-path aanpak: (1) trainingsvrije op clustering gebaseerde routering die empirische priors benut voor domeinspecifieke afstemming, en (2) op reinforcement learning gebaseerde meerstapsroutering die autonome trajecten verkent voor generalisatie buiten de verdeling. Uitgebreide experimenten op 15 benchmarks tonen aan dat onze methode superieure prestaties levert vergeleken met closed-source modellen zoals GPT-4o, en bestaande routeringsmethoden overtreft voor zowel taken binnen de verdeling (+10,1%) als daarbuiten (+13,1%). Bovendien toont ons raamwerk aanzienlijke verbeteringen in visueel redeneren door de orchestratie van gespecialiseerde multimodale tools.
De snelle proliferatie van benchmarks voor het evalueren van grote taalmodellen (LLM's) heeft een dringende behoefte gecreëerd aan systematische methoden om de kwaliteit van benchmarks zelf te beoordelen. Wij stellen Benchmark² voor, een uitgebreid raamwerk bestaande uit drie complementaire metrieken: (1) Cross-Benchmark Rankingconsistentie, die meet of een benchmark modelrangschikkingen produceert die overeenkomen met die van vergelijkbare benchmarks; (2) Discriminatievermogen-score, die het vermogen van een benchmark om onderscheid te maken tussen modellen kwantificeert; en (3) Capability Alignment-afwijking, die problematische gevallen identificeert waarin sterkere modellen falen maar zwakkere modellen slagen binnen dezelfde modelfamilie. Wij voeren uitgebreide experimenten uit met 15 benchmarks op het gebied van wiskunde, redeneren en kennis, waarbij 11 LLM's uit vier modelfamilies worden geëvalueerd. Onze analyse onthult aanzienlijke kwaliteitsverschillen tussen bestaande benchmarks en toont aan dat selectieve benchmarkconstructie op basis van onze metrieken vergelijkbare evaluatieprestaties kan bereiken met aanzienlijk verkleinde testverzamelingen.
Audio-videogeïntegreerde generatie heeft een snelle vooruitgang geboekt, maar er blijven aanzienlijke uitdagingen bestaan. Niet-commerciële benaderingen kampen nog steeds met audio-visuele asynchronie, slechte lip-spraakafstemming en unimodale degradatie, wat kan worden herleid tot zwakke audio-visuele correspondentiemodellering, beperkte generalisatie en schaarse hoogwaardige dense-caption data. Om deze problemen aan te pakken, introduceren we Klear en verdiepen we ons in drie assen: modelarchitectuur, trainingsstrategie en datacuratie. Architecturaal hanteren we een single-tower ontwerp met verenigde DiT-blokken en een Omni-Full Attention-mechanisme, waarmee we strakke audio-visuele synchronisatie en sterke schaalbaarheid bereiken. Qua training gebruiken we een progressief multitask-regime—willekeurige modaliteitsmaskering voor gezamenlijke optimalisatie tussen taken, en een meerfasig curriculum—wat robuuste representaties oplevert, audio-visueel afgestemde wereldkennis versterkt en unimodale ineenstorting voorkomt. Voor datasets presenteren we de eerste grootschalige audio-videodataset met dense captions, en introduceren we een nieuwe geautomatiseerde dataconstructiepijplijn die miljoenen diverse, hoogwaardige, strikt gesynchroniseerde audio-video-caption triplets annoteert en filtert. Hierop voortbouwend schaalt Klear naar grote datasets, levert het hoogwaardige, semantisch en temporeel afgestemde, instructievolgende generatie in zowel gezamenlijke als unimodale settings, en generaliseert het robuust naar out-of-distribution scenario's. Over alle taken heen overtreft het eerdere methoden aanzienlijk en bereikt het prestaties vergelijkbaar met Veo 3, waarmee het een verenigde, schaalbare weg biedt naar volgende-generatie audio-videosynthese.
Dynamische objecten in onze fysieke 4D (3D + tijd) wereld ondergaan voortdurend evolutie, vervorming en interactie met andere objecten, wat leidt tot diverse 4D-scènedynamiek. In dit artikel presenteren we CHORD, een universele generatieve pijplijn voor het choreograferen van dynamische objecten en scènes en het synthetiseren van dit type fenomenen. Traditionele, op regels gebaseerde graphics-pijplijnen voor het creëren van deze dynamiek zijn gebaseerd op categoriespecifieke heuristieken, maar zijn arbeidsintensief en niet schaalbaar. Recente, op leren gebaseerde methoden vereisen doorgaans grootschalige datasets, die mogelijk niet alle gewenste objectcategorieën omvatten. Onze benadering erft daarentegen de universaliteit van videogeneratieve modellen door een op distillatie gebaseerde pijplijn voor te stellen om de rijke Lagrangiaanse bewegingsinformatie te extraheren die verborgen ligt in de Euleriaanse representaties van 2D-video's. Onze methode is universeel, veelzijdig en categorie-agnostisch. We demonstreren de effectiviteit ervan door experimenten uit te voeren om een diverse reeks multi-body 4D-dynamica te genereren, tonen het voordeel ten opzichte van bestaande methoden en laten de toepasbaarheid ervan zien bij het genereren van robotmanipulatiebeleid. Projectpagina: https://yanzhelyu.github.io/chord
Recente ontwikkelingen in reinforcement learning hebben de flow matching-modellen voor afstemming op menselijke voorkeuren verbeterd. Hoewel stochastische bemonstering de verkenning van denoiseringsrichtingen mogelijk maakt, lijden bestaande methoden die optimalisatie over meerdere denoiseringsstappen uitvoeren onder schaarse en ambigue beloningssignalen. Wij observeren dat stappen met hoge entropie efficiëntere en effectievere verkenning mogelijk maken, terwijl stappen met lage entropie leiden tot weinig onderscheidende roll-outs. Daarom stellen wij E-GRPO voor, een entropy-aware Group Relative Policy Optimization, om de entropie van SDE-bemonsteringsstappen te verhogen. Omdat de integratie van stochastische differentiaalvergelijkingen te lijden heeft onder ambigue beloningssignalen door de stochasticiteit van meerdere stappen, voegen wij specifiek opeenvolgende stappen met lage entropie samen tot één stap met hoge entropie voor SDE-bemonstering, terwijl we ODE-bemonstering toepassen op de andere stappen. Hierop voortbordurend introduceren wij een genormaliseerd groepsvoordeel over meerdere stappen, dat groepsrelatieve voordelen berekent binnen steekproeven die dezelfde geconsolideerde SDE-denoiseringsstap delen. Experimentele resultaten in verschillende beloningssettings tonen de effectiviteit van onze methoden aan.
Verificatie is cruciaal voor het verbeteren van agenten: het verschaft het beloningssignaal voor Reinforcement Learning en maakt winst tijdens inferentie mogelijk via Test-Time Scaling (TTS). Ondanks dit belang berust verificatie in software engineering (SWE) agent-omgevingen vaak op code-uitvoering, wat moeilijk te schalen kan zijn vanwege de overhead voor het opzetten van de omgeving. Schaalbare alternatieven zoals patch-classifiers en heuristische methoden bestaan, maar deze zijn minder verankerd in de context van de codebase en moeilijker te interpreteren. Daarom verkennen we Agentic Rubrics: een expert-agent interageert met de repository om een contextgebonden rubric-checklist te creëren, en kandidaat-patches worden vervolgens ertegen gescoord zonder dat testuitvoering nodig is. Op SWE-Bench Verified onder parallelle TTS-evaluatie behaalt Agentic Rubrics een score van 54,2% op Qwen3-Coder-30B-A3B en 40,6% op Qwen3-32B, wat een verbetering van ten minste +3,5 procentpunt is ten opzichte van de sterkste baseline in onze vergelijkingsset. We analyseren verder het gedrag van de rubrics en tonen aan dat rubricscores consistent zijn met ground-truth tests, terwijl ze ook problemen signaleren die tests niet oppakken. Onze ablatiestudies tonen aan dat het verzamelen van context door de agent essentieel is voor het produceren van codespecifieke, eenduidige criteria. Gezamenlijk suggereren deze resultaten dat Agentic Rubrics een efficiënt, schaalbaar en gedetailleerd verificatiesignaal bieden voor SWE-agenten.
Molecular dynamics (MD)-simulaties zijn essentieel voor het begrijpen van gedrag op atomaire schaal in de materiaalkunde, maar het schrijven van LAMMPS-scripts blijft zeer gespecialiseerd en tijdrovend. Hoewel grote taalmodel(len) (LLM's) veelbelovend zijn op het gebied van codegeneratie en vraagbeantwoording in specifieke domeinen, wordt hun prestaties in MD-scenario's beperkt door schaarse domeingegevens, de hoge implementatiekosten van state-of-the-art LLM's en een lage code-uitvoerbaarheid. Voortbouwend op ons eerdere MDAgent, presenteren wij MDAgent2, het eerste end-to-end raamwerk dat zowel kennis-vraag-en-antwoord als codegeneratie binnen het MD-domein kan uitvoeren. Wij hebben een domeinspecifieke pijplijn voor dataconstructie ontwikkeld die drie hoogwaardige datasets oplevert, die zich uitstrekken over MD-kennis, vraagbeantwoording en codegeneratie. Op basis van deze datasets hanteren wij een drietraps na-trainingsstrategie – voortgezet vooraf trainen (CPT), supervised fine-tuning (SFT) en reinforcement learning (RL) – om twee domeinaangepaste modellen te trainen: MD-Instruct en MD-Code. Verder introduceren wij MD-GRPO, een gesloten-lus RL-methode die simulatieresultaten gebruikt als beloningssignalen en trajecten met lage beloning recycleert voor continue verfijning. Wij bouwden verder MDAgent2-RUNTIME, een inzetbaar multi-agent systeem dat codegeneratie, uitvoering, evaluatie en zelfcorrectie integreert. Samen met MD-EvalBench, voorgesteld in dit werk, de eerste benchmark voor LAMMPS-codegeneratie en vraagbeantwoording, behalen onze modellen en systeem prestaties die verschillende sterke baseline-modellen overtreffen. Dit werk toont systematisch de aanpasbaarheid en generalisatiecapaciteit van grote taalmodel(len) in industriële simulatietaken aan, en legt een methodologische basis voor automatische codegeneratie in AI voor Science en industriële schaalsimulaties. URL: https://github.com/FredericVAN/PKU_MDAgent2
Betrouwbare epidemiologische redenering vereist het synthetiseren van onderzoeksbewijs om de ziektelast, transmissiedynamiek en interventie-effecten op populatieniveau af te leiden. Bestaande benchmarks voor medische vraagbeantwoording leggen vooral de nadruk op klinische kennis of redenering op patiëntniveau, maar weinige evalueren systematisch evidence-gesteunde epidemiologische inferentie. Wij presenteren EpiQAL, de eerste diagnostische benchmark voor epidemiologische vraagbeantwoarding voor diverse ziekten, bestaande uit drie subsets opgebouwd uit open-access literatuur. De subsets evalueren respectievelijk tekst-gesteunde feitelijke herinnering, meerstapsinferentie die documentbewijs koppelt aan epidemiologische principes, en conclusiereconstructie waarbij de Discussie-sectie is weggelaten. De constructie combineert expert-ontworpen taxonomierichtlijnen, multi-model verificatie en retrieval-gebaseerde moeilijkheidscontrole. Experimenten met tien open modellen tonen aan dat huidige LLM's beperkte prestaties vertonen op epidemiologische redenering, waarbij meerstapsinferentie de grootste uitdaging vormt. Modelrangschikkingen verschuiven tussen subsets, en schaal alleen voorspelt geen succes. Chain-of-Thought prompting heeft voordeel voor meerstapsinferentie maar levert wisselende resultaten elders op. EpiQAL biedt fijnmazige diagnostische signalen voor evidence-onderbouwing, inferentieel redeneren en conclusiereconstructie.
Naarmate grote taalmodellen (LLM's) een integraal onderdeel worden van veiligheidskritieke toepassingen, is het waarborgen van hun robuustheid tegen adversariële prompts van cruciaal belang. Bestaande red teaming-datasets kampen echter met inconsistente risicocategorieën, beperkte domeindekking en verouderde evaluaties, wat systematische kwetsbaarheidsanalyses belemmert. Om deze uitdagingen aan te pakken, introduceren wij RedBench, een universele dataset die 37 benchmarkdatasets van toonaangevende conferenties en repositories samenbrengt, bestaande uit 29.362 voorbeelden van aanvals- en weigeringsprompts. RedBench hanteert een gestandaardiseerde taxonomie met 22 risicocategorieën en 19 domeinen, waardoor consistente en uitgebreide evaluaties van LLM-kwetsbaarheden mogelijk worden. Wij bieden een gedetailleerde analyse van bestaande datasets, stellen basislijnen op voor moderne LLM's en maken de dataset en evaluatiecode open source. Onze bijdragen vergemakkelijken robuuste vergelijkingen, stimuleren toekomstig onderzoek en bevorderen de ontwikkeling van veilige en betrouwbare LLM's voor inzet in de praktijk. Code: https://github.com/knoveleng/redeval
Wij presenteren een casestudy van vier end-to-end pogingen om autonoom ML-onderzoeksartikelen te genereren met behulp van een pijplijn van zes LLM-agents, gemodelleerd naar de fasen van de wetenschappelijke workflow. Van deze vier pogingen mislukten er drie tijdens de implementatie of evaluatie. Eén poging voltooide de pijplijn met succes; dit artikel werd geaccepteerd voor Agents4Science 2025, een experimenteel inaugureel evenement dat AI-systemen als eerste auteur vereiste, en slaagde zowel voor menselijke als multi-AI-beoordeling. Uit deze pogingen destilleren wij zes terugkerende faalmodi: een neiging tot standaardinstellingen uit de trainingsdata, implementatiedrift onder uitvoeringsdruk, geheugen- en contextdegradatie bij langetermijntaken, overenthousiasme dat succes declareert ondanks duidelijke mislukkingen, onvoldoende domeinintelligentie en zwakke wetenschappelijke smaak in experimenteel ontwerp. Wij sluiten af met een bespreking van vier ontwerpprincipes voor robuustere AI-wetenschappers, de implicaties voor autonome wetenschappelijke ontdekking, en maken alle prompts, artefacten en outputs openbaar op https://github.com/Lossfunk/ai-scientist-artefacts-v1.
Taalmodellen (TM's) worden vooraf getraind op ruwe tekstdatasets om tekstsequenties token-voor-token te genereren. Hoewel deze aanpak het leren van wereldkennis en redeneervaardigheden vergemakkelijkt, optimaliseert het niet expliciet voor linguïstische competentie. Om deze kloof te overbruggen, stellen we L2T voor, een pre-trainingsraamwerk dat Taalverwervingstaken integreert naast standaard volgende-token-voorspelling. Geïnspireerd door menselijke taalverwerving, transformeert L2T ruwe tekst naar gestructureerde invoer-uitvoerparen om expliciete linguïstische stimulatie te bieden. Het pre-trainen van TM's op een mix van ruwe tekst en L2T-gegevens verbetert niet alleen de algemene prestaties op linguïstische competentiebenchmarks, maar versnelt ook de verwerving ervan, terwijl competitieve prestaties op algemene redeneertaken behouden blijven.
Instructiegestuurd beeldbewerken met geünificeerde multimodale generatieve modellen heeft een snelle vooruitgang geboekt, maar het onderliggende visuele redeneervermogen blijft beperkt, wat leidt tot suboptimale prestaties bij redeneringsgerichte bewerkingen. Reinforcement learning (RL) is onderzocht voor het verbeteren van de kwaliteit van beeldbewerking, maar kampt met drie belangrijke uitdagingen: (1) beperkte redeneerverkenning die gevangen zit in denoiseringsstochasticiteit, (2) bevooroordeelde beloningsfusie, en (3) instabiele op VLM gebaseerde instructiebeloningen. In dit werk stellen we ThinkRL-Edit voor, een redeneringsgericht RL-raamwerk dat visueel redeneren ontkoppelt van beeld synthese en de redeneerverkenning uitbreidt voorbij denoisering. Hiertoe introduceren we Chain-of-Thought (CoT)-gebaseerde redeneerbemonstering met plannings- en reflectiestadia vóór generatie in online bemonstering, waardoor het model wordt gedwongen meerdere semantische hypothesen te verkennen en hun plausibiliteit te valideren voordat het zich vastlegt op een visueel resultaat. Om de tekortkomingen van gewogen aggregatie te vermijden, stellen we een onbevooroordeelde ketenvoorkeursgroeperingsstrategie voor over meerdere beloningsdimensies. Veranderen we intervalgebaseerde VLM-scores door een binaire checklist, wat meer precieze, minder variabele en interpreteerbare beloningen oplevert voor complex redeneren. Experimenten tonen aan dat onze methode significant beter presteert dan eerder werk bij redeneringsgerichte beeldbewerking, waarbij het instructiegetrouwe, visueel coherente en semantisch onderbouwde bewerkingen produceert.
Menselijke evaluatie is de gouden standaard voor meertalige NLP, maar wordt in de praktijk vaak overgeslagen en vervangen door automatische metrieken, omdat het notoir complex en traag is om in te richten met bestaande tools die aanzienlijke technische en operationele overhead met zich meebrengen. Wij introduceren Pearmut, een lichtgewicht maar functierijk platform dat end-to-end menselijke evaluatie even gemakkelijk uitvoerbaar maakt als automatische evaluatie. Pearmut verwijdert veelvoorkomende drempels en biedt ondersteuning voor het evalueren van meertalige taken, met een bijzondere focus op machinaal vertalen. Het platform implementeert standaard evaluatieprotocollen, zoals DA, ESA of MQM, maar is ook uitbreidbaar om nieuwe protocollen te kunnen prototyperen. Het beschikt over documentniveau-context, absolute en contrastieve evaluatie, aandachtscontroles, ESAAI-vooraantekeningen en zowel statische als op actief leren gebaseerde toewijzingsstrategieën. Pearmut maakt betrouwbare menselijke evaluatie tot een praktische, routinecomponent van modelontwikkeling en -diagnose in plaats van een incidentele inspanning.
Memory-Augmented Generation (MAG) breidt Large Language Models uit met extern geheugen om redeneren over lange contexten mogelijk te maken, maar bestaande benaderingen vertrouwen grotendeels op semantische gelijkenis in monolithische geheugenopslag, waarbij temporele, causale en entiteitsinformatie verweven raken. Dit ontwerp beperkt de interpreteerbaarheid en de afstemming tussen query-intentie en opgehaald bewijsmateriaal, wat leidt tot suboptimale redeneernauwkeurigheid. In dit artikel stellen we MAGMA voor, een multi-grafisch agent-gebaseerd geheugenarchitectuur waarbij elk geheugenitem wordt gerepresenteerd in orthogonale semantische, temporele, causale en entiteitsgrafen. MAGMA formuleert retrieval als beleidsgestuurd navigeren door deze relationele perspectieven, waardoor query-adaptieve selectie en gestructureerde contextconstructie mogelijk wordt. Door geheugenrepresentatie te ontkoppelen van retrievallogica biedt MAGMA transparante redeneerpaden en fijnmazige controle over retrieval. Experimenten op LoCoMo en LongMemEval tonen aan dat MAGMA consequent superieure prestaties levert vergeleken met state-of-the-art agent-gebaseerde geheugensystemen bij langetermijnredeneertaken.
Wij introduceren RGS-SLAM, een robuust SLAM-kader op basis van Gaussische splatting dat de residu-gedreven verdichtingsfase van GS-SLAM vervangt door een initialisatie zonder trainingsfase, gebaseerd op correspondentie-naar-Gauss. In plaats van geleidelijk Gaussians toe te voegen wanneer residu's ontbrekende geometrie onthullen, voert RGS-SLAM een eenmalige triangulatie uit van dichte multi-view correspondenties afgeleid van DINOv3-descriptors. Deze worden verfijnd door een op vertrouwen gebaseerde inlier-classificator, wat resulteert in een goed verdeelde en structuurbewuste Gaussische startconfiguratie vóór optimalisatie. Deze initialisatie stabiliseert de vroege kaartopbouw en versnelt de convergentie met ongeveer 20%, wat een hogere weergave-getrouwheid oplevert in textuurrijke en rommelige scènes, terwijl volledige compatibiliteit met bestaande GS-SLAM-pipelines behouden blijft. Geëvalueerd op de TUM RGB-D en Replica datasets behaalt RGS-SLAM een competitieve of superieure nauwkeurigheid voor lokalisatie en reconstructie in vergelijking met state-of-the-art Gaussische en op punten gebaseerde SLAM-systemen, waarbij real-time kaartprestaties worden volgehouden tot 925 FPS.
Bestaande 1D-visualisatietokenizers voor autoregressieve (AR) generatie volgen grotendeels de ontwerp principes van taalmodelering, aangezien ze direct zijn gebouwd op transformatoren waarvan de prioria afkomstig zijn uit taal, wat resulteert in latentetokens met één hiërarchie en visuele gegevens behandelt als platte sequentiële tokenstromen. Deze taalachtige formulering negeert echter belangrijke eigenschappen van visie, met name de hiërarchische en residuele netwerkontwerpen die lange tijd essentieel zijn geweest voor convergentie en efficiëntie in visuele modellen. Om "visie" terug te brengen in visie, stellen we de Residual Tokenizer (ResTok) voor, een 1D-visualisatietokenizer die hiërarchische residuen opbouwt voor zowel beeldtokens als latentetokens. De hiërarchische representaties verkregen door progressief samenvoegen maken kruisniveau-fusie van kenmerken mogelijk in elke laag, wat de representatiecapaciteit aanzienlijk verbetert. Tegelijkertijd voorkomen de semantische residuen tussen hiërarchieën informatieoverlap, wat resulteert in meer geconcentreerde latente verdelingen die gemakkelijker zijn voor AR-modellering. Kruisniveau-verbindingen ontstaan hierdoor zonder expliciete beperkingen. Om het generatieproces te versnellen, introduceren we verder een hiërarchische AR-generator die de bemonsteringsstappen aanzienlijk reduceert door een volledig niveau van latentetokens in één keer te voorspellen in plaats van ze strikt token-voor-token te genereren. Uitgebreide experimenten tonen aan dat het herstellen van hiërarchische residuele prioria in visualisatietokenisatie AR-beeldgeneratie significant verbetert, met een gFID van 2.34 op ImageNet-256 met slechts 9 bemonsteringsstappen. Code is beschikbaar op https://github.com/Kwai-Kolors/ResTok.
Wij presenteren Gen3R, een methode die de sterke voorkennis van fundamentele reconstructiemodellen en videodiffusiemodellen met elkaar verbindt voor 3D-generatie op scèniveau. Wij hergebruiken het VGGT-reconstructiemodel om geometrische latenten te produceren door een adapter te trainen op zijn tokens, die worden geregulariseerd om aan te sluiten bij de uiterlijk-latenten van voorgetrainde videodiffusiemodellen. Door deze ontvlochten maar uitgelijnde latenten gezamenlijk te genereren, produceert Gen3R zowel RGB-video's als bijbehorende 3D-geometrie, inclusief cameraposities, dieptekaarten en globale puntenwolken. Experimenten tonen aan dat onze aanpak state-of-the-art resultaten behaalt bij 3D-scènegeneratie op basis van één en meerdere afbeeldingen. Bovendien kan onze methode de robuustheid van reconstructie verbeteren door gebruik te maken van generatieve voorkennis, wat het wederzijdse voordeel aantoont van een nauwe koppeling tussen reconstructie- en generatieve modellen.