Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Mensen nemen real-world ruimtes waar en begrijpen deze via een stroom van visuele observaties. Daarom is het vermogen om ruimtelijk bewijsmateriaal stroomachtig te onderhouden en bij te werken uit potentieel onbegrensde videostreams essentieel voor ruimtelijke intelligentie. De kernuitdaging ligt niet simpelweg in langere contextvensters, maar in hoe ruimtelijke informatie wordt geselecteerd, georganiseerd en vastgehouden over tijd. In dit artikel stellen we Spatial-TTT voor als benadering voor stroomachtige, visueel gebaseerde ruimtelijke intelligentie met test-time training (TTT), waarbij een subset van parameters (snelle gewichten) wordt aangepast om ruimtelijk bewijsmateriaal over lange-scènevideo's vast te leggen en te organiseren. Specifiek ontwerpen we een hybride architectuur en passen we grote-chunk updates toe, parallel aan sliding-window attention, voor efficiënte ruimtelijke videoverwerking. Om het ruimtelijk bewustzijn verder te bevorderen, introduceren we een ruimtelijk-voorspellend mechanisme toegepast op TTT-lagen met 3D spatiotemporele convolutie, wat het model aanmoedigt om geometrische correspondentie en temporele continuïteit tussen frames te vatten. Naast architectuurontwerp construeren we een dataset met dichte 3D-ruimtelijke beschrijvingen, die het model leidt om zijn snelle gewichten bij te werken om globale 3D-ruimtelijke signalen op gestructureerde wijze te onthouden en organiseren. Uitgebreide experimenten tonen aan dat Spatial-TTT het ruimtelijk begrip over lange horizonnen verbetert en state-of-the-art prestaties behaalt op videoruimtelijke benchmarks. Projectpagina: https://liuff19.github.io/Spatial-TTT.
Multimodale agents bieden een veelbelovend pad voor het automatiseren van complexe, document-intensieve workflows. Toch blijft een cruciale vraag onbeantwoord: vertonen deze agenten werkelijk strategisch redeneervermogen, of slechts een stochastische zoektocht via trial-and-error? Om dit te onderzoeken, introduceren we MADQA, een benchmark met 2.250 door mensen geschreven vragen, gebaseerd op 800 heterogene PDF-documenten. Geleid door de Klassieke Testtheorie, is het ontworpen om de onderscheidend vermogen te maximaliseren over verschillende niveaus van agent-vaardigheden. Om agent-gedrag te evalueren, introduceren we een nieuw evaluatieprotocol dat de nauwkeurigheid-inspanning-afweging meet. Met dit framework tonen we aan dat, hoewel de beste agenten de nauwkeurigheid van menselijke zoekers kunnen evenaren, zij slagen op grotendeels andere vragen en vertrouwen op brute-force zoekacties om zwakke strategische planning te compenseren. Zij slagen er niet in de kloof van bijna 20% naar orakelprestaties te dichten en vervallen in improductieve loops. We maken de dataset en evaluatietoolkit openbaar om de transitie van brute-force retrieval naar gekalibreerd, efficiënt redeneren te bevorderen.
Langetermijn-agentgebaseerde workflows zijn uitgegroeid tot een bepalende use case voor grote taalmodellen, waardoor aandachtsefficiëntie cruciaal is voor zowel inferentiesnelheid als servingskosten. Sparse attention lost deze uitdaging effectief op, en DeepSeek Sparse Attention (DSA) is een representatieve productieklasse-oplossing: een lichtgewicht lightning-indexeerder selecteert de top-k meest relevante tokens per query, wat de kernattention reduceert van O(L²) naar O(Lk). De indexeerder zelf behoudt echter een O(L²)-complexiteit en moet onafhankelijk op elke laag draaien, ondanks het feit dat de resulterende top-k-selecties sterk overeenkomen tussen opeenvolgende lagen. Wij presenteren IndexCache, dat deze cross-layer-redundantie benut door lagen op te delen in een kleine set Volledige lagen die hun eigen indexeerders draaien en een meerderheid van Gedeelde lagen die simpelweg de top-k-indices van de dichtstbijzijnde Volledige laag hergebruiken. Wij stellen twee complementaire benaderingen voor om deze configuratie te bepalen en optimaliseren. Training-free IndexCache past een greedy zoekalgoritme toe dat selecteert welke lagen indexeerders behouden door direct de taalmodelleringsverlies op een calibratieset te minimaliseren, zonder gewichtsupdates. Training-aware IndexCache introduceert een multi-layer distillatieverlies dat elke behouden indexeerder traint tegen de gemiddelde aandachtverdelingen van alle lagen die hij bedient, waardoor zelfs eenvoudige interleaved patronen de nauwkeurigheid van volledige indexeerders evenaren. Experimentele resultaten op een 30B DSA-model tonen aan dat IndexCache 75% van de indexeerberekeningen kan verwijderen met verwaarloosbare kwaliteitsafname, wat resulteert in tot 1.82× prefill-versnelling en 1.48× decode-versnelling vergeleken met standaard DSA. Deze positieve resultaten worden verder bevestigd door onze preliminaire experimenten op het productieschaal GLM-5-model (Figuur 1).
Computergestuurde agents (CGA's) worden steeds capabeler; toch blijft het lastig om de evaluatie van of een traject daadwerkelijk aan een gebruikersinstructie voldoet, op te schalen. In dit werk bestuderen we beloningsmodellering op basis van uitvoeringsvideo's: een reeks keyframes uit een agenttraject die onafhankelijk is van het interne redeneerproces of de acties van de agent. Hoewel video-uitvoeringsmodellering methodologie-onafhankelijk is, brengt het belangrijke uitdagingen met zich mee, zoals sterk redundante lay-outs en subtiele, gelokaliseerde signalen die het succes bepalen. Wij introduceren Execution Video Reward 53k (ExeVR-53k), een dataset met 53.000 hoogwaardige video-taak-beloning triplets. Verder stellen we *adversarial instruction translation* voor om negatieve samples met annotaties op stapniveau te synthetiseren. Om leren van lange, hoogwaardige uitvoeringsvideo's mogelijk te maken, ontwerpen we spatiotemporele tokenpruning, waarbij homogene regio's en persistente tokens worden verwijderd terwijl beslissende UI-veranderingen behouden blijven. Voortbouwend op deze componenten fine-tunen we een Execution Video Reward Model (ExeVRM) dat alleen een gebruikersinstructie en een video-uitvoeringssequentie nodig heeft om tasksucces te voorspellen. Ons ExeVRM 8B behaalt een nauwkeurigheid van 84,7% en een recall van 87,7% bij video-uitvoeringsbeoordeling, en presteert beter dan sterke propriëtaire modellen zoals GPT-5.2 en Gemini-3 Pro op Ubuntu, macOS, Windows en Android, terwijl het preciezere temporele attributie biedt. Deze resultaten tonen aan dat beloningsmodellering op basis van video-uitvoering kan dienen als een schaalbare, model-onafhankelijke evaluator voor CGA's.
Tekstgestuurde videogeneratie heeft filmcreatie gedemocratiseerd, maar camerabesturing in cinematische multi-shot scenario's blijft een belangrijke barrière. Impliciete tekstuele prompts missen precisie, terwijl expliciete trajectconditionering een verbiedende handmatige overhead met zich meebrengt en vaak uitvoeringsfouten veroorzaakt in huidige modellen. Om deze bottleneck te overwinnen, stellen we een data-centrisch paradigma-shift voor, waarbij we veronderstellen dat uitgelijnde (Bijschrift, Traject, Video)-triplets een inherente gezamenlijke verdeling vormen die geautomatiseerde plotplanning en precieze uitvoering kan verbinden. Geleid door dit inzicht presenteren we ShotVerse, een "Plan-then-Control" raamwerk dat generatie ontkoppelt in twee collaboratieve agents: een op VLM (Vision-Language Model) gebaseerde Planner die ruimtelijke priors benut om cinematische, globaal uitgelijnde trajecten uit tekst te verkrijgen, en een Controller die deze trajecten via een camera-adapter weergeeft in multi-shot videocontent. Centraal in onze aanpak staat de constructie van een datafundament: we ontwerpen een geautomatiseerde multi-shot camerakalibratiepijplijn die onsamenhangende enkel-shot trajecten uitlijnt in een verenigd globaal coördinatensysteem. Dit vergemakkelijkt de samenstelling van ShotVerse-Bench, een hoogwaardige cinematische dataset met een drie-sporen evaluatieprotocol dat de basis vormt voor ons raamwerk. Uitgebreide experimenten tonen aan dat ShotVerse effectief de kloof overbrugt tussen onbetrouwbare tekstuele controle en arbeidsintensieve handmatige planning, waarbij superieure cinematische esthetiek wordt bereikt en multi-shot video's worden gegenereerd die zowel cameranauwkeurig als cross-shot consistent zijn.
Hoewel grootschalige diffusiemodellen een revolutie teweeg hebben gebracht in videosynthese, blijft het verkrijgen van precieze controle over zowel multi-subject identiteit als multi-granulariteit beweging een aanzienlijke uitdaging. Recente pogingen om deze kloof te overbruggen, lijden vaak onder beperkte bewegingsgranulariteit, controle-ambiguïteit en identiteitsdegradatie, wat leidt tot suboptimale prestaties op het gebied van identiteitsbehoud en bewegingscontrole. In dit werk presenteren we DreamVideo-Omni, een uniform raamwerk dat harmonieuze multi-subject aanpassing mogelijk maakt met alomvattende bewegingscontrole via een progressief tweefasen trainingsparadigma. In de eerste fase integreren we uitgebreide controlesignalen voor gezamenlijke training, waaronder subjectverschijningen, globale beweging, lokale dynamiek en camerabewegingen. Om robuuste en precieze controleerbaarheid te waarborgen, introduceren we een conditiebewuste 3D roterende positionele inbedding om heterogene invoer te coördineren en een hiërarchische bewegingsinjectiestrategie om de globale bewegingssturing te versterken. Verder introduceren we, om multi-subject ambiguïteit op te lossen, groep- en rol-inbeddingen om bewegingssignalen expliciet aan specifieke identiteiten te verankeren, waardoor complexe scènes effectief worden ontward in onafhankelijk controleerbare instanties. In de tweede fase ontwerpen we, om identiteitsdegradatie tegen te gaan, een latent identiteitsbeloningsfeedback-leerparadigma door een latent identiteitsbeloningsmodel te trainen op een voorgetrainde videodiffusie-backbone. Dit voorziet in bewegingbewuste identiteitsbeloningen in de latente ruimte, waarbij identiteitsbehoud dat is afgestemd op menselijke voorkeuren prioriteit krijgt. Ondersteund door onze samengestelde grootschalige dataset en de uitgebreide DreamOmni Bench voor multi-subject en alomvattende bewegingscontrole-evaluatie, demonstreert DreamVideo-Omni superieure prestaties in het genereren van hoogwaardige video's met precieze controleerbaarheid.
Multimodale agenten kunnen nu complexe redeneertaken aan met diverse tools, maar ze lijden nog steeds aan inefficiënt toolgebruik en inflexibele coördinatie in open-ended omgevingen. Een centrale uitdaging is het in staat stellen van dergelijke agenten om continu te verbeteren zonder parameterupdates, door te leren van eerdere trajecten. Wij identificeren twee complementaire vormen van herbruikbare kennis die essentieel zijn voor dit doel: ervaringen, die beknopte actieniveau-richtlijnen bieden voor toolselectie en besluitvorming, en vaardigheden, die gestructureerde taakniveau-richtlijnen bieden voor planning en toolgebruik. Hiertoe stellen wij XSkill voor, een dual-stream raamwerk voor continu leren uit ervaringen en vaardigheden in multimodale agenten. XSkill verankert zowel kennisextractie als -retrieval in visuele observaties. Tijdens accumulatie destilleert en consolideert XSkill ervaringen en vaardigheden uit multi-pad rollouts via visueel onderbouwde samenvatting en cross-rollout kritiek. Tijdens inferentie retrieveert en past het deze kennis aan aan de huidige visuele context en voert het gebruikshistorie terug naar de accumulatie om een continue leerlus te vormen. Evaluatie op vijf benchmarks in diverse domeinen met vier backbone-modellen toont aan dat XSkill consistent en aanzienlijk beter presteert dan zowel tool-only als op leren gebaseerde baseline-methoden. Verdere analyse onthult dat de twee kennisdynamieken een complementaire rol spelen in het beïnvloeden van het redeneergedrag van agenten en superieure zero-shot generalisatie vertonen.
Bestaande videodiepteschatting kampt met een fundamentele afweging: generatieve modellen lijden onder stochastische geometrische hallucinaties en schaalafwijkingen, terwijl discriminatieve modellen enorme gelabelde datasets vereisen om semantische ambiguïteiten op te lossen. Om deze impasse te doorbreken, presenteren wij DVD, het eerste raamwerk dat voorgetrainde videodiffusiemodellen deterministisch aanpast tot enkelvoudige diepteregressoren. Concreet kent DVD drie kernontwerpelementen: (i) het herbestemmen van de diffusietijdstap als structureel anker om globale stabiliteit te balanceren met hoogfrequente details; (ii) latente manifold-rectificatie (LMR) om door regressie veroorzaakte overmatige vervaging tegen te gaan, door differentiële restricties op te leggen die scherpe randen en coherente beweging herstellen; en (iii) globale affiene coherentie, een inherente eigenschap die divergentie tussen vensters begrenst, waardoor naadloze inferentie over lange video's mogelijk wordt zonder complexe temporele alignering. Uitgebreide experimenten tonen aan dat DVD state-of-the-art zero-shot prestaties levert op diverse benchmarks. Bovendien ontsluit DVD met 163x minder taakspecifieke data dan toonaangevende baseline-methoden succesvol de diepgaande geometrische prioriteiten die impliciet aanwezig zijn in videofoundationmodellen. Opmerkelijk is dat wij onze pijplijn volledig vrijgeven, waarbij de complete trainingssuite voor state-of-the-art videodiepteschatting beschikbaar wordt gesteld ten behoeve van de open-sourcegemeenschap.
Instructiegestuurd beeldbewerking heeft als doel specifieke inhoud in bestaande afbeeldingen aan te passen volgens door de gebruiker verstrekte instructies, waarbij niet-doelgebieden behouden blijven. Naast traditionele object- en stijlgerichte manipulatie, richt tekstgerichte beeldbewerking zich op het wijzigen, vertalen of herschikken van tekstuele elementen die in afbeeldingen zijn ingebed. Toch slagen bestaande toonaangevende modellen er vaak niet in complexe tekstbewerkingen nauwkeurig uit te voeren, waarbij vaak wazige of gefantaseerde karakters worden geproduceerd. Wij schrijven deze tekortkomingen voornamelijk toe aan het ontbreken van gespecialiseerde trainingsparadigma's die zijn toegesneden op tekstgerichte bewerking, evenals het ontbreken van grootschalige datasets en gestandaardiseerde benchmarks die nodig zijn voor een gesloten trainings- en evaluatiesysteem. Om deze beperkingen aan te pakken, presenteren wij WeEdit, een systematische oplossing die een schaalbare dataconstructiepijplijn, twee benchmarks en een op maat gemaakte tweefasentrainingsstrategie omvat. Specifiek stellen wij een nieuwe HTML-gebaseerde automatische bewerkingspijplijn voor, die 330K trainingsparen genereert die diverse bewerkingsoperaties en 15 talen bestrijken, vergezeld van gestandaardiseerde tweetalige en meertalige benchmarks voor uitgebreide evaluatie. Aan algoritmische zijde passen wij glyph-geleide supervised fine-tuning toe om expliciete ruimtelijke en inhoudelijke priors in te brengen, gevolgd door een reinforcement learning-fase met meerdere doelstellingen om de gegenereerde output af te stemmen op instructievolging, teksthelderheid en achtergrondbehoud. Uitgebreide experimenten tonen aan dat WeEdit eerdere open-source modellen met een duidelijke marge overtreft bij diverse bewerkingsoperaties.
Versterkend leren (RL) is naar voren gekomen als een veelbelovend paradigma voor het verbeteren van beeldbewerking en tekst-naar-beeld (T2I) generatie. Huidige beloningsmodellen, die fungeren als criticasters tijdens RL, lijden echter vaak aan hallucinaties en kennen ruisachtige scores toe, waardoor het optimalisatieproces inherent misleid wordt. In dit artikel presenteren we FIRM (Faithful Image Reward Modeling), een uitgebreid raamwerk dat robuuste beloningsmodellen ontwikkelt om accurate en betrouwbare begeleiding te bieden voor getrouwe beeldgeneratie en -bewerking. Ten eerste ontwerpen we op maat gemaakte data-curatiepijplijnen om hoogwaardige scoringsdatasets te construeren. Specifiek evalueren we bewerking aan de hand van zowel uitvoering als consistentie, terwijl generatie voornamelijk wordt beoordeeld via instructie-opvolging. Met behulp van deze pijplijnen verzamelen we de FIRM-Edit-370K en FIRM-Gen-293K datasets, en trainen we gespecialiseerde beloningsmodellen (FIRM-Edit-8B en FIRM-Gen-8B) die deze criteria nauwkeurig weerspiegelen. Ten tweede introduceren we FIRM-Bench, een uitgebreide benchmark die specifiek is ontworpen voor criticasters voor bewerking en generatie. Evaluaties tonen aan dat onze modellen een superieure afstemming met menselijk oordeel bereiken in vergelijking met bestaande metrieken. Verder formuleren we, om deze criticasters naadloos in de RL-pijplijn te integreren, een nieuwe "Base-and-Bonus" beloningsstrategie die concurrerende doelstellingen in evenwicht brengt: Consistency-Modulated Execution (CME) voor bewerking en Quality-Modulated Alignment (QMA) voor generatie. Gefaciliteerd door dit raamwerk bereiken onze resulterende modellen FIRM-Qwen-Edit en FIRM-SD3.5 aanzienlijke doorbraken in prestaties. Uitgebreide experimenten tonen aan dat FIRM hallucinaties vermindert en een nieuwe standaard vestigt voor getrouwheid en instructienaleving ten opzichte van bestaande algemene modellen. Al onze datasets, modellen en code zijn openbaar beschikbaar op https://firm-reward.github.io.
Diffusietransformers (DiT's) bereiken een hoge generatieve kwaliteit, maar koppelen het aantal FLOPs aan de beeldresolutie, wat principiële latentie-kwaliteit-afwegingen beperkt, en verdelen de rekenkracht uniform over ruimtelijke invoertokens, waardoor resources verspild worden aan onbelangrijke regio's. Wij introduceren de Elastic Latent Interface Transformer (ELIT), een drop-in, DiT-compatibel mechanisme dat de invoerbeeldgrootte ontkoppelt van de rekenkracht. Onze aanpak voegt een latente interface in, een leerbare tokenreeks met variabele lengte waarop standaard transformerblokken kunnen werken. Lichte *Read* en *Write* kruis-attentielagen verplaatsen informatie tussen ruimtelijke tokens en latente tokens en prioriteren belangrijke invoerregio's. Door te trainen met willekeurig weglaten van latente tokens aan het einde, leert ELIT representaties te produceren die op belangrijkheid zijn geordend, waarbij eerdere latente tokens de globale structuur vastleggen en latere informatie bevatten om details te verfijnen. Tijdens inferentie kan het aantal latente tokens dynamisch worden aangepast om aan rekenbeperkingen te voldoen. ELIT is bewust minimaal: het voegt twee kruis-attentielagen toe terwijl de *rectified flow*-doelfunctie en de DiT-stack onveranderd blijven. Over verschillende datasets en architecturen (DiT, U-ViT, HDiT, MM-DiT) levert ELIT consistente verbeteringen. Op ImageNet-1K 512px levert ELIT een gemiddelde verbetering van 35,3% en 39,6% in FID- en FDD-scores. Projectpagina: https://snap-research.github.io/elit/
Dichte beeldbeschrijving is cruciaal voor cross-modale afstemming bij vision-language voorafgaande training en tekst-naar-beeldgeneratie, maar het schalen van expertkwaliteit annotaties is prohibitief duur. Hoewel synthetische beschrijving via sterke vision-language modellen (VLM's) een praktisch alternatief is, leidt supervised distillatie vaak tot beperkte outputdiversiteit en zwakke generalisatie. Reinforcement learning (RL) zou deze beperkingen kunnen overwinnen, maar de successen waren tot nu toe geconcentreerd in verifieerbare domeinen die afhankelijk zijn van deterministische checkers – een luxe die niet beschikbaar is bij open-einde beschrijving. Wij adresseren dit knelpunt met RubiCap, een nieuw RL-framework dat fijnmazige, voorbeeld-specifieke beloningssignalen afleidt uit door LLM-geschreven rubrics. RubiCap assembleert eerst een divers comité van kandidaat-bijschriften, gebruikt vervolgens een LLM-rubricschrijver om consensussterktes te extraheren en tekortkomingen in het huidige beleid te diagnosticeren. Deze inzichten worden omgezet in expliciete evaluatiecriteria, waardoor een LLM-rechter de holistische kwaliteitsbeoordeling kan ontbinden en grove scalaire beloningen kan vervangen door gestructureerde, veelzijdige evaluaties. Over uitgebreide benchmarks behaalt RubiCap de hoogste winstratio's op CapArena, waarbij het supervised distillatie, eerdere RL-methoden, menselijk-expert annotaties en GPT-4V-versterkte outputs overtreft. Op CaptionQA toont het superieure woordefficiëntie: ons 7B-model evenaart Qwen2.5-VL-32B-Instruct, en ons 3B-model overtreft zijn 7B-tegenhanger. Opmerkelijk genoeg produceert het gebruik van de compacte RubiCap-3B als beschrijver sterkere vooraf getrainde VLM's dan die getraind op bijschriften van propriëtaire modellen.
Een cruciaal onderdeel van creativiteit is associatief redeneren: het vermogen om nieuwe doch betekenisvolle verbanden tussen concepten te leggen. Wij introduceren CREATE, een benchmark die is ontworpen om het vermogen van modellen tot creatief associatief redeneren te evalueren. CREATE vereist dat modellen sets van paden genereren die concepten in de parametrische kennis van een model met elkaar verbinden. De paden moeten een hoge specificiteit hebben (onderscheidend vermogen en nauwheid van het conceptuele verband) en een hoge diversiteit (ongelijkheid met andere paden), en modellen scoren hoger als ze een grotere set sterke, diverse paden produceren. Deze taak deelt vereisten met echte creativiteitstaken zoals hypothesegeneratie, waaronder een extreem grote zoekruimte, maar maakt de verzameling van een omvangrijke benchmark met objectieve antwoordbeoordeling mogelijk. Evaluatie van geavanceerde modellen toont aan dat de krachtigste modellen een hogere creatieve utility bereiken dan andere, waarbij de hoge veelvoud aan antwoorden en complexiteit van de zoekopdracht benchmarksaturatie moeilijk bereikbaar maken. Verder illustreren onze resultaten dat denkmodellen niet altijd effectiever zijn voor onze taak, zelfs niet met hoge tokenbudgetten. Recente benaderingen voor creatieve prompting geven een beperkte extra verbetering. CREATE biedt een sandbox voor het ontwikkelen van nieuwe methoden om het associatief creatieve vermogen van modellen te verbeteren.
Unified multimodale modellen streven naar gezamenlijk begrip, redeneren en genereren, maar huidige beeldbewerkingsbenchmarks zijn grotendeels beperkt tot natuurlijke afbeeldingen en oppervlakkig gezond verstand redeneren, wat een beperkte beoordeling biedt van deze capaciteit onder gestructureerde, domeinspecifieke beperkingen. In dit werk introduceren we GRADE, de eerste benchmark om discipline-gestuurde kennis en redeneren bij beeldbewerking te beoordelen. GRADE omvat 520 zorgvuldig samengestelde samples verspreid over 10 academische domeinen, van natuurwetenschappen tot sociale wetenschappen. Om rigoureuze evaluatie te ondersteunen, stellen we een multidimensionaal evaluatieprotocol voor dat Disciplineel Redeneren, Visuele Consistentie en Logische Leesbaarheid gezamenlijk beoordeelt. Uitgebreide experimenten met 20 state-of-the-art open-source en closed-source modellen onthullen aanzienlijke beperkingen in huidige modellen onder impliciete, kennisintensieve bewerkingsinstellingen, wat leidt tot grote prestatiekloof. Naast kwantitatieve scores voeren we grondige analyses en ablatiestudies uit om modeltekortkomingen bloot te leggen en de beperkingen binnen disciplinair bewerken te identificeren. GRADE wijst zo cruciale richtingen aan voor de toekomstige ontwikkeling van unified multimodale modellen, en bevordert het onderzoek naar discipline-gestuurde beeldbewerking en redenering. Onze benchmark en evaluatiecode zijn openbaar vrijgegeven.
Autoregressieve (AR) videogeneratieve modellen zijn afhankelijk van videotokenizers die pixels comprimeren tot discrete tokenreeksen. De lengte van deze tokenreeksen is cruciaal voor het balanceren van reconstructiekwaliteit en computationele kosten voor downstream-generatie. Traditionele videotokenizers passen een uniforme token-toewijzing toe over temporele blokken van verschillende video's, waarbij vaak tokens worden verspild aan eenvoudige, statische of repetitieve segmenten, terwijl dynamische of complexe segmenten onderbedeeld blijven. Om deze inefficiëntie aan te pakken, introduceren we EVATok, een raamwerk voor het produceren van Efficiënte Video Adaptieve Tokenizers. Ons raamwerk schat optimale token-toewijzingen voor elke video in om de beste kwaliteit-kosten verhouding te bereiken, ontwikkelt lichtgewicht routers voor snelle voorspelling van deze optimale toewijzingen, en traint adaptieve tokenizers die video's coderen op basis van de door routers voorspelde toewijzingen. We tonen aan dat EVATok aanzienlijke verbeteringen biedt in efficiëntie en algehele kwaliteit voor videoreconstructie en downstream AR-generatie. Versterkt door ons geavanceerde trainingsrecept dat videosemantische encoders integreert, behaalt EVATok superieure reconstructie en state-of-the-art klasse-naar-video-generatie op UCF-101, met een besparing van ten minste 24,4% in gemiddeld tokenverbruik vergeleken met de vorige state-of-the-art LARP en onze baseline met vaste lengte.
Pretraining resulteert in een geleerde parametervector die doorgaans wordt beschouwd als een startpunt voor verdere iteratieve aanpassing. In dit werk beschouwen we de uitkomst van pretraining echter als een verdeling over parametervectoren, waarvan de drager reeds taakspecifieke experts bevat. We tonen aan dat dergelijke expertoplossingen in kleine modellen een verwaarloosbaar deel van het volume van deze verdeling innemen, waardoor hun ontdekking afhankelijk is van gestructureerde optimalisatiemethoden zoals gradient descent. Daarentegen neemt de dichtheid van taakexperts in grote, goed voorgetrainde modellen dramatisch toe, zodat diverse, taakverbeterende specialisten een aanzienlijk deel van de omgeving rond de voorgetrainde gewichten bevolken. Gemotiveerd door dit perspectief verkennen we een eenvoudige, volledig parallelle post-trainingmethode die N parameterverstoringen willekeurig bemonstert, de top K selecteert en voorspellingen ensembleert via meerderheidsstemming. Ondanks zijn eenvoud is deze aanpak concurrerend met standaard post-trainingmethoden zoals PPO, GRPO en ES voor hedendaagse grootschalige modellen.
Moderne visuele agenten vereisen representaties die algemeen, causaal en fysiek gestructureerd zijn om in real-time streamingomgevingen te kunnen functioneren. Huidige vision foundation-modellen blijven echter gefragmenteerd en specialiseren zich nauw in beeld semantische perceptie, offline temporele modellering of ruimtelijke geometrie. Dit artikel introduceert OmniStream, een uniforme streaming visuele backbone die effectief waarneemt, reconstrueert en handelt op basis van diverse visuele invoer. Door causale spatiotemporele aandacht en 3D roterende positionele inbeddingen (3D-RoPE) te incorporeren, ondersteunt ons model efficiënte, frame-voor-frame online verwerking van videostreams via een persistente KV-cache. We pre-trainen OmniStream met een synergetisch multi-task raamwerk dat statisch en temporeel representatieleren, streaming geometrische reconstructie en visie-taalalignering koppelt op 29 datasets. Uitgebreide evaluaties tonen aan dat OmniStream, zelfs met een strikt bevroren backbone, consistent competitieve prestaties bereikt met gespecialiseerde experts op het gebied van image- en videoprobing, streaming geometrische reconstructie, complexe video- en ruimtelijke redenering, evenals robotmanipulatie (niet gezien tijdens training). In plaats van benchmarkspecifieke dominantie na te streven, toont ons werk de haalbaarheid aan van het trainen van een enkele, veelzijdige visuele backbone die generaliseert over semantisch, ruimtelijk en temporeel redeneren – een betekenisvollere stap naar algemeen visueel begrip voor interactieve en belichaamde agenten.
Onlangs zijn multimodale grote taalmodellen (MLLM's) op grote schaal geïntegreerd in diffusiekaders, voornamelijk als tekstencoders, om complexe taken zoals ruimtelijk redeneren aan te pakken. Dit paradigma kampt echter met twee kritieke beperkingen: (i) De MLLM-tekstencoder vertoont onvoldoende redeneerdiepte. Encodering in één stap activeert het Chain-of-Thought-proces niet, wat essentieel is voor MLLM's om accurate begeleiding te bieden voor complexe taken. (ii) De begeleiding blijft invariant tijdens het decoderingsproces. Invariante begeleiding tijdens het decoderen verhindert dat DiT complexe instructies progressief kan ontbinden in uitvoerbare denoisestappen, zelfs met correcte MLLM-coderingen. Daartoe stellen wij Endogenous Chain-of-Thought (EndoCoT) voor, een nieuw framework dat eerst het redeneerpotentieel van MLLM's activeert door latent gedachtestaten iteratief te verfijnen via een iteratieve gedachtenbegeleidingsmodule, en deze staten vervolgens verbindt met het denoiseproces van de DiT. Ten tweede wordt een terminale gedachteverankermodule toegepast om ervoor te zorgen dat het redeneerspoor verankerd blijft in tekstueel toezicht door de eindtoestand af te stemmen op grond-waarheid-antwoorden. Met deze twee componenten levert de MLLM-tekstencoder zorgvuldig beredeneerde begeleiding, waardoor de DiT deze progressief kan uitvoeren en uiteindelijk complexe taken stap voor stap kan oplossen. Uitgebreide evaluaties op diverse benchmarks (bijv. Maze, TSP, VSP en Sudoku) behaalden een gemiddelde nauwkeurigheid van 92,1%, wat 8,3 procentpunt hoger is dan de sterkste baseline.
Grote taalmodellen die op natuurlijke taal zijn getraind, vertonen uitgesproken anisotropie: een klein aantal richtingen concentreert een onevenredige hoeveelheid energie, terwijl de overige dimensies een brede semantische staart vormen. In trainingsregimes met lage bitbreedtes wordt deze geometrie numeriek instabiel. Omdard de schaalfactoren voor bloksgewijze kwantisatie worden bepaald door extreme elementgewijze magnitudes, rekken dominante richtingen het dynamisch bereik op, waardoor semantische variatie in de lange staart wordt samengedrukt in smalle numerieke bins. Wij tonen aan dat deze instabiliteit primair wordt gedreven door een coherente rank-één gemiddelde-bias, die de dominante component vormt van de spectrale anisotropie in LLM-representaties. Deze gemiddelde-component ontstaat systematisch over lagen en trainingsstadia heen en is verantwoordelijk voor de meerderheid van extreme activatiewaarden, waardoor het de belangrijkste drijver is van inflatie van het dynamisch bereik onder lage precisie. Cruciaal is dat, omdat de dominante instabiliteit rank-één is, deze geëlimineerd kan worden door een eenvoudige bronniveau gemiddelde-aftrekking. Deze bias-gerichte conditionering herstelt het grootste deel van de stabiliteitsvoordelen van op SVD gebaseerde spectrale methoden, terwijl alleen reductieoperaties en standaard kwantisatiekernels nodig zijn. Empirische resultaten voor FP4-training (W4A4G4) tonen aan dat gemiddelde-verwijdering de verlieskloof ten opzichte van BF16 aanzienlijk verkleint en de downstream-prestaties herstelt, wat een hardware-efficiënte weg biedt naar stabiele LLM-training met lage bitbreedtes.
3D Gaussian Splatting (3DGS) is naar voren gekomen als een krachtige representatie voor hoogwaardige rendering in een breed scala aan toepassingen. De hoge rekenkundige eisen en grote opslagkosten vormen echter aanzienlijke uitdagingen voor implementatie op mobiele apparaten. In dit werk stellen we een op mobiele apparaten afgestemde real-time Gaussian Splatting-methode voor, genaamd Mobile-GS, die efficiënte inferentie van Gaussian Splatting op edge-apparaten mogelijk maakt. Concreet identificeren we eerst alpha-blending als het primaire rekenkundige knelpunt, omdat dit afhankelijk is van het tijdrovende Gaussische dieptesorteerproces. Om dit probleem op te lossen, stellen we een dieptebewust, order-onafhankelijk renderingsschema voor dat de noodzaak voor sorteren elimineert, waardoor de rendering aanzienlijk wordt versneld. Hoewel deze order-onafhankelijke rendering de rendersnelheid verbetert, kan het transparantie-artefacten introduceren in gebieden met overlappende geometrie vanwege de schaarste aan rendervolgorde. Om dit probleem aan te pakken, stellen we een neurale view-dependent enhancement-strategie voor, die een nauwkeurigere modellering van view-dependent effecten mogelijk maakt, geconditioneerd op kijkrichting, 3D Gaussische geometrie en uiterlijkseigenschappen. Op deze manier kan Mobile-GS zowel hoogwaardige als real-time rendering bereiken. Verder introduceren we, om implementatie op mobiele platformen met beperkt geheugen te vergemakkelijken, first-order spherical harmonics-distillatie, een techniek voor neurale vectorkwantisatie, en een op bijdrage gebaseerde pruningstrategie om het aantal Gaussische primitieven te verminderen en de 3D Gaussische representatie te comprimeren met behulp van neurale netwerken. Uitgebreide experimenten tonen aan dat onze voorgestelde Mobile-GS real-time rendering en een compact modelformaat bereikt, terwijl een hoge visuele kwaliteit behouden blijft, wat het zeer geschikt maakt voor mobiele toepassingen.
In praktijktoepassingen worden vision-language-modellen vaak geconfronteerd met verstoringen zoals weersinvloeden, occlusie en camerabeweging. Onder dergelijke omstandigheden verslechteren hun begrip en redeneervermogen aanzienlijk, wat een kloof blootlegt tussen schone, gecontroleerde (d.w.z. onverstoorde) evaluatieomgevingen en robuustheid in de echte wereld. Om deze beperking aan te pakken, stellen we ROVA voor, een nieuwe trainingsframework die de robuustheid verbetert door het modelleren van een robuustheidsbewuste consistentiebeloning onder spatio-temporele corrupties. ROVA introduceert een moeilijkheidsgraad-bewuste onlinetrainingsstrategie die informatieve voorbeelden prioritiseert op basis van de evoluerende capaciteit van het model. Concreet herschat het continu de moeilijkheidsgraad van voorbeelden via zelfreflectieve evaluatie, wat adaptieve training mogelijk maakt met een robuustheidsbewuste consistentiebeloning. We introduceren ook PVRBench, een nieuwe benchmark die real-world verstoringen injecteert in belichaamde videodatasets om zowel de nauwkeurigheid als de redeneerkwaliteit onder realistische verstoringen te beoordelen. We evalueren ROVA en baseline-modellen op PVRBench, UrbanVideo en VisBench, waar open-source en propriëtaire modellen onder realistische perturbaties een daling tot wel 35% in nauwkeurigheid en 28% in redeneervermogen vertonen. ROVA vermindert de prestatievermindering effectief en verhoogt de relatieve nauwkeurigheid met minimaal 24% en het redeneervermogen met meer dan 9% in vergelijking met baseline-modellen (QWen2.5/3-VL, InternVL2.5, Embodied-R). Deze winst transferreert naar schone standaardbenchmarks, wat tot consistente verbeteringen leidt.
Hoewel Large Language Models (LLM's) opmerkelijke successen hebben geboekt in codegeneratie, worstelen ze vaak met het diepe, langetermijndenken dat vereist is voor complexe software-engineering. Wij schrijven deze beperking toe aan de aard van standaard voor-trainingsdata: statische software-repositories vertegenwoordigen slechts de eindtoestand van een ingewikkeld intellectueel proces, waarbij de tussentijdse planning, debugging en iteratieve verfijning worden geabstraheerd. Om deze kloof te overbruggen, stellen we een nieuw paradigma voor: begrip via reconstructie. Onze hypothese is dat het reverse-engineeren van de latente, agent-achtige trajecten – de plannings-, redeneer- en debugstappen – achter statische repositories een veel rijkere supervisiesignaal oplevert dan ruwe code alleen. Om dit te operationaliseren, introduceren we een raamwerk dat deze trajecten synthetiseert met behulp van een multi-agent simulatie. Dit proces is verankerd in de structurele realiteit van de bron-repositories (bijv. afhankelijkheidsgrafen en bestandshiërarchieën) om de trouw te waarborgen. Verder gebruiken we, om de logische strengheid van de synthetische data te garanderen, een op zoekalgoritmen gebaseerde optimalisatietechniek die de Chain-of-Thought (CoT)-redenering iteratief verfijnt om de waarschijnlijkheid van de grond-waarheid-code te maximaliseren. Empirische resultaten tonen aan dat continu voor-trainen op deze gereconstrueerde trajecten de prestaties van Llama-3-8B aanzienlijk verbetert op diverse benchmarks, inclusief begrip van lange contexten, codeervaardigheid en agent-achtige capaciteiten.
Dit artikel introduceert MR-Search, een in-context meta reinforcement learning (RL) formulering voor agent-gebaseerd zoeken met zelfreflectie. In plaats van een beleid te optimaliseren binnen één enkele onafhankelijke episode met schaarse beloningen, traint MR-Search een beleid dat conditioneert op eerdere episodes en zijn zoekstrategie aanpast over episodes heen. MR-Search leert een zoekstrategie met zelfreflectie aan, waardoor zoekagenten hun in-context exploratie tijdens tests kunnen verbeteren. Concreet voert MR-Search cross-episode exploratie uit door expliciete zelfreflecties te genereren na elke episode en deze als aanvullende context te gebruiken om volgende pogingen te sturen, waardoor effectievere exploratie tijdens tests wordt bevorderd. Wij introduceren verder een multi-turn RL-algoritme dat een dicht relatief voordeel schat op turn-niveau, wat fijnmazige credit assignment per episode mogelijk maakt. Empirische resultaten over verschillende benchmarks tonen de voordelen van MR-Search aan ten opzichte van op RL gebaseerde baseline-methoden, met sterke generalisatie en relatieve verbeteringen van 9,2% tot 19,3% over acht benchmarks. Onze code en data zijn beschikbaar op https://github.com/tengxiao1/MR-Search.
Pre-training is van cruciaal belang voor grote taalmmodellen (LLM's), omdat dit de fase is waarin de meeste representaties en capaciteiten worden verworven. Natuurlijke taal als pre-trainingsmateriaal kent echter problemen: hoogwaardige tekst is beperkt beschikbaar, het bevat menselijke vooroordelen, en het verstrengelt kennis met redeneervaardigheid. Dit roept een fundamentele vraag op: is natuurlijke taal de enige weg naar intelligentie? Wij stellen voor om neurale cellulaire automata (NCA's) te gebruiken om synthetische, niet-linguïstische data te genereren voor het *pre-pre-trainen* van LLM's – een training eerst op synthetische en daarna op natuurlijke taal. NCA-data vertoont een rijke spatiotemporele structuur en statistieken die lijken op natuurlijke taal, terwijl het beheersbaar en goedkoop is om op grote schaal te genereren. Wij ontdekken dat pre-pre-training op slechts 164 miljoen NCA-tokens de downstream taalmodelprestaties met tot 6% verbetert en de convergentie versnelt met een factor tot 1,6. Verrassend genoeg overtreft dit zelfs pre-pre-training op 1,6 miljard tokens natuurlijke taal van Common Crawl met meer rekenkracht. Deze winst strekt zich ook uit naar redeneerbenchmarks, waaronder GSM8K, HumanEval en BigBench-Lite. Door te onderzoeken wat de transfer veroorzaakt, vinden we dat aandachtlagen het meest overdraagbaar zijn, en dat de optimale NCA-complexiteit per domein varieert: code heeft baat bij eenvoudigere dynamiek, terwijl wiskunde en webtekst complexere dynamiek prefereren. Deze resultaten maken een systematische afstemming van de synthetische distributie op doeldomeinen mogelijk. In bredere zin opent ons werk een weg naar efficiëntere modellen met volledig synthetische pre-training.
Tiny Aya herdefinieert wat een klein meertalig taalmodel kan bereiken. Het model, getraind op 70 talen en verfijnd door regiobewuste natreining, levert state-of-the-art vertaalkwaliteit, een sterk meertalig begrip en hoogwaardige generatie in doeltalen, alles met slechts 3,35 miljard parameters. De release omvat een voorgetraind foundation-model, een globaal gebalanceerde instructie-afgestemde variant en drie regio-gespecialiseerde modellen gericht op talen uit Afrika, Zuid-Azië, Europa, Azië-Pacific en West-Azië. Dit rapport beschrijft in detail de trainingsstrategie, datasamenstelling en het uitgebreide evaluatiekader achter Tiny Aya, en presenteert een alternatieve schaalbaarheidsaanpak voor meertalige AI: een aanpak gericht op efficiëntie, gebalanceerde prestaties across talen en praktische inzetbaarheid.
Latente diffusiemodellen hebben een nieuwe staat-van-de-kunst gevestigd in hoogresolutie visuele generatie. Het integreren van Vision Foundation Model-priors verbetert de generatieve efficiëntie, maar bestaande latente ontwerpen blijven grotendeels heuristisch. Deze benaderingen hebben vaak moeite om semantische onderscheidbaarheid, reconstructiegetrouwheid en latente compactheid te verenigen. In dit artikel stellen we de Geometric Autoencoder (GAE) voor, een principieel raamwerk dat deze uitdagingen systematisch aanpakt. Door verschillende uitlijningsparadigma's te analyseren, construeert GAE een geoptimaliseerd laagdimensionaal semantisch supervisiedoel uit VFMs om richting te geven aan de auto-encoder. Verder benutten we latente normalisatie die de restrictieve KL-divergentie van standaard VAEs vervangt, wat een stabieler latent spruitstuk mogelijk maakt dat specifiek is geoptimaliseerd voor diffusieleren. Om robuuste reconstructie onder hoogintensiteitsruis te garanderen, integreert GAE een dynamisch ruisbemonsteringsmechanisme. Empirisch bereikt GAE overtuigende prestaties op de ImageNet-1K 256×256 benchmark, met een gFID van 1,82 na slechts 80 epochs en 1,31 na 800 epochs zonder Classifier-Free Guidance, wat bestaande staat-van-de-kunst methoden significant overtreft. Naast generatieve kwaliteit vestigt GAE een superieur evenwicht tussen compressie, semantische diepte en robuuste reconstructiestabiliteit. Deze resultaten valideren onze ontwerpoverwegingen en bieden een veelbelovend paradigma voor latent diffusiemodelleren. Code en modellen zijn openbaar beschikbaar op https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
Het vertalen van complexe reinforcement learning (RL)-omgevingen naar hoogwaardige implementaties vereiste traditioneel maanden van gespecialiseerd technisch werk. Wij presenteren een herbruikbare aanpak - een generieke promptsjabloon, hiërarchische verificatie en iteratief agent-ondersteund herstel - die semantisch equivalente, hoogpresterende omgevingen oplevert voor <$10 aan rekenkosten. We demonstreren drie verschillende workflows in vijf omgevingen. Directe vertaling (geen bestaande performante implementatie): EmuRust (1.5x PPO-snelheidswinst via Rust-parallelisatie voor een Game Boy-emulator) en PokeJAX, de eerste GPU-parallele Pokémon-gevechtssimulator (500M SPS willekeurige acties, 15.2M SPS PPO; 22.320x sneller dan de TypeScript-referentie). Vertaling geverifieerd tegen bestaande performante implementaties: doorvoerpariteit met MJX (1.04x) en 5x sneller dan Brax bij gelijke GPU-batchgroottes (HalfCheetah JAX); 42x PPO (Puffer Pong). Nieuwe omgevingscreatie: TCGJax, de eerste inzetbare JAX Pokémon TCG-engine (717K SPS willekeurige acties, 153K SPS PPO; 6.6x sneller dan de Python-referentie), gesynthetiseerd vanuit een web-geëxtraheerde specificatie. Bij 200M parameters daalt de omgevingsoverhead onder 4% van de trainingstijd. Hiërarchische verificatie (eigenschap-, interactie- en rollout-tests) bevestigt semantische equivalentie voor alle vijf omgevingen; cross-backend policy-transfer bevestigt een nul sim-to-sim kloof voor alle vijf omgevingen. TCGJax, gesynthetiseerd vanuit een privé-referentie die niet in publieke repositories voorkomt, dient als contaminatiecontrole voor zorgen over agent-pretrainingsdata. De paper bevat voldoende detail - inclusief representatieve prompts, verificatiemethodologie en complete resultaten - zodat een coderende agent de vertalingen direct vanuit het manuscript zou kunnen reproduceren.
Wij presenteren FireRedASR2S, een state-of-the-art, industrieel all-in-one automatisch spraakherkenningssysteem (ASR). Het integreert vier modules in een uniforme pijplijn: ASR, Voice Activity Detection (VAD), gesproken taalidentificatie (LID) en interpunctievoorspelling (Punc). Alle modules behalen SOTA-prestaties op de geëvalueerde benchmarks: FireRedASR2: Een ASR-module met twee varianten, FireRedASR2-LLM (8B+ parameters) en FireRedASR2-AED (1B+ parameters), die transcriptie van spraak en zang ondersteunt voor Mandarijn, Chinese dialecten en accenten, Engels en code-switching. Vergeleken met FireRedASR biedt FireRedASR2 een verbeterde herkenningsnauwkeurigheid en een bredere dekking van dialecten en accenten. FireRedASR2-LLM behaalt een gemiddelde CER van 2,89% op 4 publieke Mandarijn-benchmarks en 11,55% op 19 publieke Chinese dialect- en accentbenchmarks, en presteert beter dan competitieve baselines zoals Doubao-ASR, Qwen3-ASR en Fun-ASR. FireRedVAD: Een ultralichte module (0,6M parameters) gebaseerd op het Deep Feedforward Sequential Memory Network (DFSMN), die streaming VAD, niet-streaming VAD en multi-label VAD (mVAD) ondersteunt. Op de FLEURS-VAD-102 benchmark behaalt het 97,57% frame-level F1 en 99,60% AUC-ROC, en presteert beter dan Silero-VAD, TEN-VAD, FunASR-VAD en WebRTC-VAD. FireRedLID: Een Encoder-Decoder LID-module die meer dan 100 talen en meer dan 20 Chinese dialecten en accenten ondersteunt. Op FLEURS (82 talen) behaalt het 97,18% utterance-level nauwkeurigheid, wat beter is dan Whisper en SpeechBrain. FireRedPunc: Een BERT-stijl interpunctievoorspellingsmodule voor Chinees en Engels. Op multi-domein benchmarks behaalt het een gemiddelde F1 van 78,90%, beter dan FunASR-Punc (62,77%). Om onderzoek in spraakverwerking te bevorderen, geven we modelgewichten en code vrij op https://github.com/FireRedTeam/FireRedASR2S.
Een accent is een integraal onderdeel van de samenleving, weerspiegelt multiculturaliteit en beïnvloedt hoe individuen hun identiteit uitdrukken. De meerderheid van de Engelssprekenden zijn niet-moedertaalsprekers (L2), maar huidige Text-To-Speech (TTS)-systemen modelleren voornamelijk Amerikaans-Engelse accenten vanwege beperkte data over andere accenten. Wij stellen Accent Vector voor, een bestuurbare representatie die accentmanipulatie in meertalige TTS mogelijk maakt zonder dat er getrainde data over specifieke accenten voor nodig is. Accent Vector wordt afgeleid door een TTS-systeem te fine-tunen op moedertaalspraak van een andere taal (bijvoorbeeld niet-Engels) en taakvectoren te berekenen die accentkenmerken vastleggen (bijvoorbeeld in het Engels). Door de vector te schalen en te interpoleren, bereiken we gedetailleerde controle over de accentsterkte en genereren we spraak met gemengde accenten. Bovendien generaliseert de methode buiten het Engels, waardoor accentcontrole over meerdere talen mogelijk wordt. Objectieve en menselijke evaluaties bevestigen de effectiviteit van Accent Vector voor gedetailleerde en compositionele accentcontrole.
Recent werk synthetiseert agent-gebaseerde taken voor getrainde toolgebruikende LLM's, maar robuuste generalisatie onder veranderingen in taken en toolsettes blijft een open uitdaging. Wij herleiden deze broosheid tot onvoldoende diversiteit in gesynthetiseerde taken. Het opschalen van diversiteit is moeilijk omdat training vereist dat taken uitvoerbaar en verifieerbaar blijven, terwijl generalisatie dekking vereist van diverse tooltypen, toolset-combinaties en heterogene toolgebruikspatronen. Wij stellen DIVE voor, een op bewijs gebaseerde aanpak die de synthesevolgorde omkeert: eerst worden diverse, real-world tools uitgevoerd, waarna taken worden afgeleid die strikt volgen uit de resulterende traces, waardoor ze van constructie gegrond zijn. DIVE schaalt structurele diversiteit langs twee beheerbare assen: toolpool-dekking en per-taak toolset-variatie, en een Evidence Collection–Task Derivation-lus induceert verder rijke multi-step toolgebruikspatronen over 373 tools in vijf domeinen. Het trainen van Qwen3-8B op DIVE-data (48k SFT + 3.2k RL) verbetert met gemiddeld +22 punten over 9 OOD-benchmarks en overtreft de sterkste 8B-baseline met +68. Opmerkelijk is dat gecontroleerde schaalanalyse aantoont dat diversiteitsscha
Grofgeleide visuele generatie, die gedetailleerde visuele voorbeelden synthetiseert uit gedegradeerde of laagwaardige grove referenties, is essentieel voor diverse real-world toepassingen. Hoewel op training gebaseerde benaderingen effectief zijn, worden ze inherent beperkt door hoge trainingskosten en beperkte generalisatie als gevolg van gepaarde dataverzameling. Dienovereenkomstig stellen recente trainingsvrije werken voor om voorgetrainde diffusiemodellen te benutten en begeleiding tijdens het samplingproces te incorporeren. Deze trainingsvrije methoden vereisen echter óf kennis van de voorwaartse (fijn-naar-grof) transformatieoperator, zoals bicubische downsampling, óf hebben moeite met het balanceren tussen begeleiding en synthetische kwaliteit. Om deze uitdagingen aan te pakken, stellen we een nieuwe geleide methode voor door gebruik te maken van de h-transform, een tool die stochastische processen (zoals het samplingproces) kan beperken onder gewenste condities. Specifiek modificeren we de overgangswaarschijnlijkheid bij elke samplingstap door een driftfunctie toe te voegen aan de oorspronkelijke differentiaalvergelijking, die de generatie bij benadering stuurt naar het ideale fijne voorbeeld. Om onvermijdelijke benaderingsfouten aan te pakken, introduceren we een op ruisniveau afgestemd schema dat de term geleidelijk afzwakt naarmate de fout toeneemt, wat zowel naleving van de begeleiding als hoogwaardige synthese waarborgt. Uitgebreide experimenten in diverse beeld- en videogeneratietaken demonstreren de effectiviteit en generalisatie van onze methode.
Redeneer-LLM's-als-beoordelaars, die kunnen profiteren van schaling tijdens inferentie, bieden een veelbelovend pad om het succes van redeneermodellen uit te breiden naar niet-verifieerbare domeinen waar de correctheid/kwaliteit van de output niet direct gecontroleerd kan worden. Echter, hoewel redeneerbeoordelaars betere prestaties hebben getoond op statische evaluatiebenchmarks, is hun effectiviteit in daadwerkelijke policy-training nog niet systematisch onderzocht. Daarom voeren we een rigoureus onderzoek uit om de daadwerkelijke impact van niet-redeneer- en redeneerbeoordelaars in op reinforcement learning gebaseerde LLM-afstemming te onderzoeken. Onze gecontroleerde synthetische opzet, waarbij een "gouden-standaard"-beoordelaar (gpt-oss-120b) voorkeursannotaties verstrekt om kleinere beoordelaars te trainen, onthult cruciale verschillen tussen niet-redeneer- en redeneerbeoordelaars: niet-redeneerbeoordelaars leiden gemakkelijk tot reward hacking, terwijl redeneerbeoordelaars kunnen leiden tot policies die sterke prestaties bereiken wanneer geëvalueerd door de gouden-standaard-beoordelaar. Interessant genoeg ontdekken we dat de door redeneerbeoordelaars getrainde policies dergelijke sterke prestaties bereiken door te leren om zeer effectieve adversariële outputs te genereren die ook goed scoren op populaire benchmarks zoals Arena-Hard door andere LLM-beoordelaars te misleiden. In combinatie met onze verdere analyse benadrukt onze studie zowel belangrijke bevindingen als verbeterpunten voor de toepassing van (redeneer)LLM-beoordelaars in niet-verifieerbare LLM-natraining.
Multimodale Large Language Models (MLLM's) worden op grote schaal ingezet als 'MLLM-as-a-Judge' vanwege hun sterke overeenkomst met menselijke beoordelingen bij diverse visuele taken. De meeste bestaande beoordelaarsmodellen zijn echter geoptimaliseerd voor scenario's met één taak en hebben moeite om te generaliseren naar uiteenlopende contexten, wat een cruciale voorwaarde is voor betrouwbare evaluatie. Om deze beperking aan te pakken, stellen wij Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge) voor, een raamwerk dat het beoordelaarsmodel gezamenlijk optimaliseert over meerdere taken, waarbij gebruik wordt gemaakt van de generalisatiecapaciteiten van Reinforcement Learning (RL). Experimentele resultaten vergeleken met verschillende sterke baseline-modellen tonen aan dat MT-RL-Judge deze baselines overtreft op zowel consistentie van de beoordeling als correlatie met menselijke voorkeuren. Bovendien vertoont onze aanpak robuuste generalisatie op taken buiten de trainingsdistributie, wat de effectiviteit ervan verder valideert.
Standaard LLM-distillatie verspilt rekencapaciteit op twee fronten: problemen die de leerling al beheerst (gradiënten nabij nul) en problemen die ver buiten zijn bereik liggen (onsamenhangende gradiënten die bestaande capaciteiten eroderen). Wij tonen aan dat deze verspilling niet slechts intuïtief is, maar structureel onvermijdelijk: de signaal-ruisverhouding van de gradiënt in distillatie verdwijnt aantoonbaar bij beide uitersten van de slagingspercentages. Deze theoretische observatie leidt tot Paced, een raamwerk dat distillatie concentreert op de zone van de naaste ontwikkeling – de grens van de competentie van een leerlingmodel – via een principieel gewogen slagingspercentage w(p) = p^α(1 - p)^β, afgeleid van de verdwijnende-randstructuur van distillatiegradiënten. Belangrijkste resultaten: (1) Theorie: Wij bewijzen dat de Beta-kernel w(p) = p^α(1-p)^β een gewichtenfamilie van de leidende orde is die voortvloeit uit de SNR-structuur van distillatie, en dat deze minimax-robust is – onder begrensde multiplicatieve misspecificatie is het efficiëntieverlies in het ergste geval slechts O(δ^2). (2) Distillatie: Bij distillatie van een grotere leraar naar een kleinere leerling met forward KL, behaalt Paced een significante winst ten opzichte van het basismodel, terwijl benchmark-vergeten op een laag niveau blijft. (3) Zelfdistillatie: Bij instructie-afgestemde modellen met reverse KL, overtreffen de resultaten eveneens de basislijnen. (4) Tweedelige synergie: Een forward-KL-dan-reverse-KL-schema levert de sterkste resultaten op in onze setting, met aanzienlijke verbeteringen op standaard redeneerbenchmarks – wat een interpretatie van het distillatieproces als modusdekking-daarna-consolidatie ondersteunt. Alle configuraties vereisen enkel leerlingrollouts om slagingspercentages te schatten, vergen geen architectuurwijzigingen en zijn compatibel met elke KL-richting.
Text-to-audio diffusiemodellen produceren audio van hoge kwaliteit, maar vereisen tientallen functie-evaluaties (NFEs), wat leidt tot latentie van meerdere seconden en beperkte doorvoer. Wij presenteren SoundWeaver, het eerste trainingsvrije, model-agnostische servesysteem dat text-to-audio diffusie versnelt door een warme start te maken vanaf semantisch vergelijkbare gecachete audio. SoundWeaver introduceert drie componenten: een Referentie-Selectiemodule die gecachete kandidaten ophaalt en temporeel uitlijnt via semantische en duratiebewuste gating; een Skip-Gater die dynamisch het percentage over te slaan NFEs bepaalt; en een lichtgewicht Cachebeheerder die de bruikbaarheid van de cache handhaaft door kwaliteitsbewuste verwijdering en verfijning. Op real-world audiotrajecten behaalt SoundWeaver een latentievermindering van 1,8–3,0 keer met een cache van slechts ~1K items, waarbij de perceptuele kwaliteit behouden blijft of verbetert.
Audio-Visuele Spraakherkenning (AVSR) maakt gebruik van zowel akoestische als visuele informatie voor robuuste herkenning in rumoerige omstandigheden. Hoe modellen deze modaliteiten echter balanceren, blijft onduidelijk. Wij presenteren Dr. SHAP-AV, een raamwerk dat Shapley-waarden gebruikt om modale bijdragen in AVSR te analyseren. Via experimenten met zes modellen op twee benchmarks en variërende SNR-niveaus introduceren wij drie analyses: Global SHAP voor de algehele modale balans, Generative SHAP voor de dynamiek van bijdragen tijdens decodering, en Temporal Alignment SHAP voor de input-output-correspondentie. Onze bevindingen onthullen dat modellen onder ruis verschuiven naar visuele afhankelijkheid, maar toch hoge audio-bijdragen behouden, zelfs onder ernstige degradatie. De modale balans evolueert tijdens generatie, temporele uitlijning blijft onder ruis behouden, en SNR is de dominante factor die de modale weging drijft. Deze bevindingen leggen een hardnekkige audio-vooringenomenheid bloot, wat pleit voor *ad-hoc* mechanismen voor modale weging en op Shapley gebaseerde attributie als een standaard AVSR-diagnostiek.
Transformers vertonen vaak een aandachtspunt: waarschijnlijkheidsmassa concentreert zich op een vaste, inhoudsonafhankelijke positie. Wij bewijzen dat het berekenen van een eenvoudige trigger-conditionele gedraging noodzakelijkerwijs een dergelijk punt induceert in softmax zelf-attentiemodellen. Onze resultaten formaliseren een bekende intuïtie: normalisatie over een waarschijnlijkheidssimplex moet de aandacht dwingen in te storten op een stabiel anker om een standaardtoestand te realiseren (bijvoorbeeld wanneer het model de input moet negeren). Wij concretiseren dit met een specifieke taak: wanneer een aangewezen triggertoken verschijnt, moet het model het gemiddelde retourneren van alle voorafgaande tokenrepresentaties, en anders nul uitvoeren – een taak die de functionaliteit van aandachtskoppen in de praktijk weerspiegelt (Barbero et al., 2025; Guo et al., 2024). Wij bewijzen tevens dat genormaliseerde ReLU-attentie dezelfde taak kan oplossen zonder enig aandachtspunt, wat bevestigt dat de normalisatierestrictie de fundamentele drijver is van dit gedrag. Experimenten valideren onze voorspellingen en tonen aan dat deze zich uitstrekken buiten de theoretisch geanalyseerde setting: softmaxmodellen ontwikkelen sterke aandachtspunten, terwijl ReLU-attentie deze elimineert in zowel enkelvoudige als meervoudige varianten.
Het Federated Language Model (FedLM) maakt collaboratief leren mogelijk zonder ruwe data te delen, maar introduceert een kritieke kwetsbaarheid, aangezien elke niet-vertrouwde client het ontvangen functionele modelinstantie kan lekken. Bestaande watermarkingschema's voor FedLM vereisen vaak white-box toegang en client-side samenwerking, en bieden slechts een groepsniveau-bewijs van eigendom in plaats van individuele traceerbaarheid. Wij stellen EmbTracker voor, een server-side, traceerbaar black-box watermarkingframework specifiek ontworpen voor FedLM's. EmbTracker bereikt black-box verifieerbaarheid door een op een backdoor gebaseerd watermark in te bedden dat detecteerbaar is via eenvoudige API-query's. Traceerbaarheid op clientniveau wordt gerealiseerd door unieke, identiteitsspecifieke watermerken in het model te injecteren dat aan elke client wordt gedistribueerd. Hierdoor kan een gelekt model worden toegeschreven aan een specifieke dader, wat robuustheid garandeert zelfs tegen niet-meewerkende deelnemers. Uitgebreide experimenten met diverse taal- en vision-languagemodellen tonen aan dat EmbTracker robuuste traceerbaarheid bereikt met verificatiepercentages van bijna 100%, hoge weerstand tegen verwijderingsaanvallen (fine-tuning, pruning, quantisatie) en een verwaarloosbare impact op de prestaties van de primaire taak (meestal binnen 1-2%).
Continual Reinforcement Learning (CRL) voor Vision-Language-Action (VLA)-modellen is een veelbelovende richting voor zelfverbeterende, belichaamde agenten die zich kunnen aanpassen in open, evoluerende omgevingen. De conventionele wijsheid uit continual learning suggereert echter dat naïeve *Sequential Fine-Tuning* (Seq. FT) leidt tot catastrofaal vergeten, wat complexe CRL-strategieën noodzakelijk maakt. In dit werk nemen we een stap terug en voeren we een systematische studie uit naar CRL voor grote, vooraf getrainde VLA's over drie modellen en vijf uitdagende *lifelong RL*-benchmarks. Wij komen tot de bevinding dat, in tegenstelling tot de gevestigde opvatting, eenvoudige Seq. FT met *low-rank adaptation* (LoRA) opmerkelijk krachtig is: het bereikt een hoge plasticiteit, vertoont weinig tot geen vergeten, en behoudt een sterke *zero-shot*-generalisatie, waarbij het vaak geavanceerdere CRL-methoden overtreft. Door gedetailleerde analyse tonen we aan dat deze robuustheid voortkomt uit een synergie tussen het grote vooraf getrainde model, parameter-efficiënte adaptatie en *on-policy RL*. Samen hervormen deze componenten de stabiliteit-plasticiteit afweging, waardoor continue adaptatie zowel stabiel als schaalbaar wordt. Onze resultaten positioneren *Sequential Fine-Tuning* als een krachtige methode voor continual RL met VLA's en bieden nieuwe inzichten in levenslang leren in het tijdperk van grote modellen. Code is beschikbaar op github.com/UT-Austin-RobIn/continual-vla-rl.
Ondanks de indrukwekkende prestaties van diffusiemodellen zoals Stable Diffusion (SD) bij beeldgeneratie, beperkt hun trage inferentie de praktische inzet. Recente werken versnellen de inferentie door multi-step diffusie te destilleren tot one-step generators. Om het distillatiemechanisme beter te begrijpen, analyseren we U-Net/DiT-gewichtsveranderingen tussen one-step studentmodellen en hun multi-step leraartegenhangers. Onze analyse toont aan dat veranderingen in gewichtsrichting aanzienlijk groter zijn dan die in gewichtsnorm, wat het benadrukt als de cruciale factor tijdens distillatie. Gemotiveerd door dit inzicht stellen we de Low-rank Rotation of weight Direction (LoRaD) voor, een parameter-efficiënte adapter toegesneden op one-step diffusiedistillatie. LoRaD is ontworpen om deze gestructureerde directionele veranderingen te modelleren met behulp van leerbare low-rank rotatiematrices. We integreren LoRaD verder in Variational Score Distillation (VSD), wat resulteert in Weight Direction-aware Distillation (WaDi) - een nieuw one-step distillatieraamwerk. WaDi behaalt state-of-the-art FID-scores op COCO 2014 en COCO 2017 terwijl het slechts ongeveer 10% van de trainbare parameters van de U-Net/DiT gebruikt. Bovendien toont het gedistilleerde one-step model sterke veelzijdigheid en schaalbaarheid, generaliseert het goed naar diverse downstreamtaken zoals controleerbare generatie, relationele inversie en hoge-resolutiesynthese.
Op fysica gebaseerde humanoïde controle heeft opmerkelijke vooruitgang geboekt in het realiseren van realistische en hoogpresterende gedragingen voor individuele agents, maar het uitbreiden van deze mogelijkheden naar cooperatieve mens-objectinteractie (HOI) blijft een uitdaging. Wij presenteren TeamHOI, een raamwerk dat een enkel gedecentraliseerd beleid in staat stelt om cooperatieve HOI's af te handelen met een willekeurig aantal samenwerkende agents. Elk agent opereert op basis van lokale observaties, terwijl het aandacht besteedt aan andere teamgenoten via een op Transformer gebaseerd beleidsnetwerk met teamgenoot-tokens, wat schaalbare coördinatie over variabele teamgroottes mogelijk maakt. Om bewegingrealisme af te dwingen en het gebrek aan cooperatieve HOI-data aan te pakken, introduceren we verder een gemaskeerde Adversarial Motion Prior (AMP)-strategie die referentiebewegingen van individuele personen gebruikt terwijl object-interagerende lichaamsdelen tijdens de training worden gemaskeerd. De gemaskeerde regio's worden vervolgens gestuurd door taakbeloningen om diverse en fysiek plausibele cooperatieve gedragingen te produceren. We evalueren TeamHOI op een uitdagende cooperatieve draagtaak waarbij twee tot acht humanoïde agents en gevarieerde objectgeometrieën betrokken zijn. Ten slotte ontwerpen we, om stabiel dragen te bevorderen, een teamgrootte- en vormagnostische formatiebeloning. TeamHOI behaalt hoge slagingspercentages en demonstreert samenhangende samenwerking over diverse configuraties heen met een enkel beleid.
Het schatten van heterogene behandelingseffecten (HTE's) uit rechts-gecensureerde overlevingsdata is cruciaal in hoog-risicotoepassingen zoals gepersonaliseerde geneeskunde en geïndividualiseerd beleid. Desalniettemin stelt de overlevingsanalyse-instelling unieke uitdagingen voor HTE-schatting vanwege censurering, niet-geobserveerde contrafeitelijke uitkomsten en complexe identificatie-aannames. Ondanks recente vooruitgang, van Causal Survival Forests tot survival meta-learners en outcome-imputatiebenaderingen, blijven evaluatiepraktijken gefragmenteerd en inconsistent. Wij introduceren SurvHTE-Bench, de eerste uitgebreide benchmark voor HTE-schatting met gecensureerde uitkomsten. De benchmark omvat (i) een modulaire reeks synthetische datasets met bekende grondwaarheid, die causale aannames en overlevingsdynamiek systematisch variëren, (ii) semi-synthetische datasets die real-world covariaten combineren met gesimuleerde behandelingen en uitkomsten, en (iii) real-world datasets uit een tweelingstudie (met bekende grondwaarheid) en uit een HIV-klinische trial. Over synthetische, semi-synthetische en real-world settings heen bieden wij de eerste rigoureuze vergelijking van survival HTE-methoden onder diverse condities en realistische schendingen van aannames. SurvHTE-Bench legt een fundament voor eerlijke, reproduceerbare en uitbreidbare evaluatie van causale overlevingsmethoden. De data en code van onze benchmark zijn beschikbaar op: https://github.com/Shahriarnz14/SurvHTE-Bench.
Wij introduceren NerVE, een uniform eigenspectraal raamwerk voor het begrijpen van hoe feedforward-netwerken (FFN's) in grote taalmodelle
Wij presenteren Neural Field Thermal Tomography (NeFTY), een differentieerbaar fysica-raamwerk voor de kwantitatieve 3D-reconstructie van materiaaleigenschappen uit tijdsafhankelijke oppervlaktetemperatuurmetingen. Terwijl traditionele thermografie berust op pixelgewijze 1D-benaderingen die laterale diffusie verwaarlozen, en zacht-geforceerde Physics-Informed Neural Networks (PINNs) vaak falen in tijdsafhankelijke diffusiescenario's door stijve gradiënten, parametriseert NeFTY het 3D-diffusiviteitsveld als een continu neuraal veld dat geoptimaliseerd wordt via een rigoureuze numerieke solver. Door gebruik te maken van een differentieerbare fysica-solver, handhaaft onze aanpak thermodynamische wetten als harde constraints terwijl de geheugenefficiëntie die nodig is voor hoogwaardige 3D-tomografie behouden blijft. Ons *discretize-then-optimize* paradigma vermindert effectief de spectrale bias en slechte gesteldheid die inherent zijn aan inverse warmtegeleiding, waardoor het herstel van ondergrondse defecten op willekeurige schalen mogelijk wordt. Experimentele validatie op synthetische data toont aan dat NeFTY de nauwkeurigheid van de lokalisatie van ondergrondse defecten aanzienlijk verbetert ten opzichte van referentiemethoden. Aanvullende details zijn te vinden op https://cab-lab-princeton.github.io/nefty/.
Voorgetrainde visuele encoders zoals DINOv2 hebben uitzonderlijke prestaties getoond op unimodale taken. Wij observeren echter dat hun kenmerkrepresentaties slecht zijn uitgelijnd over verschillende modaliteiten heen. Zo vertoont de kenmerkinbedding voor een RGB-afbeelding en de bijbehorende dieptekaart van dezelfde scène een cosinusgelijkenis die bijna identiek is aan die van twee willekeurige, ongerelateerde afbeeldingen. Om dit aan te pakken, stellen wij de Omnivore Visuele Encoder voor, een nieuw raamwerk dat een modaliteits-agnostische kenmerkruimte aanleert. Wij trainen de encoder met een dubbel doel: ten eerste om de kenmerkuitlijning tussen verschillende modaliteiten van dezelfde scène te maximaliseren; en ten tweede een distillatiedoel dat de aangeleerde representaties verankert aan de output van een volledig bevroren leraar, zoals DINOv2. De resulterende student-encoder wordt "omnivoor" door een consistente, krachtige inbedding te produceren voor een gegeven scène, ongeacht de invoermodaliteit (RGB, diepte, segmentatie, enz.). Deze aanpak maakt robuuste cross-modale interpretatie mogelijk, waarbij tevens de onderscheidende semantiek van het oorspronkelijke foundation-model behouden blijft.
Het exportverbod op nikkelerts in Indonesië heeft geleid tot een snelle uitbreiding van de smelt- en hydrometallurgische verwerkingscapaciteit in het Indonesia Morowali Industrial Park (IMIP), dat nu 's werelds grootste geïntegreerde nikkelverwerkingscomplex is, aan de kust van Centraal-Sulawesi. Of deze industrialisatie het aangrenzende mariene milieu heeft aangetast, is nog niet gekwantificeerd. Wij passen Bayesiaanse causale inferentie met structurele tijdreeksen (BSTS) toe op een multi-decennia lange, multi-sensor satellietrecord van oceaankleur, gemeten aan de hand van de diffuse attenuatiecoëfficiënt op 490 nm, K_d(490), om een causaal verband te testen tussen de IMIP-uitbreiding en veranderingen in troebelheid nabij de kust. Een consensus structureel breekpunt, een significant posterieur causaal effect geschat tegen een contrafeitelijk scenario voor de Bandazee, en een verdelingsvrije placebo-rangtest stellen gezamenlijk vast dat de kustwaterhelderheid verslechterde na de overgang van de initiële productie van nikkelpigijzer naar de hyper-expansie van hoogdruk-zuurlixiviatie-installaties voor batterijkwaliteit nikkel. Satellietgestuurde landbedekkingsanalyse bevestigt deze timing onafhankelijk, met aanzienlijke groei van bebouwd gebied en gelijktijdig verlies van boomdekking binnen de IMIP-voetafdruk. De resulterende ondieper wordende euforische zone treedt op in oligotrofe wateren die een hoge mariene biodiversiteit herbergen, waar zelfs matige optische degradatie de koraalfotosynthese kan belemmeren en het diepte-afhankelijke rifhabitat kan comprimeren. Deze bevindingen kwantificeren een mariene milieukost die afwezig is in het Indonesische beleidsdiscours over mineralenwaardetoevoeging en demonstreren een overdraagbaar, op satellieten gebaseerd quasi-experimenteel kader voor causale effectbeoordeling bij industriële kustlocaties in data-arme tropische omgevingen.
Generatieve modellen worden veelvuldig ingezet om de fotorealistische kwaliteit van synthetische data voor het trainen van computervisie-algoritmen te verbeteren. Zij introduceren echter vaak visuele artefacten die de nauwkeurigheid van deze algoritmen aantasten en vergen hoge computationele middelen, wat hun toepasbaarheid in real-time trainings- of evaluatiescenario's beperkt. In dit artikel presenteren wij HyPER-GAN (Hybrid Patch Enhanced Realism Generative Adversarial Network), een lichtgewicht image-to-image-vertaalmetode gebaseerd op een U-Net-stijl generator, ontworpen voor real-time inferentie. Het model wordt getraind met gepaarde synthetische en fotorealistisch verbeterde afbeeldingen, aangevuld met een hybride trainingsstrategie die overeenkomende patches uit real-world data integreert om de visuele realisme en semantische consistentie te verbeteren. Experimentele resultaten tonen aan dat HyPER-GAN state-of-the-art gepaarde image-to-image-vertaalmethoden overtreft op het gebied van inferentielatentie, visueel realisme en semantische robuustheid. Bovendien wordt aangetoond dat de voorgestelde hybride trainingsstrategie inderdaad de visuele kwaliteit en semantische consistentie verbetert in vergelijking met het uitsluitend trainen van het model met gepaarde synthetische en fotorealistisch verbeterde afbeeldingen. Code en vooraf getrainde modellen zijn openbaar beschikbaar voor download op: https://github.com/stefanos50/HyPER-GAN
4D-reconstructie van de paardenfamilie (bijvoorbeeld paarden) uit monocular video is belangrijk voor dierenwelzijn. Eerdere mainstream 4D-dierenreconstructiemethoden vereisen een gezamenlijke optimalisatie van beweging en uiterlijk over een hele video, wat tijdrovend is en gevoelig voor incomplete observatie. In dit werk stellen we een nieuw raamwerk voor, genaamd 4DEquine, door het 4D-reconstructieprobleem te ontwarren in twee deelproblemen: dynamische bewegingsreconstructie en statische uiterlijkreconstructie. Voor beweging introduceren we een eenvoudige maar effectieve spatio-temporele transformer met een post-optimalisatiefase om vloeiende en pixel-uitgelijnde pose- en vormsequenties uit video te regresseren. Voor uiterlijk ontwerpen we een nieuw feed-forward netwerk dat een hoogwaardige, animeerbare 3D Gaussian-avatar reconstrueert vanaf slechts één enkele afbeelding. Ter ondersteuning van de training creëren we een grootschalige synthetische bewegingdataset, VarenPoser, met hoogwaardige oppervlaktebewegingen en diverse cameratrajecten, evenals een synthetische uiterlijkdataset, VarenTex, bestaande uit realistische multi-view beelden gegenereerd via multi-view diffusie. Hoewel uitsluitend getraind op synthetische datasets, behaalt 4DEquine state-of-the-art prestaties op real-world APT36K- en AiM-datasets, wat de superioriteit aantoont van 4DEquine en onze nieuwe datasets voor zowel geometrie- als uiterlijkreconstructie. Uitgebreide ablatiestudies valideren de effectiviteit van zowel het bewegings- als het uiterlijkreconstructienetwerk. Projectpagina: https://luoxue-star.github.io/4DEquine_Project_Page/.