Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De toenemende adoptie van XR-apparaten heeft een sterke vraag naar hoogwaardige stereovideo's aangewakkerd, maar de productie ervan blijft kostbaar en gevoelig voor artefacten. Om deze uitdaging aan te pakken, presenteren we StereoWorld, een end-to-end framework dat een vooraf getrainde videogenerator hergebruikt voor hoogfideliteitsgeneratie van monocular-naar-stereo video. Ons framework conditioneert het model gezamenlijk op de monocular videobeelden, terwijl de generatie expliciet wordt gesuperviseerd met een geometrie-bewuste regularisatie om de 3D-structurele getrouwheid te waarborgen. Een spatio-temporele tegelingsmethode is verder geïntegreerd om efficiënte, hoogresolutie-synthese mogelijk te maken. Om grootschalige training en evaluatie mogelijk te maken, hebben we een hoogwaardige stereovideodataset samengesteld met meer dan 11 miljoen frames, uitgelijnd op de natuurlijke interpupillaire afstand (IPD) van mensen. Uitgebreide experimenten tonen aan dat StereoWorld aanzienlijk beter presteert dan eerdere methoden en stereovideo's genereert met superieure visuele getrouwheid en geometrische consistentie. De projectwebpagina is beschikbaar op https://ke-xing.github.io/StereoWorld/.
Recente vooruitgang in diffusiemodellen heeft beeldgeneratie en -bewerking aanzienlijk verbeterd, maar het genereren of reconstrueren van gelaagde PSD-bestanden met transparante alfakanalen blijft zeer uitdagend. Wij presenteren OmniPSD, een uniform diffusieraamwerk gebouwd op het Flux-ecosysteem, dat zowel tekst-naar-PSD-generatie als beeld-naar-PSD-decompositie mogelijk maakt via in-context leren. Voor tekst-naar-PSD-generatie rangschikt OmniPSD meerdere doellagen ruimtelijk op een enkel canvas en leert hun compositionele relaties via spatiale aandacht, waardoor semantisch samenhangende en hiërarchisch gestructureerde lagen worden geproduceerd. Voor beeld-naar-PSD-decompositie voert het iteratieve in-context-bewerking uit, waarbij tekstuele en voorgrondcomponenten progressief worden geëxtraheerd en verwijderd om bewerkbare PSD-lagen te reconstrueren vanuit een enkele afgeplatte afbeelding. Een RGBA-VAE wordt ingezet als aanvullende representatiemodule om transparantie te behouden zonder de structuuraanleren te beïnvloeden. Uitgebreide experimenten op onze nieuwe RGBA-gelaagde dataset tonen aan dat OmniPSD hoge generatiefideliteit, structurele consistentie en transparantiebewustzijn bereikt, wat een nieuw paradigma biedt voor gelaagde ontwerpgeneratie en -decompositie met diffusietransformers.
Het begrijpen van hoe het menselijk brein visuele concepten representeert, en in welke hersengebieden deze representaties zijn gecodeerd, blijft een langdurige uitdaging. Decennia van onderzoek hebben ons begrip van visuele representaties vooruitgebracht, maar hersensignalen blijven groot en complex, en de ruimte van mogelijke visuele concepten is enorm. Als gevolg daarvan blijven de meeste studies kleinschalig, steunen op handmatige inspectie, richten zich op specifieke regio's en eigenschappen, en omvatten zelden systematische validatie. Wij presenteren een grootschalig, geautomatiseerd raamwerk voor het ontdekken en verklaren van visuele representaties in de menselijke cortex. Onze methode omvat twee hoofdfasen. Eerst ontdekken we kandidaat-interpreteerbare patronen in fMRI-activiteit via onbewaakte, data-gedreven decompositiemethoden. Vervolgens verklaren we elk patroon door de reeks natuurlijke afbeeldingen te identificeren die het het sterkst oproepen en door een beschrijving in natuurlijke taal te genereren van hun gedeelde visuele betekenis. Om dit proces op te schalen, introduceren we een geautomatiseerde pijplijn die meerdere kandidaat-verklaringen test, kwantitatieve betrouwbaarheidsscores toekent en de meest consistente beschrijving voor elk voxelpatroon selecteert. Ons raamwerk onthult duizenden interpreteerbare patronen die vele verschillende visuele concepten omvatten, waaronder fijnmazige representaties die voorheen niet gerapporteerd waren.
Visuele conceptcompositie, die tot doel heeft verschillende elementen uit afbeeldingen en video's te integreren tot één coherent visueel resultaat, slaagt er nog steeds niet in om complexe concepten nauwkeurig uit visuele invoer te extraheren en concepten uit zowel afbeeldingen als video's flexibel te combineren. Wij introduceren Bind & Compose, een one-shot methode die flexibele visuele conceptcompositie mogelijk maakt door visuele concepten te binden aan corresponderende prompt-tokens en de doelprompt samen te stellen met gebonden tokens uit verschillende bronnen. De methode gebruikt een hiërarchische binderstructuur voor cross-attention conditionering in Diffusion Transformers om visuele concepten te coderen in corresponderende prompt-tokens voor nauwkeurige decompositie van complexe visuele concepten. Om de nauwkeurigheid van concept-tokenbinding te verbeteren, ontwerpen we een Diversify-and-Absorb Mechanism dat een extra absorberend token gebruikt om de invloed van concept-irrelevante details te elimineren tijdens training met gediversifieerde prompts. Om de compatibiliteit tussen beeld- en videoconcepten te vergroten, presenteren we een Temporal Disentanglement Strategy die het trainingsproces van videoconcepten ontkoppelt in twee fasen met een dual-branch binderstructuur voor temporele modellering. Evaluaties tonen aan dat onze methode superieure conceptconsistentie, prompttrouw en bewegingskwaliteit bereikt ten opzichte van bestaande benaderingen, wat nieuwe mogelijkheden opent voor visuele creativiteit.
Wij introduceren MotionEdit, een nieuwe dataset voor motion-gerichte beeldbewerking: de taak om handelingen en interacties van een onderwerp aan te passen terwijl identiteit, structuur en fysieke geloofwaardigheid behouden blijven. In tegenstelling tot bestaande beeldbewerkingsdatasets die zich richten op statische uiterlijke veranderingen of alleen maar spaarzame, kwalitatief slechte motion-bewerkingen bevatten, biedt MotionEdit hoogwaardige beeldparen die realistische motion-transformaties weergeven, geëxtraheerd en geverifieerd uit continue video's. Deze nieuwe taak is niet alleen wetenschappelijk uitdagend, maar ook praktisch significant, en drijft downstream-toepassingen aan zoals frame-gestuurde videosynthese en animatie. Om modelprestaties op deze nieuwe taak te evalueren, introduceren we MotionEdit-Bench, een benchmark die modellen uitdaagt op motion-gerichte bewerkingen en modelprestaties meet met generatieve, discriminerende en op voorkeur gebaseerde metrieken. Benchmarkresultaten onthullen dat motion-bewerking zeer uitdagend blijft voor bestaande state-of-the-art, op diffusie gebaseerde bewerkingsmodellen. Om dit gat te dichten, stellen we MotionNFT voor (Motion-guided Negative-aware Fine Tuning), een post-training raamwerk dat motion-uitlijningsbeloningen berekent op basis van hoe goed de motion-stroom tussen invoer- en model-bewerkte beelden overeenkomt met de ground-truth motion, om modellen te leiden naar accurate motion-transformaties. Uitgebreide experimenten op FLUX.1 Kontext en Qwen-Image-Edit tonen aan dat MotionNFT consistent de bewerkingskwaliteit en motion-getrouwheid van beide basismodellen verbetert bij de motion-bewerkingstaak, zonder algemene bewerkingsvaardigheid op te offeren, wat de effectiviteit aantoont.
Chain-of-thought (CoT)-redenering heeft grote successen geboekt bij het oplossen van complexe taken in natuurlijke taalverwerking, en recente multimodale grote taalmodellen (MLLM's) hebben dit paradigma uitgebreid naar videoredenering. Deze modellen baseren zich echter doorgaans op uitgebreide redeneerketens en een groot aantal invoer-visuele tokens. Gebaseerd op empirische observaties uit onze benchmarkstudie, veronderstellen wij dat beknopt redeneren in combinatie met een gereduceerde set visuele tokens voldoende kan zijn voor effectieve videoredenering. Om deze hypothese te evalueren, ontwerpen en valideren we een efficiënt raamwerk voor post-training en inferentie dat het redeneervermogen van een video-MLLM verbetert. Ons raamwerk stelt modellen in staat om te werken met gecomprimeerde visuele tokens en korte redeneersporen te genereren alvorens een antwoord te geven. De resulterende modellen bereiken een aanzienlijk verbeterde inferentie-efficiëntie, leveren competitieve prestaties op diverse benchmarks en vermijden afhankelijkheid van handmatige CoT-annotaties of supervised fine-tuning. Collectief suggereren onze resultaten dat lange, mensachtige CoT-redenering mogelijk niet nodig is voor algemene videoredenering, en dat beknopt redeneren zowel effectief als efficiënt kan zijn. Onze code wordt vrijgegeven op https://github.com/LaVi-Lab/Rethink_CoT_Video.
Vensterattention en lineaire attention vertegenwoordigen twee hoofdstrategieën om de kwadratische complexiteit en de steeds groter wordende KV-cache in Vision-Language Models (VLM's) te verminderen. Wij observeren echter dat op vensters gebaseerde VLM's prestatieverlies lijden wanneer de sequentielengte de venstergrootte overschrijdt, terwijl lineaire attention onderpresteert bij informatie-intensieve taken zoals OCR en documentbegrip. Om deze beperkingen te overwinnen, stellen wij InfiniteVL voor, een VLM-architectuur met lineaire complexiteit die sliding window attention (SWA) combineert met Gated DeltaNet. Om competitieve multimodale prestaties te bereiken onder beperkte middelen, ontwerpen wij een driestappen-trainingsstrategie bestaande uit distillatie-pre-training, instruction tuning en long-sequence SFT. Opmerkelijk is dat InfiniteVL, met minder dan 2% van de trainingsdata die toonaangevende VLM's nodig hebben, niet alleen aanzienlijk beter presteert dan eerdere VLM's met lineaire complexiteit, maar ook de prestaties evenaart van toonaangevende Transformer-gebaseerde VLM's, terwijl het effectief langetermijngeheugen behoudt. Vergeleken met vergelijkbare Transformer-gebaseerde VLM's versneld door FlashAttention-2, behaalt InfiniteVL een meer dan 3,6× snellere inferentiesnelheid bij constante latentie en geheugengebruik. In scenario's voor streaming videobegrip handhaaft het een stabiele real-time prefill-snelheid van 24 FPS terwijl het de langetermijngeheugencache behoudt. Code en modellen zijn beschikbaar op https://github.com/hustvl/InfiniteVL.
Autonome rijsystemen (AD) kampen in long-tail-scenario's met beperkte wereldkennis en zwakke visuele dynamische modellering. Bestaande op visie-taal-actie (VLA) gebaseerde methoden kunnen ongelabelde video's niet benutten voor visueel causaal leren, terwijl op wereldmodellen gebaseerde methoden redeneervaardigheden ontberen van grote taalmmodellen. In dit artikel construeren we meerdere gespecialiseerde datasets die redeneer- en planningsannotaties bieden voor complexe scenario's. Vervolgens wordt een uniform Understanding-Generation-Planning raamwerk, genaamd UniUGP, voorgesteld om scèneredenering, toekomstige videogeneratie en trajectplanning te synchroniseren via een hybride expertarchitectuur. Door vooraf getrainde VLM's en videogeneratiemodellen te integreren, benut UniUGP visuele dynamiek en semantisch redeneren om de planningsprestatie te verbeteren. Het neemt multi-frame observaties en taalinstructies als input, en produceert interpreteerbare keten-van-gedachte-redenering, fysiek consistente trajecten en samenhangende toekomstige video's. We introduceren een vierfasen-trainingsstrategie die deze capaciteiten progressief opbouwt over meerdere bestaande AD-datasets, samen met de voorgestelde gespecialiseerde datasets. Experimenten tonen state-of-the-art prestaties in perceptie, redenering en besluitvorming, met superieure generalisatie naar uitdagende long-tail-situaties.
Vision-Language-Action (VLA)-modellen hebben recentelijk robotmanipulatie mogelijk gemaakt door visuele en linguïstische signalen te verankeren in acties. De meeste VLA-modellen gaan echter uit van de Markov-eigenschap, waarbij ze alleen op de huidige observatie vertrouwen en zo lijden onder temporele bijziendheid die de coherentie op lange termijn aantast. In dit werk beschouwen we beweging als een compactere en informatievere representatie van temporele context en werelddynamica, waarbij inter-statushandelingen worden vastgelegd en statische pixelruis wordt gefilterd. Voortbouwend op dit idee stellen we HiF-VLA (Hindsight, Insight, and Foresight for VLAs) voor, een uniform raamwerk dat beweging benut voor bidirectioneel temporeel redeneren. HiF-VLA codeert dynamiek uit het verleden via hindsight-priors, anticipeert op toekomstige beweging via foresight-redenering en integreert beide via een hindsight-gemoduleerde joint expert om een "denken-tijdens-handelen"-paradigma voor manipulatie op lange termijn mogelijk te maken. Hierdoor overtreft HiF-VLA sterke baseline-modellen op de LIBERO-Long- en CALVIN ABC-D-benchmarks, terwijl er verwaarloosbare extra inferentielatentie optreedt. Bovendien behaalt HiF-VLA aanzienlijke verbeteringen in real-world manipulatietaken op lange termijn, wat de brede effectiviteit in praktische robotomgevingen aantoont.
Wij presenteren WonderZoom, een nieuwe benadering voor het genereren van 3D-scènes met inhoud over meerdere ruimtelijke schalen vanuit één enkele afbeelding. Bestaande 3D-wereldgeneratiemodellen blijven beperkt tot synthese op één schaal en kunnen geen samenhangende scène-inhoud op verschillende granulariteiten produceren. De fundamentele uitdaging is het ontbreken van een schaalbewuste 3D-representatie die in staat is om inhoud met sterk uiteenlopende ruimtelijke afmetingen te genereren en renderen. WonderZoom lost dit op door twee belangrijke innovaties: (1) schaalaanpasbare Gaussische surfels voor het genereren en realtime renderen van multi-schaal 3D-scènes, en (2) een progressieve detailsynthesizer die iteratief fijnere 3D-inhoud genereert. Onze aanpak stelt gebruikers in staat om "in te zoomen" op een 3D-gebied en autogressief voorheen niet-bestaande fijne details te synthetiseren, van landschappen tot microscopische kenmerken. Experimenten tonen aan dat WonderZoom zowel in kwaliteit als uitlijning significant beter presteert dan state-of-the-art video- en 3D-modellen, waardoor creatie van multi-schaal 3D-werelden vanuit één afbeelding mogelijk wordt. Wij tonen videoresultaten en een interactieve viewer van gegenereerde multi-schaal 3D-werelden op https://wonderzoom.github.io/.
Diffusie-grote-taalmodelen (dLLM's) bieden een veelbelovend alternatief voor autoregressieve modellen, maar hun praktische bruikbaarheid wordt ernstig belemmerd door trage, iteratieve sampling. Wij presenteren SchED, een trainingsvrij, model-agnostisch early-exit-algoritme dat de logit-marges over de volledige reeks aggregeert en het decoderen stopzet zodra een vloeiende, voortgangsafhankelijke betrouwbaarheidsdrempel wordt bereikt. We evalueerden SchED op twee dLLM-families (Dream en LLaDA), in basis- en instructie-afgestemde varianten, over tien benchmarks die downstream-taken omvatten, zoals meerkeuzevragen (MCQ), wiskunde, lange-vorm QA/samenvatting en vertaling. SchED levert grote, stabiele versnellingen: op instructie-afgestemde modellen behaalt het 3,8-4,0x snelheidswinst terwijl het gemiddeld 99,8-100% van de basislijnscore behoudt. Op basis-modellen levert SchED consistente snelheidswinst op met 99,1-100% prestatiebehoud, tot 2,34x onder agressievere instellingen. Met een conservatieve snelheidsmetriek die kwaliteitsverlies zwaar bestraft (QPS, γ=4), tonen we aan dat SchED robuust is en duidelijk beter presteert dan eerdere op betrouwbaarheid gebaseerde early-exit-methoden, die falen bij lange-vorm generatie. Een entropie-analyse van de tokenvoorspellingen van het model onthult dat instructie-afstemming het verval van voorspellende entropie versnelt. Door echte betrouwbaarheidsstabilisatie om te zetten in computationele besparingen, maakt SchED dLLM-decodering aanzienlijk efficiënter.
Kenniseditatie heeft als doel specifieke feiten in grote taalmodelen (LLM's) bij te werken zonder volledige hertraining. Eerdere inspanningen richtten zich op het afstemmen van de kennislagen van LLM's, wat effectief bleek voor het maken van selectieve wijzigingen. Er bestaat echter een aanzienlijke kloof tussen hun prestaties in gecontroleerde, teacher-forcing evaluaties en hun effectiviteit in de praktijk bij levenslang leren-scenario's, wat hun praktische toepasbaarheid ernstig beperkt. De empirische analyse in dit werk onthult twee terugkerende problemen samenhangend met deze kloof: (1) De meeste traditionele methoden leiden ertoe dat het bewerkte model overfit raakt op het nieuwe feit, waardoor vooraf getrainde capaciteiten verslechteren; (2) Er ontbreekt een cruciaal stadium van kennisconsolidatie, waardoor nieuwe feiten onvoldoende worden geïntegreerd in het inferentiegedrag van LLM's onder autoregressieve generatie, wat leidt tot een mismatch tussen parametrische kennis en feitelijk generatiegedrag. Daarom stellen wij Edit-then-Consolidate voor, een nieuwe paradigma voor kenniseditatie dat de kloof tussen theoretische kenniseditatiemethoden en hun praktische toepasbaarheid wil overbruggen. Specifiek: (1) ons framework vermindert overfitting via Targeted Proximal Supervised Fine-Tuning (TPSFT), dat de edit lokaliseert via een trust-region doelstelling om policy drift te beperken; (2) Vervolgens aligneert een consolidatiestadium met Group Relative Policy Optimization (GRPO) de bewerkte kennis met het op Redenering-gebaseerde inferentiebeleid door trajectniveau-gedrag te optimaliseren onder uitgebreide beloningssignalen. Uitgebreide experimenten tonen aan dat ons framework consistent de betrouwbaarheid en generalisatie van edits onder real-world evaluaties verbetert, terwijl het de localiteit en vooraf getrainde capaciteiten beter behoudt.
Agents, op taalmodellen (LM) gebaseerde systemen die in staat zijn tot redeneren, plannen en handelen, worden het dominante paradigma voor real-world AI-toepassingen. Ondanks deze brede adoptie blijven de principes die hun prestaties bepalen onderbelicht, waardoor praktijkmensen zijn aangewezen op heuristieken in plaats van principiële ontwerpkeuzes. Wij dichten deze lacune door kwantitatieve schaalprincipes voor agentsystemen af te leiden. We evalueren dit aan de hand van vier uiteenlopende benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft en Workbench. Met vijf canonieke architecturen (Single, Independent, Centralized, Decentralized, Hybrid) geïnstantieerd over drie LLM-families, voeren we een gecontroleerde evaluatie uit over 180 configuraties met gestandaardiseerde tools en tokenbudgetten. We leiden een voorspellend model af met behulp van empirische coördinatiemetrics, waaronder efficiëntie, overhead, foutversterking en redundantie, dat een gekruisvalideerde R² = 0,513 bereikt. We identificeren drie dominante effecten: (1) een tool-coördinatie-afweging: onder vaste computationele budgetten leiden tool-intensieve taken onevenredig veel onder multi-agent overhead. (2) een capaciteitssaturatie: coördinatie levert afnemende of negatieve rendementen op (bèta = -0,408, p < 0,001) zodra single-agent-baselines ~45% overschrijden. (3) topologie-afhankelijke foutversterking: onafhankelijke agents versterken fouten 17,2x door ongecontroleerde propagatie, terwijl gecentraliseerde coördinatie dit beperkt tot 4,4x. Gecentraliseerde coördinatie verbetert de prestaties met 80,9% op parallelleerbare taken zoals financieel redeneren, terwijl gedecentraliseerde coördinatie uitblinkt bij dynamische webnavigatie (+9,2% vs. +0,2%). Voor sequentiële redeneertaken degradeerden echter alle multi-agent varianten de prestaties met 39-70%. Het framework voorspelt de optimale coördinatiestrategie voor 87% van de achteraf geteste configuraties, en biedt zo een voorspellend principe voor agent-schaling op basis van meetbare taakeigenschappen.
Voortbouwend op het succes van 3D Gaussische Splatting (3DGS) voor de representatie van statische 3D-scènes, heeft de uitbreiding naar dynamische scènes, vaak aangeduid als 4DGS of dynamische 3DGS, toenemende aandacht getrokken. Het ontwerpen van compactere en efficiëntere deformatieschema's, samen met rate-distortion-geoptimaliseerde compressiestrategieën voor dynamische 3DGS-representaties, blijft echter een onderbelicht onderzoeksgebied. Eerdere methodes vertrouwen ofwel op ruimte-tijd 4DGS met overgespecificeerde, kortlevende Gaussische primitieven, ofwel op canonieke 3DGS met een deformatie die expliciete temporele controle mist. Om dit aan te pakken, presenteren wij TED-4DGS, een tijdelijk geactiveerd en embedding-gebaseerd deformatieschema voor rate-distortion-geoptimaliseerde 4DGS-compressie dat de sterke punten van beide families verenigt. TED-4DGS is gebouwd op een sparse, ankergebaseerde 3GDS-representatie. Aan elk canoniek anker worden leerbare temporele activeringsparameters toegekend om de transities van verschijnen en verdwijnen in de tijd te specificeren, terwijl een lichtgewicht temporele embedding per anker een gedeelde deformatiebank raadpleegt om ankerspecifieke deformatie te produceren. Voor rate-distortion-compressie integreren we een hyperprior op basis van een impliciete neurale representatie (INR) om de verdeling van ankerattributen te modelleren, samen met een channel-wise autoregressief model om intra-anker correlaties vast te leggen. Met deze nieuwe elementen bereikt ons schema state-of-the-art rate-distortion-prestaties op verschillende real-world datasets. Voor zover wij weten, vertegenwoordigt dit werk een van de eerste pogingen om een rate-distortion-geoptimaliseerd compressieraamwerk voor dynamische 3DGS-representaties na te streven.
Diffusie (Large) Language Models (dLLM's) evenaren nu de downstream-prestaties van hun autoregressieve tegenhangers op veel taken, met de belofte van efficiëntere inferentie. Een bijzonder succesvolle variant is gemaskeerde discrete diffusie, waarbij een buffer gevuld met speciale maskertokens geleidelijk wordt vervangen door tokens die uit de vocabulaire van het model worden bemonsterd. Efficiëntiewinst kan worden behaald door meerdere tokens parallel te demaskeren, maar te veel tokens tegelijk vervangen riskeert een verslechtering van de generatiekwaliteit. Een cruciaal ontwerpaspect van dLLM's is daarom de samplingprocedure die in elke stap van het diffusieproces selecteert welke tokens moeten worden vervangen. Recent onderzoek heeft inderdaad aangetoond dat heuristische strategieën, zoals drempelwaardebepaling op basis van confidentie, leiden tot zowel hogere kwaliteit als een hogere tokenverwerkingssnelheid vergeleken met willekeurig demaskeren. Dergelijke heuristieken hebben echter nadelen: ze vereisen handmatige afstemming, en wij observeren dat hun prestaties afnemen bij grotere buffergroottes. In dit werk stellen wij voor om samplingprocedures te trainen met reinforcement learning. Concreet formaliseren we gemaskeerde diffusie-sampling als een Markov-beslissingsproces waarin de dLLM als omgeving fungeert, en introduceren we een lichtgewicht policy-architectuur gebaseerd op een single-layer transformer die de tokenconfidenties van de dLLM afbeeldt op demaskeringsbeslissingen. Onze experimenten tonen aan dat deze getrainde policies de prestaties van state-of-the-art heuristieken evenaren in combinatie met semi-autoregressieve generatie, en deze overtreffen in de volledige diffusie-instelling. We onderzoeken ook de overdraagbaarheid van deze policies en constateren dat ze kunnen generaliseren naar nieuwe onderliggende dLLM's en langere sequentielengtes. We observeren echter ook dat hun prestaties afnemen wanneer ze worden toegepast op out-of-domain data, en dat een fijnmazige afstemming van de nauwkeurigheid-efficiëntie-afweging uitdagend kan zijn met onze aanpak.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLM's) hebben tot indrukwekkende vooruitgang geleid op diverse benchmarks. Hun vermogen om infraroodbeelden te begrijpen blijft echter onontgonnen terrein. Om deze leemte op te vullen, introduceren we IF-Bench, de eerste hoogwaardige benchmark die is ontworpen voor de evaluatie van multimodaal begrip van infraroodbeelden. IF-Bench bestaat uit 499 beelden afkomstig uit 23 infrarooddatasets en 680 zorgvuldig samengestelde visuele vraag-antwoordparen, die 10 essentiële dimensies van beeldbegrip beslaan. Op basis van deze benchmark evalueren we systematisch meer dan 40 open-source en closed-source MLLM's, waarbij we cyclische evaluatie, tweetalige beoordeling en hybride beoordelingsstrategieën inzetten om de betrouwbaarheid van de resultaten te vergroten. Onze analyse onthult hoe modelschaal, architectuur en inferentieparadigma's het begrip van infraroodbeelden beïnvloeden, wat waardevolle inzichten biedt voor dit onderzoeksgebied. Verder stellen we een trainingsvrije generatieve visuele prompting-methode (GenViP) voor, die gebruikmaakt van geavanceerde beeldbewerkingsmodellen om infraroodbeelden om te zetten in semantisch en ruimtelijk uitgelijnde RGB-equivalenten, waardoor domeinverdelingverschuivingen worden verminderd. Uitgebreide experimenten tonen aan dat onze methode consistent significante prestatieverbeteringen oplevert bij een breed scala aan MLLM's. De benchmark en code zijn beschikbaar op https://github.com/casiatao/IF-Bench.
Autoregressieve (AR) diffusie maakt streaming, interactieve lange-videogeneratie mogelijk door frames causaal te produceren, maar het handhaven van coherentie over minutenlange tijdshorizons blijft een uitdaging vanwege opgestapelde fouten, motion drift en inhoudsherhaling. Wij benaderen dit probleem vanuit een geheugenperspectief, waarbij we videosynthese behandelen als een recurrent dynamisch proces dat gecoördineerde kortetermijn- en langetermijncontext vereist. Wij stellen VideoSSM voor, een Lang Video Model dat AR-diffusie verenigt met een hybride toestandsruimtegeheugen. Het toestandsruimtemodel (SSM) fungeert als een evoluerend globaal geheugen voor scènedynamiek over de gehele sequentie, terwijl een contextvenster lokaal geheugen biedt voor bewegingsaanwijzingen en fijne details. Dit hybride ontwerp behoudt globale consistentie zonder bevroren, repetitieve patronen, ondersteunt prompt-adaptieve interactie en schaalt in lineaire tijd met de sequentielengte. Experimenten op kort- en langetermijnbenchmarks tonen state-of-the-art temporele consistentie en bewegingsstabiliteit aan onder autoregressieve videogeneratoren, vooral op minutenlange horizons, wat inhoudsdiversiteit en interactieve prompt-gebaseerde controle mogelijk maakt, en zo een schaalbaar, geheugenbewust kader voor lange-videogeneratie vestigt.
Lichte, realtime tekst-naar-spraaksystemen zijn cruciaal voor toegankelijkheid. De meest efficiënte TTS-modellen maken echter vaak gebruik van lichtgewicht fonemisatoren die moeite hebben met contextafhankelijke uitdagingen. Daarentegen brengen geavanceerdere fonemisatoren met een dieper taalkundig begrip doorgaans hoge rekenkosten met zich mee, wat realtime prestaties verhindert. Dit artikel onderzoekt de wisselwerking tussen fonemisatiekwaliteit en inferentiesnelheid in G2P-ondersteunde TTS-systemen en introduceert een praktisch raamwerk om deze kloof te overbruggen. Wij stellen lichtgewicht strategieën voor voor contextbewuste fonemisatie en een servicegeoriënteerde TTS-architectuur die deze modules als onafhankelijke diensten uitvoert. Dit ontwerp ontkoppelt zware contextbewuste componenten van de kern-TTS-engine, doorbreekt effectief de latentiedrempel en maakt realtime gebruik van hoogwaardige fonemisatiemodellen mogelijk. Experimentele resultaten bevestigen dat het voorgestelde systeem de uitspraakcorrectheid en taalkundige nauwkeurigheid verbetert, terwijl het realtime responsiviteit behoudt, waardoor het bijzonder geschikt is voor offline en on-device TTS-toepassingen.
Om de afweging tussen robuustheid en prestaties voor robuuste VLM's aan te pakken, observeren we dat functiewoorden kwetsbaarheid van VLM's voor cross-modale adversariële aanvallen kunnen veroorzaken, en stellen dienovereenkomstig Function-word De-Attention (FDA) voor om de impact van functiewoorden te verminderen. Vergelijkbaar met differentiële versterkers, berekent onze FDA de originele en de functiewoord cross-attention binnen attention heads, en trekt de laatste differentieel af van de eerste voor beter uitgelijnde en robuustere VLM's. Uitgebreide experimenten omvatten 2 state-of-the-art baseline-modellen onder 6 verschillende aanvallen op 2 downstreamtaken, 3 datasets en 3 modellen. Over het geheel genomen resulteert onze FDA in een gemiddelde daling van 18/13/53% in het aanvalsuccespercentage (ASR) met slechts 0,2/0,3/0,6% prestatieverlies op de 3 geteste modellen voor retrieval, en een daling van 90% in ASR met een prestatieverbetering van 0,3% voor visuele grounding. We demonstreren experimenteel de schaalbaarheid, generalisatie en zero-shot prestaties van FDA, evenals uitgebreide ablatiestudies en analyse. Code zal openbaar gemaakt worden op https://github.com/michaeltian108/FDA.
Klinische dialogie vertegenwoordigt een complexe dualiteit die zowel de empathische vloeiendheid van natuurlijke conversatie als de rigoureuze precisie van evidence-based medicine vereist. Hoewel Large Language Models over een ongekende linguïstische capaciteit beschikken, heeft hun architectonische afhankelijkheid van reactieve en stateless verwerking vaak een voorkeur voor probabilistische plausibiliteit boven feitelijke juistheid. Deze structurele beperking heeft een paradigmaverschuiving in medische AI gekatalyseerd: van generatieve tekstvoorspelling naar agent-gebaseerde autonomie, waarbij het model functioneert als een centrale redeneermotor die in staat is tot beredeneerd plannen en persistent geheugen. Voorbijgaand aan bestaande overzichtsartikelen die voornamelijk downstream-toepassingen inventariseren, biedt deze survey een analyse vanuit eerste principes van de cognitieve architectuur die deze verschuiving ondersteunt. Wij introduceren een nieuwe taxonomie gestructureerd langs de orthogonale assen van kennisbron en agent-doelstelling om de herkomst van klinische kennis af te zetten tegen de operationele reikwijdte van het systeem. Dit kader vergemakkelijkt een systematische analyse van de intrinsieke afwegingen tussen creativiteit en betrouwbaarheid door methoden in vier archetypen te categoriseren: Latente Ruimte Clinici, Emergente Planners, Gegronde Synthesizers en Verifieerbare Workflow Automatiseraars. Voor elk paradigma ontleden wij de technische realisatie over de gehele cognitieve pijplijn, met inbegrip van strategische planning, geheugenbeheer, actie-uitvoering, samenwerking en evolutie, om te onthullen hoe distinctieve architectonische keuzes de spanning tussen autonomie en veiligheid in evenwicht brengen.
Recente vooruitgang in tekst-naar-video-generatie heeft een opmerkelijke realistische kwaliteit bereikt, maar fijnmazige controle over camerabeweging en -oriëntatie blijft moeilijk te realiseren. Bestaande methoden coderen cameratrajecten doorgaans via relatieve of ambigue representaties, wat expliciete geometrische controle beperkt. Wij introduceren GimbalDiffusion, een raamwerk dat camerabesturing mogelijk maakt, verankerd in fysieke wereldcoördinaten met behulp van de zwaartekracht als globaal referentiepunt. In plaats van beweging te beschrijven ten opzichte van vorige frames, definieert onze methode cameratrajecten in een absoluut coördinatenstelsel. Dit maakt precieze en interpreteerbare controle over cameraparameters mogelijk zonder dat een initieel referentieframe nodig is. Wij maken gebruik van panoramische 360-gradenvideo's om een grote verscheidenheid aan cameratrajecten te construeren, die ruimschoots verder gaan dan de overwegend rechte, voorwaarts gerichte trajecten in conventionele videodata. Om de camerasturing verder te verbeteren, introduceren wij null-pitch-conditionering, een annotatiestrategie die de afhankelijkheid van het model van tekstinhoud vermindert wanneer deze in conflict is met cameraspecificaties (bijvoorbeeld het genereren van gras terwijl de camera naar de hemel wijst). Ten slotte stellen wij een benchmark in voor camera-bewuste videogeneratie door SpatialVID-HQ opnieuw in balans te brengen voor een uitgebreide evaluatie onder grote variatie in camerapitch. Gezamenlijk bevorderen deze bijdragen de bestuurbaarheid en robuustheid van tekst-naar-videomodellen, waardoor precieze, op de zwaartekracht uitgelijnde cameramanipulatie binnen generatieve raamwerken mogelijk wordt.
De aanschaf van bitcoin-mininghardware vereist strategische timing vanwege volatiele markten, snelle technologische veroudering en protocolgedreven inkomstencycli. Hoewel mining is geëvolueerd naar een kapitaalintensieve industrie, is er weinig richtlijn over wanneer nieuwe Application-Specific Integrated Circuit (ASIC)-hardware moet worden aangeschaft, en geen bestaande computationele raamwerken behandelen dit beslissingsprobleem. Wij voorzien in deze leemte door hardwareaanschaf te formuleren als een tijdreeksclassificatietaak, waarbij wordt voorspeld of de aankoop van ASIC-machines binnen één jaar rendabel (Return on Investment (ROI) >= 1), marginaal (0 < ROI < 1) of onrendabel (ROI <= 0) oplevert. Wij presenteren MineROI-Net, een open source Transformer-gebaseerde architectuur ontworpen om multi-schaal temporele patronen in miningwinstgevendheid vast te leggen. Geëvalueerd met gegevens van 20 ASIC-miners uitgebracht tussen 2015 en 2024 in diverse marktomstandigheden, presteert MineROI-Net beter dan LSTM-gebaseerde en TSLANet-basislijnen, met een nauwkeurigheid van 83,7% en een macro F1-score van 83,1%. Het model toont sterke economische relevantie, met een precisie van 93,6% bij het detecteren van onrendabele periodes en 98,5% voor rendabele periodes, terwijl het misclassificatie van rendabele scenario's als onrendabel en vice versa vermijdt. Deze resultaten geven aan dat MineROI-Net een praktisch, datagedreven instrument biedt voor het timen van mininghardwareaankopen, wat het financiële risico in kapitaalintensieve miningoperaties kan verminderen. Het model is beschikbaar via: https://github.com/AMAAI-Lab/MineROI-Net.