Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Wan-Move, een eenvoudig en schaalbaar raamwerk dat bewegingstoepassing brengt in videogeneratieve modellen. Bestaande methoden voor bewegingstoepassing kampen doorgaans met grove controle-granulariteit en beperkte schaalbaarheid, waardoor hun resultaten onvoldoende zijn voor praktisch gebruik. Wij overbruggen deze kloof door precieze en hoogwaardige bewegingstoepassing te realiseren. Onze kernidee is om de oorspronkelijke conditiekenmerken direct beweging-bewust te maken voor het sturen van videosynthese. Hiertoe representeren wij eerst objectbewegingen met dichte punt-trajecten, wat fijnmazige controle over de scene mogelijk maakt. Vervolgens projecteren wij deze trajecten naar de latente ruimte en propageren de kenmerken van het eerste frame langs elk traject, waardoor een uitgelijnde spatiotemporele kenmerkenkaart ontstaat die aangeeft hoe elk sceneelement moet bewegen. Deze kenmerkenkaart dient als de geüpdatete latente conditie, die naadloos wordt geïntegreerd in het bestaande beeld-naar-video model, bijvoorbeeld Wan-I2V-14B, als bewegingsgeleiding zonder enige architectuurwijziging. Het elimineert de noodzaak voor aanvullende beweging-encoders en maakt fine-tuning van basismodellen eenvoudig schaalbaar. Door geschaalde training genereert Wan-Move video's van 5 seconden en 480p waarvan de bewegingstoepassing evenaart met de commerciële Motion Brush van Kling 1.5 Pro, zoals blijkt uit gebruikersstudies. Om uitgebreide evaluatie te ondersteunen, ontwikkelden wij MoveBench, een rigoureus samengestelde benchmark met diverse inhoudscategorieën en hybride-geverifieerde annotaties. Deze onderscheidt zich door een groter datavolume, langere videoduur en hoogwaardige beweging-annotaties. Uitgebreide experimenten op MoveBench en de openbare dataset tonen consistent de superieure bewegingkwaliteit van Wan-Move aan. Code, modellen en benchmarkdata zijn openbaar beschikbaar gesteld.
Neuraal renderen, in het bijzonder 3D Gaussian Splatting (3DGS), heeft zich snel ontwikkeld en is een essentiële component geworden voor het bouwen van wereldmodellen. Bestaande vieweroplossingen zijn echter nog steeds gefragmenteerd, zwaar, of beperkt door verouderde pijplijnen, wat leidt tot hoge implementatiedrempels en beperkte ondersteuning voor dynamische content en generatieve modellen. In dit werk presenteren we Visionary, een open, web-native platform voor real-time rendering van diverse Gaussian Splatting-modellen en meshes. Gebouwd op een efficiënte WebGPU-renderer met per-frame ONNX-inferentie, maakt Visionary dynamische neurale verwerking mogelijk terwijl het een lichtgewicht, 'klik-en-uitvoer'-browserervaring behoudt. Het introduceert een gestandaardiseerd Gaussian Generator-contract, dat niet alleen standaard 3DGS-rendering ondersteunt, maar ook plug-and-play-algoritmen mogelijk maakt om Gaussians per frame te genereren of bij te werken. Deze inferentie stelt ons ook in staat feedforward generatieve nabewerking toe te passen. Het platform biedt verder een plug-in voor de three.js-bibliotheek met een beknopte TypeScript-API voor naadloze integratie in bestaande webapplicaties. Experimenten tonen aan dat Visionary, met identieke 3DGS-assets, superieure rendering-efficiëntie bereikt in vergelijking met huidige webviewers dankzij GPU-gebaseerde sortering van primitieven. Het ondersteunt reeds meerdere varianten, waaronder MLP-gebaseerde 3DGS, 4DGS, neurale avatars, en stijltransformatie- of verbeteringsnetwerken. Door inferentie en rendering rechtstreeks in de browser te verenigen, verlaagt Visionary de drempel voor reproductie, vergelijking en implementatie van 3DGS-gerelateerde methoden aanzienlijk, en fungeert het als een uniforme 'World Model Carrier' voor zowel reconstructieve als generatieve paradigma's.
Videogezichtswisseling is cruciaal in film- en entertainmentproductie, waarbij het bereiken van hoge kwaliteit en temporele consistentie over lange en complexe videosequenties een aanzienlijke uitdaging blijft. Geïnspireerd door recente vooruitgang in referentiegestuurd beeldbewerking, onderzoeken we of rijke visuele attributen uit bronvideo's op vergelijkbare wijze kunnen worden benut om zowel de kwaliteit als temporele coherentie bij videogezichtswisseling te verbeteren. Voortbouwend op dit inzicht presenteert dit werk LivingSwap, het eerste videoreferentiegestuurde gezichtswisselingsmodel. Onze aanpak gebruikt keyframes als conditioneringssignalen om de doelidentiteit in te brengen, wat flexibele en controleerbare bewerking mogelijk maakt. Door keyframe-conditionering te combineren met videoreferentiesturing, voert het model temporele stitching uit om stabiele identiteitsbehoud en hoogwaardige reconstructie over lange videosequenties te garanderen. Om het gebrek aan data voor referentiegestuurde training aan te pakken, construeren we een gepaarde gezichtswisseldataset, Face2Face, en keren we de dataparen verder om om betrouwbare ground-truth-supervisie te waarborgen. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art resultaten bereikt, waarbij de doelidentiteit naadloos wordt geïntegreerd met de expressies, belichting en beweging van de bronvideo, terwijl de handmatige inspanning in productieworkflows aanzienlijk wordt verminderd. Projectwebpagina: https://aim-uofa.github.io/LivingSwap
Storytelling in real-world video's speelt zich vaak af via meerdere shots -- discontinue maar semantisch verbonden clips die samen een coherent verhaal vertellen. Bestaande methoden voor multi-shot videogeneratie (MSV) slagen er echter niet in om effectief langetermijncontext tussen shots te modelleren, omdat ze vertrouwen op beperkte temporele vensters of conditionering op één keyframe, wat leidt tot verminderde prestaties bij complexe verhalen. In dit werk stellen we OneStory voor, dat globale maar compacte contextmodellering tussen shots mogelijk maakt voor consistente en schaalbare narratieve generatie. OneStory herformuleert MSV als een next-shot generatietaak, waardoor autoregressieve shotsynthese mogelijk wordt terwijl gebruik wordt gemaakt van voorgetrainde image-to-video (I2V) modellen voor sterke visuele conditionering. We introduceren twee kernmodules: een Frame Selection module die een semantisch relevante globaal geheugen construeert op basis van informatieve frames uit eerdere shots, en een Adaptive Conditioner die op belangrijkheid gestuurde patchificatie uitvoert om compacte context te genereren voor directe conditionering. Verder stellen we een hoogwaardige multi-shot dataset samen met referentiële bijschriften om real-world storytellingpatronen te weerspiegelen, en ontwerpen we effectieve trainingsstrategieën binnen het next-shot paradigma. Gefinetuned vanaf een voorgetraind I2V-model op onze samengestelde 60K dataset, behaalt OneStory state-of-the-art narratieve coherentie in diverse en complexe scènes in zowel tekst- als beeldgeconditioneerde settings, waardoor controleerbare en meeslepende long-form videostorytelling mogelijk wordt.
Het opschalen van rekencapaciteit tijdens inferentie heeft grote taalmodellen (LLM's) in staat gesteld sterke redeneerprestaties te behalen, maar inherent sequentiële decodering leidt tot aanzienlijke latentie, vooral bij complexe taken. Recent werk rond adaptief parallel redeneren beoogt de inferentie-efficiëntie te verbeteren door het probleemoplossingsproces, waar nuttig, op te splitsen in gelijktijdige redeneerdraden. Bestaande methoden voor realistische taken zijn echter ofwel beperkt tot supervised gedragsklonering, of vertonen een significante daling in nauwkeurigheid vergeleken met veelgebruikte sequentiële long chain-of-thought (CoT)-baselines. Bovendien vereisen veel ervan aangepaste inferentie-engines, wat implementatie bemoeilijkt. Wij introduceren ThreadWeaver, een raamwerk voor adaptief parallel redeneren dat een nauwkeurigheid bereikt die vergelijkbaar is met populaire sequentiële redeneermodellen van vergelijkbare grootte, terwijl de inferentie-latentie aanzienlijk wordt verminderd. De prestaties van ThreadWeaver zijn het gevolg van drie belangrijke innovaties: 1) een parallelle trajectgenerator in twee fasen die grootschalige, hoogwaardige CoT-gegevens met parallelle annotaties produceert voor supervised fine-tuning; 2) een op tries gebaseerd co-design voor training en inferentie dat parallel redeneren mogelijk maakt op elke kant-en-klare autoregressieve inferentie-engine zonder aanpassing van positionele inbeddingen of KV-caches; en 3) een parallelisatiebewust reinforcement learning-raamwerk dat het model leert om nauwkeurigheid te balanceren met effectieve parallelisatie. Op zes uitdagende wiskundige redeneerbenchmarks behaalt ThreadWeaver, getraind op Qwen3-8B, een nauwkeurigheid vergelijkbaar met geavanceerde sequentiële redeneermodellen (gemiddeld 71,9% en 79,9% op AIME24), terwijl het een gemiddelde versnelling in tokenlatentie tot 1,53x bereikt, waarmee een nieuwe Pareto-grens tussen nauwkeurigheid en efficiëntie wordt gevestigd.
Video Instance Segmentation (VIS) wordt geconfronteerd met aanzienlijke annotatie-uitdagingen vanwege de dubbele vereisten van pixelgebaseerde maskers en temporele consistentielabels. Hoewel recente ongesuperviseerde methoden zoals VideoCutLER afhankelijkheden van optische stroming opheffen door synthetische data, blijven ze beperkt door de synthetisch-naar-echt domeinkloof. Wij presenteren AutoQ-VIS, een nieuw ongesuperviseerd raamwerk dat deze kloof overbrugt via kwaliteit-gestuurd zelftraining. Onze aanpak creëert een gesloten-lussysteem tussen pseudo-labelgeneratie en automatische kwaliteitsbeoordeling, waardoor progressieve adaptatie van synthetische naar echte video's mogelijk wordt. Experimenten tonen state-of-the-art prestaties met 52.6 AP_{50} op de YouTubeVIS-2019 validatieset, wat een verbetering van 4.4% is ten opzichte van de vorige state-of-the-art VideoCutLER, zonder menselijke annotaties te vereisen. Dit demonstreert de haalbaarheid van kwaliteit-bewuste zelftraining voor ongesuperviseerde VIS. De code wordt vrijgegeven op https://github.com/wcbup/AutoQ-VIS.
Moderne grootschalige taalmodelen bereiken indrukwekkende redeneercapaciteiten met lange ketens van gedachten (Chain of Thoughts), maar dit gaat gepaard met aanzienlijke rekenkosten tijdens de inferentie, wat de motivatie vormt voor technieken om de prestatie-kostenverhouding te verbeteren. Tot deze technieken behoort Speculatieve Decodering, welke de inferentie versnelt door gebruik te maken van een snel maar onnauwkeurig conceptmodel om tokens autogressief voor te stellen, die vervolgens parallel worden geverifieerd door een krachtiger doelmodel. Echter, vanwege onnodige afwijzingen veroorzaakt door token-mismatches in semantisch equivalente stappen, worstelt traditionele token-level Speculatieve Decodering met redeneertaken. Hoewel recente werken zijn overgestapt naar stap-level semantische verificatie, die de efficiëntie verbetert door hele redeneerstappen te accepteren of te verwerpen, regenereren bestaande stap-level methoden nog steeds veel afgewezen stappen met weinig verbetering, wat waardevolle rekenkracht van het doelmodel verspilt. Om deze uitdaging aan te pakken, stellen wij Arbitrage voor, een nieuw raamwerk voor stap-level speculatieve generatie dat de generatie dynamisch routeert op basis van het relatieve voordeel tussen concept- en doelmodellen. In plaats van een vaste acceptatiedrempel toe te passen, gebruikt Arbitrage een lichtgewicht router die is getraind om te voorspellen wanneer het doelmodel waarschijnlijk een betekenisvol betere stap zal produceren. Deze routing benadert een ideale Arbitrage Oracle die altijd de stap van hogere kwaliteit kiest, waardoor bijna optimale efficiëntie-nauwkeurigheid-afwegingen worden bereikt. Over meerdere wiskundige redeneerbenchmarks heen overtreft Arbitrage consistent eerdere stap-level Speculatieve Decodering-basislijnen, en vermindert het de inferentielatentie met tot ongeveer 2 keer bij gelijke nauwkeurigheid.
Belichaamde imitatieleer wordt beperkt door de schaarste aan diverse, langetermijngegevens van robotmanipulatie. Bestaande videogeneratiemodellen voor dit domein zijn beperkt tot het synthetiseren van korte clips van eenvoudige handelingen en vertrouwen vaak op handmatig gedefinieëerde trajecten. Daarom introduceren wij MIND-V, een hiërarchisch raamwerk ontworpen om fysiek plausibele en logisch coherente video's van langetermijnrobotmanipulatie te synthetiseren. Geïnspireerd door de cognitieve wetenschap overbrugt MIND-V hoogwaardige redenering met pixelsynthese via drie kerncomponenten: een Semantisch Redeneercentrum (SRH) dat een vooraf getraind vision-language model benut voor taakplanning; een Gedragssemantische Brug (BSB) die abstracte instructies vertaalt naar domeinonafhankelijke representaties; en een Motorische Videogenerator (MVG) voor conditionele videorendering. MIND-V gebruikt Staged Visual Future Rollouts, een optimalisatiestrategie tijdens tests, om de robuustheid op lange termijn te verbeteren. Om de gegenereerde video's af te stemmen op de natuurwetten, introduceren we een GRPO-versterkingsleer-natrainingsfase geleid door een nieuwe Physical Foresight Coherence (PFC)-beloning. PFC benut het V-JEPA-wereldmodel om fysieke plausibiliteit af te dwingen door de voorspelde en werkelijke dynamische evoluties in de kenmerkruimte op elkaar af te stemmen. MIND-V demonstreert state-of-the-art prestaties in de generatie van video's voor langetermijnrobotmanipulatie, en vestigt zo een schaalbaar en beheersbaar paradigma voor belichaamde gegevenssynthese.
Multimodale grote-taalmmodellen (MLLM's) worden geacht visie, audio en taal gezamenlijk te interpreteren, maar bestaande videobenchmarks evalueren zelden fijnmazige redenering over menselijke spraak. Veel taken blijven visueel oplosbaar of evalueren spraak slechts in grove lijnen, wat beperkt inzicht biedt in of modellen kunnen bepalen wie spreekt, wat er wordt gezegd en wanneer dit plaatsvindt. Wij introduceren AV-SpeakerBench, een gecureerde benchmark van 3.212 multiplechoicevragen gericht op sprekergecentreerde audiovisuele redenering in real-world video's. Deze kenmerkt zich door: (1) een sprekergecentreerde formulering die sprekers – niet scènes – als kernredeneereenheid behandelt; (2) fusie-gebaseerd vraagontwerp dat audiovisuele afhankelijkheden in de vraag semantiek inbedt; en (3) expert-gecureerde annotaties die temporele precisie en cross-modale validiteit waarborgen. Uitgebreide evaluaties tonen aan dat de Gemini-familie consistent beter presteert dan open-source systemen, waarbij Gemini 2.5 Pro de beste resultaten behaalt. Onder open modellen benadert Qwen3-Omni-30B de prestaties van Gemini 2.0 Flash, maar blijft het ver achter bij Gemini 2.5 Pro, voornamelijk door zwakkere audiovisuele fusie in plaats van visuele perceptie. Wij zijn van mening dat AV-SpeakerBench een rigoureuze basis legt voor de vooruitgang van fijnmazige audiovisuele redenering in toekomstige multimodale systemen.
Recente ontwikkelingen in grootschalige taalmodel(len) (LLM's) hebben krachtige codeeragenten voortgebracht, waardoor code-assistenten kunnen evolueren naar code-ingenieurs. Bestaande methoden kampen echter nog steeds met aanzienlijke uitdagingen bij het realiseren van hoogwaardige synthese van document-naar-codebase – zoals van wetenschappelijke artikelen naar code – voornamelijk vanwege een fundamenteel conflict tussen informatie-overload en de contextbeperkingen van LLM's. In dit werk introduceren we DeepCode, een volledig autonoom raamwerk dat deze uitdaging fundamenteel aanpakt via principekwestie-informatieflowmanagement. Door repositoriesynthese te behandelen als een kanaaloptimalisatieprobleem, orchestreert DeepCode naadloos vier informatie-operaties om taakrelevante signalen te maximaliseren onder beperkte contextbudgetten: broncompressie via blauwdrukdistillatie, gestructureerde indexering met behulp van stateful codegeheugen, conditionele kennisinjectie via retrieval-augmented generation en gesloten-lus foutcorrectie. Uitgebreide evaluaties op de PaperBench-benchmark tonen aan dat DeepCode state-of-the-art prestaties bereikt, waarbij het beslissend beter presteert dan toonaangevende commerciële agenten zoals Cursor en Claude Code, en cruciaal genoeg, zelfs PhD-niveau menselijke experts van topinstituten overtreft op belangrijke reproductie-indicatoren. Door paperspecificaties systematisch om te zetten in productieklasse implementaties die vergelijkbaar zijn met menselijke expertkwaliteit, legt dit werk nieuwe fundamenten voor autonome wetenschappelijke reproductie die onderzoeksevaluatie en -ontdekking kunnen versnellen.
Versterkend leren (RL) na de training is cruciaal voor het afstemmen van generatieve modellen op menselijke voorkeuren, maar de buitensporige rekenkosten vormen een grote belemmering voor brede adoptie. Wij introduceren TreeGRPO, een nieuw RL-raamwerk dat de trainings efficiëntie aanzienlijk verbetert door het ontruisingsproces te herformuleren als een zoekboom. Uitgaande van gedeelde initiële ruisvoorbeelden vertakt TreeGRPO strategisch om meerdere kandidaat-trajecten te genereren en hergebruikt tegelijkertijd efficiënt hun gemeenschappelijke voorvoegsels. Deze boomstructuuraanpak biedt drie belangrijke voordelen: (1) Hoge steekproef efficiëntie, waarbij betere prestaties worden behaald met hetzelfde aantal trainingsvoorbeelden; (2) Fijnmazige toekenning van verdienste via beloningsbackpropagatie die stap-specifieke voordelen berekent, waardoor de beperking van uniforme toekenning bij trajectgebaseerde methoden wordt overwonnen; en (3) Geamortiseerde berekening waarbij vertakking naar meerdere kinderen meerdere beleidsupdates per voorwaartse pass mogelijk maakt. Uitgebreide experimenten met zowel op diffusie als op stromen gebaseerde modellen tonen aan dat TreeGRPO een 2,4 keer snellere training bereikt en tegelijkertijd een superieur Pareto-frontier vestigt in de efficiëntie-beloning trade-off ruimte. Onze methode presteert consistent beter dan GRPO-basislijnen across meerdere benchmarks en beloningsmodellen, en biedt zo een schaalbare en effectieve route voor RL-gebaseerde afstemming van visuele generatieve modellen. De projectwebsite is beschikbaar op treegrpo.github.io.
Dit artikel presenteert een modulair neuraal raamwerk voor beeldsignaalverwerking (ISP) dat ruwe invoer verwerkt en hoogwaardige, voor weergave geoptimaliseerde beelden produceert. In tegenstelling tot eerdere neurale ISP-ontwerpen introduceert onze methode een hoge mate van modulariteit, wat volledige controle biedt over meerdere tussenstadia van het renderproces.~Dit modulaire ontwerp bereikt niet alleen een hoge renderprecisie, maar verbetert ook de schaalbaarheid, debugbaarheid, generalisatie naar niet-getrainde camera's en flexibiliteit om verschillende gebruikersvoorkeurstijlen aan te passen. Om de voordelen van dit ontwerp aan te tonen, ontwikkelden we een gebruikersinteractieve foto-bewerkingsapplicatie die gebruikmaakt van onze neurale ISP om diverse bewerkingen en beeldstijlen te ondersteunen. De tool is zorgvuldig ontworpen om te profiteren van de hoogwaardige rendering van onze neurale ISP en om onbeperkt naderhand bewerkbaar opnieuw renderen mogelijk te maken. Onze methode is een volledig op leren gebaseerd raamwerk met varianten van verschillende capaciteiten, allemaal van bescheiden omvang (variërend van ~0,5 M tot ~3,9 M parameters voor de volledige pijplijn), en levert consistente kwalitatieve en kwantitatieve resultaten op meerdere testdatasets. Bekijk de aanvullende video op: https://youtu.be/ByhQjQSjxVM
Grote taalmodellen (LLM's) blinken uit in generatie, maar dominante autoregressieve (AR) decodering is inherent sequentieel, wat een doorvoerknelpunt creëert. Diffusietaalmodellen (DLM's)—met name blockgewijze varianten—maken parallelle generatie en bidirectioneel redeneren binnen een blok mogelijk, maar het trainen van grote DLM's vanaf nul is kostbaar en verspilt de kennis in volwassen AR-checkpoints. Eerdere "adaptatie"-pogingen passen logits aan of laten aandachtmaskers willekeurig groeien naar volledige-sequentie diffusie, of transplanteren eenvoudigweg AR-gewichten naar een blokdiffusie-recept, waarbij een fundamentele mismatch tussen AR-causaliteit en blockgewijze bidirectionaliteit onopgelost blijft. Wij herformuleren adaptatie als een intra-paradigm pad van AR naar Block-Diffusie door AR te beschouwen als Block-Diffusie met blokgrootte=1. Concreet ontwerpen we het adaptatiepad als volgt: we gebruiken een context-causaal aandachtmasker (causaal in de context, alleen bidirectioneel binnen het actieve blok), een efficiënte parallelle adaptatieprocedure, een aanvullende AR-verliesfunctie om datagebruik te maximaliseren en voorgetrainde kennis te behouden, en een geleidelijke verhoging van de generatieblokgrootte. Het recept integreert naadloos met gemaskeerde blokdiffusie en handhaaft consistentie tussen training en inferentie. Gebaseerd op deze componenten kon NBDiff-7B (Base en Instruct) de modellering van lange context en redeneervermogens erven, en presteert het state-of-the-art onder de 7B-klasse DLM's, met sterke winsten op algemene-kennis-, wiskunde- en codebenchmarks ten opzichte van sterke baseline-modellen. Deze resultaten tonen aan dat principeakige AR-naar-blokdiffusie-adaptatie een effectief en computationeel efficiënt alternatief is voor het vanaf nul trainen van DLM's. Code: https://github.com/YuchuanTian/NBDiff.
Het begrijpen en reconstrueren van de complexe geometrie en beweging van dynamische scènes uit video blijft een formidabele uitdaging in de computer vision. Dit artikel introduceert D4RT, een eenvoudig maar krachtig feedforward-model dat is ontworpen om deze taak efficiënt op te lossen. D4RT gebruikt een uniforme transformer-architectuur om gezamenlijk diepte, spatio-temporele correspondentie en volledige cameraparameters uit een enkele video af te leiden. De kerninnovatie is een nieuw querymechanisme dat de zware berekening van dicht, per-frame decoderen en de complexiteit van het beheren van meerdere, taakspecifieke decoders omzeilt. Onze decodeerinterface stelt het model in staat om onafhankelijk en flexibel de 3D-positie van elk punt in ruimte en tijd te onderzoeken. Het resultaat is een lichtgewicht en zeer schaalbare methode die opmerkelijk efficiënte training en inferentie mogelijk maakt. Wij tonen aan dat onze aanpak een nieuwe state-of-the-art vestigt en eerdere methoden over een breed spectrum van 4D-reconstructietaken overtreft. Voor geanimeerde resultaten verwijzen wij naar de projectwebpagina: https://d4rt-paper.github.io/.
Hoewel recente grootschalige visie-taalmodellen (VLM's) de generalisatie in visie-taalnavigatie (VLN) hebben verbeterd, vertrouwen bestaande methoden typisch op end-to-end pijplijnen die visie-taalinputs direct afbeelden op kortetermijn discrete acties. Dergelijke ontwerpen produceren vaak gefragmenteerde bewegingen, veroorzaken hoge latentie en worstelen met real-world uitdagingen zoals het vermijden van dynamische obstakels. Wij stellen DualVLN voor, het eerste duale-systeem VLN-fundamentmodel dat hoogwaardige redenering synergetisch integreert met laagwaardige actie-uitvoering. Systeem 2, een op VLM gebaseerde globale planner, "groundt langzaam" door middellangetermijn waypoint-doelen te voorspellen via beeld-gestuurde redenering. Systeem 1, een lichtgewicht, multi-modale conditionering Diffusion Transformer policy, "beweegt snel" door zowel expliciete pixeldoelen als latente kenmerken van Systeem 2 te benutten om vloeiende en accurate trajecten te genereren. Het duale-systeem ontwerp maakt robuuste real-time controle en adaptieve lokale besluitvorming mogelijk in complexe, dynamische omgevingen. Door de training te ontkoppelen, behoudt de VLM zijn generalisatievermogen, terwijl Systeem 1 interpreteerbare en effectieve lokale navigatie bereikt. DualVLN overtreft eerdere methoden op alle VLN benchmarks, en real-world experimenten demonstreren robuuste langetermijnplanning en real-time aanpassingsvermogen in dynamische omgevingen.
Foundation agents hebben een snelle vooruitgang geboekt in hun vermogen om te redeneren en te interageren met reële omgevingen, waardoor de evaluatie van hun kerncapaciteiten steeds belangrijker wordt. Hoewel er veel benchmarks zijn ontwikkeld om de prestaties van agents te beoordelen, richten de meeste zich op academische settings of kunstmatig ontworpen scenario's, waarbij de uitdagingen die zich voordoen in echte toepassingen over het hoofd worden gezien. Om dit probleem aan te pakken, richten wij ons op een zeer praktische real-world setting: het e-commercedomein. Dit domein omvat een groot volume aan diverse gebruikersinteracties, dynamische marktomstandigheden en taken die direct verbonden zijn aan echte besluitvormingsprocessen. Daartoe introduceren wij EcomBench, een holistische E-commerce Benchmark die is ontworpen om de prestaties van agents in realistische e-commerceomgevingen te evalueren. EcomBench is opgebouwd vanuit authentieke gebruikersvragen ingebed in toonaangevende wereldwijde e-commerce-ecosystemen en is zorgvuldig samengesteld en geannoteerd door menselijke experts om duidelijkheid, nauwkeurigheid en domeinrelevantie te garanderen. Het bestrijkt meerdere taakcategorieën binnen e-commercescenario's en definieert drie moeilijkheidsgraden die agents evalueren op cruciale capaciteiten zoals diepe informatie-extractie, meerstapsredenering en kruisbronkennisintegratie. Door de evaluatie te verankeren in reële e-commercecontexten, biedt EcomBench een rigoureus en dynamisch testplatform voor het meten van de praktische capaciteiten van agents in moderne e-commerce.
Grote redeneermodellen behalen sterke prestaties op complexe taken door uitgebreide denkketens te genereren, maar ze "overdenken" vaak: ze blijven redeneren lang nadat ze voldoende informatie hebben om correct te antwoorden. Dit verspilt rekentijd tijdens inferentie en kan de nauwkeurigheid schaden. Bestaande pogingen om vroegtijdig te stoppen manipuleren decodering met extra sampling en heuristieken, steunen op hulpverifiëringsmodellen, of werken alleen als post-hoc-analysepijplijnen zonder formele garanties. Wij introduceren LYNX, een online early-exit-mechanisme dat het eigen bewustzijn van een model via verborgen toestanden omzet in stoppbeslissingen met vertrouwenscontrole. LYNX koppelt exitbeslissingen aan natuurlijk voorkomende redeneersignalen (bijv. "hmm", "wacht") tijdens generatie, traint een lichtgewicht probe op verborgen toestanden bij die signaaltokens met supervisie van geforceerde exits, en voorziet de resulterende scores van split conformal prediction om distributievrije controle over voortijdige exits te verkrijgen. Cruciaal is dat we deze probe éénmaal trainen en kalibreren op een generiek wiskundig corpus en deze onveranderd hergebruiken across benchmarks, decodeertemperaturen en zelfs niet-wiskundige taken. Over drie modelfamilies van 1,5B tot 32B parameters levert een enkele wiskundig getrainde probe per basismodel sterke nauwkeurigheid-efficiëntieafwegingen op. Op GSM8K evenaart of verbetert LYNX de basislijnnauwkeurigheid terwijl het aantal tokens met 40–65% wordt verminderd; op MATH-500 verbetert het de nauwkeurigheid met tot 12 punten bij ongeveer 35–60% minder tokens; op AIME 2024 herstelt het de basislijnnauwkeurigheid met meer dan 50% tokenbesparing; en op CommonsenseQA, een niet-wiskundige benchmark, transfert het zero-shot met bescheiden nauwkeurigheidswinst en tot 70% minder tokens. Vergeleken met state-of-the-art early-exit-methoden biedt LYNX concurrerende of superieure Pareto-fronten terwijl het volledig online blijft, geen proxymodellen tijdens inferentie vereist en expliciete, door de gebruiker in te stellen vertrouwensgaranties biedt.
Monoculaire 3D-tracking heeft als doel de langdurige beweging van pixels in 3D-ruimte vast te leggen vanuit een enkele monoculaire video en heeft de afgelopen jaren een snelle vooruitgang geboekt. Wij stellen echter dat bestaande monoculaire 3D-trackingmethoden tekortschieten in het scheiden van camerabeweging van dynamische voorgrondbeweging en niet in staat zijn nieuw opkomende dynamische objecten in de video's dicht te volgen. Om deze twee beperkingen aan te pakken, presenteren wij TrackingWorld, een nieuwe pijplijn voor dichte 3D-tracking van bijna alle pixels binnen een wereldgecentreerd 3D-coördinatenstelsel. Ten eerste introduceren wij een tracking-upsampler die efficiënt willekeurige sparse 2D-tracks omzet in dichte 2D-tracks. Vervolgens passen wij de upsampler toe op alle frames om bestaande trackingmethoden te generaliseren naar nieuw opkomende objecten, en reduceren wij de redundantie van 2D-tracks door tracks in overlappende regio's te elimineren. Tot slot presenteren wij een efficiënt op optimalisatie gebaseerd raamwerk om dichte 2D-tracks terug te projecteren naar wereldgecentreerde 3D-trajecten door de cameraposities en de 3D-coördinaten van deze 2D-tracks te schatten. Uitgebreide evaluaties op zowel synthetische als real-world datasets tonen aan dat ons systeem accurate en dichte 3D-tracking bereikt in een wereldgecentreerd coördinatenstelsel.
Hersentumoren vormen een significante bedreiging voor het menselijk leven, daarom is het van groot belang ze in een vroeg stadium nauwkeurig op te sporen voor een betere diagnose en behandeling. Radiologen kunnen hersentumoren handmatig detecteren aan de hand van MRI-scans van patiënten. Echter, de incidentie van hersentumoren is de laatste jaren gestegen onder kinderen en adolescenten, wat heeft geleid tot een aanzienlijke hoeveelheid data, waardoor handmatige detectie tijdrovend en moeilijk is geworden. Met de opkomst van kunstmatige intelligentie in de moderne wereld en de brede toepassing ervan in het medische veld, kunnen we een benadering ontwikkelen met een CAD-systeem (Computer Aided Diagnosis) voor de automatische vroege detectie van hersentumoren. Alle bestaande modellen voor deze taak zijn niet volledig gegeneraliseerd en presteren slecht op de validatiedata. Daarom hebben wij twee nieuwe deep learning-architecturen voorgesteld: (a) SAETCN (Self-Attention Enhancement Tumor Classification Network) voor de classificatie van verschillende soorten hersentumoren. Wij hebben een nauwkeurigheid van 99,38% bereikt op de validatiedataset, wat het een van de weinige nieuwe op deep learning gebaseerde architecturen maakt die in staat zijn hersentumoren nauwkeurig te detecteren. Wij hebben het model getraind op de dataset, die beelden bevat van 3 soorten tumoren (glioom, meningioom en hypofysetumoren) en niet-tumorgevallen. En (b) SAS-Net (Self-Attentive Segmentation Network) voor de nauwkeurige segmentatie van hersentumoren. Wij hebben een algehele pixelnauwkeurigheid van 99,23% bereikt.
Geheugen-augmented Large Language Models (LLM's) hebben opmerkelijke consistentie getoond tijdens langdurige dialogen door relevante herinneringen op te slaan en als context te gebruiken. Dergelijke op geheugen gebaseerde personalisatie is ook cruciaal in on-device omgevingen die gebruikers in staat stellen hun gesprekken en gegevens privé te houden. Echter, geheugen-augmented systemen zijn typisch afhankelijk van LLM's die te kostbaar zijn voor lokale on-device implementatie. Hoewel Small Language Models (SLM's) geschikter zijn voor on-device inferentie dan LLM's, kunnen zij niet voldoende presteren. Bovendien ontbreekt het deze op LLM gebaseerde systemen aan native visuele capaciteiten, wat hun toepasbaarheid in multimodale contexten beperkt. In dit artikel introduceren we (i) MemLoRA, een nieuw geheugensysteem dat lokale implementatie mogelijk maakt door SLM's uit te rusten met gespecialiseerde geheugenadapters, en (ii) de visuele extensie MemLoRA-V, die kleine Vision-Language Models (SVLM's) integreert in geheugensystemen voor native visueel begrip. Volgens de principes van knowledge distillation wordt elke adapter apart getraind voor specifieke geheugenoperaties: kennisextractie, geheugenupdate en geheugen-augmented generatie. Uitgerust met geheugenadapters stellen kleine modellen accurate on-device geheugenoperaties mogelijk zonder cloudafhankelijkheid. Bij tekstuele operaties presteert MemLoRA beter dan baseline-modellen die 10x groter zijn (bijv. Gemma2-27B) en bereikt het prestaties vergelijkbaar met modellen die 60x groter zijn (bijv. GPT-OSS-120B) op de LoCoMo-benchmark. Om visueel begrip te evalueren, breiden we LoCoMo uit met uitdagende Visual Question Answering-taken die direct visueel redeneren vereisen. Hierop toont onze VLM-geïntegreerde MemLoRA-V enorme verbeteringen ten opzichte van op bijschriften gebaseerde benaderingen (81.3 vs. 23.7 nauwkeurigheid) terwijl sterke prestaties in op tekst gebaseerde taken behouden blijven, wat de effectiviteit van onze methode in multimodale contexten aantoont.
Human Mesh Recovery (HMR) heeft als doel 3D-menselijke poses en vormen te reconstrueren uit 2D-waarnemingen en is fundamenteel voor mensgerichte interpretatie in realistische scenario's. Hoewel recente op afbeeldingen gebaseerde HMR-methoden zoals SAM 3D Body een sterke robuustheid vertonen op beelden uit de praktijk, zijn ze afhankelijk van inference per frame wanneer ze op video's worden toegepast, wat leidt tot temporele inconsistentie en verminderde prestaties bij occlusies. Wij pakken deze problemen aan zonder extra training door gebruik te maken van de inherente menselijke continuïteit in video's. Wij stellen SAM-Body4D voor, een trainingsvrij raamwerk voor temporeel consistente en occlusiebestendige HMR uit video's. We genereren eerst identiteitsconsistente maskers met behulp van een promptbaar videosegmentatiemodel, en verfijnen deze vervolgens met een Occlusion-Aware module om ontbrekende gebieden te herstellen. De verfijnde maskers leiden SAM 3D Body om consistente volledige lichaamsmesh-trajecten te produceren, terwijl een op opvulling gebaseerde parallelle strategie efficiënte multi-menselijke inference mogelijk maakt. Experimentele resultaten tonen aan dat SAM-Body4D verbeterde temporele stabiliteit en robuustheid bereikt in uitdagende video's uit de praktijk, zonder enige hertraining. Onze code en demo zijn beschikbaar op: https://github.com/gaomingqi/sam-body4d.
Snelle, geometrie-generaliserende surrogaten voor niet-stationaire stroming blijven een uitdaging. Wij presenteren een tijdsafhankelijk, geometrie-bewust Deep Operator Network dat snelheidsvelden voorspelt voor stromingen met een matig Reynoldsgetal rond parametrische en niet-parametrische vormen. Het model codeert geometrie via een signed distance field (SDF) trunk en stromingsgeschiedenis via een CNN-tak, getraind op 841 hoogwaardige simulaties. Op uitgesloten vormen behaalt het een relatieve L2-fout van ongeveer 5% voor enkele tijdstappen en snelheidswinsten tot 1000x ten opzichte van CFD. Wij bieden fysica-gerichte rollout-diagnostieken, waaronder fasefout bij probes en divergentienormen, om de nauwkeurigheid op lange termijn te kwantificeren. Deze tonen nauwkeurige kortetermijntransienten aan, maar foutaccumulatie in fijnschalige wakes, het meest uitgesproken bij geometrieën met scherpe hoeken. Wij analyseren faalwijzen en schetsen praktische oplossingen. Code, datasplitsingen en scripts zijn openbaar vrijgegeven op: https://github.com/baskargroup/TimeDependent-DeepONet om reproduceerbaarheid en benchmarking te ondersteunen.
3D Gaussian Splatting (3DGS) is naar voren gekomen als een krachtige expliciete representatie die real-time, hoogwaardige 3D-reconstructie en synthese van nieuwe gezichtspunten mogelijk maakt. Het praktische gebruik ervan wordt echter belemmerd door de enorme geheugen- en rekenvereisten die nodig zijn om miljoenen Gauss-functies op te slaan en weer te geven. Deze uitdagingen worden nog groter in 4D dynamische scènes. Om deze problemen aan te pakken, heeft het vakgebied van Efficient Gaussian Splatting zich snel ontwikkeld, waarbij methoden worden voorgesteld die redundantie verminderen terwijl de reconstructiekwaliteit behouden blijft. Dit overzichtsartikel biedt de eerste verenigde samenvatting van efficiënte 3D- en 4D Gaussian Splatting-technieken. Voor zowel 3D- als 4D-scenario's categoriseren we bestaande methoden systematisch in twee hoofdrichtingen, Parametercompressie en Herschikkingscompressie, en vatten we de kernideeën en methodologische trends binnen elke categorie uitgebreid samen. Verder behandelen we veelgebruikte datasets, evaluatiemetrics en representatieve benchmarkvergelijkingen. Ten slotte bespreken we de huidige beperkingen en schetsen we veelbelovende onderzoeksrichtingen voor schaalbare, compacte en real-time Gaussian Splatting voor zowel statische als dynamische 3D-scène-representatie.
Wij introduceren twee nieuwe benchmarks, REST en REST+ (Render-Equivalence Stress Tests), om een systematische evaluatie van cross-modale inconsistentie in multimodale grote taalmodellen (MLLM's) mogelijk te maken. MLLM's worden getraind om visie en taal in dezelfde embeddingruimte te representeren, maar zij kunnen niet dezelfde taken uitvoeren in beide modaliteiten. Onze benchmarks bevatten voorbeelden met dezelfde semantische informatie in drie modaliteiten (beeld, tekst, gemengd) en wij tonen aan dat state-of-the-art MLLM's niet consistent kunnen redeneren over deze verschillende modaliteiten. Wij evalueren 15 MLLM's en constateren dat de mate van modale inconsistentie aanzienlijk varieert, zelfs wanneer rekening wordt gehouden met problemen met tekstherkenning (OCR). Noch het renderen van tekst als beeld, noch het renderen van een beeld als tekst lost de inconsistentie op. Zelfs als OCR correct is, stellen wij vast dat visuele kenmerken (tekstkleur en resolutie, maar niet lettertype) en het aantal visie-tokens een impact hebben op de modelprestaties. Ten slotte constateren wij dat onze consistentiescore correleert met de modale kloof tussen tekst en beelden, wat een mechanistische interpretatie van cross-modale inconsistente MLLM's benadrukt.
Al tientallen jaren worden procedurele werelden gebouwd op procedurele ruisfuncties zoals Perlin-noise, die snel en oneindig zijn, maar fundamenteel beperkt in realisme en grootschalige coherentie. Wij introduceren Terrain Diffusion, een opvolger uit het AI-tijdperk voor Perlin-noise, die de nauwkeurigheid van diffusiemodellen verbindt met de eigenschappen die procedurele ruis onmisbaar maakten: naadloze oneindige omvang, seed-consistentie en constante-tijd random access. De kern wordt gevormd door InfiniteDiffusion, een nieuw algoritme voor oneindige generatie, dat naadloze, real-time synthese van grenzeloze landschappen mogelijk maakt. Een hiërarchische stapeling van diffusiemodellen koppelt planetaire context aan lokale details, terwijl een compacte Laplaciaanse codering de uitvoer stabiliseert over dynamische berekeningsschalen ter grootte van de Aarde. Een open-source framework voor oneindige tensoren ondersteunt constante-geheugenmanipulatie van onbegrensde tensoren, en consistentiedistillatie in weinig stappen maakt efficiënte generatie mogelijk. Samen vestigen deze componenten diffusiemodellen als een praktische basis voor procedurele wereldgeneratie, in staat om complete planeten coherent, controleerbaar en zonder grenzen te synthetiseren.