Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Geheugen is naar voren gekomen als een kerncapaciteit van op foundation modellen gebaseerde agenten, en zal dit ook blijven. Terwijl onderzoek naar agentgeheugen zich snel uitbreidt en ongekende aandacht trekt, is het vakgebied ook steeds gefragmenteerder geworden. Bestaande werken die onder de noemer van agentgeheugen vallen, verschillen vaak aanzienlijk in hun motivaties, implementaties en evaluatieprotocollen, terwijl de proliferatie van losjes gedefinieerde geheugenterminologieën de conceptuele duidelijkheid verder heeft vertroebeld. Traditionele taxonomieën zoals lang/kortetermijngeheugen blijken onvoldoende om de diversiteit van hedendaagse agentgeheugensystemen te vangen. Dit werk beoogt een actueel landschap van het huidige agentgeheugenonderzoek te bieden. We beginnen met het duidelijk afbakenen van de reikwijdte van agentgeheugen en onderscheiden het van gerelateerde concepten zoals LLM-geheugen, retrieval augmented generation (RAG) en context engineering. Vervolgens onderzoeken we agentgeheugen door de verenigde lenzen van vormen, functies en dynamiek. Vanuit het perspectief van vormen identificeren we drie dominante realisaties van agentgeheugen, namelijk token-level, parametrisch en latent geheugen. Vanuit het perspectief van functies stellen we een fijnmazigere taxonomie voor die onderscheid maakt tussen feitelijk, ervarings- en werkgeheugen. Vanuit het perspectief van dynamiek analyseren we hoe geheugen in de tijd wordt gevormd, evolueert en opgehaald. Om praktische ontwikkeling te ondersteunen, stellen we een uitgebreide samenvatting van geheugenbenchmarks en open-source frameworks samen. Naast consolidatie verwoorden we een vooruitstrevend perspectief op opkomende onderzoeksfronten, waaronder geheugenautomatisering, integratie van reinforcement learning, multimodaal geheugen, multi-agentgeheugen en vertrouwenskwesties. We hopen dat deze survey niet alleen dient als referentie voor bestaand werk, maar ook als een conceptuele basis voor het heroverwegen van geheugen als een first-class primitive in het ontwerp van toekomstige agentieve intelligentie.
Wij introduceren QwenLong-L1.5, een model dat superieure lang-context redeneercapaciteiten bereikt door systematische *post-training* innovaties. De belangrijkste technische doorbraken van QwenLong-L1.5 zijn als volgt: (1) *Long-Context Data Synthesis Pipeline*: Wij ontwikkelen een systematisch synthese-raamwerk dat uitdagende redeneertaken genereert die *multi-hop grounding* vereisen over globaal verspreide informatie. Door documenten te deconstrueren in atomische feiten en hun onderliggende relaties, en vervolgens programmeermatig verifieerbare redeneervragen samen te stellen, creëert onze aanpak hoogwaardige trainingsdata op schaal, wat een aanzienlijke verbetering is ten opzichte van eenvoudige retrievalthandelingen en echte langetermijnredeneercapaciteiten mogelijk maakt. (2) Gestabiliseerde *Reinforcement Learning* voor Lang-Context Training: Om de kritieke instabiliteit in lang-context RL te overwinnen, introduceren wij *task-balanced sampling* met *task-specific advantage estimation* om *reward bias* te mitigeren, en stellen *Adaptive Entropy-Controlled Policy Optimization* (AEPO) voor, dat de *exploration-exploitation trade-offs* dynamisch reguleert. (3) Geheugen-versterkte architectuur voor ultra-lange contexten: Erkennend dat zelfs uitgebreide contextvensters niet willekeurig lange sequenties kunnen accommoderen, ontwikkelen wij een geheugenbeheerraamwerk met *multi-stage fusion RL*-training dat *single-pass* redeneren naadloos integreert met iteratieve, op geheugen gebaseerde verwerking voor taken die 4M *tokens* overschrijden. Gebaseerd op Qwen3-30B-A3B-Thinking, bereikt QwenLong-L1.5 prestaties vergelijkbaar met GPT-5 en Gemini-2.5-Pro op *long-context reasoning benchmarks*, en overtreft zijn *baseline* gemiddeld met 9.90 punten. Op ultra-lange taken (1M~4M *tokens*) levert het geheugen-*agent* raamwerk van QwenLong-L1.5 een winst van 9.48 punten op ten opzichte van de *agent baseline*. Bovendien vertaalt de verworven lang-context redeneervaardigheid zich naar verbeterde prestaties in algemene domeinen zoals wetenschappelijk redeneren, het gebruik van geheugeninstrumenten en uitgebreide dialoog.
De kwaliteit van de latent space in visuele tokenizers (zoals VAEs) is cruciaal voor moderne generatieve modellen. Het standaard op reconstructie gebaseerde trainingsparadigma produceert echter een latent space die bevooroordeeld is naar laag-niveau informatie, wat leidt tot een fundamenteel mankement: betere pixel-nauwkeurigheid leidt niet tot generatie van hogere kwaliteit. Dit impliceert dat het investeren van uitgebreide rekenkracht in de pre-training van visuele tokenizers slecht vertaalt naar verbeterde prestaties in generatie. Wij identificeren dit als het "pre-training schaalprobleem" en bepleiten een noodzakelijke koerswijziging: om effectief te zijn voor generatie, moet een latent space hoog-niveau semantiek bondig representeren. Wij presenteren VTP, een uniform raamwerk voor pre-training van visuele tokenizers, dat pionierwerk verricht door de gezamenlijke optimalisatie van beeld-tekst contrastieve, zelf-gesuperviseerde en reconstructieverliezen. Onze grootschalige studie onthult twee hoofdbevindingen: (1) begrip is een cruciale drijver van generatie, en (2) aanzienlijk betere schaaleigenschappen, waarbij generatieve prestaties effectief schalen met rekenkracht, parameters en data toegewezen aan de pre-training van de visuele tokenizer. Na grootschalige pre-training biedt onze tokenizer een competitief profiel (78.2 zero-shot nauwkeurigheid en 0.36 rFID op ImageNet) en 4.1 keer snellere convergentie bij generatie in vergelijking met geavanceerde distillatiemethoden. Belangrijker nog, hij schaalt effectief: zonder aanpassing van standaard DiT-trainingsspecificaties, bereikt louter het investeren van meer FLOPS in de pre-training van VTP een verbetering van 65.8% in FID voor downstream generatie, terwijl conventionele auto-encoders al zeer vroeg stagneren bij 1/10 van de FLOPS. Onze vooraf getrainde modellen zijn beschikbaar op https://github.com/MiniMax-AI/VTP.
Autoregressieve modellen (ARM's) worden gehinderd door trage sequentiële inferentie. Hoewel gemaskeerde diffusiemodellen (MDM's) een parallel alternatief bieden, kampen ze met kritieke tekortkomingen: een hoge computationele overhead door het uitsluiten van Key-Value (KV)-caching, en incoherente generatie als gevolg van het leren van afhankelijkheden over een onhanteerbare ruimte van tokencombinaties. Om deze beperkingen aan te pakken, introduceren we ReFusion, een nieuw gemaskeerd diffusiemodel dat superieure prestaties en efficiëntie bereikt door parallelle decodering te verheffen van het tokenniveau naar een hoger slotniveau, waarbij elke slot een vaste-lengte, aaneengesloten subreeks is. Dit wordt bereikt via een iteratief "plan-en-invul" decodeproces: een op diffusie gebaseerde planningsstap identificeert eerst een reeks zwak afhankelijke slots, waarna een autoregressieve invulstap deze geselecteerde slots parallel decodeert. Het slot-gebaseerde ontgrendelt tegelijkertijd volledig hergebruik van de KV-cache binnen een uniform causaal framework en reduceert de leercomplexiteit van de ruimte van tokencombinaties naar een hanteerbare ruimte van slotpermutaties. Uitgebreide experimenten op zeven diverse benchmarks tonen aan dat ReFusion niet alleen eerdere MDM's ruimschoots overtreft met 34% prestatieverbetering en een gemiddelde versnelling van meer dan 18 keer, maar ook de prestatiekloof met sterke ARM's overbrugt terwijl het een gemiddelde snelheidswinst van 2.33 keer behoudt.
Het bouwen van videowereldmodellen op basis van vooraf getrainde videogeneratiesystemen vertegenwoordigt een belangrijke maar uitdagende stap richting algemene spatiotemporele intelligentie. Een wereldmodel moet drie essentiële eigenschappen bezitten: bestuurbaarheid, lange-termijn visuele kwaliteit en temporele consistentie. Hiertoe nemen we een progressieve aanpak - eerst verbeteren we de bestuurbaarheid en breiden we daarna uit naar generatie op lange termijn met hoge kwaliteit. We presenteren LongVie 2, een end-to-end autoregressief raamwerk getraind in drie fasen: (1) Multimodale sturing, die dichte en sparse controle-signalen integreert om impliciete wereldniveau-supervisie te bieden en de bestuurbaarheid te verbeteren; (2) Degradatiebewuste training op het invoerframe, die de kloof tussen training en lange-termijn inferie overbrugt om hoge visuele kwaliteit te behouden; en (3) Geschiedeniscontext-sturing, die contextuele informatie over aangrenzende clips uitlijnt om temporele consistentie te waarborgen. We introduceren verder LongVGenBench, een uitgebreide benchmark bestaande uit 100 hoge-resolutie video's van één minuut die diverse real-world en synthetische omgevingen bestrijken. Uitgebreide experimenten tonen aan dat LongVie 2 state-of-the-art prestaties bereikt in lange-afstandsbestuurbaarheid, temporele coherentie en visuele geloofwaardigheid, en ondersteuning biedt voor continue videogeneratie tot wel vijf minuten lang, wat een significante stap markeert richting verenigde videowereldmodellering.
Wij introduceren een financiële en boekhoudkundige benchmark (Finch) voor het evalueren van AI-agenten op realistische, professionele workflows op ondernemingsniveau. Deze workflows combineren gegevensinvoer, structurering, opmaak, webzoekopdrachten, gegevensopvraging tussen bestanden, berekeningen, modellering, validatie, vertaling, visualisatie en rapportage. Finch is samengesteld uit authentieke werkomgevingen van Enron (15.000 spreadsheets en 500.000 e-mails van 150 werknemers) en andere financiële instellingen, waarbij de realistische chaos van multimodale artefacten (tekst, tabellen, formules, grafieken, code en afbeeldingen) behouden blijft. De benchmark bestrijkt diverse domeinen zoals budgeting, handel en vermogensbeheer. Wij stellen een workflowconstructieproces voor dat LLM-ondersteunde ontdekking combineert met expertannotatie: (1) LLM-ondersteunde, door experts geverifieerde afleiding van workflows uit realistische e-maildiscussies en versiegeschiedenissen van spreadsheetbestanden, en (2) nauwgezette expertannotatie voor workflows, wat meer dan 700 uur aan inzet van domeinexperts vereiste. Dit resulteert in 172 samengestelde workflows met 384 taken, waarbij 1.710 spreadsheets met 27 miljoen cellen betrokken zijn, samen met PDF's en andere artefacten. Hiermee wordt de inherente chaos, lange-termijn aard, kennisintensiviteit en collaboratieve karakter van realistische ondernemingswerkzaamheden vastgelegd. Wij voeren zowel menselijke als geautomatiseerde evaluaties uit van vooraanstaande AI-systemen, waaronder GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 en Qwen 3 Max. GPT 5.1 Pro besteedt in totaal 48 uur maar slaagt slechts voor 38,4% van de workflows, terwijl Claude Sonnet 4.5 slechts 25,0% haalt. Uitgebreide casestudies brengen de uitdagingen verder aan het licht die realistische ondernemingsworkflows vormen voor AI-agenten.
Recente vooruitgang in codeeragents suggereert een snelle ontwikkeling richting autonome software-ontwikkeling, maar bestaande benchmarks slagen er niet in om de langetermijncapaciteiten die nodig zijn voor het bouwen van complete softwaresystemen rigoureus te evalueren. De meeste eerdere evaluaties richten zich op gelokaliseerde codegeneratie, gestructureerde voltooiing of kortetermijnreparatietaken, waardoor de vraag onbeantwoord blijft of agents coherent kunnen redeneren, plannen en uitvoeren over de langere termijn die vereist is voor de constructie van echte software repositories. Om deze leemte op te vullen, presenteren wij NL2Repo Bench, een benchmark die expliciet is ontworpen om het vermogen van codeeragents om repositories op de lange termijn te genereren te evalueren. Met alleen een enkel natuurlijktaal-vereistendocument en een lege werkruimte moeten agents autonoom de architectuur ontwerpen, afhankelijkheden beheren, multimodulelogica implementeren en een volledig installeerbare Python-bibliotheek produceren. Onze experimenten met state-of-the-art open-source en closed-source modellen tonen aan dat repository-generatie op de lange termijn grotendeels een onopgelost probleem blijft: zelfs de krachtigste agents halen gemiddelde testslaagpercentages van onder de 40% en voltooien zelden een volledige repository correct. Gedetailleerde analyse onthult fundamentele langetermijnfoutmodi, waaronder voortijdige beëindiging, verlies van globale coherentie, fragiele kruisbestandsafhankelijkheden en ontoereikende planning over honderden interactiestappen. NL2Repo Bench creëert een rigoureuze, verifieerbare testomgeving voor het meten van aanhoudende agentcompetentie en benadrukt langetermijnredenering als een centrale bottleneck voor de volgende generatie autonome codeeragents.
Avatarvideogeneratiemodellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt. Eerdere werkzaamheden vertonen echter beperkte efficiëntie bij het genereren van langdurige video's met hoge resolutie, waarbij ze last hebben van temporele drift, kwaliteitsvermindering en zwakke promptvolging naarmate de videolengte toeneemt. Om deze uitdagingen aan te pakken, stellen we KlingAvatar 2.0 voor, een spatio-temporeel cascadekader dat upscaling uitvoert in zowel ruimtelijke resolutie als temporele dimensie. Het kader genereert eerst laagresolutie blauwdruk-videokeyframes die globale semantiek en beweging vastleggen, en verfijnt deze vervolgens tot hoogresolutie, temporeel samenhangende subclips met behulp van een eerste-laatste-frame-strategie, waarbij soepele temporele overgangen in langere video's behouden blijven. Om cross-modale instructiefusie en -alignering in langere video's te verbeteren, introduceren we een Co-Reasoning Director, bestaande uit drie modality-specifieke large language model (LLM)-experts. Deze experts redeneren over modality-prioriteiten en leiden onderliggende gebruikersintentie af, waarbij ze invoer via meerronde dialogen omzetten in gedetailleerde verhaallijnen. Een Negative Director verfijnt negatieve prompts verder om de instructie-alignering te verbeteren. Voortbouwend op deze componenten breiden we het kader uit om ID-specifieke multi-karaktercontrole te ondersteunen. Uitgebreide experimenten tonen aan dat ons model de uitdagingen van efficiënte, multimodaal uitgelijnde langere hoogresolutie-videogeneratie effectief aanpakt, waarbij het verbeterde visuele helderheid, realistische lip-tandenweergave met accurate lipsynchronisatie, sterke identiteitsbehoud en coherente multimodale instructievolging biedt.
Lineaire aandacht en State Space Models (SSM's) beloven de knelpunten van kwadratische kosten op te lossen in taalmodellen met lange context die softmax-aandacht gebruiken. Wij introduceren Error-Free Linear Attention (EFLA), een numeriek stabiele, volledig parallelle en gegeneraliseerde formulering van de delta-regel. Concreet formuleren we de online-lerende update als een dynamisch systeem in continue tijd en bewijzen we dat de exacte oplossing niet alleen bereikbaar is, maar ook berekenbaar in lineaire tijd met volledige parallellisatie. Door gebruik te maken van de rang-1-structuur van de dynamische matrix, leiden we direct de exacte gesloten-vorm oplossing af die effectief overeenkomt met de Runge-Kutta-methode van oneindige orde. Dit aandachtsmechanisme is theoretisch vrij van foutaccumulatie, vangt de continue dynamiek perfect af en behoudt tegelijk de lineaire tijdscomplexiteit. Via een uitgebreide reeks experimenten tonen we aan dat EFLA robuuste prestaties mogelijk maakt in rumoerige omgevingen, met een lagere perplexiteit voor taalmodellering en superieure prestaties op downstream benchmarks vergeleken met DeltaNet, zonder extra parameters te introduceren. Ons werk legt een nieuwe theoretische basis voor het bouwen van hoogwaardige, schaalbare aandachtsmodellen met lineaire tijdscomplexiteit.
Mentale gezondheidsstoornissen treffen honderden miljoenen mensen wereldwijd, en het internet dient inmiddels als een primair medium voor het verkrijgen van ondersteuning, informatie en beoordeling. Grote taalmodel(len) (LLM's) bieden schaalbare en toegankelijke hulp, maar hun inzet in mentale-gezondheidscontexten blijft riskant wanneer hun redenering onvolledig, inconsistent of ongegrond is. Bestaande psychologische LLM's leggen de nadruk op emotioneel begrip of kennisrecall, maar zien af van de stapsgewijze, klinisch afgestemde redenering die vereist is voor beoordeling, diagnose, interventieplanning, abstractie en verificatie. Om deze problemen aan te pakken, introduceren wij MentraSuite, een uniform raamwerk voor het bevorderen van betrouwbare mentale-gezondheidsredenering. Wij stellen MentraBench voor, een uitgebreide benchmark die vijf kernredeneeraspecten, zes taken en 13 datasets omvat, en die zowel taakprestaties als redeneerkwaliteit evalueert langs vijf dimensies: beknoptheid, samenhang, het vermijden van hallucinaties, taakbegrip en interne consistentie. Verder presenteren wij Mindora, een post-getraind model geoptimaliseerd via een hybride SFT-RL-raamwerk met een beloning voor inconsistentiedetectie om getrouwe en samenhangende redenering af te dwingen. Ter ondersteuning van de training construeren wij hoogwaardige trajecten met behulp van een nieuwe strategie voor het genereren van redeneertrajecten, die strategisch moeilijke samples filtert en een gestructureerd, op consistentie gericht herschrijfproces toepast om beknopte, leesbare en evenwichtige trajecten te produceren. Van de 20 geëvalueerde LLM's behaalt Mindora de hoogste gemiddelde prestatie op MentraBench en toont opmerkelijke prestaties op het gebied van redeneerbetrouwbaarheid, wat de effectiviteit ervan voor complexe mentale-gezondheidsscenario's aantoont.
De BEHAVIOR Challenge 2025 is ontworpen om de vooruitgang in het oplossen van langetermijntaken door fysieke agentschappen in gesimuleerde omgevingen rigoureus te volgen. BEHAVIOR-1K richt zich op alledaagse huishoudelijke taken waarbij mensen het meest willen dat robots assisteren. Deze taken introduceren langetermijnuitdagingen op het gebied van mobiele manipulatie in realistische omgevingen, waardoor de kloof tussen huidig onderzoek en realistische, mensgerichte toepassingen wordt overbrugd. Dit rapport presenteert onze oplossing voor de BEHAVIOR Challenge 2025, die een zeer nipte tweede plaats behaalde en de overige inzendingen aanzienlijk overtrof. Voortbouwend op π_{0.5} richten we ons op het systematisch opbouwen van onze oplossing door de effecten van trainings-technieken en data te bestuderen. Door zorgvuldige ablatiestudies tonen we de schaalbaarheid in de pre-trainings- en post-trainingsfasen aan voor competitieve prestaties. We vatten onze praktijklessen en ontwerp-aanbevelingen samen, waarvan we hopen dat ze bruikbare inzichten zullen bieden voor de bredere embodied AI-gemeenschap bij het aanpassen van krachtige foundation-modellen aan complexe embodied scenario's.
Vision-Language-Action (VLA)-modellen bieden een veelbelovend paradigma voor robotleren door visuele perceptie te integreren met taalgestuurd beleidsleren. De meeste bestaande benaderingen vertrouwen echter op 2D-visuele invoer om acties in 3D-fysieke omgevingen uit te voeren, wat een significante kloof creëert tussen perceptie en de verankering van acties. Om deze kloof te overbruggen, stellen we een Spatial-Aware VLA Pretraining-paradigma voor dat expliciete alignering uitvoert tussen de visuele ruimte en de fysieke ruimte tijdens de voorafgaande training, waardoor modellen 3D-ruimtelijk begrip kunnen verwerven vóór het robotbeleidsleren. Uitgaande van voorgetrainde vision-language-modellen, benutten we grootschalige menselijke demonstratievideo's om 3D-visuele en 3D-actieannotaties te extraheren, waardoor een nieuwe bron van supervisie ontstaat die 2D-visuele observaties aligneert met 3D-ruimtelijk redeneren. We concretiseren dit paradigma met VIPA-VLA, een dubbele-encoderarchitectuur die een 3D-visuele encoder incorporeert om semantische visuele representaties aan te vullen met 3D-bewuste kenmerken. Na aanpassing aan downstream-robottaken bereikt VIPA-VLA een aanzienlijk verbeterde verankering tussen 2D-visie en 3D-actie, wat resulteert in robuustere en beter generaliseerbare robotbeleidsregels.
Op LLM gebaseerde agents werken vaak op een gretige, stapsgewijze manier, waarbij acties uitsluitend worden geselecteerd op basis van de huidige observatie zonder rekening te houden met langetermijngevolgen of alternatieve paden. Dit gebrek aan vooruitziendheid is vooral problematisch in webomgevingen, die slechts gedeeltelijk observeerbaar zijn - beperkt tot browser-zichtbare inhoud (bijv. DOM- en UI-elementen) - waarbij een enkele misstap vaak complexe en broze navigatie vereist om ongedaan te maken. Zonder een expliciet backtracking-mechanisme hebben agents moeite om fouten te corrigeren of alternatieve paden systematisch te verkennen. Boomzoekmethoden bieden een principieel kader voor dergelijke gestructureerde exploratie, maar bestaande benaderingen missen mechanismen voor veilige backtracking, waardoor ze vatbaar zijn voor onbedoelde neveneffecten. Ze veronderstellen ook dat alle acties omkeerbaar zijn, waarbij ze de aanwezigheid van onomkeerbare acties negeren - beperkingen die hun effectiviteit in realistische webtaken verminderen. Om deze uitdagingen aan te pakken, introduceren we WebOperator, een boomzoekraamwerk dat betrouwbare backtracking en strategische exploratie mogelijk maakt. Onze methode integreert een best-first zoekstrategie die acties rangschikt op basis van zowel beloningsschattingen als veiligheidsoverwegingen, samen met een robuust backtracking-mechanisme dat de haalbaarheid van eerder bezochte paden verifieert voordat ze worden afgespeeld, om onbedoelde neveneffecten te voorkomen. Om de exploratie verder te sturen, genereert WebOperator actiekandidaten vanuit meerdere, gevarieerde redeneercontexten om diverse en robuuste verkenning te waarborgen, en kurateert vervolgens een hoogwaardige actieset door ongeldige acties vooraf uit te filteren en semantisch equivalente acties samen te voegen. Experimentele resultaten op WebArena en WebVoyager demonstreren de effectiviteit van WebOperator. Op WebArena behaalt WebOperator een state-of-the-art slagingspercentage van 54,6% met gpt-4o, wat het kritieke voordeel onderstreept van het integreren van strategische vooruitziendheid met veilige uitvoering.
Wij introduceren Interactieve Intelligentie, een nieuw paradigma voor digitale mensen dat in staat is tot persoonlijkheidsgebonden expressie, adaptieve interactie en zelf-evolutie. Om dit te realiseren, presenteren wij Mio (Multimodale Interactieve Omni-Avatar), een end-to-end raamwerk bestaande uit vijf gespecialiseerde modules: Denker, Spreker, Gezichtsanimator, Lichaamsanimator en Renderer. Deze verenigde architectuur integreert cognitieve redenering met real-time multimodale belichaming om vloeiende, consistente interactie mogelijk te maken. Verder stellen wij een nieuwe benchmark in om de capaciteiten van interactieve intelligentie rigoureus te evalueren. Uitgebreide experimenten tonen aan dat ons raamwerk superieure prestaties bereikt in vergelijking met state-of-the-art methoden op alle geëvalueerde dimensies. Gezamenlijk brengen deze bijdragen digitale mensen voorbij oppervlakkige imitatie naar intelligente interactie.
Hoewel multimodale grote taalmodellen (MLLM's) sterke capaciteiten hebben getoond in diverse domeinen, blijft hun toepassing voor het genereren van fijnmazige 3D-perceptie- en voorspellingsuitvoer in autonoom rijden onderbelicht. In dit artikel stellen we DrivePI voor, een nieuw ruimtelijk bewuste 4D MLLM dat fungeert als een uniform Vision-Language-Action (VLA) raamwerk dat ook compatibel is met vision-action (VA) modellen. Onze methode voert gelijktijdig ruimtelijk begrip, 3D-perceptie (d.w.z. 3D-occupancy), voorspelling (d.w.z. occupancy flow) en planning (d.w.z. actie-uitvoer) uit via end-to-end optimalisatie. Om zowel precieze geometrische informatie als rijke visuele weergave te verkrijgen, integreert onze aanpak puntenwolken, multi-view beelden en taal-instructies binnen een uniforme MLLM-architectuur. We ontwikkelen verder een data-engine om tekst-occupancy en tekst-flow vraag-antwoordparen te genereren voor 4D ruimtelijk begrip. Opmerkelijk is dat DrivePI, met slechts een 0.5B Qwen2.5-model als MLLM-backbone, als één enkel uniform model presteert op het niveau van of beter is dan zowel bestaande VLA-modellen als gespecialiseerde VA-modellen. Specifiek presteert DrivePI, vergeleken met VLA-modellen, 2.5% beter in gemiddelde nauwkeurigheid op nuScenes-QA dan OpenDriveVLA-7B en reduceert het de botsingsratio met 70% ten opzichte van ORION (van 0.37% naar 0.11%) op nuScenes. Ten opzichte van gespecialiseerde VA-modellen overtreft DrivePI FB-OCC met 10.3 RayIoU voor 3D-occupancy op OpenOcc, reduceert het de mAVE van 0.591 naar 0.509 voor occupancy flow op OpenOcc, en behaalt het 32% lagere L2-fout dan VAD (van 0.72m naar 0.49m) voor planning op nuScenes. Code zal beschikbaar zijn op https://github.com/happinesslz/DrivePI.
Vision Language Models (VLMs) blinken uit in visueel vraag-antwoord (VQA), maar blijven beperkt tot momentopname-visie: ze redeneren vanuit statische beelden. Daarentegen vereisen belichaamde agenten ambulante visie; zij bewegen zich actief om informatievere gezichtspunten te verkrijgen. Wij introduceren Visually Grounded Active View Selection (VG-AVS), een taak die het meest informatieve volgende gezichtspunt selecteert uitsluitend op basis van de visuele informatie in de huidige afbeelding, zonder afhankelijk te zijn van scènegeheugen of externe kennis. Om deze taak te ondersteunen, construeren we een synthetische dataset met automatisch gegenereerde gepaarde query-doelbeelden en vraag-antwoordprompts. Wij stellen ook een raamwerk voor dat vooraf getrainde VLMs afstemt door middel van supervised fine-tuning (SFT), gevolgd door RL-gebaseerde beleidsoptimalisatie. Onze aanpak bereikt een sterke vraag-antwoordprestatie op basis van gezichtspuntselectie en generaliseert robuust naar onbekende synthetische en echte scènes. Bovendien verbetert de integratie van ons geleerde VG-AVS-raamwerk in bestaande EQA-systemen op basis van scèneverkenning de nauwkeurigheid van downstream vraag-antwoordtaken.
Hoewel veel vision-language modellen (VLM's) worden ontwikkeld om goed gedefinieerde, recht-toe-recht-aan vragen met zeer specifieke doelen te beantwoorden, zoals in de meeste benchmarks, hebben ze in de praktijk vaak moeite met complexe open-eind taken. Deze vereisen meestal meerdere rondes van verkenning en redenering in de visuele ruimte. Dergelijke visuele denkpaden bieden niet alleen stapsgewijze verkenning en verificatie als een AI-detective, maar leveren ook betere interpretaties van de uiteindelijke antwoorden op. Deze paden zijn echter moeilijk te evalueren vanwege de grote verkeningsruimte van tussenstappen. Om deze kloof te overbruggen, ontwikkelen we een evaluatiesuite, ``Visual Reasoning with multi-step EXploration (V-REX)'', die bestaat uit een benchmark van uitdagende visuele redeneertaken die inherente meerstapsverkenning vereisen, en een evaluatieprotocol. V-REX bestrijkt rijke toepassingsscenario's in diverse domeinen. V-REX vertaalt het meerstaps verkennende redeneren naar een Keten-van-Vragen (Chain-of-Questions, CoQ) en ontrafelt het vermogen van VLM's om (1) te Plannen: een open-eind taak op te delen door een keten van verkennende vragen te selecteren; en (2) te Volgen: een samengestelde CoQ sequentieel te beantwoorden om informatie te verzamelen voor het afleiden van het eindantwoord. Door per stap een beperkte set van vragen en antwoorden te cureren, bereikt V-REX een betrouwbare kwantitatieve en fijnmazige analyse van de tussenstappen. Door state-of-the-art propriëtaire en open-source VLM's te beoordelen, tonen we consistente schaalverbanden, significante verschillen tussen plannings- en volgvaardigheden, en een aanzienlijke verbeteringsruimte voor meerstaps verkennend redeneren aan.
Diffusiemodellen kunnen onbedoeld trainingsvoorbeelden reproduceren, wat privacy- en auteursrechtelijke zorgen oproept nu deze systemen steeds vaker op grote schaal worden ingezet. Bestaande mitigatiemethoden tijdens de inferentiefase manipuleren doorgaans classifier-free guidance (CFG) of verstoren prompt-embeddings; echter, ze slagen er vaak niet in om memorisatie te verminderen zonder de afstemming met de conditionerende prompt aan te tasten. Wij introduceren CAPTAIN, een trainingsvrij raamwerk dat memorisatie vermindert door direct latente kenmerken aan te passen tijdens de denoisingsstap. CAPTAIN past eerst op frequentie gebaseerde ruisinitialisatie toe om de neiging om gememoriseerde patronen na te bootsen vroeg in het denoisingsproces te verminderen. Vervolgens identificeert het de optimale denoising-tijdstappen voor kenmerkinjectie en lokaliseert het gememoriseerde regio's. Ten slotte injecteert CAPTAIN semantisch afgestemde kenmerken uit niet-gememoriseerde referentiebeelden in gelokaliseerde latente regio's, waardoor memorisatie wordt onderdrukt terwijl de prompttrouw en visuele kwaliteit behouden blijven. Onze experimenten tonen aan dat CAPTAIN een aanzienlijke vermindering van memorisatie bereikt in vergelijking met op CFG gebaseerde baseline-methoden, waarbij tevens een sterke afstemming met de beoogde prompt behouden blijft.
Vision-Language-Action (VLA)-modellen hebben opmerkelijke capaciteiten getoond in het generaliseren over diverse robotmanipulatietaken. De inzet van deze modellen in ongestructureerde omgevingen blijft echter een uitdaging, vanwege de kritische noodzaak voor gelijktijdige taaknaleving en veiligheidsborging, met name bij het voorkomen van mogelijke botsingen tijdens fysieke interacties. In dit werk introduceren we een Vision-Language-Safe Action (VLSA)-architectuur, genaamd AEGIS, die een plug-and-play veiligheidsbeperkingslaag (SC-laag) bevat, geformuleerd via control barrier functions. AEGIS integreert rechtstreeks met bestaande VLA-modellen om de veiligheid met theoretische garanties te verbeteren, terwijl de oorspronkelijke prestaties voor instructie-opvolging behouden blijven. Om de doeltreffendheid van onze architectuur te evalueren, construeren we een uitgebreide veiligheidskritieke benchmark, SafeLIBERO, die verschillende manipulatiescenario's omvat die gekenmerkt worden door variërende niveaus van ruimtelijke complexiteit en obstakelinterventie. Uitgebreide experimenten tonen de superioriteit van onze methode aan ten opzichte van state-of-the-art baseline-methoden. Opmerkelijk is dat AEGIS een verbetering van 59,16% bereikt in het vermijden van obstakels, terwijl het slagingspercentage van de taakuitvoering tegelijkertijd aanzienlijk met 17,25% toeneemt. Om reproduceerbaarheid en toekomstig onderzoek te vergemakkelijken, stellen we onze code, modellen en de benchmarkdatasets openbaar beschikbaar op https://vlsa-aegis.github.io/.
Representatie-uitlijning (REPA) stuurt generatieve training door representaties te destilleren van een sterke, vooraf getrainde visie-encoder naar tussenliggende diffusiekenmerken. Wij onderzoeken een fundamentele vraag: welk aspect van de doelrepresentatie van belang is voor generatie, de globale semantische informatie (bijvoorbeeld gemeten door ImageNet-1K nauwkeurigheid) of de ruimtelijke structuur (d.w.z. paarsgewijze cosinusgelijkenis tussen patchtokens)? De heersende opvatting is dat een sterkere globale semantische prestatie leidt tot betere generatie als doelrepresentatie. Om dit te bestuderen, voeren we eerst een grootschalige empirische analyse uit over 27 verschillende visie-encoders en verschillende modelschalen. De resultaten zijn verrassend; de ruimtelijke structuur, en niet de globale prestatie, drijft de generatieprestatie van een doelrepresentatie. Om dit verder te onderzoeken, introduceren we twee eenvoudige aanpassingen die specifiek de overdracht van ruimtelijke informatie benadrukken. We vervangen de standaard MLP-projectielaag in REPA door een eenvoudige convolutielaag en introduceren een ruimtelijke normalisatielaag voor de externe representatie. Verrassend genoeg verbetert onze eenvoudige methode (geïmplementeerd in <4 regels code), genaamd iREPA, consistent de convergentiesnelheid van REPA, over een diverse reeks visie-encoders, modelgroottes en trainingsvarianten (zoals REPA, REPA-E, Meanflow, JiT, etc.). Ons werk motiveert een herevaluatie van het fundamentele werkingsmechanisme van representatie-uitlijning en hoe deze kan worden benut voor verbeterde training van generatieve modellen. De code en projectpagina zijn beschikbaar op https://end2end-diffusion.github.io/irepa.
Hoewel effectieve naf-training Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) integreert, blijft het optimale mechanisme voor het benutten van expert-trajecten onopgelost. Wij stellen het Plasticiteit-Plafond Raamwerk voor om dit landschap te theoretiseren, waarbij we prestatie opdelen in fundamentele SFT-prestatie en de daaropvolgende RL-plasticiteit. Door middel van uitgebreide benchmarking vestigen we de sequentiële SFT-dan-RL pijplijn als de superieure standaard, die de stabiliteitstekorten van gesynchroniseerde aanpakken overwint. Verleiden wij precisie-schalingsrichtlijnen af: (1) De overgang naar RL tijdens de SFT Stabiele of Milde Overfitting Sub-fase maximaliseert het uiteindelijke plafond door de fundamentele SFT-prestatie veilig te stellen zonder de RL-plasticiteit aan te tasten; (2) Terwijl wij de stelling "Minder is Meer" weerleggen in de context van SFT-dan-RL schaling, tonen wij aan dat Data Schaal het primaire naf-trainingspotentieel bepaalt, terwijl Traject Moeilijkheidsgraad als een prestatiemultiplicator fungeert; en (3) Wij identificeren dat het Minimum SFT Validatieverlies dient als een robuuste indicator voor het selecteren van de expert-trajecten die het uiteindelijke prestatieplafond maximaliseren. Onze bevindingen bieden praktische richtlijnen om de waarde uit expert-trajecten te maximaliseren.
Het trage inferentieproces van beelddiffusiemodellen verslechtert de interactieve gebruikerservaring aanzienlijk. Om dit aan te pakken, introduceren we Diffusion Preview, een nieuwe paradigma dat gebruikmaakt van snelle, low-step sampling om voorlopige resultaten te genereren voor gebruikersevaluatie, waarbij de verfijning met volledige stappen wordt uitgesteld tot de preview als bevredigend wordt beoordeeld. Bestaande versnellingsmethoden, waaronder training-free solvers en post-training distillatie, slagen er niet in hoogwaardige previews te leveren of consistentie tussen previews en finale outputs te garanderen. Wij stellen ConsistencySolver voor, afgeleid van algemene lineaire multistap-methoden, een lichtgewicht, trainbare high-order solver geoptimaliseerd via Reinforcement Learning, die de preview-kwaliteit en consistentie verbetert. Experimentele resultaten tonen aan dat ConsistencySolver de generatiekwaliteit en consistentie in low-step scenario's aanzienlijk verbetert, waardoor het ideaal is voor efficiënte preview-and-refine workflows. Opmerkelijk is dat het FID-scores bereikt die vergelijkbaar zijn met Multistep DPM-Solver met 47% minder stappen, terwijl het distillatie-baselines overtreft. Bovendien tonen gebruikersstudies aan dat onze aanpak de totale gebruikersinteractietijd met bijna 50% vermindert, terwijl de generatiekwaliteit behouden blijft. Code is beschikbaar op https://github.com/G-U-N/consolver.
Een natuurkundig bewust wereldmodel voor autorijden is essentieel voor rijplanning, synthese van out-of-distribution gegevens en gesloten-lus evaluatie. Bestaande methoden zijn echter vaak afhankelijk van een enkel diffusiemodel om rijacties direct naar video's af te beelden, wat het leerproces bemoeilijkt en leidt tot fysiek inconsistente uitkomsten. Om deze uitdagingen te overwinnen, stellen we GenieDrive voor, een nieuw raamwerk ontworpen voor natuurkundig bewuste generatie van rijvideo's. Onze aanpak begint met het genereren van 4D-occupancy, dat dient als een natuurkundig onderbouwde basis voor de daaropvolgende videogeneratie. 4D-occupancy bevat rijke fysieke informatie, waaronder hoogresolutie 3D-structuren en dynamiek. Om een effectieve compressie van dergelijke hoogresolutie occupancy te vergemakkelijken, stellen we een VAE voor die occupancy codeert in een latente tri-plane representatie, waardoor de latente grootte wordt teruggebracht tot slechts 58% van die in eerdere methoden. We introduceren verder Mutual Control Attention (MCA) om de invloed van controle op de occupancy-evolutie nauwkeurig te modelleren, en we trainen de VAE en de daaropvolgende voorspellingsmodule gezamenlijk end-to-end om de voorspellingsnauwkeurigheid te maximaliseren. Gezamenlijk leveren deze ontwerpen een verbetering van 7,2% in voorspellings-mIoU op bij een inferentiesnelheid van 41 FPS, terwijl slechts 3,47 M parameters worden gebruikt. Daarnaast wordt een Genormaliseerde Multi-View Attention geïntroduceerd in het videogeneratiemodel om multi-view rijvideo's te genereren met begeleiding van onze 4D-occupancy, wat de videokwaliteit aanzienlijk verbetert met een reductie van 20,7% in FVD. Experimenten tonen aan dat GenieDrive hoogst stuurbare, multi-view consistente en natuurkundig bewuste generatie van rijvideo's mogelijk maakt.
Het overmatig afstemmen van beeldgeneratiemodellen op een gegeneraliseerde esthetische voorkeur botst met de gebruikersintentie, vooral wanneer "anti-esthetische" uitkomsten worden gevraagd voor artistieke of kritische doeleinden. Deze afstemming geeft voorrang aan ontwikkelaarsgerichte waarden, ten koste van gebruikersautonomie en esthetisch pluralisme. Wij testen deze bias door een breedspectrum-estheticadataset te construeren en state-of-the-art generatie- en beloningsmodellen te evalueren. Wij constateren dat esthetisch afgestemde generatiemodellen vaak terugvallen op conventioneel mooie uitkomsten, waarbij instructies voor laagkwalitatieve of negatieve beelden niet worden gerespecteerd. Cruciaal is dat beloningsmodellen anti-esthetische beelden bestraffen, zelfs wanneer deze perfect aansluiten bij de expliciete gebruikersprompt. Wij bevestigen deze systemische bias door beeld-naar-beeld-bewerking en evaluatie tegenover echte abstracte kunstwerken.
Moderne neurale architecturen voor 3D-puntenwolkverwerking bevatten zowel convolutionele lagen als attention-blokken, maar de beste manier om deze te combineren blijft onduidelijk. Wij analyseren de rol van verschillende computationele blokken in 3D-puntenwolknetwerken en vinden een intuïtief gedrag: convolutie is geschikt voor het extraheren van low-level geometrie op hoge resolutie in vroege lagen, waar attention duur is zonder voordelen te bieden; attention vangt high-level semantiek en context op lage resolutie in diepe lagen efficiënter. Geleid door dit ontwerpprincipe stellen we een nieuwe, verbeterde 3D-puntenwolk-backbone voor die convoluties gebruikt in vroege fasen en overschakelt naar attention voor diepere lagen. Om het verlies van ruimtelijke lay-outinformatie bij het verwijderen van overbodige convolutionele lagen te voorkomen, introduceren we een nieuwe, trainingsvrije 3D-positionele codering, PointROPE. Het resulterende LitePT-model heeft 3,6 keer minder parameters, werkt 2 keer sneller en gebruikt 2 keer minder geheugen dan de state-of-the-art Point Transformer V3, maar evenaart of overtreft deze desalniettemin in een reeks taken en datasets. Code en modellen zijn beschikbaar op: https://github.com/prs-eth/LitePT.
Diffusiedistillatie heeft klassengeconditioneerde beeldvorming aanzienlijk versneld, maar de toepasbaarheid ervan op open-ended tekst-naar-beeld (T2I) generatie is nog onduidelijk. Wij presenteren de eerste systematische studie die state-of-the-art distillatietechnieken aanpast en vergelijkt op een sterk T2I-leraarmodel, FLUX.1-lite. Door bestaande methoden in een uniform raamwerk te plaatsen, identificeren we de belangrijkste obstakels die ontstaan bij de overgang van discrete klasselabels naar vrije taalprompts. Naast een grondige methodologische analyse bieden we praktische richtlijnen voor input-schaling, netwerkarchitectuur en hyperparameters, vergezeld van een open-source implementatie en voorgetrainde studentmodellen. Onze bevindingen leggen een solide basis voor de inzet van snelle, hoogwaardige en resource-efficiënte diffusiegeneratoren in real-world T2I-toepassingen. Code is beschikbaar op github.com/alibaba-damo-academy/T2I-Distill.
Muziek-naar-Video (M2V)-generatie voor volledige nummers kampt met aanzienlijke uitdagingen. Bestaande methodes produceren korte, onsamenhangende clips, slagen er niet in visuele elementen af te stemmen op de muziekstructuur, beats of songteksten, en missen temporele consistentie. Wij stellen AutoMV voor, een multi-agent systeem dat direct vanuit een nummer volledige muziekvideo's (MV's) genereert. AutoMV past eerst muziekverwerkingstools toe om muzikale attributen zoals structuur, vocalen en tijdelijk uitgelijnde songteksten te extraheren, en construeert deze kenmerken als contextuele invoer voor volgende agents. Het Scenario-agent en Regisseur-agent gebruiken deze informatie vervolgens om een kort script te ontwerpen, personageprofielen in een gedeelde externe bank te definiëren en camerainstructies te specificeren. Vervolgens roepen deze agents de beeldgenerator aan voor keyframes en verschillende videogeneratoren voor "verhaal"- of "zanger"-scènes. Een Verificateur-agent evalueert hun output, wat multi-agent samenwerking mogelijk maakt om een coherente lange video te produceren. Om M2V-generatie te evalueren, stellen we verder een benchmark voor met vier hoog-niveau categorieën (Muziekinhoud, Technisch, Post-productie, Kunst) en twaalf fijnmazige criteria. Deze benchmark werd toegepast om commerciële producten, AutoMV en door mensen geregisseerde MV's te vergelijken met expert-beoordelaars: AutoMV presteert significant beter dan de huidige baseline-methodes in alle vier de categorieën en verkleint de kloof met professionele MV's. Ten slotte onderzoeken we het gebruik van grote multimodale modellen als automatische MV-beoordelaars; hoewel veelbelovend, blijven ze achter bij menselijke experts, wat ruimte voor toekomstig werk aangeeft.
Visuele tokenizers spelen een cruciale rol in diffusiemodellen. De dimensionaliteit van de latente ruimte bepaalt zowel de reconstructienauwkeurigheid als de semantische expressiviteit van het latente kenmerk. Er bestaat echter een fundamentele afweging tussen dimensionaliteit en generatiekwaliteit, waardoor bestaande methoden beperkt blijven tot latente ruimtes met lage dimensionaliteit. Hoewel recente werken vision foundation-modellen hebben benut om de semantiek van visuele tokenizers te verrijken en de convergentie te versnellen, presteren hoogdimensionale tokenizers nog steeds minder goed dan hun laagdimensionale tegenhangers. In dit werk stellen we RecTok voor, dat de beperkingen van hoogdimensionale visuele tokenizers overwint door twee belangrijke innovaties: flow semantische distillatie en reconstructie-uitlijningsdistillatie. Onze belangrijkste inzicht is om de voorwaartse flow in flow matching semantisch rijk te maken, wat dient als de trainingsruimte voor diffusietransformers, in plaats van te focussen op de latente ruimte zoals in eerdere werken. Concreet distilleert onze methode de semantische informatie in VFM's naar de voorwaartse flowtrajecten in flow matching. Versterken we de semantiek verder door een gemaskeerd kenmerkreconstructieverlies te introduceren. Onze RecTok bereikt superieure beeldreconstructie, generatiekwaliteit en onderscheidend vermogen. Het behaalt state-of-the-art resultaten op de gFID-50K met zowel mét als zonder classifier-free guidance, waarbij een semantisch rijke latente ruimtestructuur behouden blijft. Bovendien observeren we consistente verbeteringen naarmate de latente dimensionaliteit toeneemt. Code en model zijn beschikbaar op https://shi-qingyu.github.io/rectok.github.io.
Grote Taalmodellen (GTM's) kunnen redeneertokens genereren vóór hun definitieve antwoord om de prestaties op complexe taken te verbeteren. Hoewel deze sequenties op menselijke denkprocessen lijken, tonen empirische bevindingen aan dat ze geen getrouwe weergave zijn van het werkelijke redeneerproces van het model. Om deze kloof tussen schijn en functie te overbruggen, introduceren we het conceptuele kader 'State over Tokens' (SoT). SoT herdefinieert redeneertokens niet als een linguïstisch narratief, maar als een geëxternaliseerde computationele staat – de enige persistente informatiedrager tussen de staatloze generatiecycli van het model. Dit verklaart hoe de tokens correct redeneren kunnen aandrijven zonder, wanneer ze als tekst worden gelezen, een getrouwe verklaring te vormen, en brengt voorheen over het hoofd geziene onderzoeksvragen over deze tokens aan het licht. Wij beargumenteren dat onderzoek, om het proces dat GTM's doorlopen werkelijk te begrijpen, verder moet kijken dan het lezen van redeneertokens als tekst en zich moet richten op het decoderen ervan als staat.
Generalisatie blijft de centrale uitdaging voor interactieve 3D-scènegeneratie. Bestaande op leren gebaseerde methoden grondvesten ruimtelijk begrip op beperkte scènedatasets, wat generalisatie naar nieuwe indelingen beperkt. Wij herprogrammeren in plaats daarvan een vooraf getrainde 3D-instantiegenerator om te fungeren als een leerling op scèneniveau, waarbij datasetgebonden supervisie wordt vervangen door modelgecentreerde ruimtelijke supervisie. Deze herprogrammering ontsluit de overdraagbare ruimtelijke kennis van de generator, waardoor generalisatie naar onzichtbare indelingen en nieuwe objectcomposities mogelijk wordt. Opmerkelijk genoeg ontstaat ruimtelijk redeneren zelfs wanneer de trainingsscènes uit willekeurig samengestelde objecten bestaan. Dit toont aan dat het overdraagbare scène-prior van de generator een rijke leersignaal biedt voor het afleiden van nabijheid, ondersteuning en symmetrie uit puur geometrische aanwijzingen. Als vervanging van de veelgebruikte canonieke ruimte, concretiseren we dit inzicht met een view-gecentreerde formulering van de scèneruimte, wat resulteert in een volledig feed-forward, generaliseerbare scènegenerator die ruimtelijke relaties direct leert vanuit het instantiemodel. Kwantitatieve en kwalitatieve resultaten tonen aan dat een 3D-instantiegenerator een impliciete ruimtelijke leerling en redeneerder is, wat wijst op foundation-modellen voor interactief 3D-scènebegrip en -generatie. Projectpagina: https://luling06.github.io/I-Scene-project/
Wij presenteren Flowception, een nieuw niet-autoregressief raamwerk voor videogeneratie met variabele lengte. Flowception leert een waarschijnlijkheidspad dat discrete frame-invoegingen verweeft met continue frame-denoising. In vergelijking met autoregressieve methoden vermindert Flowception foutaccumulatie/drift, doordat het frame-invoegmechanisme tijdens de bemonstering dient als een efficiënt compressiemechanisme voor het verwerken van context op lange termijn. Vergeleken met full-sequence flows reduceert onze methode de FLOPs voor training met een factor drie, is zij tegelijkertijd beter geschikt voor varianten met lokale aandacht, en maakt zij het mogelijk de lengte van video's gezamenlijk met hun inhoud te leren. Kwantitatieve experimentele resultaten tonen verbeterde FVD- en VBench-metrics ten opzichte van autoregressieve en full-sequence baseline-methoden, wat verder wordt bevestigd door kwalitatieve resultaten. Ten slotte integreert Flowception, door het leren invoegen en denoisen van frames in een sequentie, naadloos verschillende taken zoals beeld-naar-videogeneratie en video-interpolatie.
Bewegingsbegrip is fundamenteel voor fysiek redeneren, omdat het modellen in staat stelt dynamiek af te leiden en toekomstige toestanden te voorspellen. State-of-the-art modellen presteren echter nog steeds ondermaats op recente bewegingsbenchmarks, voornamelijk door een gebrek aan grootschalige, fijnmazige bewegingsdatasets. Bestaande bewegingsdatasets worden vaak samengesteld via kostbare handmatige annotatie, wat de schaalbaarheid ernstig beperkt. Om deze uitdaging aan te pakken, introduceren wij FoundationMotion, een volledig geautomatiseerde pijplijn voor datacuratie die grootschalige bewegingsdatasets construeert. Onze aanpak detecteert en volgt eerst objecten in video's om hun trajecten te extraheren, en benut vervolgens deze trajecten en videoframes met Large Language Models (LLM's) om fijnmazige bijschriften en diverse vraag-antwoordparen over beweging en ruimtelijk redeneren te genereren. Met datasets die door deze pijplijn zijn geproduceerd, fine-tunen we open-source modellen, waaronder NVILA-Video-15B en Qwen2.5-7B, wat aanzienlijke verbeteringen in bewegingsbegrip oplevert zonder prestaties op andere taken aan te tasten. Opmerkelijk is dat onze modellen sterke closed-source baseline-modellen zoals Gemini-2.5 Flash en grote open-source modellen zoals Qwen2.5-VL-72B overtreffen op diverse datasets en benchmarks voor bewegingsbegrip. FoundationMotion biedt dus een schaalbare oplossing voor het samenstellen van fijnmazige bewegingsdatasets die effectieve fine-tuning van diverse modellen mogelijk maken om bewegingsbegrip en ruimtelijk redeneervermogen te verbeteren.
Wij introduceren FIN-bench-v2, een uniforme benchmark suite voor de evaluatie van grote taalmodel(len) in het Fins. FIN-bench-v2 consolideert Finse versies van veelgebruikte benchmarks samen met een geüpdatete en uitgebreide versie van de oorspronkelijke FIN-bench in een enkele, consistent geformatteerde collectie. Deze dekt meerkeuze- en generatieve taken op het gebied van leesbegrip, gezond verstand (commonsense reasoning), sentimentanalyse, wereldkennis en alignment. Alle datasets zijn geconverteerd naar het HuggingFace Datasets-formaat, waarbij zowel cloze- als meerkeuzeprompts zijn opgenomen met vijf varianten per taak. Voor machinaal vertaalde bronnen, zoals GoldenSwag en XED, hebben we menselijke annotatie of review geïntegreerd. Om robuuste taken te selecteren, pretrainen we een reeks decoder-only modellen van 2,15 miljard parameters en gebruiken we hun leercurves om monotoniciteit, signaal-ruisverhouding, niet-willekeurige prestaties en consistentie in modelordening te berekenen. Alleen taken die aan alle criteria voldoen, worden behouden. We evalueren verder een reeks grotere, op instructies afgestemde modellen om de prestaties over taken en promptformuleringen heen te karakteriseren. Alle datasets, prompts en evaluatieconfiguraties zijn openbaar beschikbaar via onze fork van de Language Model Evaluation Harness op https://github.com/LumiOpen/lm-evaluation-harness. Aanvullende bronnen zijn vrijgegeven in een aparte repository op https://github.com/TurkuNLP/FIN-bench-v2.
Scènes in de echte wereld bestaan vaak uit verschillende statische en dynamische objecten. Het vastleggen van hun 4-dimensionale structuren, samenstelling en ruimtelijk-temporele configuratie in natuurlijke omstandigheden is uiterst interessant, maar evenzeer moeilijk. Daarom richten bestaande werken zich vaak op één object tegelijk, waarbij wordt vertrouwd op een categorie-specifiek parametrisch vormmodel voor dynamische objecten. Dit kan leiden tot inconsistente scèneconfiguraties, naast de beperking tot de gemodelleerde objectcategorieën. Wij stellen COM4D (Compositional 4D) voor, een methode die consistent en gezamenlijk de structuur en ruimtelijk-temporele configuratie van 4D/3D-objecten voorspelt, uitsluitend gebruikmakend van supervisie met statische multi-object of dynamische single-object gegevens. Dit bereiken we door een zorgvuldig ontworpen training van ruimtelijke en temporele aandacht op 2D-video-invoer. De training wordt ontward in het leren van objectcomposities enerzijds, en de dynamiek van individuele objecten door de video heen anderzijds, waardoor de afhankelijkheid van 4D-compositionele trainingsdata volledig wordt vermeden. Tijdens inferentie combineert ons voorgestelde aandachtmengmechanisme deze onafhankelijk geleerde aandachtspunten, zonder enige 4D-compositievoorbeelden nodig te hebben. Door af te wisselen tussen ruimtelijk en temporeel redeneren, reconstrueert COM4D complete en persistente 4D-scènes met meerdere interagerende objecten rechtstreeks uit monocular video's. Bovendien levert COM4D state-of-the-art resultaten op voor bestaande afzonderlijke problemen van 4D-object- en samengestelde 3D-reconstructie, ondanks het puur data-gedreven karakter.
Grafiekbegrip is cruciaal voor de inzet van multimodale grote taalmodellen (MLLM's) in realistische scenario's, zoals het analyseren van wetenschappelijke artikelen en technische rapporten. In tegenstelling tot natuurlijke afbeeldingen combineren grafieken een gestructureerde visuele lay-out (spatiële eigenschap) met een onderliggende datarepresentatie (tekstuele eigenschap) – het begrijpen van beide is essentieel voor precieze, fijnmazige grafiekredenering. Gemotiveerd door dit inzicht stellen we START voor, Spatial and Textual learning for chART understanding. Concreet introduceren we (i) grafiekelement-gronding en (ii) grafiek-naar-code generatie om het begrip van een MLLM voor zowel de visuele lay-out als de datadetails van grafieken te versterken. Om spatieel en tekstueel leren te faciliteren, stellen we de START-Dataset voor, gegenereerd met een nieuwe data-generatiepijplijn die eerst een MLLM inzet om echte grafiekafbeeldingen te vertalen naar uitvoerbare grafiekcode, waardoor de onderliggende datarepresentatie wordt hersteld terwijl de visuele distributie van real-world grafieken behouden blijft. Vervolgens evolueren we de code met een Large Language Model (LLM) om de posities van grafiekelementen die de visuele structuur van de grafiek vastleggen te bepalen, waardoor uitdagingen worden aangepakt die bestaande methoden niet aankunnen. Om het vermogen van een model om grafiekspatiale structuren te begrijpen te evalueren, stellen we de Chart Spatial understanding Benchmark (CS-Bench) voor, waarmee een kritieke leemte in de uitgebreide evaluatie van grafiekbegrip wordt opgevuld. Door gebruik te maken van spatieel en tekstueel leren behaalt START consistente verbeteringen across modelgroottes en benchmarks ten opzichte van de basismodellen en overtreft het eerdere state-of-the-art met een duidelijke marge. Code, data en modellen zullen openbaar beschikbaar worden gesteld.
Videodiffusiemodellen hebben een revolutie teweeggebracht in generatieve videosynthese, maar ze zijn onnauwkeurig, traag en kunnen ondoorzichtig zijn tijdens de generatie – waardoor gebruikers lang in het ongewisse blijven. In dit werk stellen we DiffusionBrowser voor, een model-agnostisch, lichtgewicht decoderraamwerk waarmee gebruikers interactief voorbeelden kunnen genereren op elk punt (tijdstap of transformerblok) tijdens het ruisverwijderingsproces. Ons model kan multimodale voorbeeldrepresentaties genereren die RGB- en scene-intrinsieke waarden bevatten met een snelheid van meer dan 4 keer realtime (minder dan 1 seconde voor een video van 4 seconden), die een consistente uitstraling en beweging overdragen naar de uiteindelijke video. Met de getrainde decoder tonen we aan dat het mogelijk is om de generatie op tussenliggende ruisstappen interactief te sturen via stochasticiteitsreinjectie en modale sturing, wat een nieuwe controlecapaciteit ontsluit. Bovendien onderzoeken we het model systematisch met behulp van de geleerde decoders, wat onthult hoe scène-, object- en andere details worden samengesteld en geassembleerd tijdens het anderszins black-box ruisverwijderingsproces.
Recente vooruitgang in grote multimodale modellen suggereert dat expliciete redeneermechanismen een cruciale rol spelen bij het verbeteren van de modelbetrouwbaarheid, interpreteerbaarheid en cross-modale afstemming. Hoewel dergelijke reasoning-gecentreerde benaderingen effectief zijn gebleken voor taal- en visietaken, blijft hun uitbreiding naar 3D onderontwikkeld. CoRe3D introduceert een uniform 3D-begrips- en generatieredeneerkader dat gezamenlijk opereert op semantische en ruimtelijke abstracties, waardoor hoogwaardige intentie afgeleid uit taal de laagwaardige 3D-inhoudsvorming direct kan sturen. Centraal in dit ontwerp staat een ruimtelijk verankerde reasoning-representatie die de 3D-latente ruimte decomposeert in gelokaliseerde regio's, waardoor het model op een compositionele en procedurele manier over geometrie kan redeneren. Door semantische keten-van-gedachten-inferentie nauw te koppelen aan gestructureerd ruimtelijk redeneren, produceert CoRe3D 3D-uitvoer die sterke lokale consistentie en getrouwe afstemming met linguïstische beschrijvingen vertoont.
Textuele Inversie (TI) is een efficiënte benadering voor tekst-naar-beeld-personalisatie, maar faalt vaak bij complexe prompts. Wij herleiden deze mislukkingen tot *embedding norm inflatie*: aangeleerde tokens verschuiven naar magnitudes buiten de verdeling, wat de promptconditionering in pre-norm Transformers aantast. Empirisch tonen we aan dat semantiek hoofdzakelijk gecodeerd wordt door richting in de CLIP-tokenruimte, terwijl opgeblazen normen de contextualisering schaden; theoretisch analyseren we hoe grote magnitudes positionele informatie dempen en residuele updates in pre-norm blokken belemmeren. Wij stellen Directionele Textuele Inversie (DTI) voor, waarbij de magnitude van de embedding wordt gefixeerd op een schaal binnen de verdeling en alleen de richting op de eenheidshyperbol wordt geoptimaliseerd via Riemanniaanse SGD. We formuleren richtingsleren als MAP met een von Mises-Fisher prior, wat een constante-richting prior gradient oplevert die eenvoudig en efficiënt is in te bouwen. Over personalisatietaken heen verbetert DTI de tekstgetrouwheid ten opzichte van TI en TI-varianten, terwijl de gelijkenis van het onderwerp behouden blijft. Cruciaal is dat DTI's hypersferische parameterisatie een vloeiende, semantisch coherente interpolatie tussen aangeleerde concepten mogelijk maakt (slerp), een mogelijkheid die ontbreekt in standaard TI. Onze bevindingen suggereren dat richting-alleen optimalisatie een robuust en schaalbaar pad is voor prompt-getrouwe personalisatie.
Wereldmodellen hebben indrukwekkende prestaties geleverd bij robotleertaken. Veel van dergelijke taken vereisen inherent multimodaal redeneren; bijvoorbeeld, het vullen van een fles met water maakt visuele informatie alleen dubbelzinnig of onvolledig, waardoor redeneren over de temporele evolutie van audio nodig is, met inachtneming van de onderliggende fysische eigenschappen en toonhoogtepatronen. In dit artikel stellen we een generatief latent flow matching-model voor om toekomstige audio-waarnemingen te anticiperen, waardoor het systeem in staat is om op lange termijn consequenties te overwegen wanneer het wordt geïntegreerd in een robotbeleid. We demonstreren de superieure capaciteiten van ons systeem via twee manipulatietaken die waarneming van audio- of muzieksignalen in niet-gecontroleerde omgevingen vereisen, in vergelijking met methoden zonder toekomstige vooruitblik. We benadrukken verder dat succesvolle robotactie-leren voor deze taken niet alleen afhangt van multimodale input, maar cruciaal van de accurate voorspelling van toekomstige audiostoestanden die intrinsieke ritmische patronen belichamen.
Nauwkeurige visserijgegevens zijn cruciaal voor effectief en duurzaam beheer van mariene hulpbronnen. Met de recente invoering van elektronische monitoring (EM)-systemen wordt er nu meer videodata verzameld dan haalbaar handmatig kan worden beoordeeld. Dit artikel pakt deze uitdaging aan door een geoptimaliseerde deep learning-pijplijn te ontwikkelen voor automatische heridentificatie (Re-ID) van vissen, gebruikmakend van de nieuwe AutoFish-dataset. Deze dataset simuleert EM-systemen met transportbanden met zes visueel gelijkende vissoorten. Wij tonen aan dat belangrijke Re-ID-maatstaven (R1 en mAP@k) aanzienlijk verbeteren door gebruik te maken van 'hard triplet mining' in combinatie met een aangepaste pijplijn voor beeldtransformatie die datasetspecifieke normalisatie omvat. Door deze strategieën toe te passen, demonstreren wij dat de op Vision Transformer gebaseerde Swin-T-architectuur consequent beter presteert dan de op convolutioneel neuraal netwerk gebaseerde ResNet-50, met een piekprestatie van 41,65% mAP@k en 90,43% Rank-1 nauwkeurigheid. Een diepgaande analyse toont aan dat de primaire uitdaging ligt in het onderscheiden van visueel gelijkende individuen van dezelfde soort (intraspecifieke fouten), waarbij inconsistentie in gezichtspunt aanzienlijk nadeliger blijkt dan gedeeltelijke occlusie. De broncode en documentatie zijn beschikbaar op: https://github.com/msamdk/Fish_Re_Identification.git
Leeftijdsgebonden maculadegeneratie (LMD) en aandoeningen gerelateerd aan choroidale neovascularisatie (CNV) zijn wereldwijd een belangrijke oorzaak van gezichtsverlies, waarbij optische coherentietomografie (OCT) een hoeksteen vormt voor vroege detectie en behandeling. De inzet van state-of-the-art deep learning-modellen zoals ConvNeXtV2-Large in klinische settings wordt echter belemmerd door hun rekenkundige eisen. Daarom is het wenselijk om efficiënte modellen te ontwikkelen die een hoge diagnostische prestaties behouden en tegelijkertijd real-time inzet mogelijk maken. In deze studie wordt een nieuw knowledge distillation-framework, genaamd KD-OCT, voorgesteld om een hoogpresterend ConvNeXtV2-Large teacher-model, versterkt met geavanceerde augmentaties, stochastic weight averaging en focal loss, te comprimeren tot een lichtgewicht EfficientNet-B2 student-model voor de classificatie van normale gevallen, drusen en CNV. KD-OCT past real-time distillatie toe met een gecombineerd verliesfunctie die een balans vindt tussen de overdracht van zachte kennis van de teacher en supervisie op basis van harde grondwaarheden. De effectiviteit van de voorgestelde methode wordt geëvalueerd op de dataset van het Noor Eye Hospital (NEH) met behulp van patient-level cross-validatie. Experimentele resultaten tonen aan dat KD-OCT vergelijkbare multi-scale of feature-fusion OCT-classificatiemodellen overtreft in de balans tussen efficiëntie en nauwkeurigheid, waarbij bijna de prestaties van het teacher-model worden bereikt met aanzienlijke verminderingen in modelgrootte en inferentietijd. Ondanks de compressie presteert het student-model beter dan de meeste bestaande frameworks, wat edge-implementatie voor LMD-screening vergemakkelijkt. Code is beschikbaar op https://github.com/erfan-nourbakhsh/KD-OCT.