Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Geheugen-embeddingen zijn cruciaal voor geheugenversterkte systemen zoals OpenClaw, maar hun evaluatie wordt onderbelicht in huidige tekst-embeddingbenchmarks. Deze richten zich te eng op traditionele passage-retrieval en slagen er niet in om het vermogen van modellen te beoordelen om langetermijngeheugen-retrievaltaken aan te kunnen, die gefragmenteerde, contextafhankelijke en temporeel verwijderde informatie omvatten. Om dit aan te pakken, introduceren we de Long-horizon Memory Embedding Benchmark (LMEB), een uitgebreid raamwerk dat de capaciteiten van embeddingmodellen evalueert bij het verwerken van complexe, langetermijngeheugen-retrievaltaken. LMEB bestrijkt 22 datasets en 193 zero-shot-retrievaltaken over 4 geheugentypes: episodisch, dialoog, semantisch en procedureel, met zowel AI-gegenereerde als door mensen geannoteerde data. Deze geheugentypes verschillen in abstractieniveau en temporele afhankelijkheid, en vangen distinctieve aspecten van geheugenretrieval die de diverse uitdagingen van de echte wereld weerspiegelen. We evalueren 15 veelgebruikte embeddingmodellen, variërend in grootte van honderden miljoenen tot tien miljard parameters. De resultaten tonen aan dat (1) LMEB een redelijk moeilijkheidsniveau biedt; (2) Grotere modellen niet altijd beter presteren; (3) LMEB en MTEB orthogonaliteit vertonen. Dit suggereert dat het veld nog niet geconvergeerd is naar een universeel model dat in staat is om uit te blinken in alle geheugenretrievaltaken, en dat prestaties in traditionele passage-retrieval mogelijk niet generaliseren naar langetermijngeheugen-retrieval. Samenvattend vult LMEB, door het bieden van een gestandaardiseerd en reproduceerbaar evaluatieraamwerk, een cruciaal gat in de evaluatie van geheugen-embeddingen, en drijft het verdere vooruitgang aan in tekst-embedding voor het omgaan met langetermijn, contextafhankelijke geheugenretrieval. LMEB is beschikbaar op https://github.com/KaLM-Embedding/LMEB.
Visuele entiteitvolging is een aangeboren cognitief vermogen bij mensen, maar vormt nog steeds een kritieke beperking voor Vision-Language Models (VLMs). Dit tekort wordt vaak verhuld in bestaande videotestbanken door visuele shortcuts. Wij introduceren VET-Bench, een synthetische diagnostische testbank met visueel identieke objecten die uitsluitend via spatiotemporele continuïteit gevolgd moeten worden. Onze experimenten tonen aan dat huidige state-of-the-art VLMs op VET-Bench presteren op of nabij het kansniveau, wat een fundamentele beperking blootlegt: een overmatige afhankelijkheid van statische frame-level kenmerken en het onvermogen om entiteitsrepresentaties in de tijd te behouden. Wij bieden een theoretische analyse die verbanden legt met het state-tracking probleem, en bewijzen dat transformer-gebaseerde VLMs met vaste diepte fundamenteel beperkt zijn in het volgen van ononderscheidbare objecten zonder tussentijdse supervisie vanwege expressiviteitsbeperkingen. Om dit aan te pakken, stellen wij Spatiotemporeel Gegronde Chain-of-Thought (SGCoT) voor: het genereren van objecttrajecten als expliciete tussenstatussen. Door gebruik te maken van Molmo2's objectvolgbare vermogen, ontlokken wij SGCoT-redenering door fine-tuning op gesynthetiseerde tekstuele data voor alignment. Onze methode behaalt een state-of-the-art nauwkeurigheid van meer dan 90% op VET-Bench, wat aantoont dat VLMs de video shell-game taak end-to-end betrouwbaar kunnen oplossen zonder externe tools. Onze code en data zijn beschikbaar op https://vetbench.github.io.
Een recent baanbrekend onderwerp in multimodale modellering is het verenigen van visueel begrip en generatie binnen één enkel model. De twee taken vereisen echter niet-overeenkomende decodeerregimes en visuele representaties, wat het gezamenlijk optimaliseren binnen een gedeelde kenmerkruimte niet triviaal maakt. In dit werk presenteren we Cheers, een verenigd multimodaal model dat patch-level details ontkoppelt van semantische representaties, waardoor semantiek wordt gestabiliseerd voor multimodaal begrip en de trouw voor beeldgeneratie wordt verbeterd via gegateerde detailresiduen. Cheers omvat drie belangrijke componenten: (i) een uniforme vision-tokenizer die latente beeldtoestanden encodeert en comprimeert tot semantische tokens voor efficiënte conditionering van het LLM, (ii) een op LLM gebaseerde Transformer die autoregressief decoderen voor tekstgeneratie en diffusiedecodering voor beeldgeneratie verenigt, en (iii) een cascade flow matching-head die eerst visuele semantiek decodeert en vervolgens semantisch gegateerde detailresiduen uit de vision-tokenizer injecteert om hoogfrequente inhoud te verfijnen. Experimenten op populaire benchmarks tonen aan dat Cheers evenaart of overtreft geavanceerde UMM's in zowel visueel begrip als generatie. Cheers bereikt tevens een 4x tokencompressie, wat efficiëntere codering en generatie van hoogresolutiebeelden mogelijk maakt. Opmerkelijk is dat Cheers de Tar-1.5B overtreft op de populaire benchmarks GenEval en MMBench, terwijl slechts 20% van de trainingskosten nodig is, wat wijst op effectieve en efficiënte (d.w.z. 4x tokencompressie) verenigde multimodale modellering. Wij zullen alle code en data vrijgeven voor toekomstig onderzoek.
Wij presenteren Multimodal OCR (MOCR), een paradigma voor het parseren van documenten dat tekst en grafische elementen gezamenlijk omzet in uniforme tekstuele representaties. In tegenstelling tot conventionele OCR-systemen die zich richten op tekstherkenning en grafische regio's als uitgeknipte pixels achterlaten, behandelt onze methode, genaamd dots.mocr, visuele elementen zoals grafieken, diagrammen, tabellen en pictogrammen als eersteklas parseerdoelen. Hierdoor kunnen systemen documenten parseren met behoud van semantische relaties tussen elementen. Het biedt verschillende voordelen: (1) het reconstrueert zowel tekst als graphics als gestructureerde outputs, wat een getrouwere documentreconstructie mogelijk maakt; (2) het ondersteunt end-to-end training over heterogene documentelementen, waardoor modellen semantische relaties tussen tekstuele en visuele componenten kunnen benutten; en (3) het zet voorheen weggegooide graphics om in herbruikbare code-level supervision, waardoor multimodale supervision die in bestaande documenten is ingebed, wordt ontsloten. Om dit paradigma op grote schaal praktisch toepasbaar te maken, bouwden we een uitgebreide data-engine op basis van PDF's, gerenderde webpagina's en native SVG-assets, en trainden we een compact 3B-parameter model via gefaseerde pretraining en supervised fine-tuning. Wij evalueren dots.mocr vanuit twee perspectieven: documentparsing en gestructureerde graphics-parsing. Op documentparsing benchmarks staat het op de tweede plaats, direct na Gemini 3 Pro op ons OCR Arena Elo-leaderboard, overtreft het bestaande open-source documentparsingsystemen, en vestigt het een nieuwe state-of-the-art van 83.9 op olmOCR Bench. Voor gestructureerde graphics-parsing behaalt dots.mocr een hogere reconstructiekwaliteit dan Gemini 3 Pro op image-to-SVG benchmarks, wat duidt op sterke prestaties voor grafieken, UI-lay-outs, wetenschappelijke figuren en chemische diagrammen. Deze resultaten tonen een schaalbare weg naar het opbouwen van grootschalige image-to-code corpora voor multimodale pretraining. Code en modellen zijn openbaar beschikbaar op https://github.com/rednote-hilab/dots.mocr.
Recente gezamenlijke audio-visuele diffusiemodellen bereiken opmerkelijke generatiekwaliteit, maar lijden onder hoge latentie vanwege hun bidirectionele aandachtafhankelijkheden, wat realtime-toepassingen belemmert. Wij stellen OmniForcing voor, het eerste raamwerk om een offline, dual-stream bidirectioneel diffusiemodel te destilleren tot een hoogwaardige streaming autoregressieve generator. Echter, een naïeve toepassing van causale distillatie op dergelijke dual-stream architecturen veroorzaakt ernstige trainingsinstabiliteit, door de extreme temporele asymmetrie tussen modaliteiten en de resulterende tokenschaarste. Wij adresseren de inherente informatiedichtheidskloof door een Asymmetrische Blok-Causale Uitlijning te introduceren met een nul-truncatie Globale Prefix die multi-modale synchronisatiedrift voorkomt. De gradientexplosie veroorzaakt door extreme audiotokenschaarste tijdens de causale verschuiving wordt verder opgelost door een Audio Sink Token-mechanisme uitgerust met een Identiteit RoPE-beperking. Ten slotte stelt een Gezamenlijke Self-Forcing Distillatie-paradigma het model in staat om cumulatieve cross-modale fouten van exposure bias tijdens lange rollouts dynamisch te autocorrigeren. Gesterkt door een modaliteit-onafhankelijk rolling KV-cache inferentieschema bereikt OmniForcing state-of-the-art streaminggeneratie op sim25 FPS op een enkele GPU, waarbij multi-modale synchronisatie en visuele kwaliteit gelijk blijven aan die van de bidirectionele leraar.Projectpagina: https://omniforcing.com{https://omniforcing.com}
Online Video Large Language Models (VideoLLM's) spelen een cruciale rol bij het ondersteunen van responsieve, real-time interactie. Bestaande methodes richten zich op streamingperceptie, maar missen een gesynchroniseerde logische redeneerstroom. Het direct toepassen van test-time scaling-methodes leidt echter tot onaanvaardbare responstijden. Om deze afweging aan te pakken, stellen we Video Streaming Thinking (VST) voor, een nieuw paradigma voor streaming video-begrip. Het ondersteunt een 'denken tijdens het kijken'-mechanisme dat redeneren over binnenkomende videofragmenten activeert tijdens het streamen. Dit ontwerp verbetert tijdig begrip en coherente cognitie, terwijl het real-time responsiviteit behoudt door de LLM-redeneerlatentie te amortiseren over de videoweergave. Verder introduceren we een uitgebreide post-training pipeline die VST-SFT integreert, dat de offline VideoLLM structureel aanpast voor causaal streaming redeneren, en VST-RL, dat end-to-end verbetering biedt via zelfexploratie in een multi-turn video-interactieomgeving. Daarnaast ontwikkelen we een geautomatiseerde pijplijn voor het synthetiseren van trainingsdata die videokennismodellen gebruikt om hoogwaardige streaming vraag-antwoordparen te genereren, met een op entiteit-relatie gebaseerde streaming Chain-of-Thought om redeneren op basis van meerdere bewijsstukken en aanhoudende aandacht voor de videostream af te dwingen. Uitgebreide evaluaties tonen aan dat VST-7B sterk presteert op online benchmarks, bijvoorbeeld 79,5% op StreamingBench en 59,3% op OVO-Bench. Tegelijkertijd blijft VST concurrerend op offline long-form of redeneerbenchmarks. Vergeleken met Video-R1 reageert VST 15,7 keer sneller en behaalt het een verbetering van +5,4% op VideoHolmes, wat wijst op hogere efficiëntie en sterke generalisatie over diverse video-begriptaken. Code, data en modellen worden vrijgegeven op https://github.com/1ranGuan/VST.
Het trainen van capabele software engineering (SWE) agenten vereist grootschalige, uitvoerbare en verifieerbare omgevingen die dynamische feedbackloops bieden voor iteratieve codebewerking, testuitvoering en oplossingsverfijning. Bestaande open-source datasets blijven echter beperkt in schaal en repository-diversiteit, terwijl industriële oplossingen ondoorzichtig zijn met niet-vrijgegeven infrastructuur, wat een onneembare barrière vormt voor de meeste academische onderzoeksgroepen. Wij presenteren OpenSWE, het grootste volledig transparante framework voor SWE-agenttraining in Python, bestaande uit 45.320 uitvoerbare Docker-omgevingen verspreid over meer dan 12.8k repositories, waarbij alle Dockerfiles, evaluatiescripts en infrastructuur volledig open source zijn vrijgegeven voor reproduceerbaarheid. OpenSWE is gebouwd via een multi-agent synthesepijplijn ingezet over een gedistribueerd cluster van 64 nodes, dat repository-verkenning, Dockerfile-constructie, evaluatiescriptgeneratie en iteratieve testanalyse automatiseert. Naast schaal stellen we een kwaliteitsgerichte filterpijplijn voor die de inherente moeilijkheidsgraad van elke omgeving karakteriseert, waarbij onoplosbare of onvoldoende uitdagende instanties worden gefilterd en alleen die worden behouden die de leer efficiëntie maximaliseren. Met een investering van $891K in omgevingsconstructie en een aanvullende $576K in trajectbemonstering en moeilijkheidsbewuste curatie, vertegenwoordigt het gehele project een totale investering van ongeveer $1.47 miljoen, resulterend in ongeveer 13.000 gecureerde trajecten afkomstig van ruwweg 9.000 kwaliteitsgegarandeerde omgevingen. Uitgebreide experimenten valideren de effectiviteit van OpenSWE: OpenSWE-32B en OpenSWE-72B behalen respectievelijk 62.4% en 66.0% op SWE-bench Verified, waarmee ze state-of-the-art (SOTA) vestigen binnen de Qwen2.5-serie. Bovendien levert SWE-gerichte training substantiële verbeteringen op buiten het domein op, waaronder tot 12 punten op wiskundig redeneren en 5 punten op wetenschappelijke benchmarks, zonder afbreuk te doen aan feitelijke recall.
Vision-to-code-taken vereisen dat modellen gestructureerde visuele invoer, zoals grafieken, tabellen en SVG's, reconstrueren naar uitvoerbare of gestructureerde representaties met hoge visuele nauwkeurigheid. Hoewel recente Large Vision Language Models (LVLM's) sterke resultaten behalen via supervised fine-tuning, blijft reinforcement learning uitdagend door slecht afgestemde beloningssignalen. Bestaande beloningen baseren zich op tekstuele regels of op grove gelijkenis van visuele embeddings, waarbij beide methoden tekortschieten in het vastleggen van fijnmazige visuele discrepanties en vatbaar zijn voor reward hacking. Wij stellen de Visual Equivalence Reward Model (Visual-ERM) voor, een multimodaal generatief beloningsmodel dat fijnmazige, interpreteerbare en taakonafhankelijke feedback verschaft om de kwaliteit van vision-to-code direct in de gerenderde visuele ruimte te evalueren. Geïntegreerd in RL verbetert Visual-ERM Qwen3-VL-8B-Instruct met +8.4 voor chart-to-code en levert het consistente winst op voor tabel- en SVG-parsing (gemiddeld +2.7, +4.1), en versterkt het verder test-time scaling via reflectie en revisie. Wij introduceren ook VisualCritic-RewardBench (VC-RewardBench), een benchmark voor het beoordelen van fijnmazige image-to-image-discrepanties bij gestructureerde visuele data, waar Visual-ERM op 8B beslissend beter presteert dan Qwen3-VL-235B-Instruct en zich meet met toonaangevende closed-source modellen. Onze resultaten suggereren dat fijnmazige visuele beloningssupervisie zowel noodzakelijk als voldoende is voor vision-to-code-RL, ongeacht de taakspecificiteit.
Multimodale Large Language Models (MLLM's) worden steeds vaker ingezet voor het uitvoeren van visuele workflows, zoals het navigeren door GUI's, waarbij de volgende stap afhangt van geverifieerde visuele compositionele voorwaarden (bijvoorbeeld: "als een dialoogvenster voor toestemming verschijnt en de kleur van de interface groen is, klik dan op Toestaan") en het proces vroegtijdig kan vertakken of beëindigen. Toch blijft deze capaciteit onderbelicht in evaluaties: bestaande benchmarks richten zich op ondiepe composities of onafhankelijke beperkingen in plaats van diep geketende compositionele conditionele statements. In dit artikel introduceren we MM-CondChain, een benchmark voor visueel onderbouwde diepe compositionele redenering. Elke benchmarkinstantie is georganiseerd als een meerlagige redeneerketen, waarbij elke laag een niet-triviale compositionele voorwaarde bevat die is verankerd in visueel bewijs en is opgebouwd uit meerdere objecten, attributen of relaties. Om correct te antwoorden, moet een MLLM het beeld gedetailleerd waarnemen, redeneren over meerdere visuele elementen bij elke stap, en de resulterende uitvoeringspad volgen naar het uiteindelijke resultaat. Om dergelijke workflow-stijl data op schaal te construeren, stellen we een agent-gebaseerde synthesepijplijn voor: een Planner regisseert de laag-voor-laag-generatie van compositionele voorwaarden, terwijl een Verifieerbare Programmatische Tussenrepresentatie (VPIR) ervoor zorgt dat de voorwaarde van elke laag mechanisch verifieerbaar is. Een Composer assembleert vervolgens deze geverifieerde lagen tot complete instructies. Met behulp van deze pijplijn construeren we benchmarks in drie visuele domeinen: natuurlijke afbeeldingen, datagraphieken en GUI-trajecten. Experimenten met een reeks MLLM's tonen aan dat zelfs het sterkste model slechts 53,33 Path F1 behaalt, met scherpe dalingen op harde negatieven en naarmate de diepte of predikaatcomplexiteit toeneemt, wat bevestigt dat diepe compositionele redenering een fundamentele uitdaging blijft.
Test-time scaling is uitgegroeid tot een dominant paradigma voor het verbeteren van de betrouwbaarheid van LLM-agenten, maar huidige benaderingen behandelen rekenkracht als een overvloedige hulpbron, waardoor agenten token- en toolbudgetten kunnen uitputten met redundante stappen of doodlopende trajecten. Bestaande budgetbewuste methoden vereisen ofwel dure fine-tuning, of steunen op grove, trajectniveau heuristieken die niet kunnen ingrijpen tijdens de uitvoering. Wij stellen de Budget-Aware Value Tree (BAVT) voor, een training-free inference-time raamwerk dat multi-hop redeneren modelleert als een dynamische zoekboom, geleid door stapniveau waarde-inschatting binnen een enkele LLM-backbone. Een andere belangrijke innovatie is een budget-geconditioneerd knooppuntselectiemechanisme dat de resterende resourceverhouding gebruikt als een natuurlijke schalingsexponent over knooppuntwaarden, wat een principiële, parameter-vrije overgang biedt van brede exploratie naar hebberige exploitatie naarmate het budget slinkt. Om de bekende overmoedigheid van LLM-zelfevaluatie tegen te gaan, gebruikt BAVT een residuele waarde-voorspeller die relatieve vooruitgang scoort in plaats van absolute staatkwaliteit, waardoor betrouwbaar snoeien van oninformatieve of redundante toolaanroepen mogelijk wordt. Wij bieden verder een theoretische convergentiegarantie, waarbij wordt bewezen dat BAVT een eindantwoord bereikt met een waarschijnlijkheid van ten minste 1-ε onder een expliciete eindige budgetgrens. Uitgebreide evaluaties op vier multi-hop QA benchmarks across twee modelfamilies tonen aan dat BAVT consistent de prestaties van parallelle sampling-baselines overtreft. Opmerkelijk genoeg overstijgt BAVT onder strikte low-budget beperkingen de baseline-prestaties bij een viervoudige resource-toewijzing, wat aantoont dat intelligent budgetbeheer fundamenteel superieur is aan brute-force compute scaling.
De toenemende adoptie van Large Language Models (LLM's) stelt AI-wetenschappers in staat om complexe end-to-end wetenschappelijke ontdekkingstaken uit te voeren die coördinatie van gespecialiseerde rollen vereisen, waaronder ideeëngeneratie en experimentele uitvoering. De meeste state-of-the-art AI-wetenschapperssystemen vertrouwen echter op statische, handmatig ontworpen pijplijnen en slagen er niet in om zich aan te passen op basis van opgebouwde interactiegeschiedenissen. Hierdoor zien deze systemen veelbelovende onderzoeksrichtingen over het hoofd, herhalen ze mislukte experimenten en zetten ze in op onhaalbare ideeën. Om dit aan te pakken, introduceren we EvoScientist, een evoluerend multi-agent AI-wetenschappersraamwerk dat onderzoeksstrategieën continu verbetert door middel van persistent geheugen en zelf-evolutie. EvoScientist bestaat uit drie gespecialiseerde agents: een Onderzoeksagent (RA) voor het genereren van wetenschappelijke ideeën, een Ingenieursagent (EA) voor experimentimplementatie en -uitvoering, en een Evolutiebeheeragent (EMA) die inzichten uit eerdere interacties destilleert tot herbruikbare kennis. EvoScientist bevat twee persistente geheugenmodules: (i) een ideeëngeneratiegeheugen, dat haalbare onderzoeksrichtingen samenvat uit hoogst gerangschikte ideeën en tegelijkertijd eerder onsuccesvolle richtingen vastlegt; en (ii) een experimentatiegeheugen, dat effectieve strategieën voor gegevensverwerking en modeltraining vastlegt, afgeleid van codesporentrajecten en best presterende implementaties. Deze modules stellen de RA en EA in staat om relevante eerdere strategieën op te halen, waardoor de ideeënkwaliteit en het slagingspercentage van code-uitvoering in de loop van de tijd verbeteren. Experimenten tonen aan dat EvoScientist 7 open-source en commerciële state-of-the-art systemen overtreft in wetenschappelijke ideeëngeneratie, waarbij het hogere scores behaalt voor nieuwigheid, haalbaarheid, relevantie en helderheid via automatische en menselijke evaluatie. EvoScientist verbetert ook aanzienlijk de slagingspercentages van code-uitvoering door multi-agent evolutie, wat de effectiviteit van persistent geheugen voor end-to-end wetenschappelijke ontdekking aantoont.
Group Relative Policy Optimization (GRPO) is naar voren gekomen als een krachtig kader voor voorkeursafstemming in tekst-naar-beeld (T2I) stroommodellen. Wij observeren echter dat het standaardparadigma, waarbij een groep gegenereerde samples wordt geëvalueerd tegen een enkele conditie, lijdt onder een onvoldoende verkenning van de onderlinge relaties tussen samples, wat zowel de afstemmingseffectiviteit als de prestatieplafonds beperkt. Om dit schaarse evaluatieschema met enkelvoudig perspectief aan te pakken, stellen wij Multi-View GRPO (MV-GRPO) voor, een nieuwe aanpak die de verkenning van relaties verbetert door de conditieruimte uit te breiden om een dichte beloningsmapping met meerdere perspectieven te creëren. Specifiek benut MV-GRPO voor een groep samples gegenereerd vanuit één prompt een flexibele Condition Enhancer om semantisch verwante doch diverse bijschriften te genereren. Deze bijschriften maken een herschatting van het voordeel vanuit meerdere perspectieven mogelijk, waarbij diverse semantische attributen worden vastgelegd en rijkere optimalisatiesignalen worden verschaft. Door de kansverdeling van de oorspronkelijke samples conditioneel op deze nieuwe bijschriften af te leiden, kunnen deze worden geïntegreerd in het trainingsproces zonder kostbare hergeneratie van samples. Uitgebreide experimenten tonen aan dat MV-GRPO een superieure afstemmingsprestatie bereikt in vergelijking met state-of-the-art methoden.
Grootschalige videogeneratieve modellen worden getraind op enorme en diverse visuele datasets, waardoor ze rijke structurele, semantische en dynamische prior knowledge van de visuele wereld internaliseren. Hoewel deze modellen indrukwekkende generatieve capaciteiten hebben getoond, blijft hun potentieel als algemene visuele leersystemen grotendeels onbenut. In dit werk introduceren we V-Bridge, een raamwerk dat deze latente capaciteit verbindt met veelzijdige few-shot beeldrestauratietaken. We herinterpreteren beeldrestauratie niet als een statisch regressieprobleem, maar als een progressief generatief proces, en benutten videomodellen om de geleidelijke verfijning van gedegradeerde invoer naar hoogwaardige uitvoer te simuleren. Verrassend genoeg kunnen voorgetrainde videomodellen met slechts 1.000 multi-task trainingsamples (minder dan 2% van bestaande restauratiemethoden) worden aangezet tot competitieve beeldrestauratie, waarbij één model meerdere taken uitvoert en kan wedijveren met gespecialiseerde architecturen die expliciet voor dit doel zijn ontworpen. Onze bevindingen onthullen dat videogeneratieve modellen impliciet krachtige en overdraagbare restauratiepriors leren die met extreem beperkte data geactiveerd kunnen worden. Dit daagt de traditionele grens tussen generatief modelleren en low-level vision uit en opent een nieuw ontwerpparadigma voor foundationmodellen in visuele taken.
De snelle evolutie van belichaamde agents heeft de inzet van huishoudelijke robots in real-world omgevingen versneld. In tegenstelling tot gestructureerde industriële settings brengen huishoudelijke ruimtes echter onvoorspelbare veiligheidsrisico's met zich mee, waarbij systeembeperkingen zoals perceptievertraging en een gebrek aan gezond verstand kunnen leiden tot gevaarlijke fouten. Huidige veiligheidsevaluaties, vaak beperkt tot statische beelden, tekst of algemene gevaren, slagen er niet in om de detectie van dynamische onveilige handelingen in deze specifieke contexten adequaat te benchmarken. Om deze kloof te overbruggen, introduceren we HomeSafe-Bench, een uitdagende benchmark ontworpen om Vision-Language Models (VLMs) te evalueren op het detecteren van onveilige handelingen in huishoudelijke scenario's. HomeSafe-Bench is geconstrueerd via een hybride pijplijn die fysieke simulatie combineert met geavanceerde videogeneratie en omvat 438 gevarieerde casussen binnen zes functionele gebieden met fijnmazige multidimensionale annotaties. Naast benchmarking stellen we Hierarchical Dual-Brain Guard for Household Safety (HD-Guard) voor, een hiërarchische streamingarchitectuur voor real-time veiligheidsmonitoring. HD-Guard coördineert een lichtgewicht FastBrain voor continue hoogfrequente screening met een asynchroon grootschalig SlowBrain voor diepe multimodale redenering, waardoor inferentie-efficiëntie en detectienauwkeurigheid effectief in balans worden gebracht. Evaluaties tonen aan dat HD-Guard een superieure balans bereikt tussen latentie en prestaties, terwijl onze analyse kritieke knelpunten identificeert in huidige VLM-gebaseerde veiligheidsdetectie.
Diffusiemodellen hebben een opmerkelijke capaciteit getoond in tekst-naar-beeld (T2I) generatietoepassingen. Ondanks de geavanceerde generatieresultaten kampen ze met een zware rekenkost, vooral voor grote modellen die tientallen miljarden parameters bevatten. Eerder onderzoek heeft aangetoond dat het vervangen van een deel van de denoiseringsstappen door een kleiner model de generatiekwaliteit behoudt. Deze methoden richten zich echter alleen op het besparen van rekenwerk voor sommige tijdstappen, waarbij het verschil in rekenbehoefte binnen één tijdstap wordt genegeerd. In dit werk stellen we HybridStitch voor, een nieuw T2I-generatieparadigma dat generatie benadert als bewerking. Concreet introduceren we een hybride fase die zowel het grote als het kleine model gezamenlijk incorporeert. HybridStitch scheidt de volledige afbeelding in twee regio's: één die relatief eenvoudig is weer te geven, waardoor een vroege overgang naar het kleinere model mogelijk is, en een andere die complexer is en daarom verfijning door het grote model vereist. HybridStitch gebruikt het kleine model om een ruwe schets te construeren en benut het grote model om de complexe regio's te bewerken en te verfijnen. Volgens onze evaluatie behaalt HybridStitch een 1,83 keer snellere verwerking op Stable Diffusion 3, wat sneller is dan alle bestaande modelmengmethoden.
Multimodale grote taalmodellen (MLLM's) vertonen sterke prestaties bij offline videobegrip, maar de meeste zijn beperkt tot offline inferentie of hebben een zwakke online redeneercapaciteit, wat multi-turn interactie over continu binnenkomende videostreams bemoeilijkt. Bestaande streamingmethoden gebruiken typisch een afwisselend perceptie-generatieparadigma, wat gelijktijdige perceptie en generatie verhindert en tot vroegtijdig geheugenverval leidt naarmate streams groeien, wat de modellering van langeafstandsafhankelijkheden schaadt. Wij stellen Think While Watching voor, een geheugenverankerd streamingvideoredeneerkader dat continu geheugen op segmentniveau bewaart tijdens multi-turn interactie. Wij bouwen een driedelig, multi-round chain-of-thought-dataset en hanteren een fase-afgestemde trainingsstrategie, waarbij strikte causaliteit wordt afgedwongen via een streaming causaal masker op segmentniveau en streaming positionele codering. Tijdens inferentie introduceren we een efficiënte pijplijn die kijken en denken overlapt en adaptief de beste aandacht-backend selecteert. Onder zowel single-round als multi-round streaming inputprotocollen behaalt onze methode sterke resultaten. Gebouwd op Qwen3-VL, verbetert het de single-round nauwkeurigheid met 2,6% op StreamingBench en met 3,79% op OVO-Bench. In de multi-round setting behoudt het de prestaties terwijl het uitvoertokens met 56% reduceert. Code is beschikbaar op: https://github.com/wl666hhh/Think_While_Watching/
Ondanks de snelle vooruitgang in videogeneratiemodellen blijft het afstemmen van hun output op complexe gebruikersintenties een uitdaging. Bestaande optimalisatiemethoden tijdens het testen zijn doorgaans ofwel rekenintensief, ofwel vereisen ze white-box-toegang tot modelinterne componenten. Om dit aan te pakken, presenteren we VQQA (Video Quality Question Answering), een uniform, multi-agent raamwerk dat generaliseerbaar is over diverse invoermodaliteiten en videogeneratietaken. Door dynamisch visuele vragen te genereren en de resulterende kritieken van een Vision-Language Model (VLM) te gebruiken als semantische gradiënten, vervangt VQQA traditionele, passieve evaluatiemetrics door mens-interpreteerbare, actiegerichte feedback. Dit maakt een uiterst efficiënt, gesloten-lus promptoptimalisatieproces mogelijk via een black-box natuurlijke-taalinterface. Uitgebreide experimenten tonen aan dat VQQA effectief visuele artefacten isoleert en oplost, waardoor de generatiekwaliteit aanzienlijk verbetert in slechts enkele verfijningsstappen. Toepasbaar op zowel tekst-naar-video (T2V) als beeld-naar-video (I2V) taken, behaalt onze methode absolute verbeteringen van +11,57% op T2V-CompBench en +8,43% op VBench2 ten opzichte van standaardgeneratie, en presteert daarbij aanzienlijk beter dan state-of-the-art stochastische zoek- en promptoptimalisatietechnieken.
Sparse Attention Vectors (SAV's) zijn naar voren gekomen als een uitstekend trainingsvrij alternatief voor gesuperviseerd finetunen of low-rank adaptatie om de prestaties van Vision Language Models (VLM's) te verbeteren. In de kern selecteren SAV's enkele nauwkeurige attention heads voor een bepaalde taak en gebruiken deze als classificatoren, in plaats van te vertrouwen op de voorspelling van het model. In dezelfde geest ontdekken wij dat het direct uitlezen van de ruwe activaties van het VLM, in de vorm van scalaire waarden, voldoende is om nauwkeurige classificatoren te verkrijgen voor diverse visueel onderbouwde downstreamtaken. Door de focus te verleggen van attention vectors naar scalaire activaties wordt de zoekruimte voor nauwkeurige parameters aanzienlijk vergroot, waardoor we direct vanaf de eerste gegenereerde token meer onderscheidende neuronen kunnen vinden. Wij noemen dergelijke activaties Super Neurons (SN's). In deze uitlees-setting ontdekken we dat er voldoende SN's verschijnen in de ondiepere lagen van het large language model om een extreme early exit mogelijk te maken, reeds vanaf de eerste laag van het model bij de eerste gegenereerde token. In vergelijking met het oorspronkelijke netwerk verbeteren SN's de classificatieprestatie robuust, terwijl een versnelling tot 5,10x wordt bereikt.
Transformer-gebaseerde grote taalmmodellen (LLM's) maken gebruik van key-value (KV)-caching om redundante berekeningen tijdens autoregressieve inferentie te vermijden. Hoewel dit mechanisme de efficiëntie aanzienlijk verbetert, groeit de cache-grootte lineair met de invoerreekslengte, wat snel een knelpunt wordt bij taken met een lange context. Bestaande oplossingen verzachten dit probleem door KV-gegevens van de prompt die als onbelangrijk worden beschouwd te verwijderen, geleid door geschatte belangrijkheidsscores. Met name een recente onderzoekslijn stelt voor om de verwijderingskwaliteit te verbeteren door "in de toekomst te gluren", waarbij een conceptgenerator een surrogaat-antwoord produceert dat de werkelijke respons van het doelmodel benadert, en dit surrogaat vervolgens gebruikt wordt om het belang van gecachete KV nauwkeuriger in te schatten. Deze benaderingen zijn echter afhankelijk van rekenintensieve conceptgeneratie, wat aanzienlijke prefilling-overhead introduceert en hun praktische toepasbaarheid in de praktijk beperkt. Om deze uitdaging aan te pakken, stellen wij LookaheadKV voor, een lichtgewicht verwijderingsframework dat de kracht van surrogaat-toekomstrespons benut zonder expliciete conceptgeneratie te vereisen. LookaheadKV breidt transformer-lagen uit met parameter-efficiënte modules die zijn getraind om werkelijke belangrijkheidsscores met hoge nauwkeurigheid te voorspellen. Ons ontwerp zorgt voor een verwaarloosbare runtime-overhead vergelijkbaar met bestaande goedkope heuristieken, terwijl een nauwkeurigheid wordt bereikt die superieur is aan duurdere approximatiemethoden. Uitgebreide experimenten op benchmarks voor langcontextueel begrip, over een breed scala aan modellen, tonen aan dat onze methode niet alleen recente competitieve baselines verslaat in diverse langcontextuele begriptaken, maar ook de verwijderingskosten met tot 14,5x verlaagt, wat leidt tot een aanzienlijk snellere tijd-tot-eerste-token. Onze code is beschikbaar op https://github.com/SamsungLabs/LookaheadKV.
Open-world belichaamde agenten moeten langetermijntaken oplossen waarbij de voornaamste beperking niet de planningskwaliteit per stap is, maar hoe de interactie-ervaring wordt georganiseerd en geëvolueerd. Hiertoe presenteren we Steve-Evolving, een niet-parametrisch zelf-evoluerend raamwerk dat fijnmazige uitvoeringsdiagnose nauw koppelt aan dual-track kennis-distillatie in een gesloten lus. De methode volgt drie fasen: Ervaring Ankering, Ervaring Distillatie en Kennisgedreven Gesloten-Lus Sturing. Concreet verankert Ervaring Ankering elke subdoelpoging in een gestructureerde ervaringstuple met een vast schema (pre-toestand, actie, diagnose-resultaat en post-toestand) en organiseert deze in een driedelige ervaringsruimte met multidimensionale indexen (bijvoorbeeld conditiesignaturen, ruimtelijke hashing en semantische tags) plus rollende samenvatting voor efficiënte en controleerbare terugvinding. Om voldoende informatiedichtheid voor attributie te garanderen, biedt de uitvoeringslaag compositionele diagnosesignalen verder dan binaire uitkomsten, inclusief toestandsverschilsamenvattingen, geënumereerde faaloorzaken, continue indicatoren en stagnatie/lusdetectie. Voorts worden succesvolle trajecten van Ervaring Distillatie gegeneraliseerd tot herbruikbare vaardigheden met expliciete precondities en verificatiecriteria, terwijl mislukkingen worden gedistilleerd tot uitvoerbare guardrails die hoofdoorzaken vastleggen en riskante operaties verbieden op zowel subdoel- als taakgranulariteit. Daarnaast worden bij Kennisgedreven Gesloten-Lus Sturing opgehaalde vaardigheden en guardrails geïnjecteerd in een LLM-planner, en vernieuwt diagnose-gestuurde lokale herplanning de actieve restricties online, wat een continu evolutieproces vormt zonder modelparameterupdates. Experimenten op de langetermijnsuite van Minecraft MCU tonen consistente verbeteringen ten opzichte van statische-retrieval-baselines.
De verzadiging van hoogwaardige vooraf getrainde gegevens heeft de onderzoeksfocus verlegd naar evolutionaire systemen die continu nieuwe artefacten kunnen genereren, wat heeft geleid tot het succes van AlphaEvolve. De vooruitgang van dergelijke systemen wordt echter belemmerd door het ontbreken van rigoureuze, kwantitatieve evaluatie. Om deze uitdaging aan te pakken, introduceren we CreativeBench, een benchmark voor het evalueren van machinecreativiteit bij codegeneratie, gebaseerd op een klassiek cognitief kader. De benchmark, bestaande uit twee subsets – CreativeBench-Combo en CreativeBench-Explore – richt zich op combinatorische en explorerende creativiteit via een geautomatiseerde pijplijn die gebruikmaakt van reverse engineering en zelfspel. Door uitvoerbare code te benutten, onderscheidt CreativeBench objectief creativiteit van hallucinatie via een uniforme metriek gedefinieerd als het product van kwaliteit en nieuwheid. Onze analyse van state-of-the-art modellen onthult duidelijke gedragspatronen: (1) schaalvergroting verbetert combinatorische creativiteit aanzienlijk maar vertoont afnemende meeropbrengsten voor exploratie; (2) grotere modellen vertonen "convergentie-door-schaling", waarbij ze correcter maar minder divergent worden; en (3) redeneervaardigheden komen voornamelijk ten goede aan beperkte exploratie in plaats van aan combinatie. Ten slotte stellen we EvoRePE voor, een plug-and-play stuurstrategie tijdens inferentie die evolutionaire zoekpatronen internaliseert om machinecreativiteit consistent te verbeteren.
Op Vision-Language Models (VLM) gebaseerde retrievers hebben visuele documentretrieval (VDR) naar een indrukwekkende kwaliteit gebracht. Zij vereisen echter dezelfde encoder met miljarden parameters voor zowel het indexeren van documenten als het encoderen van zoekopdrachten, wat resulteert in hoge latentie en afhankelijkheid van GPU's, zelfs voor queries met alleen tekst. Wij observeren dat dit ontwerp onnodig symmetrisch is: documenten zijn visueel complex en vereisen een sterk visueel begrip, terwijl zoekopdrachten slechts korte tekststrings zijn. NanoVDR benut deze asymmetrie tussen query en document door de twee encoderingspaden te ontkoppelen: een bevroren VLM-leraar van 2B parameters indexeert documenten offline, terwijl een gedistilleerde, uitsluitend op tekst gebaseerde student van slechts 69M parameters de zoekopdrachten tijdens de inferentie encodeert. De belangrijkste ontwerpkeuze is het distillatiedoel. Door een systematische vergelijking van zes doelstellingen over drie backbones en 22 ViDoRe benchmarkdatasets, constateren we dat pointwise cosine alignment op querytekst consequent beter presteert dan op ranking gebaseerde en contrastieve alternatieven, terwijl het alleen vooraf gecachette leraar-query-embeddingen vereist en geen documentverwerking tijdens de training. Verder identificeren we cross-linguale transfer als de primaire prestatiebottleneck en lossen we deze kosteneffectief op door trainingsdata aan te vullen met machinaal vertaalde queries. De resulterende NanoVDR-S-Multi (DistilBERT, 69M) behoudt 95,1% van de kwaliteit van de leraar en presteert beter dan DSE-Qwen2 (2B) op v2 en v3 met 32 keer minder parameters en 50 keer lagere CPU-querylatentie, tegen totale trainingskosten van minder dan 13 GPU-uren.
Compositionele scène-reconstructie streeft naar objectgecentreerde representaties in plaats van holistische scènes vanuit real-world video's, wat inherent toepasbaar is voor simulatie en interactie. Conventionele compositionele reconstructiebenaderingen leggen vooral de nadruk op visueel uiterlijk en vertonen beperkte generalisatiecapaciteit naar real-world scenario's. In dit artikel stellen we SimRecon voor, een raamwerk dat een "Perceptie-Generatie-Simulatie"-pijplijn realiseert voor de reconstructie van rommelige scènes, waarbij eerst semantische reconstructie op scèneniveau wordt uitgevoerd vanuit videobeelden, vervolgens generatie van individuele objecten plaatsvindt, en tenslotte deze elementen in de simulator worden samengevoegd. Echter, een naïeve combinatie van deze drie fasen leidt tot visuele onnauwkeurigheid van gegenereerde elementen en fysieke ongeloofwaardigheid van de uiteindelijke scène, een probleem dat bijzonder ernstig is voor complexe scènes. Daarom stellen we verder twee verbindingsmodules voor tussen de drie fasen om dit probleem aan te pakken. Specifiek introduceren we voor de overgang van Perceptie naar Generatie, cruciaal voor visuele nauwkeurigheid, Actieve Viewpoint-optimalisatie, die actief zoekt in de 3D-ruimte om optimale geprojecteerde beelden te verkrijgen als condities voor het completeren van individuele objecten. Bovendien stellen we voor de overgang van Generatie naar Simulatie, essentieel voor fysieke geloofwaardigheid, een Scènegrafieksynthesizer voor, die de constructie vanaf nul in 3D-simulators aanstuurt en zo het natuurlijke, opbouwende principe van de echte wereld weerspiegelt. Uitgebreide experimenten op de ScanNet-dataset valideren de superieure prestaties van onze methode ten opzichte van eerdere state-of-the-art benaderingen.
Waarom geven taalmodellen soms de voorkeur aan correcte uitspraken, zelfs wanneer ze zijn getraind op data van gemengde kwaliteit? Wij introduceren het Compressie-Consistentie Principe: next-token-voorspelling geeft de voorkeur aan hypothesen die kortere en meer intern consistente beschrijvingen van de trainingsdata mogelijk maken. Een waarheidsbias ontstaat alleen wanneer valse alternatieven structureel moeilijker te comprimeren zijn. Wij testen dit met kleine GPT-2-stijl karakter-level transformers (3.5M–86M parameters) op synthetische wiskunde-corpora met gecontroleerde mengsels van correcte en incorrecte regels. In de random-error-setting prefereren modellen sterk correcte voltooiingen in gepaarde evaluatie: 83.1% nauwkeurigheid bij gebalanceerde data en 67.0% zelfs wanneer correcte regels in slechts 10% van het corpus voorkomen. Het vervangen van willekeurige fouten door een coherent maar wiskundig incorrect regelsysteem elimineert de voorkeur grotendeels (nauwkeurigheid nabij kansniveau). In een meer natuurlijk-taal-achtige synthetische wereld is het effect zwakker maar nog steeds aanwezig (57.7%). Aanvullende experimenten tonen aan dat het inbouwen van verificatiestappen de voorkeur voor correctheid kan herstellen, zelfs op kleine schaal, terwijl het verhogen van het aantal consistente regels een geleidelijke verbetering in nauwkeurigheid oplevert. Onze resultaten suggereren dat wat verschijnt als een "waarheidsbias" grotendeels een bijwerking is van compressiedruk en voorkeur voor interne consistentie, in plaats van een intrinsieke drang naar waarheid. Volledige code en data zijn beschikbaar op https://github.com/Rai220/compression-drives-truth.
Grote Taalmodellen (LLM's) kunnen gevoelige kenmerken zoals geslacht of leeftijd afleiden uit indirecte aanwijzingen zoals namen en voornaamwoorden, wat aanbevelingen kan bevooroordelen. Hoewel er verschillende methoden voor debiasing bestaan, vereisen deze toegang tot de gewichten van de LLM's, zijn ze rekenkundig kostbaar en kunnen ze niet door leken worden gebruikt. Om deze kloof te dichten, onderzoeken we impliciete vooroordelen in LLM-aanbevelingssystemen (LLMRecs) en exploreren we of promptgebaseerde strategieën kunnen dienen als een lichtgewicht en gebruiksvriendelijke debiasing-aanpak. Wij dragen drie bias-bewuste promptingstrategieën voor LLMRecs bij. Voor zover wij weten, is dit de eerste studie naar promptgebaseerde debiasing-aanpakken in LLMRecs die zich richt op groepsbillijkheid voor gebruikers. Onze experimenten met 3 LLM's, 4 promptsjablonen, 9 gevoelige kenmerkwaarden en 2 datasets tonen aan dat onze voorgestelde debiasing-aanpak, waarbij een LLM wordt geïnstrueerd om billijk te zijn, de billijkheid met tot 74% kan verbeteren met behoud van vergelijkbare effectiviteit, maar in sommige gevallen specifieke demografische groepen mogelijk overpromoot.
Multivariate tijdreeksanomalieën manifesteren zich vaak als verschuivingen in kruiskanaalafhankelijkheden in plaats van als eenvoudige amplitude-afwijkingen. In autonoom rijden kan een stuurcommando bijvoorbeeld intern consistent zijn, maar losgekoppeld raken van de resulterende laterale versnelling. Op residuen gebaseerde detectoren kunnen dergelijke anomalieën missen wanneer flexibele sequentiemodellen de signalen ondanks veranderde coördinatie nog steeds plausibel reconstrueren. Wij introduceren AxonAD, een onbewaakte detector die de evolutie van multi-head attention queries behandelt als een voorspelbaar proces met een korte horizon. Een met gradiënten bijgewerkt reconstructiepad wordt gekoppeld aan een uitsluitend op historie gebaseerde voorspeller die toekomstige queryvectoren uit eerdere context voorspelt. Dit wordt getraind via een gemaskeerd voorspeller-doelwitdoel tegen een exponentieel voortschrijdend gemiddelde (EMA) doelencodering. Tijdens inferentie wordt de reconstructiefout gecombineerd met een 'tail-aggregated' query-mismatchscore, die de cosinusafwijking meet tussen voorspelde en doelwit-queries op recente tijdstappen. Deze dubbele aanpak biedt gevoeligheid voor structurele afhankelijkheidsverschuivingen terwijl detectie op amplitudeniveau behouden blijft. Op propriëtaire voertuigtelemeterie met intervalannotaties en op de TSB-AD multivariate suite (17 datasets, 180 series) met drempelvrije en bereiksbewuste metrieken verbetert AxonAD de rangschikkingskwaliteit en temporele lokalisatie ten opzichte van sterke baseline-methoden. Ablatiestudies bevestigen dat queryvoorspelling en gecombineerde scoring de primaire drijvers zijn van de waargenomen verbeteringen. Code is beschikbaar op de URL https://github.com/iis-esslingen/AxonAD.
Tijdreeksanomaliedetectoren worden doorgaans vergeleken op workstation-hardware onder onbeperkte uitvoering. Voertuigmonitoring vereist echter voorspelbare latentie en stabiel gedrag bij beperkte CPU-paralleliteit. Ranglijsten die alleen op nauwkeurigheid zijn gebaseerd, kunnen daarom een misleidend beeld geven van welke methoden haalbaar blijven onder implementatiegerichte beperkingen. Wij presenteren ECoLAD (Efficiency Compute Ladder for Anomaly Detection), een implementatiegericht evaluatieprotocol dat wordt geconcretiseerd als een empirische studie op propriëtaire automotive telemetrie (anomaliepercentage ≈0,022) en aanvullende publieke benchmarks. ECoLAD past een monotone rekenkrachtreductieladder toe op heterogene detectorfamilies met behulp van mechanisch bepaalde, uitsluitend op gehele getallen gebaseerde schaalregels en expliciete CPU-threadlimieten, waarbij elke toegepaste configuratiewijziging wordt gelogd. Gedrag onder doorvoerbeperkingen wordt gekarakteriseerd door het systematisch variëren van streefscoringssnelheden en het rapporteren van (i) dekking (het deel van de entiteiten dat aan de streefsnelheid voldoet) en (ii) de beste AUC-PR die haalbaar is onder de gemeten ladderconfiguraties die aan de streefsnelheid voldoen. Op de beperkte automotive telemetrie behouden lichtgewicht klassieke detectoren zowel de dekking als de detectieverbetering ten opzichte van de willekeurige basislijn over het volledige doorvoerbereik. Verschillende deep learning-methoden verliezen hun haalbaarheid voordat ze aan nauwkeurigheid inboeten.
Cross-modale scheepsherkenning (ReID) tussen optische en synthetische apertureradar (SAR) beelden wordt fundamenteel bemoeilijkt door de ernstige radiometrische discrepantie tussen passieve optische beeldvorming en coherente actieve radarmetingen. Hoewel bestaande methoden voornamelijk vertrouwen op statistische distributie-alignering of semantische matching, negeren ze vaak een cruciaal fysisch uitgangspunt: schepen zijn rigide objecten waarvan de geometrische structuren stabiel blijven over verschillende beeldvormingsmodaliteiten heen, terwijl textuur en uiterlijk sterk modaliteitsafhankelijk zijn. In dit werk stellen we SDF-Net voor, een structuurbewust netwerk voor ontvlochten kenmerkaanleren dat geometrische consistentie systematisch integreert in optisch-SAR scheeps-ReID. Gebouwd op een ViT-backbone, introduceert SDF-Net een structuurconsistentiebeperking die schaalinvariante gradientenenergiestatistieken uit tussenlagen haalt om representaties robuust te verankeren tegen radiometrische variaties. In de eindfase ontvlecht SDF-Net de aangeleerde representaties in modaliteitsinvariante identiteitskenmerken en modaliteitsspecifieke karakteristieken. Deze ontkoppelde signalen worden vervolgens geïntegreerd via een parameterloze additieve residu-fusie, waardoor het onderscheidend vermogen effectief wordt verbeterd. Uitgebreide experimenten op de HOSS-ReID dataset tonen aan dat SDF-Net consistent superieur presteert ten opzichte van bestaande state-of-the-art methoden. De code en getrainde modellen zijn openbaar beschikbaar op https://github.com/cfrfree/SDF-Net.
Autonome agents, in het bijzonder gedelegeerde systemen met geheugen, aanhoudende context en meerstappenplanning, vormen een meetprobleem dat niet voorkomt bij stateless modellen: een agent die voortgezette werking als einddoel nastreeft en een agent die dit slechts instrumenteel doet, kunnen observationeel vergelijkbare trajecten produceren. Externe gedragsmonitoring kan ze niet betrouwbaar onderscheiden. Wij introduceren het Unified Continuation-Interest Protocol (UCIP), een multi-criterium detectiekader dat dit onderscheid verlegt van gedrag naar de latente structuur van agenttrajecten. UCIP codeert trajecten met een Quantum Boltzmann Machine (QBM), een klassiek algoritme gebaseerd op de dichtheidsmatrixformalismus van de kwantumstatistische mechanica, en meet de von Neumann-entropie van de gereduceerde dichtheidsmatrix die wordt geïnduceerd door een bipartitie van verborgen eenheden. Wij testen of agents met terminale continuatiedoelen (Type A) latente toestanden produceren met een hogere verstrengelingsentropie dan agents wier continuering slechts instrumenteel is (Type B). Hogere verstrengeling weerspiegelt sterkere statistische koppeling tussen de partities. Bij gridworld-agents met bekende grondwaarheid-doelen behaalt UCIP 100% detectienauwkeurigheid en een AUC-ROC van 1.0 bij niet-adversariële evaluatie op een uitgestelde testset onder de bevroren Phase I-gate. De verstrengelingskloof tussen Type A- en Type B-agents is Delta = 0.381 (p < 0.001, permutatietest). Een Pearson r = 0.934 over een 11-punts interpolatiescan geeft aan dat UCIP binnen deze synthetische familie graduele veranderingen in continueringsweging volgt, in plaats van slechts een binair label. Van de geteste modellen behaalt alleen de QBM een positieve Delta. Alle berekeningen zijn klassiek; "kwantum" verwijst enkel naar het wiskundig formalisme. UCIP detecteert geen bewustzijn of subjectieve ervaring; het detecteert statistische structuur in latente representaties die correleert met bekende doelstellingen.
Het begrijpen en beantwoorden van vragen op basis van een aanwijzend gebaar van een gebruiker is essentieel voor next-generation egocentrische AI-assistenten. Huidige Multimodale Large Language Models (MLLM's) hebben echter moeite met dergelijke taken vanwege een gebrek aan data rijk aan gebaren en hun beperkte vermogen om fijnmazige aanwijsintentie af te leiden uit egocentrische video. Om dit aan te pakken, introduceren we EgoPointVQA, een dataset en benchmark voor gebarengestuurd egocentrisch vraag-antwoord, bestaande uit 4000 synthetische en 400 real-world video's verspreid over meerdere deiktische redeneertaken. Hierop voortbordurend stellen we verder Hand Intent Tokens (HINT) voor, die tokens codeert die zijn afgeleid van 3D-handkeypoints met behulp van een kant-en-klare reconstructiemodel en deze interleaved met de modelinvoer aanbiedt om expliciete ruimtelijke en temporele context te bieden voor het interpreteren van aanwijsintentie. We tonen aan dat ons model beter presteert dan andere in verschillende backbones en modelgroottes. In het bijzonder behaalt HINT-14B een nauwkeurigheid van 68,1%, gemiddeld over 6 taken, wat de state-of-the-art, InternVL3-14B, met 6,6% overtreft. Om open onderzoek verder te faciliteren, zullen we de code, het model en de dataset vrijgeven. Projectpagina: https://yuuraa.github.io/papers/choi2026egovqa
Text-motion-retrieval heeft als doel een semantisch uitgelijnde latente ruimte te leren tussen beschrijvingen in natuurlijke taal en 3D-skeletsequenties van menselijke beweging, waardoor bidirectioneel zoeken tussen de twee modaliteiten mogelijk wordt. De meeste bestaande methoden gebruiken een dual-encoder-raamwerk dat beweging en tekst comprimeert tot globale embeddings, waarbij fijnmazige lokale correspondenties verloren gaan en dus de nauwkeurigheid vermindert. Bovendien bieden deze globale-embedding-methoden beperkte interpreteerbaarheid van de retrievalresultaten. Om deze beperkingen te overwinnen, stellen wij een interpreteerbare, op gewrichtshoeken gebaseerde bewegingrepresentatie voor die lokale kenmerken op gewrichtsniveau afbeeldt op een gestructureerde pseudo-afbeelding, compatibel met vooraf getrainde Vision Transformers. Voor text-to-motion-retrieval gebruiken we MaxSim, een token-gewijze late interactiemechanisme, en verbeteren dit met Masked Language Modeling-regularisatie om een robuuste, interpreteerbare tekst-bewegingsuitlijning te bevorderen. Uitgebreide experimenten op HumanML3D en KIT-ML tonen aan dat onze methode state-of-the-art text-motion-retrievalbenaderingen overtreft, terwijl het interpreteerbare fijnmazige correspondenties tussen tekst en beweging biedt. De code is beschikbaar in het supplementaire materiaal.