Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren Ling 2.0, een serie taalmodellen met een redeneergerichte basis, gebouwd op het principe dat elke activatie het redeneervermogen versterkt. Ontworpen om te schalen van tientallen miljarden tot één biljoen parameters binnen een verenigd Mixture-of-Experts (MoE)-paradigma, legt Ling 2.0 de nadruk op hoge sparse activatie, consistentie over verschillende schalen en efficiëntie geleid door empirische schaalwetten. De serie omvat drie niet-denkende (instruct-)modellen - Ling-mini-2.0, Ling-flash-2.0 en Ling-1T - met een bereik van 16B tot 1T totale parameters en een tot 7-voudige efficiëntie in actieve rekenkracht vergeleken met dichte tegenhangers. Ling 2.0 integreert gecoördineerde innovaties op het gebied van modelarchitectuur, voorafgaande training, training-na-training en infrastructuur: een high-sparsity MoE met MTP voor efficiënt redeneren, redeneergerichte data en CoT-activatie tijdens de training, reinforcement-gebaseerde fine-tuning (DFT, Evo-CoT), en training op volledige schaal met FP8 en fijnmazige heterogene pijplijnen. Op de biljoenschaal vestigt Ling-1T een nieuwe Pareto-grens voor redeneernauwkeurigheid versus computationele efficiëntie, wat aantoont dat sparse activatie, wanneer goed afgestemd op redeneerdoelen, schaalbare en efficiënte intelligentie mogelijk maakt. Gezamenlijk biedt Ling 2.0 een samenhangende, open en efficiënte basis voor de verdere ontwikkeling van toekomstige redeneer- en denkmodellen, inclusief de Ring-serie die op dezelfde basis is gebouwd.
Impliciete beleidsmodellen geparametriseerd door generatieve modellen, zoals Diffusion Policy, zijn de standaard geworden voor beleidsleren en Vision-Language-Action (VLA)-modellen in de robotica. Deze benaderingen kampen echter vaak met hoge rekenkosten, exposure bias en onstabiele inferentiedynamiek, wat leidt tot divergentie bij distributieverschuivingen. Energy-Based Models (EBM's) pakken deze problemen aan door energie-landschappen end-to-end te leren en evenwichtsdynamica te modelleren, wat een verbeterde robuustheid en verminderde exposure bias biedt. Toch hebben op EBM's geparametriseerde beleidsmodellen historisch gezien moeite om effectief op te schalen. Recent werk over Energy-Based Transformers (EBT's) toont de schaalbaarheid van EBM's naar hoogdimensionale ruimtes aan, maar hun potentieel om kernuitdagingen in fysiek belichaamde modellen op te lossen blijft onderbelicht. Wij introduceren een nieuwe energie-gebaseerde architectuur, EBT-Policy, die kernproblemen in robot- en real-world settings oplost. In zowel gesimuleerde als real-world taken presteert EBT-Policy consistent beter dan op diffusie gebaseerde beleidsmodellen, terwijl het minder rekenkracht voor training en inferentie vereist. Opmerkelijk genoeg convergeert het bij sommige taken binnen slechts twee inferentiestappen, een reductie van 50x vergeleken met de 100 stappen van Diffusion Policy. Bovendien vertoont EBT-Policy emergentie van capaciteiten die niet gezien werden in eerdere modellen, zoals zero-shot herstel van mislukte actiesequenties met alleen behavior cloning en zonder expliciete retry-training. Door gebruik te maken van zijn scalaire energie voor onzekerheidsbewuste inferentie en dynamische rekenallocatie, biedt EBT-Policy een veelbelovend pad naar robuust, generaliseerbaar robotgedrag onder distributieverschuivingen.
Test-Time Scaling (TTS) verbetert grote taalmodelmodellen (LLM's) door extra rekenkracht toe te wijzen tijdens de inferentie, meestal via parallelle, sequentiële of hybride schaling. Eerdere studies gaan echter vaak uit van vaste samenwerkingsarchitecturen (bijvoorbeeld topologieën) en het gebruik van één model, waarbij wordt over het hoofd gezien dat optimale architecturen en modelcombinaties per taak kunnen verschillen. Daarom bestuderen wij het nieuwe probleem van het zoeken naar rekenkundig optimale modelcombinaties en architecturen in TTS onder een vast budget. Wij formaliseren dit als een multi-LLM-samenwerkingsgraaf, waarbij knooppunten rollen en LLM-modeltoewijzingen coderen, en edges de informatiestroom vastleggen. Dit probleem is uitdagend omdat (i) de combinatorische zoekruimte onhaalbaar groot is, en (ii) taakspecifieke eisen op maat gemaakte ontwerpen vereisen. Om deze problemen aan te pakken, herformuleren we het probleem als probabilistische graafoptimalisatie en leiden we via pilootexperimenten drie empirische inzichten af over TTS-samenwerkingsgrafen. Geleid door deze inzichten, stellen we Agent-REINFORCE voor, een LLM-agent-aangevuld framework dat de REINFORCE-pijplijn nabootst door steekproef-gradient-update te vertalen naar steekproef-feedback-update, waarbij feedback dient als een tekstuele gradiënt om de probabilistische graaf bij te werken en efficiënt te zoeken naar optimale multi-LLM-samenwerkingsgrafen. Experimenten tonen aan dat Agent-REINFORCE zowel traditionele als LLM-gebaseerde baseline-methoden overtreft in steekproefefficiëntie en zoekprestaties, en effectief optimale grafen identificeert onder gezamenlijke doelstellingen van nauwkeurigheid en inferentielatentie.
Wij introduceren [Cosmos-Predict2.5], de nieuwste generatie van de Cosmos World Foundation Models voor Physical AI. Gebaseerd op een flow-gebaseerde architectuur, verenigt [Cosmos-Predict2.5] Text2World-, Image2World- en Video2World-generatie in één enkel model en benut het [Cosmos-Reason1], een Physical AI vision-language model, voor rijkere tekstverankering en fijnere controle van wereldsimulatie. Getraind op 200 miljoen gecureerde videofragmenten en verfijnd met reinforcement learning-gebaseerde natreining, behaalt [Cosmos-Predict2.5] aanzienlijke verbeteringen ten opzichte van [Cosmos-Predict1] in videokwaliteit en instructievolging, waarbij modellen worden vrijgegeven op 2B- en 14B-schalen. Deze mogelijkheden maken betrouwbaardere synthetische datageneratie, beleidsevaluatie en gesloten-lus simulatie mogelijk voor robotica en autonome systemen. Wij breiden de familie verder uit met [Cosmos-Transfer2.5], een control-net-stijl raamwerk voor Sim2Real- en Real2Real-wereldvertaling. Hoewel het 3,5 keer kleiner is dan [Cosmos-Transfer1], levert het hogere nauwkeurigheid en robuuste lange-termijn videogeneratie. Gezamenlijk vestigen deze vooruitgangen [Cosmos-Predict2.5] en [Cosmos-Transfer2.5] als veelzijdige tools voor het schalen van belichaamde intelligentie. Om onderzoek en implementatie in Physical AI te versnellen, geven wij broncode, vooraf getrainde checkpoints en gecureerde benchmarks vrij onder de NVIDIA Open Model License op https://github.com/nvidia-cosmos/cosmos-predict2.5 en https://github.com/nvidia-cosmos/cosmos-transfer2.5. Wij hopen dat deze open bronnen de drempel voor adoptie verlagen en innovatie bevorderen bij het bouwen van de volgende generatie belichaamde intelligentie.
Recente vooruitgang in multimodale generatieve modellen heeft aanzienlijke verbeteringen in beeldbewerking mogelijk gemaakt. Huidige generatieve modellen hebben echter nog steeds moeite met het verwerken van diverse en complexe beeldbewerkings taken die impliciete redenering vereisen, wat de behoefte aan een uitgebreide benchmark benadrukt om hun prestaties systematisch te evalueren in verschillende redeneerscenario's. Bestaande benchmarks richten zich voornamelijk op attribuuttransformatie van enkelvoudige objecten in realistische scenario's, die, hoewel effectief, met twee belangrijke uitdagingen worden geconfronteerd: (1) ze negeren grotendeels interacties tussen meerdere objecten evenals spelwereldscenario's die door mensen gedefinieerde regels omvatten, wat gebruikelijk is in real-life toepassingen; (2) ze vertrouwen alleen op tekstuele referenties om de gegenereerde beelden te evalueren, wat mogelijk tot systematische beoordelingsfouten leidt, vooral in complexe redeneerscenario's. Daarom stelt dit werk UniREditBench voor, een uniforme benchmark voor op redenering gebaseerde evaluatie van beeldbewerking. Het omvat 2.700 zorgvuldig samengestelde samples, die zowel real-world als spelwereldscenario's bestrijken over 8 primaire dimensies en 18 sub-dimensies. Om de betrouwbaarheid van de evaluatie te verbeteren, introduceren we multimodale dubbele-referentie-evaluatie, waarbij zowel tekstuele als grondwaarheid-beeldreferenties voor elke samplebeoordeling worden verstrekt. Verder ontwerpen we een geautomatiseerde pijplijn voor gegevenssynthese in meerdere scenario's en construeren we UniREdit-Data-100K, een grootschalige synthetische dataset met hoogwaardige chain-of-thought (CoT) redeneerannotaties. We fine-tunen Bagel op deze dataset en ontwikkelen UniREdit-Bagel, wat aanzienlijke verbeteringen demonstreert in zowel in-domein als out-of-distribution settings. Door grondige benchmarking van zowel open-source als closed-source beeldbewerkingsmodellen, onthullen we hun sterke en zwakke punten op verschillende aspecten.
Graph Neural Networks werken via bottom-up berichtenoverdracht, wat fundamenteel verschilt van menselijke visuele perceptie, die eerst intuïtief globale structuren vastlegt. Wij onderzoeken het ondergewaardeerde potentieel van visiemodellen voor grafiekbegrip, en constateren dat zij prestaties bereiken die vergelijkbaar zijn met GNNs op gevestigde benchmarks, terwijl zij duidelijk verschillende leerpatronen vertonen. Deze uiteenlopende gedragingen, gecombineerd met de beperkingen van bestaande benchmarks die domeinkenmerken vermengen met topologisch begrip, motiveren onze introductie van GraphAbstract. Deze benchmark evalueert het vermogen van modellen om globale grafiekeigenschappen waar te nemen zoals mensen doen: het herkennen van organisatorische archetypen, het detecteren van symmetrie, het aanvoelen van connectiviteitssterkte en het identificeren van kritieke elementen. Onze resultaten tonen aan dat visiemodellen significant beter presteren dan GNNs bij taken die holistisch structureel begrip vereisen, en generaliseerbaarheid behouden over verschillende grafiekschalen, terwijl GNNs moeite hebben met abstractie van globale patronen en degraderen bij toenemende grafiekgrootte. Dit werk toont aan dat visiemodellen opmerkelijke maar onderbenutte capaciteiten bezitten voor grafiekstructureel begrip, in het bijzonder voor problemen die globaal topologisch bewustzijn en schaalinvariant redeneren vereisen. Deze bevindingen openen nieuwe wegen om dit ondergewaardeerde potentieel te benutten voor de ontwikkeling van effectievere grafiekfoundationmodellen voor taken die gedomineerd worden door holistische patroonherkenning.
Relighting is een cruciale taak met zowel praktische vraag als artistieke waarde, en recente diffusiemodellen hebben sterke potentie getoond door rijke en controleerbare belichtingseffecten mogelijk te maken. Omdat ze echter typisch geoptimaliseerd worden in een semantische latente ruimte, waar nabijheid geen fysieke correctheid in de visuele ruimte garandeert, produceren ze vaak onrealistische resultaten, zoals overbelichte highlights, verkeerd uitgelijnde schaduwen en incorrecte occlusies. Wij pakken dit aan met UniLumos, een uniform raamwerk voor relighting van zowel afbeeldingen als video's dat RGB-ruimte geometrie-feedback integreert in een flow matching backbone. Door het model te superviseren met diepte- en normaalvectorkaarten geëxtraheerd uit zijn outputs, aligneren we belichtingseffecten expliciet met de scènestructuur, wat de fysieke geloofwaardigheid verbetert. Deze feedback vereist echter hoogkwalitatieve outputs voor supervisie in de visuele ruimte, wat standaard multi-step denoising computationeel kostbaar maakt. Om dit te verlichten, gebruiken we path consistency learning, waardoor supervisie effectief blijft zelfs onder few-step trainingsregimes. Om fijnmazige relighting-controle en -supervisie mogelijk te maken, ontwerpen we een gestructureerd zesdimensionaal annotatieprotocol dat kernilluminatie-attributen vastlegt. Hierop voortbouwend stellen we LumosBench voor, een gedisentangleerd attribuutniveau benchmark die belichtingscontroleerbaarheid evalueert via grote vision-language modellen, waardoor een automatische en interpreteerbare beoordeling van relighting-precisie over individuele dimensies mogelijk wordt. Uitgebreide experimenten tonen aan dat UniLumos state-of-the-art relighting-kwaliteit bereikt met aanzienlijk verbeterde fysieke consistentie, terwijl het een 20x snelheidswinst oplevert voor zowel afbeelding- als videorelighting. Code is beschikbaar op https://github.com/alibaba-damo-academy/Lumos-Custom.
Grote redeneermodellen (LRM's) vertonen sterke capaciteiten voor complex redeneren, maar hun marginale winst op feitelijke vragen die afhankelijk zijn van bewijs is beperkt. Wij constateren dat deze beperking gedeeltelijk toe te schrijven is aan een *reasoning-answer hit gap* (een kloof tussen redeneren en antwoordtreffer), waarbij het model de juiste feiten tijdens het redeneren identificeert maar er niet in slaagt deze te integreren in het uiteindelijke antwoord, waardoor de feitelijke nauwkeurigheid afneemt. Om dit probleem aan te pakken, stellen we MR-ALIGN voor, een *Meta-Reasoning informed alignment* kader dat de feitelijkheid verbetert zonder afhankelijk te zijn van externe verificateurs. MR-ALIGN kwantificeert de waarschijnlijkheden van toestandsovergangen tijdens het denkproces van het model en construeert een op overgangen geënte impliciete beloning die nuttige redeneerpatronen versterkt en defecte onderdrukt op het niveau van atomische denksegmenten. Deze herweging transformeert signaal op tokenniveau naar waarschijnlijkheidsgevoelige segmentscores, wat coherente redeneertrajecten bevordert die meer bevorderlijk zijn voor feitelijke correctheid. Empirische evaluaties op vier feitelijke vraag-antwoorddatasets en een benchmark voor feitelijkheid in lange vorm tonen aan dat MR-ALIGN consistent de nauwkeurigheid en waarheidsgetrouwheid verbetert en misleidend redeneren vermindert. Deze resultaten benadrukken dat het afstemmen van het redeneerproces zelf, in plaats van slechts de uitvoeren, cruciaal is voor het bevorderen van feitelijkheid in LRM's.
Unified multimodal models (UMM's) zijn naar voren gekomen als een krachtig paradigma voor het naadloos integreren van tekst- en beeldbegrip en -generatie. De heersende evaluatiemethoden behandelen deze vaardigheden echter geïsoleerd, waarbij taken met multimodale invoer en uitvoer voornamelijk worden beoordeeld via unimodale redenering; tekstuele benchmarks benadrukken bijvoorbeeld op taal gebaseerde redenering, terwijl visuele benchmarks de redeneeruitkomsten die in de pixels zichtbaar zijn benadrukken. We introduceren ROVER om in deze dringende behoefte te voorzien door wederkerige cross-modale redenering te testen: het gebruik van de ene modaliteit om uitvoer in de andere te sturen, verifiëren of verfijnen. Dit is een vaardigheid die centraal staat in de visie van verenigde multimodale intelligentie. ROVER is een door mensen geannoteerde benchmark die zich expliciet richt op wederkerige cross-modale redenering en bevat 1312 taken gebaseerd op 1876 afbeeldingen, verdeeld over twee complementaire settings. *Verbaal-augmented redenering voor visuele generatie* evalueert of modellen verbale prompts en redeneerketens kunnen gebruiken om getrouwe beeld-synthese te sturen. *Visueel-augmented redenering voor verbale generatie* evalueert of modellen tussentijdse visualisaties kunnen genereren die hun eigen redeneerprocessen voor vraagbeantwoording versterken. Experimenten met 17 unified models onthullen twee belangrijke bevindingen: (i) Cross-modale redenering bepaalt de kwaliteit van visuele generatie, waarbij geïnterleefde modellen niet-geïnterleefde modellen significant overtreffen; opmerkelijk is dat het combineren van sterke unimodale modellen niet tot vergelijkbare redenering leidt. (ii) Modellen tonen een dissociatie tussen fysieke en symbolische redenering: ze slagen erin perceptuele concepten letterlijk te interpreteren, maar falen in het construeren van visuele abstracties voor symbolische taken, waar gebrekkige redenering de prestaties schaadt. Deze resultaten benadrukken wederkerige cross-modale redenering als een kritieke grens voor het mogelijk maken van ware omnimodale generatie.
Bewegingsimitatie is een veelbelovende aanpak voor humanoïde voortbeweging, waarmee agents mensachtig gedrag kunnen aanleren. Bestaande methoden zijn doorgaans afhankelijk van hoogwaardige motion capture-datasets zoals AMASS, maar deze zijn schaars en duur, wat de schaalbaarheid en diversiteit beperkt. Recente onderzoeken proberen de gegevensverzameling op te schalen door grootschalige internetvideo's om te zetten, zoals geïllustreerd door Humanoid-X. Deze introduceren echter vaak fysieke artefacten zoals zweven, penetratie en voetglijden, wat stabiele imitatie belemmert. Als antwoord hierop introduceren wij PHUMA, een fysiek gefundeerde HUMAnoïde voortbewegingsdataset die gebruikmaakt van grootschalige menselijke video's, terwijl fysieke artefacten worden aangepakt via zorgvuldige datacuratie en fysica-gelimiteerd retargeten. PHUMA handhaaft gewrichtslimieten, zorgt voor grondcontact en elimineert voetglijden, waardoor bewegingen worden geproduceerd die zowel grootschalig als fysiek betrouwbaar zijn. Wij evalueerden PHUMA onder twee sets condities: (i) imitatie van onzichtbare beweging uit zelf-opgenomen testvideo's en (ii) padvolging met alleen bekkensturing. In beide gevallen presteren met PHUMA getrainde beleidsmodellen beter dan Humanoid-X en AMASS, met aanzienlijke verbeteringen in het imiteren van diverse bewegingen. De code is beschikbaar op https://davian-robotics.github.io/PHUMA.
Huidige methoden voor videogeneratie op basis van beweging hebben last van verboden latentie (minuten per video) en niet-causale verwerking die real-time interactie onmogelijk maakt. Wij presenteren MotionStream, dat subseconden latentie mogelijk maakt met een streaminggeneratie tot 29 FPS op een enkele GPU. Onze aanpak begint met het uitbreiden van een tekst-naar-videomodel met bewegingscontrole, dat hoogwaardige video's genereert die voldoen aan de globale tekstprompt en lokale bewegingsrichtlijnen, maar geen real-time inferentie uitvoert. Vervolgens distilleren we deze bidirectionele leraar in een causale student via Self Forcing met Distribution Matching Distillation, waardoor real-time streaminginferentie mogelijk wordt. Er doen zich verschillende belangrijke uitdagingen voor bij het genereren van video's met lange, mogelijk oneindige tijdshorizons: (1) het overbruggen van de domeinkloof tussen training op eindige lengte en extrapolatie naar oneindige horizons, (2) het handhaven van hoge kwaliteit door het voorkomen van foutaccumulatie, en (3) het behouden van snelle inferentie zonder groei in rekenkosten door toenemende contextvensters. Een sleutelelement van onze aanpak is de introductie van zorgvuldig ontworpen causal attention met schuifvensters, gecombineerd met attention sinks. Door self-rollout met attention sinks en KV-cache-rolling tijdens de training te incorporeren, simuleren we correcte inferentietijd-extrapolaties met een vast contextvenster, waardoor generatie met constante snelheid van willekeurig lange video's mogelijk wordt. Onze modellen behalen state-of-the-art resultaten in bewegingvolging en videokwaliteit, terwijl ze twee orden van grootte sneller zijn en uniek in staat zijn tot streaming van oneindige lengte. Met MotionStream kunnen gebruikers trajecten tekenen, camera's besturen of beweging overdragen, en de resultaten in real-time zien ontvouwen, wat een werkelijk interactieve ervaring biedt.
Onlangs hebben grote taalmodellen (LLM's) opmerkelijke probleemoplossende vermogens getoond door zich autonoom te integreren met externe tools voor collaboratief redeneren. Vanwege de inherent complexe en diverse aard van multimodale informatie blijft het echter een onderbelichte uitdaging om multimodale grote taalmodellen (MLLM's) in staat te stellen externe tools flexibel en efficiënt te benutten tijdens het redeneren. In dit werk introduceren we ToolScope, een agent-gebaseerd raamwerk ontworpen om globale planning te verenigen met lokale multimodale perceptie, waarbij een gespecialiseerd Perceive-tool wordt ingezet om visuele contextdegradatie in langetermijn VQA-taken te mitigeren. ToolScope omvat drie primaire componenten: de Global Navigator, de Agentic Executor en de Response Synthesizer. De Global Navigator fungeert als een "telescoop" die hoogwaardige strategische richtlijnen biedt. De Agentic Executor opereert iteratief om de MLLM uit te breiden met lokale perceptie door de integratie van externe tools - Search, Code en Perceive. Ten slotte consolideert en organiseert de Response Synthesizer het redeneerproces tot een coherente, gebruiksvriendelijke output. We evalueren ToolScope op vier VQA-benchmarks in diverse domeinen, waaronder VQA 2.0, ScienceQA, MAT-Search en MathVista. Het framework toont sterke generalisatiecapaciteiten en behaalt een gemiddelde prestatieverbetering van tot +6,69% over alle datasets.
Wij introduceren LongCat-Flash-Omni, een state-of-the-art open-source omnimodaal model met 560 miljard parameters, dat uitblinkt in real-time audio-visuele interactie. Door een curriculum-geïnspireerde progressieve trainingsstrategie toe te passen die overgaat van eenvoudigere naar steeds complexere modaliteitssequentie-modelleringstaken, bereikt LongCat-Flash-Omni uitgebreide multimodale capaciteiten terwijl het sterke unimodale prestaties behoudt. Voortbordurend op LongCat-Flash, dat een hoogwaardige Shortcut-connected Mixture-of-Experts (MoE)-architectuur met zero-computation experts hanteert, integreert LongCat-Flash-Omni efficiënte multimodale perceptie- en spraakreconstructiemodules. Ondanks de enorme omvang van 560B parameters (waarvan 27B geactiveerd), bereikt LongCat-Flash-Omni low-latency real-time audio-visuele interactie. Voor de trainingsinfrastructuur ontwikkelden we een modaliteit-ontkoppeld parallelisme-schema specifiek ontworpen om de inherente data- en modelheterogeniteit in grootschalige multimodale training te beheren. Deze innovatieve aanpak toont uitzonderlijke efficiëntie door meer dan 90% van de doorvoer te behouden die bereikt wordt met uitsluitend teksttraining. Uitgebreide evaluaties tonen aan dat LongCat-Flash-Omni state-of-the-art prestaties behaalt op omnimodale benchmarks onder open-source modellen. Bovendien levert het zeer competitieve resultaten op een breed scala aan modaliteit-specifieke taken, waaronder tekst-, beeld- en videobegrip, evenals audiobegrip en -generatie. Wij bieden een uitgebreid overzicht van het modelarchitectuurontwerp, trainingsprocedures en datastrategieën, en open-sourcen het model om toekomstig onderzoek en ontwikkeling in de gemeenschap te bevorderen.
Recente vooruitgang in het redeneervermogen van grote taalmmodellen (LLM's) door reinforcement learning is afhankelijk van geannoteerde datasets voor verifieerbare beloningen, wat het vermogen van modellen om menselijk prestatieniveau te overstijgen kan beperken. Hoewel zelfspel een veelbelovend alternatief biedt, zijn bestaande benaderingen afhankelijk van externe verificateurs of kunnen ze niet open-eindig leren. Wij presenteren Open-Ended Self-Improving Reasoner (OpenSIR), een zelfspelraamwerk waarin een LLM leert om nieuwe problemen te genereren en op te lossen door afwisselend de rol van leraar en student aan te nemen, zonder externe supervisie. Om nieuwe problemen te genereren, optimaliseert OpenSIR voor zowel moeilijkheidsgraad als diversiteit, waarbij problemen worden beloond die uitdaging bieden op het juiste niveau en tegelijkertijd verschillende concepten verkennen, wat open-eindige wiskundige ontdekking mogelijk maakt. Beginnend vanaf een enkel triviaal startprobleem, verbetert OpenSIR instructiemodellen aanzienlijk: Llama-3.2-3B-Instruct vordert van 73.9 naar 78.3 op GSM8K, en van 28.8 naar 34.4 op College Math, terwijl Gemma-2-2B-Instruct stijgt van 38.5 naar 58.7 op GSM8K. Onze analyses tonen aan dat OpenSIR open-eindig leren bereikt door co-evoluerende leraar-studentrollen die de moeilijkheidsgraad adaptief kalibreren en diverse verkenning aansturen, waardoor autonoom wordt voortgegaan van basis- naar geavanceerde wiskunde.
Het heersende paradigma voor videoretrieval is structureel misaligned, omdat smalle benchmarks even beperkte data en single-task training stimuleren. Hierdoor wordt universele capaciteit onderdrukt door het ontbreken van een diagnostische evaluatie die multidimensionale generalisatie definieert en vereist. Om deze cyclus te doorbreken, introduceren we een framework gebaseerd op de co-design van evaluatie, data en modellering. Ten eerste stellen we de Universal Video Retrieval Benchmark (UVRB) voor, een verzameling van 16 datasets die niet alleen prestaties meten, maar ook kritieke capaciteitshiaten tussen taken en domeinen diagnosticeren. Ten tweede, geleid door UVRB's diagnostiek, introduceren we een schaalbare syntheseworkflow die 1,55 miljoen hoogwaardige paren genereert om de semantische ruimte die nodig is voor universaliteit te vullen. Tot slot ontwikkelen we de Modality Pyramid, een curriculum dat onze General Video Embedder (GVE) traint door expliciet gebruik te maken van de latente verbanden binnen onze diverse data. Uitgebreide experimenten tonen aan dat GVE state-of-the-art zero-shot generalisatie bereikt op UVRB. Onze analyse onthult in het bijzonder dat populaire benchmarks slechte voorspellers zijn van algemeen vermogen, en dat gedeeltelijk relevante retrieval een dominant maar over het hoofd gezien scenario is. Al met al biedt ons co-designed framework een praktisch pad om te ontsnappen aan het beperkte bereik en vooruitgang te boeken naar werkelijk universele videoretrieval.
De frontlinie van visueel redeneren verschuift naar modellen zoals OpenAI o3, die op intelligente wijze gereedschappen kunnen creëren en bedienen om afbeeldingen te transformeren voor probleemoplossing, ook wel bekend als denken-met-afbeeldingen in een keten van gedachten. Toch slagen bestaande benchmarks er niet in om dit geavanceerde vermogen volledig te vatten. Zelfs Visueel Zoeken, de meest gangbare benchmark voor huidige denken-met-afbeeldingen-methoden, test slechts basale operaties zoals lokalisatie en bijsnijden, wat weinig inzicht biedt in complexer, dynamischer en gereedschapsafhankelijker redeneren. Wij introduceren TIR-Bench, een uitgebreide benchmark voor het evalueren van agent-achtig denken-met-afbeeldingen over 13 uiteenlopende taken, die elk nieuw gereedschapsgebruik vereisen voor beeldverwerking en -manipulatie in een keten van gedachten. Wij evalueren 22 multimodale grote taalmodellen (MLLM's), van toonaangevende open-source en propriëtaire modellen tot modellen met expliciete gereedschapsgebruiks-uitbreiding. Resultaten tonen aan dat TIR-Bench universeel uitdagend is en dat sterke prestaties echt denken-met-afbeeldingen-vermogen vereisen. Ten slotte presenteren wij een pilotstudie die directe fine-tuning vergelijkt met agent-achtige fine-tuning.
Vision-language-modellen vertonen ongekende prestaties en generalisatievermogen voor een breed scala aan taken en scenario's. Het integreren van deze foundation-modellen in robotnavigatiesystemen opent wegen naar de ontwikkeling van algemene robots. Toch blijft de evaluatie van de navigatiecapaciteiten van deze modellen beperkt door kostbare tests in de echte wereld, sterk vereenvoudigde simulaties en beperkte benchmarks. Wij introduceren NaviTrace, een benchmark van hoge kwaliteit voor visueel vraag-antwoord, waarbij een model een instructie en belichamingstype (mens, robot met poten, robot met wielen, fiets) ontvangt en een 2D-navigatietracé in de beeldruimte moet uitvoeren. Over 1000 scenario's en meer dan 3000 expert-tracés evalueren wij systematisch acht state-of-the-art VLM's met behulp van een nieuw geïntroduceerde semantisch-bewuste tracéscore. Deze metriek combineert Dynamic Time Warping-afstand, fout in het doel-eindpunt en op belichaming geconditioneerde penalties afgeleid van per-pixel semantiek, en correleert met menselijke voorkeuren. Onze evaluatie toont een consistente kloof met menselijke prestaties aan, veroorzaakt door slechte spatiale grounding en doel-localisatie. NaviTrace vestigt een schaalbare en reproduceerbare benchmark voor navigatie van robots in de echte wereld. De benchmark en leaderboard zijn te vinden op https://leggedrobotics.github.io/navitrace_webpage/.
Het begrijpen van rebuspuzzels (Rebus Puzzles gebruiken afbeeldingen, symbolen en letters om op creatieve wijze woorden of zinnen weer te geven) vereist diverse vaardigheden, zoals beeldherkenning, cognitieve vaardigheden, gezond verstand redeneren, meerstaps redeneren en op afbeeldingen gebaseerd woordspel. Dit maakt het tot een uitdagende taak, zelfs voor de huidige vision-language modellen. In dit artikel presenteren we |↻BUS|, een grote en diverse benchmark met 1.333 Engelse rebuspuzzels die verschillende artistieke stijlen en moeilijkheidsgraden bevatten, verspreid over 18 categorieën zoals voedsel, uitdrukkingen, sport, financiën en entertainment. We introduceren ook RebusDescProgICE, een model-agnostisch framework dat een combinatie gebruikt van een ongestructureerde beschrijving en code-gebaseerd, gestructureerd redeneren, samen met een betere, op redeneren gebaseerde selectie van in-context voorbeelden. Dit verbetert de prestaties van vision-language modellen op |↻BUS| met 2,1-4,1% en 20-30% bij gebruik van respectievelijk closed-source en open-source modellen, vergeleken met Chain-of-Thought Reasoning.
Het aflezen van meetinstrumenten is voor mensen moeiteloos en vereist relatief weinig domeinkennis, toch blijkt dit verrassend uitdagend voor huidige vision-language modellen (VLM's), zoals we in een eerste evaluatie vaststellen. In dit werk introduceren we MeasureBench, een benchmark voor het visueel aflezen van metingen, die zowel real-world als gesynthetiseerde afbeeldingen van verschillende soorten meetinstrumenten omvat, samen met een uitbreidbare pijplijn voor datasynthese. Onze pijplijn genereert procedureel een specifiek type meter met controleerbaar visueel uiterlijk, waardoor schaalbare variatie in belangrijke details zoals wijzers, schalen, lettertypes, belichting en rommel mogelijk is. Evaluatie van populaire propriëtaire en open-weight VLM's toont aan dat zelfs de sterkste frontier VLM's over het algemeen moeite hebben met het aflezen van metingen. Een consistente faalmodus is indicatorlokalisatie: modellen kunnen cijfers of labels lezen, maar misidentificeren de sleutelposities van wijzers of uitlijningen, wat leidt tot grote numerieke fouten ondanks plausibele tekstuele redenering. We hebben ook eerste experimenten uitgevoerd met reinforcement learning op synthetische data, en vinden bemoedigende resultaten op de in-domein synthetische subset, maar minder veelbelovende voor real-world afbeeldingen. Onze analyse benadrukt een fundamentele beperking van huidige VLM's in fijnmazige spatiale grounding. We hopen dat deze bron toekomstige vooruitgang kan helpen op het gebied van visueel onderbouwde gecijferdheid en precieze ruimtelijke perceptie van VLM's, om de kloof tussen het herkennen van getallen en het meten van de wereld te overbruggen.
Wij introduceren Trove, een gebruiksvriendelijke open-source retrieval toolkit die onderzoeksexperimenten vereenvoudigt zonder in te leveren op flexibiliteit of snelheid. Voor het eerst introduceren we efficiënte data management functies die retrieval datasets dynamisch laden en verwerken (filteren, selecteren, transformeren en combineren) met slechts enkele regels code. Dit geeft gebruikers de flexibiliteit om eenvoudig te experimenteren met verschillende datasetconfiguraties zonder dat er meerdere kopieën van grote datasets berekend en opgeslagen hoeven te worden. Trove is sterk aanpasbaar: naast vele ingebouwde opties kunnen gebruikers bestaande componenten vrij aanpassen of volledig vervangen door door de gebruiker gedefinieerde objecten. Het biedt ook een low-code en uniforme pipeline voor evaluatie en hard negative mining, die ondersteuning biedt voor multi-node uitvoering zonder codeaanpassingen. Trove's data management functies verminderen het geheugengebruik met een factor 2,6. Bovendien kent Trove's gebruiksvriendelijke inference pipeline geen overhead en nemen inference tijden lineair af met het aantal beschikbare nodes. Het belangrijkste is dat we aantonen hoe Trove retrieval experimenten vereenvoudigt en willekeurige aanpassingen mogelijk maakt, waardoor exploratief onderzoek wordt gefaciliteerd.
Dataselectie is een cruciaal aspect van Reinforcement Learning met Verifieerbare Beloningen (RLVR) voor het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLM's). Huidige dataselectiemethoden zijn grotendeels gebaseerd op heuristieken, zonder theoretische garanties en generaliseerbaarheid. Dit werk stelt een theoretisch onderbouwde aanpak voor die invloedsfuncties gebruikt om de bijdrage van elk datapunt aan het leerdoel te schatten. Om de buitensporige rekenkosten van policy rollouts die nodig zijn voor online invloedsschatting te omzeilen, introduceren we een off-policy invloedsschattingmethode die de datainvloed efficiënt benadert met behulp van vooraf verzamelde offline trajecten. Verder gebruiken we, om de hoogdimensionale gradiënten van LLM's te beheren, sparse random projection om de dimensionaliteit te verminderen en de opslag- en reken efficiëntie te verbeteren. Door gebruik te maken van deze technieken ontwikkelen we Curriculum RL met Off-Policy Invloedsbegeleiding (CROPI), een meerfasig RL-raamwerk dat iteratief de meest invloedrijke data selecteert voor het huidige beleid. Experimenten met modellen tot 7B parameters tonen aan dat CROPI de training aanzienlijk versnelt. Op een 1.5B-model bereikt het een 2.66x versnelling op stapniveau terwijl het slechts 10% van de data per fase gebruikt in vergelijking met training op de volledige dataset. Onze resultaten benadrukken het aanzienlijke potentieel van op invloed gebaseerde dataselectie voor efficiënte RLVR.
Recente vooruitgang in Multimodale Large Language Models (MLLM's) heeft het 2D-visueel begrip aanzienlijk verbeterd, wat de interesse heeft gewekt voor hun toepassing op complexe 3D-redeneertaken. Het blijft echter onduidelijk of deze modellen de gedetailleerde ruimtelijke informatie die nodig is voor robuuste prestaties in de echte wereld effectief kunnen vastleggen, met name cross-view consistentie, een essentiële vereiste voor accurate 3D-redenering. Gezien deze kwestie introduceren we Viewpoint Learning, een taak ontworpen om de ruimtelijke redeneervaardigheden van MLLM's te evalueren en te verbeteren. We presenteren de Viewpoint-100K dataset, bestaande uit 100K objectgecentreerde beeldparen met diverse gezichtspunten en bijbehorende vraag-antwoordparen. Onze aanpak hanteert een tweefasen fine-tuningstrategie: eerst wordt foundationele kennis geïnjecteerd in het baseline MLLM via Supervised Fine-Tuning (SFT) op Viewpoint-100K, wat resulteert in significante verbeteringen op meerdere taken; ten tweede wordt de generalisatie verbeterd door Reinforcement Learning met behulp van het Group Relative Policy Optimization (GRPO) algoritme op een bredere set vragen. Daarnaast introduceren we een hybride cold-start initialisatiemethode, ontworpen om gelijktijdig viewpointrepresentaties te leren en coherent redeneerdenken te behouden. Experimentele resultaten tonen aan dat onze aanpak het ruimtelijk redeneervermogen van MLLM's significant activeert, waarbij de prestaties verbeteren op zowel in-domein als out-of-domain redeneertaken. Onze bevindingen benadrukken de waarde van het ontwikkelen van foundationele ruimtelijke vaardigheden in MLLM's, wat toekomstige vooruitgang in robotica, autonome systemen en 3D-scènebegrip ondersteunt.
Het vinden van de juchte noordster-metrieken is van cruciaal belang voor het bevorderen van de wiskundige redeneervaardigheden van foundation-modellen, vooral omdat bestaande evaluaties ofwel te gemakkelijk zijn of zich alleen richten op het verkrijgen van correcte korte antwoorden. Om deze problemen aan te pakken, presenteren wij IMO-Bench, een reeks geavanceerde redeneerbenchmarks, die zijn beoordeeld door een panel van topspecialisten en zich specifiek richten op het niveau van de Internationale Wiskunde Olympiade (IMO), het meest prestigieuze evenement voor jonge wiskundigen. IMO-AnswerBench test eerst modellen op 400 diverse Olympiade-problemen met verifieerbare korte antwoorden. IMO-ProofBench is de volgende evaluatiefase voor bewijsvaardigheden, die zowel basis- als geavanceerde IMO-niveau problemen omvat evenals gedetailleerde beoordelingsrichtlijnen om automatische beoordeling te vergemakkelijken. Deze benchmarks speelden een cruciale rol in onze historische prestatie van goudniveau op de IMO 2025 met Gemini Deep Think (Luong en Lockhart, 2025). Ons model behaalde 80,0% op IMO-AnswerBench en 65,7% op de geavanceerde IMO-ProofBench, waarmee het de beste niet-Gemini-modellen met ruime marges van respectievelijk 6,9% en 42,4% overtrof. We toonden ook aan dat automatische beoordelaars gebouwd met Gemini-redenering goed correleren met menselijke evaluaties en ontwikkelden IMO-GradingBench, met 1000 menselijke beoordelingen van bewijzen, om verdere vooruitgang in de automatische evaluatie van langere antwoorden mogelijk te maken. We hopen dat IMO-Bench de gemeenschap zal helpen bij het bevorderen van robuust wiskundig redeneren en geven het vrij op https://imobench.github.io/.
Fundamentele modellen voor videogeneratie tonen opmerkelijke capaciteiten als potentiële wereldmodellen voor het simuleren van de fysieke wereld. Hun toepassing in hoog-risicodomeinen zoals chirurgie, die diepgaande, gespecialiseerde causale kennis vereisen in plaats van algemene fysieke regels, blijft echter een kritieke, onontgonnen kloof. Om deze uitdaging systematisch aan te pakken, presenteren wij SurgVeo, de eerste door experts samengestelde benchmark voor de evaluatie van videogeneratiemodellen in de chirurgie, en de Chirurgische Plausibiliteitspiramide (SPP), een nieuw, vierlaags raamwerk dat is toegesneden om modeloutputs te beoordelen, van basisappearance tot complexe chirurgische strategie. Op basis van de SurgVeo-benchmark leggen we het geavanceerde Veo-3-model een zero-shot voorspellingstaak op met chirurgische clips van laparoscopische en neurochirurgische procedures. Een panel van vier gecertificeerde chirurgen evalueert de gegenereerde video's volgens de SPP. Onze resultaten onthullen een duidelijke "plausibiliteitskloof": hoewel Veo-3 uitzonderlijke Visuele Perceptuele Plausibiliteit bereikt, faalt het kritiek op de hogere niveaus van de SPP, inclusief Instrumentbedieningsplausibiliteit, Omgevingsfeedbackplausibiliteit en Chirurgische Intentieplausibiliteit. Dit werk levert het eerste kwantitatieve bewijs van de kloof tussen visueel overtuigende nabootsing en causaal begrip in chirurgische AI. Onze bevindingen met SurgVeo en de SPP leggen een cruciaal fundament en bieden een routekaart voor de ontwikkeling van toekomstige modellen die in staat zijn de complexiteiten van gespecialiseerde, real-world gezondheidszorgdomeinen te navigeren.
Vision-language-action (VLA)-modellen hebben als doel natuurlijke taal-instructies en visuele waarnemingen te begrijpen en als belichaamde agent de bijbehorende acties uit te voeren. Recent werk integreert toekomstige beelden in de begrips-actie-loop, wat leidt tot uniforme VLA's die gezamenlijk begrijpen, genereren en handelen – door tekst en beelden te interpreteren en toekomstige beelden en acties te produceren. Deze modellen vertrouwen echter ofwel op externe experts voor modaliteitsintegratie, of behandelen beeldgeneratie en actievoorspelling als gescheiden processen, wat de voordelen van directe synergie tussen deze taken beperkt. Onze kernfilosofie is om generatie en actie gezamenlijk te optimaliseren via een synchroon denoisingsproces, waarbij de iteratieve verfijning ervoor zorgt dat acties evolueren vanuit een initiële toestand, onder constante en voldoende visuele begeleiding. Wij baseren deze filosofie op onze voorgestelde Unified Diffusion VLA en het Joint Discrete Denoising Diffusion Process (JD3P), een gezamenlijk diffusieproces dat meerdere modaliteiten integreert in een enkele denoising-trajectorie. Dit dient als het belangrijkste mechanisme om begrip, generatie en handeling intrinsiek synergetisch te maken. Ons model en onze theorie zijn gebouwd op een uniforme getokeniseerde ruimte van alle modaliteiten en een hybride aandachtmechanisme. Verder stellen wij een tweefasen-trainingspijplijn en verschillende inferentie-technieken voor die de prestaties en efficiëntie optimaliseren. Onze aanzet behaalt state-of-the-art prestaties op benchmarks zoals CALVIN, LIBERO en SimplerEnv, met een 4 keer snellere inferentie dan autoregressieve methoden, en wij tonen de effectiviteit ervan aan door middel van diepgaande analyse en evaluaties in de echte wereld. Onze projectpagina is beschikbaar op https://irpn-eai.github.io/UD-VLA.github.io/.
De opmerkelijke successen van multimodale large language models (MLLMs) hebben de vooruitgang in multimodale embeddings aangewakkerd, maar bestaande modellen blijven inherent discriminerend, wat hun vermogen beperkt om te profiteren van het op redenering gebaseerde generatieparadigma. In dit werk pionieren we met de verkenning van generatieve embeddings, waarbij we embeddingtaken verenigen binnen een generatief paradigma. Wij stellen UME-R1 voor, een universeel multimodaal embeddingraamwerk dat bestaat uit een tweefasen-trainingsstrategie: een cold-start supervised fine-tuning voorziet het model van redeneervaardigheden en stelt het in staat om zowel discriminerende als generatieve embeddings te genereren; een daaropvolgende reinforcement learning verbetert het redeneren en optimaliseert verder de kwaliteit van de generatieve embeddings. Dit baanbrekende werk onthult vier belangrijke inzichten: 1) generatieve embeddings leveren aanzienlijke prestatieverbeteringen op ten opzichte van conventionele discriminerende embeddings door gebruik te maken van de krachtige generatieve redeneercapaciteiten van MLLMs; 2) discriminerende en generatieve embeddings zijn complementair, waarvan de gecombineerde oracle-prestatie ver uitstijgt boven die van elk afzonderlijk; 3) RL kan generatieve embeddings effectief verbeteren en stelt een schaalbaar optimalisatieparadigma in; 4) herhaalde sampling tijdens inferentie verhoogt de dekking van downstreamtaken (pass@k), wat het schaalbaarheidspotentieel van generatieve embeddings tijdens inferentie benadrukt. Geëvalueerd op de MMEB-V2-benchmark over 78 taken op het gebied van video, beeld en visuele documenten, presteert UME-R1 aanzienlijk beter dan conventionele discriminerende embeddingmodellen en biedt het een fundament voor meer interpreteerbare, op redenering gebaseerde generatieve multimodale embeddings. Onze code, modellen en datasets zullen openbaar beschikbaar zijn op https://github.com/XMUDeepLIT/UME-R1.
Grafische gebruikersinterface (GUI) grounding is een kerfunctie van computergebruiksagenten, die natuurlijktaalinstructies afbeeldt op actiebare schermregio's. Bestaande benaderingen gebaseerd op Multimodale Large Language Models (MLLM's) formuleren dit typisch als een op tekst gebaseerde coördinatengeneratietaak, maar het direct genereren van precieze coördinaten uit visuele invoer blijft uitdagend en rekenintensief. Een intuïtieve manier om GUI-grounding te implementeren is om eerst visuele patches te selecteren die relevant zijn voor de instructies en vervolgens de precieze kliklocatie binnen die patches te bepalen. Gebaseerd op de observatie dat algemene MLLM's enige inherente grounding-capaciteit hebben, genesteld in hun aandachtssystemen, stellen we GUI-AIMA voor, een op aandacht gebaseerd en coördinaatvrij supervised fine-tuning raamwerk voor efficiënte GUI-grounding. GUI-AIMA aligneert de intrinsieke multimodale aandacht van MLLM's met patchgewijze grounding-signalen. Deze signalen worden adaptief berekend voor diverse gebruikersinstructies door multi-head aggregatie op vereenvoudigde query-visuele aandachtmatrices. Bovendien kan de coördinaatvrije aard eenvoudig een plug-and-play inzoomfase integreren. GUI-AIMA-3B werd getraind met slechts 85k schermafbeeldingen, wat uitzonderlijke data-efficiëntie aantoont en verifieert dat lichte training de inherente grounding-capaciteit van MLLM's kan activeren. Het behaalt state-of-the-art prestaties onder 3B-modellen, met een gemiddelde nauwkeurigheid van 58,6% op ScreenSpot-Pro en 62,2% op OSWorld-G. Projectpagina: https://github.com/sjz5202/GUI-AIMA
Grote Taalmodellen (LLM's) hebben sterke capaciteiten getoond op het gebied van natuurlijk taalredeneren, maar hun toepassing binnen Cyber Threat Intelligence (CTI) blijft beperkt. CTI-analyse houdt in dat grote hoeveelheden ongestructureerde rapporten worden gedistilleerd tot actiegerichte kennis, een proces waarbij LLM's de werklast van analisten aanzienlijk zouden kunnen verminderen. CTIBench introduceerde een uitgebreide benchmark voor het evalueren van LLM's op meerdere CTI-taken. In dit werk breiden we CTIBench uit door de ontwikkeling van AthenaBench, een verbeterde benchmark die een verbeterde datasetcreatiepijplijn, verwijdering van duplicaten, verfijnde evaluatiemetrieken en een nieuwe taak gericht op risicomitigatiestrategieën omvat. We evalueren twaalf LLM's, waaronder state-of-the-art propriëtaire modellen zoals GPT-5 en Gemini-2.5 Pro, naast zeven open-source modellen uit de LLaMA- en Qwen-families. Hoewel propriëtaire LLM's over het algemeen sterkere resultaten behalen, blijft hun prestatieniveau ondermaats op redeneringsintensieve taken, zoals het toeschrijven van dreigingsactoren en risicomitigatie, waarbij open-source modellen nog verder achterblijven. Deze bevindingen belichten fundamentele beperkingen in de redeneercapaciteiten van huidige LLM's en benadrukken de noodzaak van modellen die expliciet zijn afgestemd op CTI-workflows en automatisering.
Natuurlijke Taalverklaringen (NTV's) beschrijven hoe Grote Taalmodellen (GTM's) beslissingen nemen, door gebruik te maken van zowel externe Contextkennis (CK) als Parametrische Kennis (PK) die is opgeslagen in de modelgewichten. Het begrijpen van hun interactie is cruciaal voor het beoordelen van de onderbouwing van NTV's, maar dit blijft onderbelicht. Eerder onderzoek heeft grotendeels alleen eenstapsgeneratie onderzocht, typisch het eindantwoord, en heeft de PK- en CK-interactie gemodelleerd als slechts een binaire keuze in een rang-1-deelruimte. Dit ziet rijkere interactievormen over het hoofd, zoals complementaire of ondersteunende kennis. Wij stellen een nieuwe rang-2-projectiedeelruimte voor die de bijdragen van PK en CK nauwkeuriger ontwart en gebruiken deze voor de eerste multi-step analyse van kennisinteracties in langere NTV-reeksen. Experimenten op vier V&A-datasets en drie open-gewicht instruction-tuned GTM's tonen aan dat diverse kennisinteracties slecht worden gerepresenteerd in een rang-1-deelruimte, maar effectief worden vastgelegd in onze rang-2-formulering. Onze multi-step analyse onthult dat gehallucineerde NTV's sterk uitlijnen met de PK-richting, context-getrouwe NTV's PK en CK in balans houden, en Chain-of-Thought-prompting voor NTV's gegenereerde NTV's naar CK verschuift door de PK-afhankelijkheid te verminderen. Dit werk biedt het eerste raamwerk voor systematische studies van multi-step kennisinteracties in GTM's door een rijkere rang-2-deelruimte-ontwarring. Code en data: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
In het retrievaldomein vormt het samenvoegen van kandidaten van heterogene retrievers een al lang bestaande uitdaging, vooral voor complexe, multimodale gegevens zoals video's. Terwijl typische fusietechnieken training-vrij zijn, baseren ze zich uitsluitend op rangschikkings- of scoresignalen en negeren ze de representaties van kandidaten. Dit werk introduceert Vote-in-Context (ViC), een gegeneraliseerd, training-vrij framework dat list-wise reranking en fusie herdefinieert als een zero-shot redeneertaak voor een Vision-Language Model (VLM). De kerninzicht is om zowel inhoudelijk bewijs als retriever-metadata rechtstreeks binnen de prompt van het VLM te serialiseren, waardoor het model adaptief de consensus van de retriever kan afwegen tegen visueel-linguïstische inhoud. Wij tonen de generaliteit van dit framework aan door het toe te passen op het uitdagende domein van cross-modale videoretrieval. Hiertoe introduceren we de S-Grid, een compact serialisatiekaart die elke video voorstelt als een beeldrooster, optioneel gekoppeld aan ondertitels om list-wise redeneren over videokandidaten mogelijk te maken. ViC wordt geëvalueerd zowel als een single-list reranker, waarbij het de precisie van individuele retrievers aanzienlijk verbetert, als als een ensemble-fuser, waarbij het consistent sterke baseline-methoden zoals CombSUM overtreft. Over videoretrievalbenchmarks heen, waaronder ActivityNet en VATEX, vestigt het framework een nieuwe state-of-the-art zero-shot retrievalprestatie, wat de effectiviteit aantoont bij het verwerken van complexe visuele en temporele signalen naast tekst. In zero-shot settings behaalt ViC Recall@1-scores van 87,1% (t2v) / 89,0% (v2t) op MSR-VTT en 99,6% (v2t) op VATEX, wat enorme winsten vertegenwoordigt van tot +40 Recall@1 ten opzichte van eerdere state-of-the-art baseline-methoden. Wij presenteren ViC als een eenvoudig, reproduceerbaar en uiterst effectief recept om moderne VLM's om te zetten in krachtige zero-shot rerankers en fusers. Code en bronnen zijn publiekelijk beschikbaar op: https://github.com/mohammad2012191/ViC