Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Ovis2.5, een opvolger van Ovis2 die is ontworpen voor visuele waarneming op native resolutie en sterke multimodale redeneervaardigheden. Ovis2.5 integreert een vision transformer op native resolutie die afbeeldingen verwerkt op hun oorspronkelijke, variabele resoluties, waardoor degradatie door vaste-resolutie tiling wordt vermeden en zowel fijne details als de globale lay-out behouden blijven — cruciaal voor visueel dichte inhoud zoals complexe grafieken. Om het redeneren te versterken, trainen we het model om verder te gaan dan lineaire chain-of-thought en reflectie uit te voeren — inclusief zelfcontrole en revisie. Deze geavanceerde mogelijkheid wordt blootgesteld als een optionele "denkmodus" tijdens inferentie, waardoor gebruikers latentie kunnen inruilen voor verbeterde nauwkeurigheid bij moeilijke invoer. Het model wordt getraind via een uitgebreid vijf-fasen curriculum dat zijn vaardigheden geleidelijk opbouwt. Het proces begint met fundamentele visuele en multimodale voorpretraining, gaat verder met grootschalige instructieafstemming en eindigt met uitlijning en redeneerverbetering met behulp van DPO en GRPO. Om deze upgrades efficiënt te schalen, gebruiken we multimodale datapacking en hybride parallellisatie, wat resulteert in een aanzienlijke end-to-end versnelling. We brengen twee open-source modellen uit: Ovis2.5-9B en Ovis2.5-2B. De laatste zet de filosofie van "klein model, grote prestaties" van Ovis2 voort, waardoor het ideaal is voor scenario's met beperkte middelen, zoals op apparaten. Op het OpenCompass multimodale leaderboard scoort Ovis2.5-9B gemiddeld 78.3, wat een aanzienlijke verbetering is ten opzichte van zijn voorganger, Ovis2-8B, en state-of-the-art resultaten behaalt onder open-source MLLM's in het sub-40B parameterbereik; Ovis2.5-2B scoort 73.9, wat SOTA is voor zijn grootte. Naast de algemene scores behaalt Ovis2.5 toonaangevende resultaten op STEM-benchmarks, vertoont het sterke capaciteiten op grounding- en videotaken en bereikt het open-source SOTA op zijn schaal voor complexe grafiekanalyse.
Het begrijpen van lange verhalen en romans is een uitdagend domein vanwege hun ingewikkelde plotlijnen en verstrengelde, vaak evoluerende relaties tussen personages en entiteiten. Gezien de beperkte redeneercapaciteit van grote taalmodelen (LLM's) over uitgebreide contexten en de hoge computationele kosten, blijven retrieval-gebaseerde benaderingen in de praktijk van cruciaal belang. Traditionele RAG-methoden (Retrieval-Augmented Generation) kunnen echter tekortschieten vanwege hun stateless, eenstaps retrievalproces, dat vaak de dynamische aard van het vastleggen van onderling verbonden relaties binnen een lange context over het hoofd ziet. In dit werk stellen we ComoRAG voor, gebaseerd op het principe dat narratief redeneren geen eenmalig proces is, maar een dynamische, evoluerende wisselwerking tussen het verwerven van nieuw bewijs en het consolideren van eerdere kennis, vergelijkbaar met menselijke cognitie bij het redeneren met geheugen gerelateerde signalen in de hersenen. Specifiek ondergaat ComoRAG, wanneer het een redeneerimpasse tegenkomt, iteratieve redeneercycli terwijl het interageert met een dynamische geheugenwerkruimte. In elke cyclus genereert het verkennende vragen om nieuwe onderzoekspaden te bedenken, en integreert het de opgehaalde bewijzen van nieuwe aspecten in een globaal geheugenpool, waardoor een coherente context voor de vraagoplossing ontstaat. Over vier uitdagende lange-context narratieve benchmarks (200K+ tokens) presteert ComoRAG beter dan sterke RAG-baselines met consistente relatieve winsten tot 11% vergeleken met de sterkste baseline. Verdere analyse toont aan dat ComoRAG vooral voordelig is voor complexe vragen die een globaal begrip vereisen, en biedt een principieel, cognitief gemotiveerd paradigma voor retrieval-gebaseerd lang contextbegrip richting stateful redeneren. Onze code is openbaar vrijgegeven op https://github.com/EternityJune25/ComoRAG.
We presenteren 4DNeX, het eerste feed-forward framework voor het genereren van 4D (dynamische 3D) scène-representaties vanuit een enkele afbeelding. In tegenstelling tot bestaande methoden die afhankelijk zijn van rekenintensieve optimalisatie of meerdere videoframes als invoer vereisen, maakt 4DNeX efficiënte, end-to-end beeld-naar-4D generatie mogelijk door een vooraf getraind videodiffusiemodel te fine-tunen. Specifiek: 1) om het gebrek aan 4D-data te verlichten, hebben we 4DNeX-10M geconstrueerd, een grootschalige dataset met hoogwaardige 4D-annotaties gegenereerd met geavanceerde reconstructiebenaderingen. 2) we introduceren een uniforme 6D-videorepresentatie die RGB- en XYZ-sequenties gezamenlijk modelleert, wat gestructureerd leren van zowel uiterlijk als geometrie vergemakkelijkt. 3) we stellen een reeks eenvoudige maar effectieve aanpassingsstrategieën voor om vooraf getrainde videodiffusiemodellen geschikt te maken voor 4D-modellering. 4DNeX produceert hoogwaardige dynamische puntenwolken die nieuwe-weergave-videosynthese mogelijk maken. Uitgebreide experimenten tonen aan dat 4DNeX bestaande 4D-generatiemethoden overtreft in efficiëntie en generaliseerbaarheid, en biedt een schaalbare oplossing voor beeld-naar-4D modellering, waarmee de basis wordt gelegd voor generatieve 4D-wereldmodellen die dynamische scène-evolutie simuleren.
Grote Taalmodellen (LLMs) hebben indrukwekkende resultaten geleverd op het gebied van taalbegrip, generatie, redenering en hebben de mogelijkheden van multimodale modellen verder gepushed. Transformermodellen, als basis van moderne LLMs, bieden een sterke uitgangspositie met uitstekende schaaleigenschappen. Het traditionele transformerarchitectuur vereist echter aanzienlijke rekenkracht en vormt belangrijke obstakels voor grootschalige training en praktische implementatie. In dit overzicht bieden we een systematisch onderzoek van innovatieve LLM-architecturen die de inherente beperkingen van transformers aanpakken en de efficiëntie verhogen. Beginnend bij taalmodellering, behandelt dit overzicht de achtergrond en technische details van lineaire en sparse sequentiemodelleringsmethoden, efficiënte varianten van volledige aandacht, sparse mixture-of-experts, hybride modelarchitecturen die bovenstaande technieken incorporeren, en opkomende diffusie-LLMs. Daarnaast bespreken we de toepassingen van deze technieken op andere modaliteiten en overwegen we hun bredere implicaties voor het ontwikkelen van schaalbare, resourcebewuste basis modellen. Door recente studies in de bovenstaande categorieën te groeperen, presenteert dit overzicht een blauwdruk van moderne efficiënte LLM-architecturen, en we hopen dat dit toekomstig onderzoek kan stimuleren naar efficiëntere, veelzijdige AI-systemen.
Wij stellen een nieuwe benadering voor beeldgeneratie voor door een afbeelding te ontbinden in een gestructureerde reeks, waarbij elk element in de reeks dezelfde ruimtelijke resolutie deelt maar verschilt in het aantal unieke tokens dat wordt gebruikt, waardoor verschillende niveaus van visuele granulariteit worden vastgelegd. Beeldgeneratie wordt uitgevoerd via ons nieuw geïntroduceerde Next Visual Granularity (NVG) generatiekader, dat een visuele granulariteitsreeks genereert, beginnend vanuit een lege afbeelding en deze geleidelijk verfijnt, van globale lay-out tot fijne details, op een gestructureerde manier. Dit iteratieve proces codeert een hiërarchische, gelaagde representatie die fijnmazige controle biedt over het generatieproces op meerdere granulariteitsniveaus. We trainen een reeks NVG-modellen voor klasse-conditionele beeldgeneratie op de ImageNet-dataset en observeren een duidelijke schaalbaarheid. In vergelijking met de VAR-serie presteert NVG consistent beter in termen van FID-scores (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). We voeren ook uitgebreide analyses uit om de mogelijkheden en het potentieel van het NVG-kader te demonstreren. Onze code en modellen zullen worden vrijgegeven.
Classifier-free Guidance (CFG) is een veelgebruikte techniek in moderne diffusiemodellen voor het verbeteren van de kwaliteit van samples en de naleving van prompts. Echter, door een empirische analyse van Gaussische mengselmodellering met een gesloten oplossing, observeren we een discrepantie tussen de suboptimale resultaten die door CFG worden geproduceerd en de grondwaarheid. De overmatige afhankelijkheid van het model van deze suboptimale voorspellingen leidt vaak tot semantische incoherentie en outputs van lage kwaliteit. Om dit probleem aan te pakken, tonen we eerst empirisch aan dat de suboptimale voorspellingen van het model effectief kunnen worden verfijnd met behulp van sub-netwerken van het model zelf. Gebaseerd op dit inzicht, stellen we S^2-Guidance voor, een nieuwe methode die gebruikmaakt van stochastische blokdropping tijdens het voorwaartse proces om stochastische sub-netwerken te construeren, waardoor het model effectief wordt geleid weg van potentiële voorspellingen van lage kwaliteit en naar outputs van hoge kwaliteit. Uitgebreide kwalitatieve en kwantitatieve experimenten op tekst-naar-beeld en tekst-naar-video generatietaken tonen aan dat S^2-Guidance superieure prestaties levert, en consistent CFG en andere geavanceerde begeleidingsstrategieën overtreft. Onze code zal worden vrijgegeven.
Grote Taalmodellen (LLMs) zijn zeer gevoelig voor subtiele, niet-semantische variaties in de formulering en opmaak van prompts. In dit werk presenteren we de eerste systematische evaluatie van 5 methoden voor het verbeteren van de robuustheid van prompts binnen een uniform experimenteel kader. We testen deze technieken op 8 modellen uit de Llama-, Qwen- en Gemma-families over 52 taken uit de Natural Instructions-dataset. Onze evaluatie omvat robuustheidsmethoden uit zowel de fine-tuning- als in-context learning-paradigma's en test hun generalisatievermogen tegen meerdere soorten distributieverschuivingen. Tot slot breiden we onze analyse uit naar GPT-4.1 en DeepSeek V3 om de huidige robuustheid van frontiermodellen tegen opmaakverstoringen te beoordelen. Onze bevindingen bieden praktische inzichten in de relatieve effectiviteit van deze robuustheidsmethoden, waardoor beoefenaars weloverwogen beslissingen kunnen nemen bij het streven naar stabiele en betrouwbare LLM-prestaties in real-world toepassingen. Code: https://github.com/AIRI-Institute/when-punctuation-matters.
Multi-modale modellen hebben de afgelopen jaren opmerkelijke vooruitgang geboekt. Desalniettemin vertonen ze nog steeds aanzienlijke beperkingen in ruimtelijk begrip en redeneren, wat fundamentele vaardigheden zijn voor het bereiken van kunstmatige algemene intelligentie. Met de recente release van GPT-5, naar verluidt het krachtigste AI-model tot nu toe, is het tijdig om te onderzoeken waar de toonaangevende modellen staan op het pad naar ruimtelijke intelligentie. Eerst stellen we een uitgebreide taxonomie van ruimtelijke taken voor die bestaande benchmarks verenigt en bespreken we de uitdagingen bij het waarborgen van een eerlijke evaluatie. Vervolgens evalueren we state-of-the-art propriëtaire en open-source modellen op acht belangrijke benchmarks, tegen een kosten van meer dan een miljard tokens in totaal. Onze empirische studie onthult dat (1) GPT-5 een ongekende kracht toont in ruimtelijke intelligentie, maar (2) nog steeds achterblijft bij menselijke prestaties over een breed spectrum van taken. Bovendien identificeren we (3) de meer uitdagende ruimtelijke intelligentieproblemen voor multi-modale modellen, en (4) propriëtaire modellen vertonen geen beslissend voordeel bij het aanpakken van de moeilijkste problemen. Daarnaast voeren we een kwalitatieve evaluatie uit over een diverse set van scenario's die intuïtief zijn voor mensen, maar zelfs de meest geavanceerde multi-modale modellen doen falen.
Grote taalmmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in geïsoleerde, stapsgewijze redeneertaken zoals wiskunde en programmeren, maar hun vaardigheid in langetermijnplanning, waarbij oplossingen uitgebreide, gestructureerde reeksen van onderling afhankelijke acties vereisen, blijft onderbelicht. Bestaande benchmarks beoordelen LLMs doorgaans via abstracte of laagdimensionale algoritmische taken, waardoor de complexiteit van realistische planningsomgevingen niet wordt vastgelegd. Wij introduceren HeroBench, een nieuwe benchmark die specifiek is ontworpen om langetermijnplanning en gestructureerd redeneren binnen complexe, RPG-geïnspireerde virtuele werelden te evalueren. HeroBench biedt een rigoureus opgebouwde dataset van taken die een breed scala aan moeilijkheidsgraden omvat, een gesimuleerde omgeving om agentplannen uit te voeren en te valideren, en gedetailleerde analytische tools om modelprestaties te evalueren. Taken dagen modellen uit om strategische plannen te formuleren, efficiënt middelen te verzamelen, benodigde vaardigheden te beheersen, uitrusting te maken en tegenstanders te verslaan, waarbij de gelaagde afhankelijkheden en beperkingen van praktische scenario's worden weerspiegeld. Onze uitgebreide evaluatie van 25 state-of-the-art LLMs, zowel open-source als propriëtaire modellen, waaronder de GPT-5-familie, onthult aanzienlijke prestatieverschillen die zelden worden waargenomen in conventionele redeneerbenchmarks. Gedetailleerde foutenanalyse legt verder specifieke zwaktes bloot in de huidige modellen om robuuste hoogwaardige plannen te genereren en gestructureerde acties betrouwbaar uit te voeren. HeroBench bevordert dus niet alleen significant de evaluatie van LLM-redenering, maar biedt ook een flexibele, schaalbare basis voor toekomstig onderzoek naar geavanceerde, autonome planning in virtuele omgevingen.
Recente vooruitgang in interactieve videogeneratie heeft het potentieel van diffusiemodellen als wereldmodellen aangetoond door complexe fysieke dynamiek en interactief gedrag vast te leggen. Bestaande interactieve wereldmodellen zijn echter afhankelijk van bidirectionele aandacht en langdurige inferentiestappen, wat de real-time prestaties ernstig beperkt. Hierdoor is het moeilijk om real-world dynamiek te simuleren, waar uitkomsten onmiddellijk moeten worden bijgewerkt op basis van historische context en huidige acties. Om dit aan te pakken, presenteren we Matrix-Game 2.0, een interactief wereldmodel dat lange video's on-the-fly genereert via auto-regressieve diffusie in enkele stappen. Ons framework bestaat uit drie belangrijke componenten: (1) Een schaalbare dataproductiepijplijn voor Unreal Engine en GTA5-omgevingen om effectief grote hoeveelheden (ongeveer 1200 uur) videodata met diverse interactieannotaties te produceren; (2) Een actie-injectiemodule die frame-level muis- en toetsenbordinvoer mogelijk maakt als interactieve voorwaarden; (3) Een distillatie in enkele stappen gebaseerd op de causale architectuur voor real-time en streaming videogeneratie. Matrix Game 2.0 kan hoogwaardige video's op minuutniveau genereren in diverse scènes met een ultrahoge snelheid van 25 FPS. We maken onze modelgewichten en codebase open source om onderzoek in interactieve wereldmodellering te bevorderen.
We introduceren AuriStream, een biologisch geïnspireerd model voor het coderen van spraak via een tweestaps raamwerk, geïnspireerd door de hiërarchie van menselijke auditieve verwerking. De eerste stap transformeert ruwe audio in een tijd-frequentie representatie gebaseerd op het menselijke slakkenhuis, waaruit we discrete cochleaire tokens extraheren. De tweede stap past een autoregressief sequentiemodel toe op de cochleaire tokens. AuriStream leert betekenisvolle foneem- en woordrepresentaties, en state-of-the-art lexicale semantiek. AuriStream toont competitieve prestaties op diverse downstream SUPERB spraaktaken. Als aanvulling op de sterke representatiecapaciteiten van AuriStream, genereert het voortzettingen van audio die kunnen worden gevisualiseerd in een spectrogramruimte en teruggecodeerd kunnen worden naar audio, wat inzicht geeft in de voorspellingen van het model. Samenvattend presenteren we een tweestaps raamwerk voor spraakrepresentatie leren om de ontwikkeling van meer mensachtige modellen te bevorderen die efficiënt een reeks spraakgebaseerde taken kunnen uitvoeren.
Video relighting is een uitdagende maar waardevolle taak, die als doel heeft de achtergrond in video's te vervangen terwijl het licht in de voorgrond harmonieus wordt aangepast en samengevoegd. Tijdens de vertaling is het essentieel om de oorspronkelijke eigenschappen van de voorgrond, zoals albedo, te behouden en consistente relighting te verspreiden over temporele frames. In dit artikel stellen we Lumen voor, een end-to-end video relighting-framework ontwikkeld op basis van grootschalige videogeneratieve modellen, dat flexibele tekstuele beschrijvingen ontvangt om de controle over belichting en achtergrond aan te sturen. Gezien de schaarste aan hoogwaardige gepaarde video's met dezelfde voorgrond in verschillende lichtomstandigheden, construeren we een grootschalige dataset met een mix van realistische en synthetische video's. Voor het synthetische domein maken we gebruik van de overvloedige 3D-assets in de gemeenschap en benutten we een geavanceerde 3D-renderingengine om videoparen in diverse omgevingen samen te stellen. Voor het realistische domein passen we een HDR-gebaseerde lichtsimulatie aan om het gebrek aan gepaarde in-the-wild video's aan te vullen. Aangedreven door de bovengenoemde dataset ontwerpen we een gezamenlijk trainingscurriculum om de sterke punten van elk domein effectief te benutten, namelijk de fysieke consistentie in synthetische video's en de gegeneraliseerde domeinverdeling in realistische video's. Om dit te implementeren, injecteren we een domeinbewuste adapter in het model om het leren van relighting en domeinappearancedistributie te ontkoppelen. We construeren een uitgebreide benchmark om Lumen samen met bestaande methoden te evalueren, vanuit het perspectief van voorgrondbehoud en videoconsistentiebeoordeling. Experimentele resultaten tonen aan dat Lumen de invoer effectief bewerkt tot cinematische relighted video's met consistente belichting en strikt voorgrondbehoud. Onze projectpagina: https://lumen-relight.github.io/
Reinforcement Learning from Verifiable Rewards (RLVR) is uitgegroeid tot een krachtig paradigma voor het verbeteren van Large Language Models (LLMs), zoals geïllustreerd door het succes van OpenAI's o-serie. Bij RLVR worden beloningen afgeleid van verifieerbare signalen, zoals het slagen voor unittests bij codegeneratie of het matchen van correcte antwoorden bij wiskundig redeneren. Hoewel effectief, beperkt deze vereiste RLVR grotendeels tot domeinen met automatisch controleerbare uitkomsten. Om dit te overkomen, breiden we het RLVR-paradigma uit naar open-ended taken door rubricgebaseerde beloningen te integreren, waarbij zorgvuldig ontworpen rubrics dienen als gestructureerde, model-interpreteerbare criteria voor automatische beoordeling van subjectieve uitvoer. We hebben, voor zover wij weten, het grootste rubricbeloningssysteem tot nu toe geconstrueerd, met meer dan 10.000 rubrics afkomstig van mensen, LLMs, of een hybride samenwerking tussen mens en LLM. De implementatie van rubricgebaseerd RL is uitdagend; we pakken deze problemen aan met een duidelijk framework en presenteren een open-source Qwen-30B-A3B-model met opmerkelijke verbeteringen: 1) Met slechts 5K+ voorbeelden verbetert ons systeem met +5,2% op open-ended benchmarks (met name geesteswetenschappen), en presteert het +2,4% beter dan een 671B DeepSeek-V3-model, terwijl algemene en redeneervaardigheden behouden blijven. 2) Onze methode biedt fijnmazige stilistische controle, waarbij rubrics als ankerpunten worden gebruikt om de "AI-achtige" toon te verminderen en meer menselijke, expressieve reacties te produceren. We delen belangrijke lessen over rubricconstructie, dataselectie en training, en bespreken beperkingen en toekomstige releases.
We introduceren G-CUT3R, een nieuwe feed-forward benadering voor geleide 3D-scène reconstructie die het CUT3R-model verbetert door het integreren van voorafgaande informatie. In tegenstelling tot bestaande feed-forward methoden die uitsluitend afhankelijk zijn van invoerbeelden, maakt onze methode gebruik van aanvullende gegevens, zoals diepte, camerakalibraties of cameraposities, die vaak beschikbaar zijn in real-world scenario's. We stellen een lichtgewicht aanpassing voor aan CUT3R, waarbij een specifieke encoder voor elke modaliteit wordt geïntegreerd om kenmerken te extraheren, die vervolgens worden samengevoegd met RGB-beeldtokens via nulconvolutie. Dit flexibele ontwerp maakt een naadloze integratie van elke combinatie van voorafgaande informatie tijdens inferentie mogelijk. Geëvalueerd over meerdere benchmarks, waaronder 3D-reconstructie en andere multi-view taken, toont onze benadering aanzienlijke prestatieverbeteringen, wat aantoont dat het in staat is om beschikbare priors effectief te benutten terwijl het compatibel blijft met verschillende invoermodaliteiten.
We presenteren visuele actieprompts, een uniforme actierepresentatie voor actie-naar-video-generatie van complexe interacties met een hoge mate van vrijheidsgraden (DoF), terwijl overdraagbare visuele dynamiek tussen domeinen behouden blijft. Actiegedreven videogeneratie staat voor een precisie-algemeenheid afweging: bestaande methoden die tekst, primitieve acties of grove maskers gebruiken, bieden algemeenheid maar missen precisie, terwijl agent-gerichte actiesignalen precisie bieden ten koste van overdraagbaarheid tussen domeinen. Om actieprecisie en dynamische overdraagbaarheid in evenwicht te brengen, stellen we voor om acties te "renderen" in precieze visuele prompts als domein-agnostische representaties die zowel geometrische precisie als aanpassingsvermogen tussen domeinen behouden voor complexe acties; specifiek kiezen we voor visuele skeletten vanwege hun algemeenheid en toegankelijkheid. We stellen robuuste pipelines voor om skeletten te construeren uit twee interactierijke databronnen - mens-objectinteracties (HOI) en behendige robotmanipulatie - waardoor domeinoverschrijdende training van actiegedreven generatieve modellen mogelijk wordt. Door visuele skeletten te integreren in voorgetrainde videogeneratiemodellen via lichtgewicht fine-tuning, maken we precieze actiecontrole van complexe interacties mogelijk terwijl het leren van domeinoverschrijdende dynamiek behouden blijft. Experimenten op EgoVid, RT-1 en DROID demonstreren de effectiviteit van onze voorgestelde aanpak. Projectpagina: https://zju3dv.github.io/VAP/.
Traditionele multimodale leerbenaderingen vereisen kostbare uitlijningsvoorbereiding om visuele en taalkundige modaliteiten te verbinden, waarbij visuele kenmerken typisch worden geprojecteerd in discrete teksttokenruimtes. We dagen beide fundamentele aannames van dit paradigma uit door Inverse-LLaVA voor te stellen, een nieuwe benadering die de uitlijningsvoorbereiding volledig elimineert terwijl de conventionele mappingrichting wordt omgekeerd. In plaats van visuele kenmerken naar tekstruimte te projecteren, mapt onze methode tekstembeddings naar een continue visuele representatieruimte en voert fusie uit binnen transformer-tussenlagen. Door selectieve additieve componenten in aandachtmechanismen, maken we dynamische integratie van visuele en tekstuele representaties mogelijk zonder enorme beeld-tekst uitlijningsdatasets nodig te hebben. Uitgebreide experimenten over negen multimodale benchmarks tonen genuanceerde prestatieafwegingen: Inverse-LLaVA behaalt opmerkelijke verbeteringen op redeneerintensieve en cognitieve taken (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, cognitief redeneren: +27,2%), terwijl verwachte afnames worden getoond in perceptietaken die gememoriseerde visueel-tekst associaties vereisen (herkenning van beroemdheden: -49,5%, OCR: -21,3%). Deze resultaten leveren het eerste empirische bewijs dat uitlijningsvoorbereiding niet noodzakelijk is voor effectief multimodaal leren, met name voor complexe redeneertaken. Ons werk toont de haalbaarheid van een nieuw paradigma dat de computationele vereisten met 45% vermindert, conventionele wijsheid over modaliteitsfusie uitdaagt, en nieuwe onderzoeksrichtingen opent voor efficiënte multimodale architecturen die modaliteit-specifieke kenmerken behouden. Onze projectwebsite met code en aanvullende bronnen is beschikbaar op https://inverse-llava.github.io.
Machine Unlearning (MU) heeft als doel specifieke trainingsgegevens uit een getraind model te verwijderen, zodat de verwijderde gegevens het gedrag van het model niet langer beïnvloeden, en zo te voldoen aan de "recht om vergeten te worden"-verplichtingen onder privacywetgeving. Echter, we merken op dat onderzoekers in dit snel opkomende veld uitdagingen ondervinden bij het analyseren en begrijpen van het gedrag van verschillende MU-methoden, met name wat betreft drie fundamentele principes in MU: nauwkeurigheid, efficiëntie en privacy. Hierdoor vertrouwen ze vaak op samengevatte metrieken en ad-hoc-evaluaties, wat het nauwkeurig beoordelen van de afwegingen tussen methoden bemoeilijkt. Om deze kloof te dichten, introduceren we een visueel analysesysteem, Unlearning Comparator, dat is ontworpen om de systematische evaluatie van MU-methoden te vergemakkelijken. Ons systeem ondersteunt twee belangrijke taken in het evaluatieproces: modelvergelijking en aanvalssimulatie. Ten eerste stelt het de gebruiker in staat om het gedrag van twee modellen te vergelijken, zoals een model gegenereerd door een bepaalde methode en een opnieuw getraind basislijn, op klasse-, instantie- en laagniveau om de wijzigingen na het verwijderen beter te begrijpen. Ten tweede simuleert ons systeem membership inference attacks (MIA's) om de privacy van een methode te evalueren, waarbij een aanvaller probeert te bepalen of specifieke gegevensmonsters deel uitmaakten van de oorspronkelijke trainingsset. We evalueren ons systeem via een casestudy waarin we prominente MU-methoden visueel analyseren en tonen aan dat het de gebruiker niet alleen helpt om modelgedrag te begrijpen, maar ook inzichten biedt die kunnen bijdragen aan de verbetering van MU-methoden.
Grote Redeneermodellen (LRMs) hebben opmerkelijke probleemoplossende vaardigheden getoond in wiskunde, zoals beoordeeld door bestaande benchmarks die uitsluitend gericht zijn op goed gedefinieerde problemen. Een dergelijke evaluatieopzet vormt echter een kritische leemte, aangezien een echt intelligente agent niet alleen problemen moet kunnen oplossen (als een wiskunde-quizoplosser), maar ook in staat moet zijn om informatie te vragen wanneer problemen onvoldoende informatie bevatten, waardoor proactiviteit mogelijk wordt bij het reageren op gebruikersverzoeken. Om deze leemte te overbruggen, stellen wij een nieuwe dataset voor die bestaat uit twee soorten onvolledige problemen met diverse contexten. Op basis van deze dataset onthult onze systematische evaluatie van LRMs hun onvermogen om proactief om informatie te vragen. Daarnaast leggen we gedragingen bloot die verband houden met overdenken en hallucinatie bij LRMs, en benadrukken we de potentie en uitdagingen van supervised fine-tuning bij het aanleren van dergelijke vaardigheden. Wij hopen nieuwe inzichten te bieden bij de ontwikkeling van LRMs met echte intelligentie, in plaats van alleen problemen op te lossen.
We onderzoeken in hoeverre Multimodale Large Language Models (MLLMs) nauwkeurig de oriëntatie van invoerafbeeldingen die 0°, 90°, 180° en 270° zijn geroteerd, kunnen identificeren. Deze taak vereist robuuste visuele redeneervaardigheden om rotatiekenmerken te detecteren en ruimtelijke relaties binnen afbeeldingen te contextualiseren, ongeacht hun oriëntatie. Om MLLMs op deze vaardigheden te evalueren, introduceren we RotBench -- een handmatig gefilterde benchmark van 350 afbeeldingen bestaande uit lifestyle-, portret- en landschapsafbeeldingen. Ondanks de relatief eenvoudige aard van deze taak, tonen we aan dat verschillende state-of-the-art open en propriëtaire MLLMs, waaronder GPT-5, o3 en Gemini-2.5-Pro, niet betrouwbaar rotatie in invoerafbeeldingen kunnen identificeren. Het verstrekken van modellen met aanvullende informatie -- inclusief bijschriften, dieptekaarten en meer -- of het gebruik van chain-of-thought prompting biedt slechts kleine en inconsistente verbeteringen. Onze resultaten geven aan dat de meeste modellen betrouwbaar rechtopstaande (0°) afbeeldingen kunnen identificeren, terwijl bepaalde modellen ondersteboven (180°) afbeeldingen kunnen herkennen. Geen enkel model kan betrouwbaar onderscheid maken tussen 90° en 270°. Het gelijktijdig tonen van de afbeelding in verschillende oriëntaties leidt tot matige prestatieverbeteringen voor redeneermodellen, terwijl een aangepaste opzet met stemmen de prestaties van zwakkere modellen verbetert. We laten verder zien dat fine-tuning het vermogen van modellen om 90° en 270° rotaties te onderscheiden niet verbetert, ondanks een aanzienlijke verbetering in de identificatie van 180° afbeeldingen. Samen onthullen deze resultaten een significante kloof tussen de ruimtelijke redeneervaardigheden van MLLMs en de menselijke perceptie bij het identificeren van rotatie.