Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel grootschalige multimodale modellen (LMM's) aanzienlijke vooruitgang hebben geboekt, blijven ze grotendeels tekstgecentreerd en gebruiken ze taal als hun kernredeneermodaliteit. Hierdoor zijn ze beperkt in hun vermogen om redeneertaken aan te pakken die overwegend visueel van aard zijn. Recente benaderingen hebben getracht dit op te lossen door tussenliggende visuele stappen te superviseren met hulpafbeeldingen, dieptekaarten of uitgesneden beeldgedeelten. Deze strategieën leggen echter restrictieve aannames op over hoe 'nuttige' visuele abstracties eruitzien, brengen hoge annotatiekosten met zich mee en zijn moeilijk te generaliseren over taken heen. Om deze kritieke beperking aan te pakken, stellen we een taakonafhankelijk mechanisme voor dat LMM's traint om visuele redeneertokens te ontdekken en te gebruiken zonder expliciete supervisie. Deze tokens richten zich globaal op de afbeelding en coderen deze opnieuw op een taakadaptieve manier, waardoor het model relevante visuele informatie kan extraheren zonder handmatige supervisie. Onze aanpak presteert beter dan direct finetunen en behaalt state-of-the-art resultaten op een diverse reeks visiegecentreerde taken – inclusief taken waarbij tussenliggende abstracties moeilijk te specificeren zijn – en generaliseert tevens naar multi-task instructie-afstemming.
Grootschalige autoregressieve modellen die zijn voorgetraind op voorspelling van de volgende token en afgestemd met reinforcement learning (RL) hebben een ongekend succes bereikt in vele probleemdomeinen. Tijdens RL verkennen deze modellen door nieuwe outputs te genereren, token voor token. Het bemonsteren van acties token-voor-token kan echter leiden tot zeer inefficiënt leren, vooral wanneer beloningen schaars zijn. Hier tonen we aan dat het mogelijk is dit probleem te overwinnen door te handelen en te verkennen binnen de interne representaties van een autoregressief model. Specifiek introduceren we, om temporeel abstracte acties te ontdekken, een hogere-orde, niet-causaal sequentiemodel waarvan de outputs de activaties in de 'residual stream' van een basis autoregressief model aansturen. Op grid world- en MuJoCo-gebaseerde taken met hiërarchische structuur vinden we dat het hogere-orde model leert om lange activatiesequentie-chunks te comprimeren op interne controllers. Cruciaal is dat elke controller een reeks gedragsmatig betekenisvolle acties uitvoert die zich over lange tijdschalen ontvouwen en vergezeld gaan van een geleerde beëindigingsvoorwaarde, zodanig dat het samenstellen van meerdere controllers over tijd leidt tot efficiënte exploratie bij nieuwe taken. We tonen aan dat directe interne versterking van controllers, een proces dat we "interne RL" noemen, leren met schaarse beloningen mogelijk maakt in gevallen waar standaard RL-afstemming faalt. Onze resultaten demonstreren de voordelen van latente actiegeneratie en -versterking in autoregressieve modellen, wat interne RL suggereert als een veelbelovende weg om hiërarchische RL binnen foundation models te realiseren.
Bestaande videogeneratiemodellen hebben moeite met het behouden van langdurige ruimtelijke en temporele consistentie vanwege de dichte, hoogdimensionale aard van videosignalen. Om deze beperking te overwinnen, stellen we Spatia voor, een ruimtelijk geheugenbewust videogeneratiekader dat expliciet een 3D-scenepuntwolk als persistent ruimtelijk geheugen bewaart. Spatia genereert iteratief videofragmenten op basis van dit ruimtelijk geheugen en werkt het continu bij via visuele SLAM. Dit dynamisch-statische ontvlechtingso
Grote taalmodellen tonen steeds vaker redeneersporen, maar hun onderliggende cognitieve structuur en stappen blijven moeilijk te identificeren en analyseren voorbij oppervlakkige statistieken. Wij nemen Schoenfelds Episodetheorie over als een inductieve, intermediaire lens en introduceren ThinkARM (Anatomie van Redeneren in Modellen), een schaalbaar raamwerk dat redeneersporen expliciet abstraheert naar functionele redeneerstappen zoals Analyse, Verkenning, Implementatie, Verificatie, etc. Wanneer toegepast op wiskundig probleemoplossen door diverse modellen, onthult deze abstractie reproduceerbare denk dynamieken en structurele verschillen tussen redenerende en niet-redenerende modellen, die niet zichtbaar zijn vanuit token-gebaseerde perspectieven. Wij presenteren verder twee diagnostische casestudies die aantonen dat verkenning functioneert als een kritieke vertakkingsstap die geassocieerd wordt met correctheid, en dat efficiëntiegerichte methoden evaluatieve feedbackstappen selectief onderdrukken in plaats van reacties uniform in te korten. Samen tonen onze resultaten aan dat episode-niveau representaties redeneerstappen expliciet maken, wat systematische analyse mogelijk maakt van hoe redenering gestructureerd, gestabiliseerd en gewijzigd wordt in moderne taalmodellen.
Video's zijn continue 2D-projecties van 3D-werelden. Ontstaat er na training op grote hoeveelheden videogegevens vanzelf een globaal 3D-begrip? Wij onderzoeken dit door het 3D-begrip van bestaande Video Foundation Models (VidFM's) die zijn voorgetraind op enorme hoeveelheden videodata te kwantificeren. Wij stellen het eerste model-agnostische raamwerk voor dat het 3D-bewustzijn van verschillende VidFM's meet door middel van ondiepe 'read-outs' van meerdere 3D-eigenschappen uit hun kenmerken. Onze studie presenteert betekenisvolle bevindingen over het 3D-bewustzijn van VidFM's op meerdere assen. In het bijzonder tonen wij aan dat state-of-the-art videogeneratiemodellen een sterk begrip vertonen van 3D-objecten en -scènes, ondanks dat zij niet op 3D-data zijn getraind. Dit begrip kan zelfs dat van grote expertmodellen die specifiek voor 3D-taken zijn getraind overtreffen. Onze bevindingen, samen met de 3D-benchmarking van belangrijke VidFM's, leveren waardevolle inzichten op voor het bouwen van schaalbare 3D-modellen.
Meervoudige reinforcement learning (RL) voor multimodale agenten gebaseerd op vision-language modellen (VLM's) wordt belemmerd door schaarse beloningen en krediettoewijzing over lange tijdshorizons. Recente methoden verdichten de beloning door een 'leraar' te raadplegen die feedback op stapniveau geeft, zoals Guided Thought Reinforcement (GTR) en On-Policy Distillation, maar zijn afhankelijk van kostbare, vaak geprivilegieerde modellen als leraar, wat de praktische bruikbaarheid en reproduceerbaarheid beperkt. Wij introduceren GTR-Turbo, een zeer efficiënte upgrade van GTR, die dezelfde prestaties levert zonder een dure leraar-model te trainen of te bevragen. Specifiek combineert GTR-Turbo de gewichten van checkpoints die tijdens de doorlopende RL-training worden gegenereerd, en gebruikt dit samengevoegde model vervolgens als een 'gratis' leraar om de daaropvolgende RL te sturen via supervised fine-tuning of soft logit-distillatie. Dit ontwerp verwijdert de afhankelijkheid van geprivilegieerde VLM's (zoals GPT of Gemini), vermindert de "entropie-instorting" die in eerder werk werd waargenomen en houdt de training stabiel. Over diverse visuele agenttaken heen verbetert GTR-Turbo de nauwkeurigheid van het basismodel met 10-30% terwijl de wandklok-traintijd met 50% en de rekencosten met 60% worden verminderd ten opzichte van GTR.
Autoregressieve (AR) visuele generatie is afhankelijk van tokenizers om afbeeldingen naar en van discrete reeksen af te beelden. Tokenizers worden echter getraind om schone afbeeldingen te reconstrueren vanuit grond-waarheid tokens, terwijl AR-generatoren alleen worden geoptimaliseerd voor token-waarschijnlijkheid. Deze misalignering leidt tot gegenereerde tokenreeksen die kunnen decoderen naar afbeeldingen van lage kwaliteit, zonder direct toezicht vanuit de pixelruimte. Wij stellen VA-π voor, een lichtgewicht raamwerk voor post-training dat AR-modellen direct optimaliseert met een principieel pixelruimte-doel. VA-π formuleert de generator-tokenizer alignering als een variational optimalisatie, waarbij een evidence lower bound (ELBO) wordt afgeleid die pixelreconstructie en autoregressieve modellering verenigt. Om te optimaliseren onder de discrete tokenruimte, introduceert VA-π een op versterkend leren gebaseerde aligneringsstrategie die de AR-generator behandelt als een policy en de reconstructiekwaliteit in de pixelruimte gebruikt als zijn intrinsieke beloning. De beloning wordt gemeten aan de hand van hoe goed de voorspelde tokenreeksen de originele afbeelding kunnen reconstrueren onder teacher forcing, wat het model directe pixel-level begeleiding geeft zonder dure free-running sampling. De regularisatieterm van de ELBO dient als een natuurlijke regularisator, die de distributionele consistentie van tokens behoudt. VA-π maakt snelle aanpassing van bestaande AR-generatoren mogelijk, zonder tokenizer-hertraining of externe beloningsmodellen. Met slechts 1% ImageNet-1K data en 25 minuten afstemming, verlaagt het de FID van 14.36 naar 7.65 en verbetert het de IS van 86.55 naar 116.70 op LlamaGen-XXL, terwijl het ook opmerkelijke winsten oplevert in de tekst-naar-afbeelding taak op GenEval voor zowel het visuele generatiemodel (LlamaGen: van 0.306 naar 0.339) als het verenigde multimodale model (Janus-Pro: van 0.725 naar 0.744). Code is beschikbaar op https://github.com/Lil-Shake/VA-Pi.