Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reward feedback learning (ReFL) heeft zijn effectiviteit bewezen voor het afstemmen van beeldgeneratie op menselijke voorkeuren. De uitbreiding naar videogeneratie wordt echter met aanzienlijke uitdagingen geconfronteerd. Bestaande videobeloningsmodellen zijn afhankelijk van vision-language modellen die zijn ontworpen voor invoer in de pixelruimte, waardoor ReFL-optimalisatie beperkt blijft tot bijna-voltooide denoisestappen na rekenintensieve VAE-decodering. Deze aanpak in de pixelruimte veroorzaakt een aanzienlijke geheugenoverhead en langere trainingstijden, en door de late optimalisatie ontbreekt vroegtijdige supervisie; hierdoor wordt alleen de visuele kwaliteit verfijnd en niet de fundamentele bewegingsdynamiek en structurele samenhang. In dit werk tonen we aan dat vooraf getrainde videogeneratiemodellen van nature geschikt zijn voor beloningsmodellering in de ruisachtige latente ruimte, omdat ze expliciet zijn ontworpen om ruisachtige latente representaties op willekeurige tijdstappen te verwerken en inherent temporele informatie behouden via hun sequentiële modelleringscapaciteiten. Dienovereenkomstig stellen wij Process Reward Feedback Learning (PRFL) voor, een raamwerk dat voorkeursoptimalisatie volledig in de latente ruimte uitvoert, waardoor efficiënte gradient-backpropagatie door de volledige denoiseketen mogelijk is zonder VAE-decodering. Uitgebreide experimenten tonen aan dat PRFL de afstemming op menselijke voorkeuren aanzienlijk verbetert, terwijl het een substantiële vermindering van het geheugengebruik en de trainingstijd bereikt in vergelijking met RGB-ReFL.
Hoewel moderne diffusiemodellen uitblinken in het genereren van hoogwaardige en diverse afbeeldingen, hebben ze nog steeds moeite met compositorische en multimodale controle van hoge betrouwbaarheid, vooral wanneer gebruikers tegelijkertijd tekstprompts, onderwerpverwijzingen, ruimtelijke arrangementen, posebeperkingen en lay-outannotaties specificeren. Wij introduceren Canvas-to-Image, een uniform kader dat deze heterogene controles consolideert in een enkel canvas-interface, waardoor gebruikers afbeeldingen kunnen genereren die hun intentie getrouw weerspiegelen. Onze kernidee is om diverse controlesignalen te coderen in een enkele samengestelde canvasafbeelding die het model direct kan interpreteren voor geïntegreerd visueel-ruimtelijk redeneren. Verder stellen we een reeks multi-taskdatasets samen en stellen we een Multi-Task Canvas Trainingsstrategie voor die het diffusiemodel optimaliseert om gezamenlijk heterogene controles te begrijpen en te integreren in tekst-naar-afbeelding-generatie binnen een uniform leerparadigma. Deze gezamenlijke training stelt Canvas-to-Image in staat te redeneren over meerdere controlemodaliteiten in plaats van te vertrouwen op taakspecifieke heuristieken, en het generaliseert goed naar multi-controlescenario's tijdens inferentie. Uitgebreide experimenten tonen aan dat Canvas-to-Image state-of-the-art methoden significant overtreft in identiteitsbehoud en controle-naleving op uitdagende benchmarks, waaronder compositie met meerdere personen, pose-gestuurde compositie, lay-out-beperkte generatie en generatie met meerdere controles.
Belichaamde cognitie stelt dat intelligentie voortkomt uit sensomotorische interactie in plaats van passieve observatie. Dit roept een intrigerende vraag op: vertonen moderne vision-language modellen (VLM's), die grotendeels op een onbelichaamde manier zijn getraind, tekenen van belichaamde cognitie? Wij introduceren ENACT, een benchmark die de evaluatie van belichaamde cognitie vormgeeft als wereldmodellering vanuit een egocentrisch perspectief in een visual question answering (VQA)-formaat. Gekaderd als een partieel observeerbaar Markov-beslissingsproces (POMDP) waarvan de acties veranderingen in de scènegraph zijn, omvat ENACT twee complementaire sequentiële herordeningstaken: *forward world modeling* (herschik geschudde observaties gegeven acties) en *inverse world modeling* (herschik geschudde acties gegeven observaties). Hoewel conceptueel eenvoudig, vereist het oplossen van deze taken impliciet capaciteiten die centraal staan in belichaamde cognitie: affordantieherkenning, redeneren over actie-effecten, belichaamd bewustzijn en interactief, langetermijngeheugen vanuit partieel observeerbare egocentrische input, terwijl low-level beeld synthese wordt vermeden die de evaluatie zou kunnen verstoren. Wij bieden een schaalbare pijplijn die VQA-paren synthetiseert uit robotsimulatie (BEHAVIOR) en evalueert modellen op 8.972 VQA-paren die langetermijn activiteiten op huishoudelijke schaal beslaan. Experimenten tonen een prestatiekloof tussen frontier VLM's en mensen die groter wordt met de interactiehorizon. Modellen presteren consistent beter op de inverse taak dan op de forward taak en vertonen antropocentrische vooroordelen, waaronder een voorkeur voor rechtshandige acties en prestatievermindering wanneer cameraintrinsieken of gezichtspunten afwijken van het menselijk zicht. Website: https://enact-embodied-cognition.github.io/.
Taalbegrip houdt niet alleen in dat de oppervlakkige betekenis van de taalkundige input wordt geëxtraheerd, maar ook dat rijke mentale modellen van de beschreven situatie worden geconstrueerd. Wij stellen hier voor dat, omdat de verwerking binnen het kern-taalsysteem van de hersenen fundamenteel beperkt is, diepgaand taalbegrip vereist dat informatie wordt geëxporteerd vanuit het taalsysteem naar andere hersengebieden die perceptuele en motorische representaties berekenen, mentale modellen construeren, en onze wereldkennis en autobiografische herinneringen opslaan. Wij bespreken het bestaande bewijs voor deze hypothese en beargumenteren dat recente vooruitgang in de cognitieve neurowetenschappen zowel het conceptuele fundament als de methoden biedt om deze hypothese direct te toetsen. Dit opent een nieuwe strategie om te onthullen wat het, cognitief en neuronaal, betekent om taal te begrijpen.
Instructiegestuurd beeldbewerking biedt gebruikers een intuïtieve manier om afbeeldingen te bewerken met natuurlijke taal. Op diffusie gebaseerde bewerkingsmodellen hebben echter vaak moeite om complexe gebruikersinstructies nauwkeurig te interpreteren, vooral wanneer deze compositionele relaties, contextuele aanwijzingen of verwijzende uitdrukkingen bevatten. Dit leidt tot bewerkingen die semantisch afdrijven of de beoogde veranderingen niet weerspiegelen. Wij pakken dit probleem aan door MIRA (Multimodal Iterative Reasoning Agent) voor te stellen, een lichtgewicht, plug-and-play multimodaal redeneeragent die bewerkingen uitvoert via een iteratieve perceptie-redenering-actie-lus, waardoor interactieprocessen tussen mens en model in meerdere stappen effectief worden gesimuleerd. In plaats van een enkele prompt of een statisch plan uit te voeren, voorspelt MIRA stapsgewijs atomische bewerkinstructies en gebruikt het visuele feedback om zijn beslissingen te nemen. Onze 150K multimodale tool-use dataset, MIRA-Editing, gecombineerd met een tweefasen SFT + GRPO-trainingspijplijn, stelt MIRA in staat om te redeneren en te bewerken op basis van complexe bewerkinstructies. Wanneer MIRA wordt gekoppeld aan open-source beeldbewerkingsmodellen zoals Flux.1-Kontext, Step1X-Edit en Qwen-Image-Edit, verbetert het zowel de semantische consistentie als de perceptuele kwaliteit aanzienlijk, waarbij de prestaties vergelijkbaar zijn met of zelfs beter zijn dan die van propriëtaire systemen zoals GPT-Image en Nano-Banana.
Grootschalige multimodale modellen (LMM's) worden vanwege hun sterke instructievolging en consistentie met menselijke voorkeuren steeds vaker ingezet als beoordelaars in multimodale evaluatiesystemen. Hun vermogen om diverse, fijnmazige evaluatiecriteria te volgen, blijft echter onderbelicht. Wij ontwikkelen Multi-Crit, een benchmark voor het evalueren van multimodale beoordelaars op hun vermogen om pluralistische criteria te volgen en betrouwbare, criteriumspecifieke oordelen te vormen. Multi-Crit, dat zowel open-einde-generatietaken als verifieerbare redeneertaken omvat, is opgebouwd via een rigoureus data-curatieproces dat uitdagende responsparen verzamelt met menselijke annotaties voor meerdere criteria. Het introduceert verder drie nieuwe metrieken voor het systematisch beoordelen van pluralistische naleving, flexibiliteit bij het wisselen tussen criteria, en het vermogen om tegenstrijdige voorkeuren op criteriumniveau te herkennen. Uit een uitgebreide analyse van 25 LMM's blijkt dat 1) propriëtaire modellen nog steeds moeite hebben om consistente naleving van pluralistische criteria te handhaven—met name bij open-einde-evaluatie; 2) open-source modellen verder achterblijven in het flexibel volgen van diverse criteria; en 3) fijnafstemming met holistische oordeelsignalen de visuele verankering verbetert, maar niet generaliseert naar pluralistische, criteriumspecifieke oordeelsvorming. Aanvullende analyses naar fijnafstemming voor redeneervaardigheden, schaling tijdens testtijd, en consistentiegrenzen tussen open-source en propriëtaire modellen verkennen verder de beperkingen van huidige multimodale beoordelaars. Als baanbrekende studie legt Multi-Crit de basis voor het bouwen van betrouwbare en stuurbare multimodale AI-evaluatie.
MLLM's vertonen sterke redeneervaardigheden bij geïsoleerde vragen, maar werken de novo – ze lossen elk probleem onafhankelijk op en herhalen vaak dezelfde fouten. Bestaande geheugenversterkte agents slaan voornamelijk eerdere trajecten op voor hergebruik. Trajectgebaseerd geheugen lijdt echter aan beknoptheidsbias, waarbij essentiële domeinkennis geleidelijk verloren gaat. Cruciaal is dat het, zelfs in echt multimodale probleemoplossingscontexten, slechts een unimodale trace van eerder gedrag vastlegt, zonder te bewaren hoe visuele aandacht en logisch redeneren gezamenlijk bijdroegen aan de oplossing. Dit staat fundamenteel haaks op de menselijke cognitie: semantisch geheugen is zowel multimodaal als geïntegreerd, en bewaart visuele en abstracte kennis via gecoördineerde maar onderscheiden representatiestromen. Daarom introduceren we ViLoMem, een dual-stream geheugenkader dat compact, schema-gebaseerd geheugen opbouwt. Het codeert visuele afleidingspatronen en logische redeneerfouten afzonderlijk, waardoor MLLM's kunnen leren van hun succesvolle en mislukte ervaringen. Volgend op een groei-en-verfijn-principe accumuleert en actualiseert het systeem incrementeel multimodale semantische kennis – het behoudt stabiele, generaliseerbare strategieën en vermijdt catastrofale vergetelheid. Over zes multimodale benchmarks verbetert ViLoMem consistent de pass@1-nauwkeurigheid en vermindert het herhaalde visuele en logische fouten aanzienlijk. Ablaties bevestigen de noodzaak van dual-stream geheugen met expliciete scheiding van afleiding-hallucinatie, wat de waarde aantoont van foutbewust multimodaal geheugen voor levenslang en domeinoverschrijdend agent-leren. Onze projectpagina zal beschikbaar zijn op https://weihao-bo.github.io/ViLoMeo-page.