Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Kling-Omni, een generalistisch generatief framework ontworpen voor het synthetiseren van hoogwaardige video's rechtstreeks vanuit multimodale visuele taalinputs. Vanuit een end-to-end perspectief overbrugt Kling-Omni de functionele scheiding tussen diverse videogeneratie-, bewerkings- en intelligente redeneertaken, en integreert deze in een holistisch systeem. In tegenstelling tot gefragmenteerde pijplijnbenaderingen ondersteunt Kling-Omni een breed scala aan gebruikersinputs, waaronder tekstinstructies, referentiebeelden en videocontexten, en verwerkt deze tot een uniforme multimodale representatie om filmkwaliteit en hoogintelligente videocontentcreatie te leveren. Om deze mogelijkheden te ondersteunen, hebben wij een uitgebreid datasysteem opgebouwd dat als fundament dient voor multimodale videocreatie. Het framework wordt verder versterkt door efficiënte grootschalige pre-trainingsstrategieën en infrastructuuromtimeringen voor inferentie. Uitgebreide evaluaties tonen aan dat Kling-Omni uitzonderlijke capaciteiten demonstreert in contextgevoelige generatie, op redenering gebaseerd bewerken en het opvolgen van multimodale instructies. Meer dan alleen een contentcreatietool, geloven wij dat Kling-Omni een cruciale vooruitgang is richting multimodale wereld-simulators die in staat zijn de dynamische en complexe werelden waar te nemen, te redeneren, te genereren en ermee te interageren.
Geavanceerde agent-gebaseerde AI-systemen zijn gebouwd op foundation-modellen die kunnen worden aangepast om te plannen, redeneren en te interacteren met externe tools om steeds complexere en gespecialiseerde taken uit te voeren. Naarmate deze systemen in capaciteit en reikwijdte groeien, wordt adaptatie een centraal mechanisme voor het verbeteren van prestaties, betrouwbaarheid en generalisatie. In dit artikel verenigen we het snel uitdijende onderzoekslandschap in een systematisch kader dat zowel agent-adaptaties als tool-adaptaties omvat. We verdelen deze verder in door tool-uitvoering gesignaleerde en door agent-output gesignaleerde vormen van agent-adaptatie, evenals in agent-agnostische en door de agent gesuperviseerde vormen van tool-adaptatie. We tonen aan dat dit kader helpt om de ontwerpruimte van adaptatiestrategieën in agent-gebaseerde AI te verduidelijken, hun afwegingen expliciet maakt en praktische richtlijnen biedt voor het selecteren of wisselen tussen strategieën tijdens systeemontwerp. Vervolgens bespreken we de representatieve benaderingen in elke categorie, analyseren we hun sterke en zwakke punten en belichten we belangrijke open uitdagingen en toekomstige kansen. Over het geheel genomen beoogt dit artikel een conceptueel fundament en een praktische routekaart te bieden voor onderzoekers en praktijkmensen die streven naar het bouwen van capabelere, efficiëntere en betrouwbaardere agent-gebaseerde AI-systemen.
Geïnspireerd door het succes van generatieve voorafgaande training in natuurlijke taal, onderzoeken we of dezelfde principes krachtige zelfgesuperviseerde visuele leerders kunnen opleveren. In plaats van modellen te trainen om kenmerken voor downstream gebruik uit te voeren, trainen we ze om inbeddingen te genereren om voorspellende taken direct uit te voeren. Dit werk verkent een dergelijke verschuiving van het leren van representaties naar het leren van modellen. Concreet leren modellen toekomstige patch-inbeddingen te voorspellen, geconditioneerd op voorgaande inbeddingen, met behulp van causaal maskeren en stopgradiënt, wat wij Next-Embedding Predictive Autoregression (NEPA) noemen. Wij tonen aan dat een eenvoudige Transformer, vooraf getraind op ImageNet-1k met next embedding prediction als enige leerdoel, effectief is - zonder pixelreconstructie, discrete tokens, contrastief verlies of taakspecifieke heads. Deze formulering behoudt architectonische eenvoud en schaalbaarheid, zonder extra ontwerpcomplexiteit. NEPA behaalt sterke resultaten over taken heen, met een top-1 nauwkeurigheid van 83,8% en 85,3% op ImageNet-1K met ViT-B- en ViT-L-backbones na fine-tuning, en transfereert effectief naar semantische segmentatie op ADE20K. Wij geloven dat generatieve voorafgaande training vanuit inbeddingen een eenvoudig, schaalbaar en potentieel modaliteits-agnostisch alternatief biedt voor visuele zelfgesuperviseerde learning.
Dit artikel presenteert LLaDA2.0 – een tupel van discrete diffusie large language models (dLLM) die oplopen tot 100B totale parameters door systematische conversie van auto-regressieve (AR) modellen – waarmee een nieuw paradigma wordt gevestigd voor inzet op frontierschaal. In plaats van kostbare training vanaf nul, handhaaft LLaDA2.0 de principes van kennisoverdracht, progressieve aanpassing en efficiëntiebewust ontwerp, en zet naadloos een vooraf getraind AR-model om in een dLLM met een nieuwe 3-fasen trainingsschema op basis van WSD op blokniveau: progressieve toename van blokgrootte in blokdiffusie (opwarming), grootschalige diffusie van volledige sequenties (stabiel) en terugkeren naar diffusie met compacte blokgroottes (afbouw). Samen met post-training alignment met SFT en DPO verkrijgen we LLaDA2.0-mini (16B) en LLaDA2.0-flash (100B), twee instruction-tuned Mixture-of-Experts (MoE) varianten geoptimaliseerd voor praktische inzet. Door de voordelen van parallel decoderen te behouden, leveren deze modellen superieure prestaties en efficiëntie op frontierschaal. Beide modellen zijn open-source gemaakt.
Recente vooruitgang in videogeneratie heeft de weg geëffend voor geünificeerde audiovisuele generatie. In dit werk presenteren we Seedance 1.5 pro, een fundamenteel model dat specifiek is ontwikkeld voor native, gezamenlijke audio-videogeneratie. Gebruikmakend van een dual-branch Diffusion Transformer-architectuur integreert het model een cross-modale gezamenlijke module met een gespecialiseerde multi-stage datapijplijn, wat resulteert in uitzonderlijke audiovisuele synchronisatie en superieure generatiekwaliteit. Om de praktische bruikbaarheid te garanderen, implementeren we zorgvuldige post-training optimalisaties, waaronder Supervised Fine-Tuning (SFT) op hoogwaardige datasets en Reinforcement Learning from Human Feedback (RLHF) met multidimensionale beloningsmodellen. Verder introduceren we een versnellingsframework dat de inferentiesnelheid met meer dan 10x verhoogt. Seedance 1.5 pro onderscheidt zich door precieze lippensynchronisatie voor meertaligheid en dialecten, dynamische cinematografische camerabesturing en verbeterde narratieve samenhang, wat het positioneert als een robuuste engine voor professionele contentcreatie. Seedance 1.5 pro is nu toegankelijk op Volcano Engine via https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.
De snelle groei van stereoscopische displays, waaronder VR-brillen en 3D-bioscopen, heeft geleid tot een toenemende vraag naar hoogwaardige stereoscopische videocontent. Het produceren van 3D-video's blijft echter kostbaar en complex, terwijl automatische conversie van monocular naar stereo wordt belemmerd door de beperkingen van de meerstaps "Depth-Warp-Inpaint" (DWI)-pipeline. Dit paradigma lijdt onder foutpropagatie, diepte-ambiguïteit en formaatinconsistentie tussen parallelle en convergerende stereoconfiguraties. Om deze uitdagingen aan te pakken, introduceren wij UniStereo, de eerste grootschalige, uniforme dataset voor stereovideoconversie, die beide stereoformaten omvat om eerlijke benchmarking en robuuste modeltraining mogelijk te maken. Voortbouwend op deze dataset stellen wij StereoPilot voor, een efficiënt voorwaarts model dat de doelweergave direct synthetiseert zonder afhankelijk te zijn van expliciete dieptekaarten of iteratieve diffusie-steekproeven. Uitgerust met een leerbare domeinschakelaar en een cycle consistency-verliesfunctie, past StereoPilot zich naadloos aan verschillende stereoformaten aan en bereikt het een verbeterde consistentie. Uitgebreide experimenten tonen aan dat StereoPilot aanzienlijk beter presteert dan state-of-the-art methoden, zowel in visuele kwaliteit als in rekenkundige efficiëntie. Projectpagina: https://hit-perfect.github.io/StereoPilot/.
Dieptescherptebeheer is essentieel in de fotografie, maar het verkrijgen van de perfecte scherpte vereist vaak meerdere pogingen of gespecialiseerde apparatuur. Refocussering vanuit één enkele afbeelding blijft een uitdaging. Het omvat het herstellen van scherpe inhoud en het creëren van realistische bokeh. Huidige methoden hebben aanzienlijke tekortkomingen: ze vereisen volledig scherpe invoerbeelden, zijn afhankelijk van synthetische data uit simulatoren en bieden beperkte controle over het diafragma. Wij introduceren Generatieve Refocussering, een proces in twee stappen dat DeblurNet gebruikt om volledig scherpe beelden te herstellen vanuit diverse invoeren en BokehNet voor het creëren van controleerbare bokeh. Onze belangrijkste innovatie is semi-gesuperviseerde training. Deze methode combineert synthetische gepaarde data met ongepaarde echte bokeh-afbeeldingen, waarbij EXIF-metadata wordt gebruikt om echte optische karakteristieken vast te leggen die verder gaan dan wat simulatoren kunnen bieden. Onze experimenten tonen aan dat we topprestaties behalen op het gebied van defocus-deblurring, bokeh-synthese en refocusseringsbenchmarks. Bovendien stelt onze Generatieve Refocussering tekstgestuurde aanpassingen en aangepaste diafragmavormen mogelijk.
In dit werk presenteren wij een panoramisch metrisch dieptefoundation-model dat generaliseert over diverse scène-afstanden. Wij onderzoeken een data-in-the-loop-paradigma vanuit het perspectief van zowel dataconstructie als frameworkontwerp. Wij verzamelen een grootschalige dataset door publieke datasets te combineren, hoogwaardige synthetische data van onze UE5-simulator en text-to-image-modellen, en echte panoramische afbeeldingen van het web. Om domeinkloven tussen binnen/buiten en synthetische/echte data te verkleinen, introduceren wij een driedelig pseudo-label-curatiepipeline om betrouwbare grondwaarheden te genereren voor ongelabelde afbeeldingen. Voor het model nemen wij DINOv3-Large als backbone vanwege de sterke vooraf getrainde generalisatie, en introduceren wij een plug-and-play range mask-head, een scherpte-gecentreerde optimalisatie en een geometrie-gecentreerde optimalisatie om de robuustheid voor variërende afstanden te verbeteren en geometrische consistentie tussen viewpoints af te dwingen. Experimenten op meerdere benchmarks (bijvoorbeeld Stanford2D3D, Matterport3D en Deep360) tonen sterke prestaties en zero-shot-generalizatie aan, met bijzonder robuuste en stabiele metrische voorspellingen in diverse real-world scènes. De projectpagina is te vinden op: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
Recente vooruitgang in tekst-naar-beeld (T2I) generatieve modellen, zoals Imagen, Stable Diffusion en FLUX, heeft geleid tot opmerkelijke verbeteringen in de visuele kwaliteit. Hun prestaties worden echter fundamenteel beperkt door de kwaliteit van de trainingsgegevens. Web-gespiede en synthetische afbeeldingssets bevatten vaak monsters van lage kwaliteit of redundante monsters, wat leidt tot verminderde visuele kwaliteit, onstabiele training en inefficiënte rekenkracht. Daarom is effectieve dataselectie cruciaal voor het verbeteren van de data-efficiëntie. Bestaande benaderingen vertrouwen op kostbare handmatige curatie of heuristische scoring op basis van eendimensionale kenmerken bij het filteren van tekst-naar-beeldgegevens. Hoewel op meta-leren gebaseerde methoden zijn onderzocht voor grote taalmmodellen (LLM's), is er geen aanpassing voor beeldmodaliteiten. Daartoe stellen wij **Alchemist** voor, een op meta-gradiënten gebaseerd raamwerk om een geschikte subset te selecteren uit grootschalige tekst-beeldgegevensparen. Onze aanpak leert automatisch de invloed van elk monster in te schatten door het model iteratief te optimaliseren vanuit een data-gecentreerd perspectief. Alchemist bestaat uit twee belangrijke fasen: data-beoordeling en data-snoei. We trainen een lichtgewicht beoordelaar om de invloed van elk monster in te schatten op basis van gradiëntinformatie, versterkt met multi-granulariteitsperceptie. Vervolgens gebruiken we de Shift-Gsampling-strategie om informatieve subsets te selecteren voor efficiënte modeltraining. Alchemist is het eerste automatische, schaalbare, op meta-gradiënten gebaseerde dataselectieraamwerk voor de training van tekst-naar-beeldmodellen. Experimenten op zowel synthetische als web-gespiede datasets tonen aan dat Alchemist consistent de visuele kwaliteit en downstream-prestaties verbetert. Training op een door Alchemist geselecteerde 50% van de gegevens kan de training op de volledige dataset overtreffen.
Latente diffusiemodellen (LDM's) bereiken state-of-the-art beeldsynthese, maar hun reconstructie-gebaseerde denoiseringsdoelstelling biedt slechts indirecte semantische supervisie: hoogwaardige semantiek ontstaat langzaam, vereist langere training en beperkt de samplekwaliteit. Recente werken injecteren semantiek uit Vision Foundation Models (VFM's) extern via representatie-alignering of intern door slechts een smal segment van VFM-features gezamenlijk te modelleren binnen het diffusieproces, waardoor de rijke, niet-lineaire, multi-layer ruimtelijke semantiek onderbenut blijft. Wij introduceren REGLUE (Representation Entanglement with Global-Local Unified Encoding), een verenigd latent diffusieraamwerk dat gezamenlijk modelleert: (i) VAE-beeldlatenten, (ii) compacte lokale (patch-niveau) VFM-semantiek, en (iii) een globaal (beeldniveau) [CLS]-token binnen een enkele SiT-backbone. Een lichtgewicht convolutioneel semantisch compresseur aggregeert niet-lineair multi-layer VFM-features tot een laagdimensionale, ruimtelijk gestructureerde representatie, die verstrengeld wordt met de VAE-latenten in het diffusieproces. Een externe aligneringsverliesfunctie regulariseert verder de interne representaties richting bevroren VFM-doelen. Op ImageNet 256x256 verbetert REGLUE consistent de FID en versnelt het de convergentie ten opzichte van SiT-B/2 en SiT-XL/2-baselines, evenals ten opzichte van REPA, ReDi en REG. Uitgebreide experimenten tonen aan dat (a) ruimtelijke VFM-semantiek cruciaal is, (b) niet-lineaire compressie essentieel is om hun volledige voordeel te benutten, en (c) globale tokens en externe alignering fungeren als complementaire, lichtgewicht verbeteringen binnen ons raamwerk voor gezamenlijke modellering van globaal-lokaal-latent. De code is beschikbaar op https://github.com/giorgospets/reglue.
Wij presenteren WorldCanvas, een raamwerk voor promptbare wereldgebeurtenissen dat rijke, door de gebruiker gestuurde simulatie mogelijk maakt door tekst, trajecten en referentiebeelden te combineren. In tegenstelling tot uitsluitend tekstgebaseerde benaderingen en bestaande traject-gestuurde beeld-naar-video methoden, combineert onze multimodale aanpak trajecten – die beweging, timing en zichtbaarheid coderen – met natuurlijke taal voor semantische intentie en referentiebeelden voor visuele verankering van objectidentiteit. Dit maakt de generatie van samenhangende, bestuurbare gebeurtenissen mogelijk, waaronder multi-agent interacties, objectinvoer/uitvoer, referentie-gestuurd uiterlijk en contra-intuïtieve gebeurtenissen. De resulterende video's tonen niet alleen temporele coherentie, maar ook emergentie van consistentie, waarbij objectidentiteit en scène behouden blijven ondanks tijdelijke verdwijning. Door de generatie van expressieve wereldgebeurtenissen te ondersteunen, evolueert WorldCanvas wereldmodellen van passieve voorspellers naar interactieve, door de gebruiker gevormde simulatoren. Onze projectpagina is beschikbaar op: https://worldcanvas.github.io/.
In-context diffusiemodellen stellen gebruikers in staat om afbeeldingen met opmerkelijke eenvoud en realisme aan te passen. Dezezelfde kracht roept echter ernstige privacyzorgen op: persoonlijke afbeeldingen kunnen eenvoudig worden gemanipuleerd voor identiteitsimitatie, desinformatie of ander kwaadwillend gebruik, allemaal zonder toestemming van de eigenaar. Hoewel eerder onderzoek inputverstoringen heeft onderzocht om misbruik in gepersonaliseerde tekst-naar-afbeelding-generatie tegen te gaan, blijft de robuustheid van moderne, grootschalige in-context op DiT gebaseerde modellen grotendeels ononderzocht. In dit artikel stellen we DeContext voor, een nieuwe methode om invoerafbeeldingen te beschermen tegen onbevoegde in-context bewerking. Onze belangrijkste inzicht is dat contextuele informatie van de bronafbeelding zich voornamelijk via multimodale attention-lagen naar de output voortplant. Door kleine, gerichte verstoringen aan te brengen die deze kruis-attentiepaden verzwakken, verbreekt DeContext deze stroom en ontkoppelt effectief de link tussen input en output. Deze eenvoudige verdediging is zowel efficiënt als robuust. We tonen verder aan dat vroege denoiseringsstappen en specifieke transformer-blokken de contextvoortplanting domineren, wat ons in staat stelt om verstoringen te concentreren waar ze het meest toe doen. Experimenten met Flux Kontext en Step1X-Edit tonen aan dat DeContext consistent ongewenste afbeeldingsbewerkingen blokkeert, terwijl de visuele kwaliteit behouden blijft. Deze resultaten benadrukken de effectiviteit van op aandacht gebaseerde verstoringen als een krachtige verdediging tegen beeldmanipulatie.
Recente vooruitgang in reinforcement learning voor grote taalmodellen is geconvergeerd naar toenemende complexiteit: meerfasige trainingspijplijnen, dynamische hyperparameter-schema's en curriculumleerstrategieën. Dit roept een fundamentele vraag op: Is deze complexiteit noodzakelijk? Wij presenteren JustRL, een minimale aanpak die gebruikmaakt van training in één fase met vaste hyperparameters, en die state-of-the-art prestaties bereikt op twee 1,5B-redeneermodellen (54,9% en 64,3% gemiddelde nauwkeurigheid over negen wiskundige benchmarks) terwijl er 2x minder rekenkracht wordt gebruikt dan bij geavanceerde aanpakken. Dezelfde hyperparameters zijn overdraagbaar tussen beide modellen zonder afstemming, en de training vertoont een soepele, monotone verbetering over meer dan 4.000 stappen zonder de instortingen of plateaus die doorgaans interventies motiveren. Cruciaal is dat ablatiestudies aantonen dat het toevoegen van "standaardtrucs" zoals expliciete lengtestraffen en robuuste verifiers de prestaties kunnen verslechteren door verkenning in te perken. Deze resultaten suggereren dat het vakgebied mogelijk complexiteit toevoegt om problemen op te lossen die verdwijnen met een stabiele, opgeschaalde basislijn. Wij geven onze modellen en code vrij om een eenvoudige, gevalideerde basislijn voor de gemeenschap te vestigen.
Hoewel huidige multimodale modellen vragen kunnen beantwoorden op basis van 2D-beelden, ontbreekt het hen aan intrinsiek 3D-objectperceptie, wat hun vermogen beperkt om ruimtelijke relaties en dieptesignalen in 3D-scènes te begrijpen. In dit werk stellen we N3D-VLM voor, een nieuw unified framework dat naadloos native 3D-objectperceptie integreert met 3D-bewust visueel redeneren, waardoor zowel precieze 3D-gronding als interpreteerbaar ruimtelijk begrip mogelijk wordt. In tegenstelling tot conventionele end-to-end modellen die antwoorden rechtstreeks vanuit RGB/RGB-D invoer voorspellen, rust onze aanpak het model uit met native 3D-objectperceptiecapaciteiten, waardoor het objecten direct in de 3D-ruimte kan lokaliseren op basis van tekstuele beschrijvingen. Voortbouwend op accurate 3D-objectlokalisatie voert het model verder expliciet redeneren uit in 3D, waardoor een interpreteerbaarder en gestructureerder ruimtelijk begrip wordt bereikt. Om robuuste training voor deze capaciteiten te ondersteunen, ontwikkelen we een schaalbare pijplijn voor dataconstructie die gebruikmaakt van diepteschatting om grootschalige 2D-annotaties naar de 3D-ruimte te tillen, waardoor de diversiteit en dekking van 3D-objectgrondingsdata aanzienlijk toenemen en een dataset oplevert die meer dan zes keer groter is dan de grootste bestaande 3D-detectiedataset voor enkele beelden. Bovendien genereert de pijplijn ruimtelijke vraag-antwoorddatasets die gericht zijn op chain-of-thought (CoT) redeneren in 3D, wat gezamenlijke training voor zowel 3D-objectlokalisatie als 3D-ruimtelijk redeneren vergemakkelijkt. Experimentele resultaten tonen aan dat ons unified framework niet alleen state-of-the-art prestaties bereikt bij 3D-grondingtaken, maar ook consistent bestaande methoden overtreft bij 3D-ruimtelijk redeneren in vision-language modellen.
Hoewel beeldbewerking een snelle vooruitgang heeft geboekt, blijft videobewerking minder verkend en kampt het met uitdagingen op het gebied van consistentie, controle en generalisatie. Wij bestuderen de ontwerpruimte van data, architectuur en controle, en introduceren EasyV2V, een eenvoudig en effectief framework voor instructiegebaseerde videobewerking. Aan de datazijde combineren we bestaande experts met snelle inversies om diverse videoparen te bouwen, tillen we beeldbewerkingsparen op naar video's via enkelbeeldsupervisie en pseudoparen met gedeelde affine beweging, delven we dicht-beschreven clips voor videoparen en voegen we overgangssupervisie toe om te leren hoe bewerkingen zich ontvouwen. Aan de modelzijde observeren we dat voorgetrainde tekst-naar-video-modellen beschikken over bewerkingscapaciteit, wat een vereenvoudigd ontwerp motiveert. Eenvoudige sequentieconcatenatie voor conditionering met lichte LoRA-finetuning volstaat om een sterk model te trainen. Voor controle verenigen we spatiotemporele controle via een enkel maskermechanisme en ondersteunen we optionele referentiebeelden. Over het algemeen werkt EasyV2V met flexibele invoer, bijvoorbeeld video+tekst, video+masker+tekst, video+masker+referentie+tekst, en behaalt het state-of-the-art videobewerkingsresultaten, waarbij het gelijktijdige en commerciële systemen overtreft. Projectpagina: https://snap-research.github.io/easyv2v/
Beloningsmodellen (RMs) zijn essentieel voor het trainen van grote taalmodellen (LLM's), maar blijven onderbelicht voor omnimodellen die interleavende afbeelding- en tekstsequenties verwerken. Wij introduceren Multimodal RewardBench 2 (MMRB2), de eerste uitgebreide benchmark voor beloningsmodellen op het gebied van multimodale interpretatie en (interleavende) generatie. MMRB2 omvat vier taken: tekst-naar-afbeelding, beeldbewerking, interleavende generatie en multimodaal redeneren ("denken-met-afbeeldingen"), en biedt per taak 1.000 door experts geannoteerde voorkeursparen van 23 modellen en agentschappen uit 21 brontaken. MMRB2 is ontworpen met: (1) praktische maar uitdagende prompts; (2) reacties van state-of-the-art modellen en agentschappen; en (3) voorkeursparen met een sterke consensus onder menselijke experts, samengesteld via een ensemble-filterstrategie. Met MMRB2 bestuderen we bestaande beoordelaars voor elke subtaak, waaronder multimodale LLM-as-a-judge en modellen getraind met menselijke voorkeuren. De nieuwste Gemini 3 Pro behaalt een nauwkeurigheid van 75-80%. GPT-5 en Gemini 2.5 Pro bereiken een nauwkeurigheid van 66-75%, vergeleken met >90% voor mensen, maar overtreffen het veelgebruikte GPT-4o (59%). Het best presterende open-source model Qwen3-VL-32B behaalt vergelijkbare nauwkeurigheden als Gemini 2.5 Flash (64%). We tonen ook aan dat de MMRB2-prestatie sterk correleert met het succes van downstreamtaken bij gebruik van Best-of-N sampling en voeren een diepgaande analyse uit die belangrijke verbeteringsgebieden voor toekomstige beloningsmodellen identificeert.
Recente ontwikkelingen tonen aan dat multimodale grote-taalmmodellen (MLLM's) baat hebben bij multimodale, interleaved chain-of-thought (CoT) met visuele toolinteracties. Bestaande open-source modellen vertonen echter vaak een blind tool-use redeneerpatroon, waarbij visuele tools worden aangeroepen zelfs wanneer dit niet nodig is, wat de inferentie-overhead aanzienlijk verhoogt en de modelprestaties verslechtert. Daartoe stellen wij AdaTooler-V voor, een MLLM die adaptief tool-use uitvoert door te bepalen of een visueel probleem daadwerkelijk tools vereist. Ten eerste introduceren we AT-GRPO, een reinforcement learning-algoritme dat de beloningsschalen adaptief aanpast op basis van de Tool Benefit Score van elk sample, waardoor het model wordt aangemoedigd alleen tools aan te roepen wanneer deze echte verbeteringen bieden. Bovendien construeren we twee datasets ter ondersteuning van de training: AdaTooler-V-CoT-100k voor SFT-koude start en AdaTooler-V-300k voor RL met verifieerbare beloningen over single-image, multi-image en videodata. Experimenten over twaalf benchmarks demonstreren de sterke redeneercapaciteit van AdaTooler-V, die bestaande methoden overtreft in diverse visuele redeneertaken. Opmerkelijk is dat AdaTooler-V-7B een nauwkeurigheid van 89,8% behaalt op de high-resolution benchmark V*, waarmee het het commerciële propriëtaire model GPT-4o en Gemini 1.5 Pro overtreft. Alle code, modellen en data worden vrijgegeven.
Instruction-gestuurd beeldbewerking maakt natuurlijke-taalaansturing van visuele aanpassingen mogelijk, maar bestaande modellen falen onder Instruction-Visual Complexity (IV-Complexiteit), waar complexe instructies samenvallen met rommelige of dubbelzinnige scènes. Wij introduceren RePlan (Region-aligned Planning), een plan-dan-uitvoer raamwerk dat een vision-language planner koppelt aan een diffusion editor. De planner ontleedt instructies via stapsgewijs redeneren en verankert deze expliciet aan doelregio's; de editor past vervolgens wijzigingen toe met een trainingsvrij aandacht-regio-injectiemechanisme, wat precieze, parallelle multi-regio bewerkingen mogelijk maakt zonder iteratieve inpainting. Om planning te versterken, passen we GRPO-gebaseerd reinforcement learning toe met 1K alleen-instructie voorbeelden, wat aanzienlijke verbeteringen oplevert in redeneernauwkeurigheid en formaatbetrouwbaarheid. Wij presenteren verder IV-Edit, een benchmark gericht op fijnmazige verankering en kennisintensieve bewerkingen. In IV-Complexe situaties presteert RePlan consistent beter dan sterke baseline-modellen getraind op veel grotere datasets, met verbeterde regionale precisie en algehele nauwkeurigheid. Onze projectpagina: https://replan-iv-edit.github.io
Dit artikel onderzoekt de exploration-exploitation trade-off bij reinforcement learning met verifieerbare beloningen (RLVR), een raamwerk voor het verbeteren van het redeneervermogen van large language models (LLM's). Recente studies suggereren dat RLVR sterk wiskundig redeneervermogen bij LLM's kan opwekken via twee schijnbaar paradoxale mechanismen: *spurious rewards* (valse beloningen), die exploitatie onderdrukken door resultaten te belonen die niet gerelateerd zijn aan de grondwaarheid, en entropieminimalisatie, die exploratie onderdrukt door het model richting zelfverzekerdere en deterministischere outputs te sturen. Dit belicht een raadselachtige dynamiek: zowel het ontmoedigen van exploitatie als het ontmoedigen van exploratie verbetert de redeneerprestaties, maar de onderliggende principes die deze effecten verzoenen blijven slecht begrepen. Wij richten ons op twee fundamentele vragen: (i) hoe beleidsentropie zich verhoudt tot prestaties, en (ii) of *spurious rewards* winst opleveren, mogelijk via de wisselwerking van *clipping bias* en modelcontaminatie. Onze resultaten tonen aan dat *clipping bias* onder *spurious rewards* de beleidsentropie verlaagt, wat leidt tot zelfverzekerdere en deterministischere outputs, terwijl entropieminimalisatie alleen onvoldoende is voor verbetering. Wij stellen verder een model van beloningsmisalignatie voor dat verklaart waarom *spurious rewards* de prestaties kunnen verbeteren, zelfs buiten gecontamineerde settings. Onze bevindingen verduidelijken de mechanismen achter de voordelen van *spurious rewards* en bieden principes voor effectievere RLVR-training.
Huidige op diffusie gebaseerde versnellingsmethoden voor lange portretanimaties hebben moeite met het garanderen van identiteitsconsistentie. Dit artikel presenteert FlashPortrait, een end-to-end videodiffusietransformer die in staat is om identiteit-behoudende, oneindig lange video's te synthetiseren met een versnelling van de inferentiesnelheid tot wel 6x. FlashPortrait begint met het berekenen van identiteits-agnostische gezichtsuitdrukkingskenmerken met een kant-en-klare extractor. Vervolgens introduceert het een Genormaliseerd Gezichtsuitdrukkingsblok om gezichtskenmerken uit te lijnen met diffusielatenten door ze te normaliseren met hun respectievelijke gemiddelden en varianties, waardoor de identiteitsstabiliteit in gezichtsmodellering wordt verbeterd. Tijdens inferentie gebruikt FlashPortrait een dynamisch schuifvensterschema met gewogen blending in overlappende gebieden, wat zorgt voor vloeiende overgangen en identiteitsconsistentie in lange animaties. In elk contextvenster gebruikt FlashPortrait, gebaseerd op de latentievariatiesnelheid op specifieke tijdstappen en de afgeleide-magnitudeverhouding tussen diffusielagen, hogere-orde latentie-afgeleiden op het huidige tijdstap om latenties op toekomstige tijdstappen direct te voorspellen, waardoor verschillende denoisestappen worden overgeslagen en een 6x snelheidsversnelling wordt bereikt. Experimenten op benchmarks tonen de effectiviteit van FlashPortrait zowel kwalitatief als kwantitatief aan.
Wij presenteren ModelTables, een benchmark van tabellen in Model Lakes die de gestructureerde semantiek vastlegt van prestatie- en configuratietabellen die vaak over het hoofd worden gezien door uitsluitend op tekst gebaseerde retrievalsystemen. Het corpus is opgebouwd uit Hugging Face-modelkaarten, GitHub README's en geciteerde wetenschappelijke artikelen, waarbij elke tabel wordt gekoppeld aan de omliggende model- en publicatiecontext. Vergeleken met tabellen uit open data lakes zijn modeltabellen kleiner, maar vertonen ze dichtere inter-tabelrelaties, wat de nauwe koppeling weerspiegelt tussen de evolutie van modellen en benchmarks. De huidige release omvat meer dan 60.000 modellen en 90.000 tabellen. Om de verwantschap tussen modellen en tabellen te evalueren, construeren we een multi-source ground truth met drie complementaire signalen: (1) citatielinks tussen artikelen, (2) expliciete links en overervingsrelaties in modelkaarten, en (3) gedeelde trainingsdatasets. Wij presenteren één uitgebreide empirische use case voor de benchmark, namelijk tabelzoekopdrachten. We vergelijken canonieke Data Lake-zoekoperatoren (unionable, joinable, keyword) en Information Retrieval-baselines (dense, sparse, hybrid retrieval) op deze benchmark. Semantische tabelretrieval op basis van union-operaties behaalt een overall P@1 van 54,8% (54,6% op citatiesignalen, 31,3% op overervingssignalen, 30,6% op gedeelde datasetsignalen); dichte retrieval op tabelinhoud bereikt 66,5% P@1; en hybride retrieval op metadata behaalt 54,1%. Deze evaluatie toont duidelijke ruimte voor de ontwikkeling van betere tabelzoekmethoden. Door ModelTables en het creatieprotocol vrij te geven, bieden we de eerste grootschalige benchmark van gestructureerde data die AI-modellen beschrijft. Onze use case voor tabelontdekking in Model Lakes levert intuïtie en bewijs voor het ontwikkelen van nauwkeurigere semantische retrieval, gestructureerde vergelijking en principegestuurde organisatie van gestructureerde modelkennis. Broncode, data en andere artefacten zijn beschikbaar gesteld op https://github.com/RJMillerLab/ModelTables.
GUI-grounding is een cruciaal onderdeel bij het bouwen van capabele GUI-agenten. Bestaande groundingbenchmarks kampen echter met aanzienlijke beperkingen: ze bieden ofwel onvoldoende datavolume en smalle domeindekking, of richten zich overmatig op een enkel platform en vereisen zeer gespecialiseerde domeinkennis. In dit werk presenteren we VenusBench-GD, een uitgebreide, tweetalige benchmark voor GUI-grounding die meerdere platforms omspant en hiërarchische evaluatie voor real-world toepassingen mogelijk maakt. VenusBench-GD draagt als volgt bij: (i) we introduceren een grootschalige, platformonafhankelijke benchmark met uitgebreide dekking van applicaties, diverse UI-elementen en rijk geannoteerde data, (ii) we stellen een pijplijn voor hoogwaardige dataconstructie voor groundingtaken op, waarbij we een hogere annotatienauwkeurigheid bereiken dan bestaande benchmarks, en (iii) we breiden de reikwijdte van elementgrounding uit door een hiërarchische taaktaxonomie voor te stellen die grounding verdeelt in basis- en geavanceerde categorieën, met zes afzonderlijke subtaken ontworpen om modellen vanuit complementaire perspectieven te evalueren. Onze experimentele bevindingen onthullen kritieke inzichten: algemene multimodale modellen evenaren of overtreffen nu gespecialiseerde GUI-modellen op basisgroundingtaken. Daarentegen geven geavanceerde taken nog steeds de voorkeur aan GUI-gespecialiseerde modellen, hoewel deze aanzienlijke overfitting en slechte robuustheid vertonen. Deze resultaten onderstrepen de noodzaak van uitgebreide, meerlagige evaluatiekaders.
Conventionele evaluatiemethoden voor multimodale LLM's (MLLM's) missen interpreteerbaarheid en zijn vaak onvoldoende om significante capaciteitsverschillen tussen modellen volledig bloot te leggen. Om dit aan te pakken, introduceren wij AuditDM, een geautomatiseerd raamwerk dat actief faalmodi van MLLM's ontdekt en verbetert door hun divergentie te auditen. AuditDM fine-tunt een MLLM als auditor via reinforcement learning om uitdagende vragen en counterfactuele afbeeldingen te genereren die de onenigheid tussen doelmodellen maximaliseren. Eenmaal getraind, onthult de auditor diverse, interpreteerbare voorbeelden die modelzwakheden blootleggen en dienen als annotatievrije data voor verbetering. Toegepast op state-of-the-art modellen zoals Gemma-3 en PaliGemma-2, ontdekt AuditDM meer dan 20 verschillende faaltypes. Fine-tuning op deze ontdekkingen verbetert alle modellen consistent over 16 benchmarks, en stelt een 3B-model in staat zijn 28B-tegenhanger te overtreffen. Onze resultaten suggereren dat, naarmate dataschaling tegen afnemende meeropbrengsten aanloopt, gerichte modelauditering een effectief pad biedt voor modeldiagnose en -verbetering.
Naarmate grote taalmodelen (LLM's) zich uitbreiden voorbij tekst, heeft de integratie van spraak als een native modaliteit aanleiding gegeven tot SpeechLLM's. Deze beogen gesproken taal direct te vertalen, waardoor traditionele op transcriptie gebaseerde pijplijnen worden omzeild. Of deze integratie de kwaliteit van spraak-naar-tekst-vertaling verbetert ten opzichte van gevestigde gecascadeerde architecturen, blijft echter een open vraag. Wij presenteren Hearing to Translate, de eerste uitgebreide testset die 5 state-of-the-art SpeechLLM's rigoureus benchmarkt tegen 16 sterke directe en cascade-systemen. Deze systemen koppelen toonaangevende spraakfundamentmodellen (SFM's) aan meertalige LLM's. Onze analyse omvat 16 benchmarks, 13 taalparen en 9 uitdagende condities, waaronder onvloeiende, lawaaierige en lange spraak. In deze uitgebreide evaluatie constateren we dat gecascadeerde systemen over het algemeen het meest betrouwbaar blijven, terwijl huidige SpeechLLM's enkel cascades evenaren in specifieke settings en SFM's achterblijven bij beide. Dit benadrukt dat de integratie van een LLM, hetzij in het model zelf of in een pijplijn, essentieel is voor hoogwaardige spraakvertaling.
Hoogwaardige supervisie van wiskundig redeneren vereist diverse redeneerstijlen, uitgebreide oplossingstrajecten en effectieve toolintegratie, mogelijkheden die bestaande datasets slechts in beperkte mate bieden. Gebruikmakend van de multimodale generatiecapaciteit van gpt-oss-120b, introduceren we Nemotron-Math, een grootschalige dataset voor wiskundig redeneren met 7,5 miljoen oplossingstrajecten verdeeld over hoge, middelmatige en lage redeneerniveaus, elk beschikbaar met en zonder Python tool-geïntegreerd redeneren (TIR). De dataset integreert 85.000 gecureerde AoPS-problemen met 262.000 door de gemeenschap aangeleverde StackExchange-Math problemen, waarbij gestructureerde wedstrijdtaken worden gecombineerd met diverse wiskundige vragen uit de praktijk. We voeren gecontroleerde evaluaties uit om de datasetkwaliteit te beoordelen. Nemotron-Math presteert consistent beter dan de originele OpenMathReasoning op gematchte AoPS-problemen. De integratie van StackExchange-Math verbetert de robuustheid en generalisatie aanzienlijk, met name op HLE-Math, terwijl de nauwkeurigheid op wiskundige competitiebenchmarks behouden blijft. Om efficiënte training met lange contextvensters te ondersteunen, ontwikkelden we een sequentiële gebucket strategie die fine-tuning met een contextlengte van 128K met 2-3x versnelt zonder significant verlies aan nauwkeurigheid. Al met al stelt Nemotron-Math state-of-the-art prestaties mogelijk, inclusief 100% maj@16 nauwkeurigheid op AIME 2024 en 2025 met Python TIR.
Tijdreeksgegevens zijn van cruciaal belang in vele wetenschappelijke en industriële domeinen, waaronder milieu-analyse, landbouw, transport en financiën. Het verkrijgen van inzichten uit deze gegevens vereist echter doorgaans diepgaande domeinkennis, een proces dat zowel tijdrovend als arbeidsintensief is. In dit artikel presenteren we Insight Miner, een grootschalig multimodaal model (LMM) dat is ontworpen om hoogwaardige, uitgebreide tijdreeksbeschrijvingen te genereren die zijn verrijkt met domeinspecifieke kennis. Om dit mogelijk te maken, introduceren we TS-InsightsBeschikbaar op \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, de eerste algemene-domeindataset voor tijdreeks- en taalalignatie. TS-Insights bevat 100k tijdreeksvensters, bemonsterd uit 20 forecast-datasets. We construeren deze dataset met behulp van een nieuwe agent-gebaseerde workflow, waarbij we statistische tools gebruiken om kenmerken uit ruwe tijdreeksen te extraheren voordat we ze synthetiseren tot samenhangende trendbeschrijvingen met GPT-4. Na instructieafstemming op TS-Insights presteert Insight Miner beter dan state-of-the-art multimodale modellen, zoals LLaVA liu2023llava en GPT-4, in het genereren van tijdreeksbeschrijvingen en -inzichten. Onze bevindingen wijzen op een veelbelovende richting voor het benutten van LMM's in tijdreeksanalyse en vormen een fundamentele stap naar het in staat stellen van LLM's om tijdreeksen te interpreteren als een native invoermodaliteit.
Parameter sharing in recursieve transformers vermindert de modelgrootte maar doet de expressiviteit per laag ineenstorten. Wij stellen Mixture of LoRAs (MoL) voor, een lichtgewicht mechanisme voor conditionele berekening dat experts voor Low-Rank Adaptation (LoRA) in een gedeeld feedforward netwerk (FFN) plaatst. MoL maakt gewichtsruimtemodulatie van het gedeelde FFN, conditioneel per token, mogelijk zonder de parameters van de backbone los te koppelen, in tegenstelling tot eerdere benaderingen die vaste of extern aangehechte adapters toevoegen. We pretrainen een gemoderniseerde recursieve architectuur, ModernALBERT, geïntegreerd met rotatie-embeddings, GeGLU, FlashAttention en een op distillatie gebaseerde initialisatie. Op GLUE, SQuAD-v2 en BEIR behaalt ModernALBERT (50M–120M parameters) state-of-the-art prestaties onder compacte modellen en overtreft het grotere, volledig geparametriseerde baseline-modellen. We stellen ook een procedure voor voor het samenvoegen van experts, die MoL tijdens de inferentie comprimeert tot een enkele adapter terwijl de nauwkeurigheid behouden blijft, wat efficiënte implementatie mogelijk maakt. Onze resultaten tonen aan dat conditionele modulatie van de gewichtsruimte de expressiviteit die verloren gaat onder agressieve parametersharing in recursieve transformers effectief herstelt.
Normalizing Flows (NF's) zijn gevestigd als een principieel raamwerk voor generatieve modellering. Standaard NF's bestaan uit een voorwaarts proces en een omgekeerd proces: het voorwaartse proces transformeert data naar ruis, terwijl het omgekeerde proces samples genereert door deze transformatie om te keren. Typische NF-voorwaartse transformaties worden beperkt door expliciete inverteerbaarheid, wat garandeert dat het omgekeerde proces als hun exacte analytische inverse kan dienen. Recente ontwikkelingen in TARFlow en zijn varianten hebben de NF-methoden nieuw leven ingeblazen door Transformers en autoregressieve flows te combineren, maar hebben ook causale decodering blootgelegd als een grote bottleneck. In dit werk introduceren we Bidirectional Normalizing Flow (BiFlow), een raamwerk dat de behoefte aan een exacte analytische inverse wegneemt. BiFlow leert een omgekeerd model dat de onderliggende ruis-naar-data inverse mapping benadert, waardoor flexibelere verliesfuncties en architecturen mogelijk worden. Experimenten op ImageNet tonen aan dat BiFlow, in vergelijking met zijn tegenhanger met causale decodering, de generatiekwaliteit verbetert en tegelijkertijd de sampling versnelt met tot wel twee orden van grootte. BiFlow behaalt state-of-the-art resultaten onder op NF-gebaseerde methoden en competitieve prestaties onder single-evaluatie ("1-NFE") methoden. In navolging van recente bemoedigende vooruitgang op het gebied van NF's, hopen we dat ons werk verdere aandacht zal vestigen op dit klassieke paradigma.
Het poseren van 3D-personages is een fundamentele taak in computergrafiek en computer vision. Bestaande methoden, zoals auto-rigging en pose-geconditioneerde generatie, kampen echter vaak met uitdagingen zoals onnauwkeurige voorspelling van skinning-gewichten, topologische imperfecties en slechte pose-conformiteit, wat hun robuustheid en generaliseerbaarheid beperkt. Om deze beperkingen te overwinnen, introduceren wij Make-It-Poseable, een nieuw feed-forward raamwerk dat karakterposering herformuleert als een latentieruimte-transformatieprobleem. In plaats van mesh-vertices te vervormen zoals in traditionele pijplijnen, reconstrueert onze methode het personage in nieuwe poses door direct diens latente representatie te manipuleren. De kern van onze methode wordt gevormd door een latent posing transformer die vormtokens manipuleert op basis van skeletbeweging. Dit proces wordt gefaciliteerd door een dichte pose-representatie voor precieze controle. Om hoogwaardige geometrie te garanderen en topologische veranderingen mogelijk te maken, introduceren wij tevens een latentieruimte-supervisiestrategie en een adaptieve completiemodule. Onze methode toont superieure prestaties in poseerkwaliteit. Zij breidt zich ook natuurlijk uit naar 3D-bewerkingsapplicaties zoals onderdeelvervanging en -verfijning.
Diffusion Transformers (DiTs) stellen de standaard in visuele generatie, maar hun kwadratische self-attention-kosten beperken fundamenteel de schaalbaarheid naar lange tokenreeksen. Recente Top-K sparse attention-benaderingen verminderen de rekenkosten van DiTs door tokens samen te persen tot bloksgewijze representaties en een kleine set relevante sleutelblokken te selecteren, maar lijden nog steeds onder (i) kwadratische selectiekosten op gecomprimeerde tokens en (ii) een toenemende K die nodig is om de modelkwaliteit te behouden naarmate reeksen groeien. Wij stellen vast dat hun inefficiëntie te wijten is aan het enkelniveau-ontwerp, aangezien een enkel grof niveau onvoldoende is om de globale structuur weer te geven. In dit artikel introduceren we Log-lineaire Sparse Attention (LLSA), een trainbaar sparse attention-mechanisme voor extreem lange tokenreeksen dat zowel de selectie- als aandachtskosten reduceert van kwadratisch naar log-lineaire complexiteit door gebruik te maken van een hiërarchische structuur. LLSA voert hiërarchische Top-K-selectie uit, waarbij stapsgewijs sparse Top-K-selectie wordt toegepast met de indices die op het vorige niveau zijn gevonden, en introduceert een Hiërarchisch KV-verrijkingsmechanisme dat de globale context behoudt terwijl er minder tokens van verschillende granulariteit worden gebruikt tijdens de aandachtberekening. Om efficiënte training te ondersteunen, ontwikkelen we een hoogwaardige GPU-implementatie die alleen sparse indices gebruikt voor zowel de voorwaartse als achterwaartse passes, waardoor de noodzaak van dichte aandachtmaskers wordt geëlimineerd. We evalueren LLSA op beeldgeneratie in de pixelruimte met hoge resolutie zonder gebruik te maken van patchificatie en VAE-codering. LLSA versnelt aandachtinferentie met 28.27x en DiT-training met 6.09x op 256x256 pixel-tokenreeksen, waarbij de generatiekwaliteit behouden blijft. De resultaten tonen aan dat LLSA een veelbelovende richting biedt voor het efficiënt trainen van lange-reeks DiTs. Code is beschikbaar op: https://github.com/SingleZombie/LLSA
Neurale rendering voor interactieve toepassingen vereist het vertalen van geometrische en materiaaleigenschappen (G-buffer) naar fotorealistische beelden met realistische belichting op frame-voor-frame basis. Hoewel recente op diffusie gebaseerde benaderingen veelbelovend zijn voor G-buffer-gestuurde beeld synthese, kampen ze met kritieke beperkingen: modellen voor enkele beelden zoals RGBX genereren frames onafhankelijk zonder temporele consistentie, terwijl videomodellen zoals DiffusionRenderer te rekenintensief zijn voor de meeste consumenten-gamingopstellingen en complete sequenties vooraf nodig hebben, waardoor ze ongeschikt zijn voor interactieve toepassingen waarbij toekomstige frames afhangen van gebruikersinvoer. Wij introduceren FrameDiffuser, een autogressief neurale renderframework dat temporeel consistente, fotorealistische frames genereert door conditionering op G-buffer-gegevens en het eerder gegenereerde outputframe van het model zelf. Na een initieel frame werkt FrameDiffuser puur op inkomende G-buffer-gegevens, bestaande uit geometrie, materialen en oppervlakte-eigenschappen, terwijl het zijn eerder gegenereerde frame gebruikt voor temporele begeleiding, waardoor stabiele, temporeel consistente generatie over honderden tot duizenden frames wordt gehandhaafd. Onze dubbele conditioneringsarchitectuur combineert ControlNet voor structurele begeleiding met ControlLoRA voor temporele coherentie. Een drietraps trainingsstrategie maakt stabiele autogressieve generatie mogelijk. Wij specialiseren ons model voor individuele omgevingen, waarbij we consistentie en inferentiesnelheid prioriteren boven brede generalisatie, en tonen aan dat omgevingsspecifieke training superieure fotorealistische kwaliteit bereikt met nauwkeurige belichting, schaduwen en reflecties in vergelijking met gegeneraliseerde benaderingen.
Hoewel reinforcement learning indrukwekkende vooruitgang heeft geboekt bij het redeneren met taalmodel(len), wordt het beperkt door de vereiste van verifieerbare beloningen. Recente verifieerder-vrije RL-methoden pakken deze beperking aan door de intrinsieke waarschijnlijkheden dat LLM's referentieantwoorden genereren als beloningssignalen te gebruiken. Deze benaderingen nemen echter doorgaans redeneersporen waar die alleen op de vraag zijn geconditioneerd. Dit ontwerp ontkoppelt de bemonstering van redeneersporen van antwoordinformatie, wat leidt tot inefficiënte verkenning en incoherentie tussen sporen en finale antwoorden. In dit artikel stellen we \b{Coupled Variational Reinforcement Learning} (CoVRL) voor, dat variational inference en reinforcement learning verbindt door prior- en posteriorverdelingen te koppelen via een hybride bemonsteringsstrategie. Door een samengestelde verdeling te construeren en optimaliseren die deze twee verdelingen integreert, stelt CoVRL efficiënte verkenning mogelijk terwijl een sterke coherentie tussen gedachte en antwoord behouden blijft. Uitgebreide experimenten op wiskundige en algemene redeneerbenchmarks tonen aan dat CoVRL de prestaties met 12,4% verbetert ten opzichte van het basismodel en een extra verbetering van 2,3% bereikt ten opzichte van sterke, state-of-the-art verifieerder-vrije RL-baselines, waarmee het een principieel kader biedt voor het verbeteren van de algemene redeneercapaciteiten van taalmodel(len).
Recente vooruitgang in Multimodale Large Language Models (MLLMs) heeft cross-modale interpretatie en redenering aanzienlijk verbeterd door Chain-of-Thought (CoT)-redenering in de semantische ruimte te incorporeren. Voortbouwend hierop breiden recente studies het CoT-mechanisme uit naar de visuele modaliteit, waardoor modellen visuele informatie kunnen integreren tijdens het redeneren via externe tools of expliciete beeldgeneratie. Deze methoden blijven echter afhankelijk van expliciete stapsgewijze redenering, een onstabiele interactie tussen perceptie en redenering en aanzienlijke rekenkosten. Geïnspireerd door de menselijke cognitie stellen wij dat denken zich niet lineair ontvouwt, maar via de dynamische verweving van redenering en perceptie in de geest. Gemotiveerd door dit perspectief presenteren wij DMLR, een test-time Dynamic Multimodal Latent Reasoning-raamwerk dat vertrouwensgeleide latente beleidsgradiëntoptimalisatie gebruikt om latente denktokens te verfijnen voor diepgaande redenering. Verder wordt een Dynamische Visuele Injectiestrategie geïntroduceerd, die de meest relevante visuele kenmerken ophaalt bij elke latente denktoken en de set beste visuele patches bijwerkt. De bijgewerkte patches worden vervolgens geïnjecteerd in de latente denktoken om dynamische visueel-textuele verweving te bereiken. Experimenten over zeven multimodale redeneerbenchmarks en diverse modelarchitecturen tonen aan dat DMLR de redeneer- en perceptieprestaties significant verbetert, terwijl een hoge inferentie-efficiëntie behouden blijft.
Het evalueren van de kwaliteit van tabellen gegenereerd door grote taalmodellen (LLM's) blijft een open uitdaging: bestaande metrieken maken tabellen ofwel plat tot tekst, waarbij de structuur wordt genegeerd, of vertrouwen op vaste referenties die generalisatie beperken. Wij presenteren TabReX, een referentieloos, eigenschapgestuurd raamwerk voor het evalueren van tabelgeneratie via op grafieken gebaseerd redeneren. TabReX zet zowel brontekst als gegenereerde tabellen om in canonieke kennsgrafieken, brengt deze in overeenstemming via een door een LLM geleid matchingproces, en berekent interpreteerbare, rubriekbewuste scores die structurele en feitelijke trouw kwantificeren. De resulterende metriek biedt controleerbare afwegingen tussen gevoeligheid en specificiteit, wat menselijk uitgelijnde oordelen en foutsporen op cel niveau oplevert. Om de robuustheid van de metriek systematisch te beoordelen, introduceren we TabReX-Bench, een grootschalige benchmark die zes domeinen en twaalf door een planner aangedreven verstoringstypen omvat, verdeeld over drie moeilijkheidsniveaus. Empirische resultaten tonen aan dat TabReX de hoogste correlatie met expertrankings bereikt, stabiel blijft onder zwaardere verstoringen, en fijnmazige model-versus-promptanalyse mogelijk maakt, waarmee een nieuw paradigma wordt gevestigd voor betrouwbare, uitlegbare evaluatie van gestructureerde generatiesystemen.
Huishoudelijke mobiele manipulatoren moeten zowel navigeren als manipuleren. Dit vereist een compacte, semantisch rijke scenerepresentatie die vastlegt waar objecten zijn, hoe ze functioneren en welke onderdelen actieerbaar zijn. Scenegrafieken zijn een voor de hand liggende keuze, maar eerder werk scheidt vaak ruimtelijke en functionele relaties, behandelt scènes als statische momentopnamen zonder objecttoestanden of temporele updates, en negeert informatie die het meest relevant is voor het voltooien van de huidige taak. Om deze beperkingen aan te pakken, introduceren we MomaGraph, een verenigde scenerepresentatie voor belichaamde agents die ruimtelijk-functionele relaties en onderdeelniveau interactieve elementen integreert. Het verbeteren van een dergelijke representatie vereist echter zowel geschikte data als rigoureuze evaluatie, die grotendeels ontbraken. Daarom dragen we MomaGraph-Scenes bij, de eerste grootschalige dataset van rijk geannoteerde, taakgedreven scenegrafieken in huishoudelijke omgevingen, samen met MomaGraph-Bench, een systematische evaluatieset die zes redeneervaardigheden omvat van hoogwaardige planning tot gedetailleerd scenebegrip. Gebouwd op deze basis, ontwikkelen we verder MomaGraph-R1, een 7B vision-language model getraind met reinforcement learning op MomaGraph-Scenes. MomaGraph-R1 voorspelt taakgerichte scenegrafieken en fungeert als een zero-shot taakplanner onder een Graph-then-Plan raamwerk. Uitgebreide experimenten tonen aan dat ons model state-of-the-art resultaten behaalt onder open-source modellen, met een nauwkeurigheid van 71,6% op de benchmark (+11,4% boven de beste baseline), terwijl het generaliseert over publieke benchmarks en effectief transferleert naar echte robotexperimenten.
Het creëren van nieuwe visuele concepten vereist vaak het verbinden van verschillende ideeën via hun meest relevante gedeelde kenmerken – hun 'vibe'. Wij introduceren Vibe Blending, een nieuwe taak voor het genereren van samenhangende en betekenisvolle hybriden die deze gedeelde kenmerken tussen afbeeldingen onthult. Het realiseren van dergelijke blends is een uitdaging voor bestaande methoden, die moeite hebben met het identificeren en doorlopen van niet-lineaire paden die verre concepten in de latente ruimte verbinden. Wij stellen Vibe Space voor, een hiërarchische graafvariëteit die laagdimensionale geodeten leert in kenmerkruimten zoals CLIP, waardoor vloeiende en semantisch consistente overgangen tussen concepten mogelijk worden. Om de creatieve kwaliteit te evalueren, ontwerpen we een cognitief geïnspireerd raamwerk dat menselijke beoordelingen, LLM-redeneringen en een geometrische op pad-gebaseerde moeilijkheidsscore combineert. Wij constateren dat Vibe Space blends produceert die door mensen consistent als creatiever en samenhangender worden beoordeeld dan bestaande methoden.
De opkomst van grote taalmodellen (LLM's) heeft een nieuw type programmeren geïntroduceerd: natuurlijk taalprogrammeren. Door het schrijven van prompts die LLM's aansturen om natuurlijke taalverwerking, codegeneratie, redenering, enz. uit te voeren, schrijven gebruikers code in natuurlijke taal – natuurlijke taalcode – die door het LLM wordt uitgevoerd. Een opkomend onderzoeksgebied maakt interoperabiliteit mogelijk tussen natuurlijke taalcode en formele talen zoals Python. Wij presenteren een nieuwe programmeerabstractie, gedeelde programmatoestand, die het handmatige werk wegneemt dat nodig is om interoperabiliteit tussen natuurlijke taalcode en programmatoestand mogelijk te maken. Met gedeelde programmatoestand kunnen programmeurs natuurlijke code schrijven die rechtstreeks programmavariabelen beschrijft, rekent met programma-objecten en controle-structuren in het programma implementeert. Wij presenteren een schema voor het specificeren van natuurlijke functie-interfaces die programmeersystemen uitbreiden om natuurlijke code te ondersteunen, en benutten dit schema om gedeelde programmatoestand als een natuurlijk functie-interface te specificeren. Wij implementeren gedeelde programmatoestand in het Nightjar-programmeersysteem. Nightjar stelt programmeurs in staat om Python-programma's te schrijven die natuurlijke code bevatten die de Python-programmatoestand deelt. Wij tonen aan dat Nightjar-programma's een vergelijkbare of hogere taaknauwkeurigheid bereiken dan handmatig geschreven implementaties (+4-19%), terwijl het aantal regels code gemiddeld met 39,6% afneemt. De keerzijde van het gebruik van Nightjar is dat het runtime-overhead kan veroorzaken (0,4-4,3x runtime van handmatige implementaties).
Visueel Emotiebegrip (VEC) heeft als doel sentimentpolariteiten of emotiecategorieën af te leiden uit affectieve signalen die in afbeeldingen zijn ingebed. De afgelopen jaren hebben Multimodale Grote Taalmodellen (MLLM's) een populair paradigma gevestigd in VEC, waarbij ze gebruikmaken van hun generaliseerbaarheid om VEC-taken te verenigen die zijn gedefinieerd onder diverse emotietaxonomieën. Hoewel dit paradigma opmerkelijke successen boekt, formuleert het VEC doorgaans als een deterministische taak, waarbij het model wordt verplicht om één definitief emotielabel per afbeelding te outputten. Een dergelijke formulering houdt onvoldoende rekening met de inherente subjectiviteit van emotieperceptie en negeert alternatieve interpretaties die voor verschillende kijkers even plausibel kunnen zijn. Om deze beperking aan te pakken, stellen we voor om MLLM's uit te rusten met de mogelijkheid om hun vertrouwen in emotievoorspellingen te verwoorden. Dit aanvullende signaal geeft gebruikers een schatting van zowel de plausibiliteit van alternatieve interpretaties als het zelfingeschatte competentieniveau van de MLLM's, waardoor de betrouwbaarheid in de praktijk wordt vergroot. Voortbordurend op dit inzicht introduceren we een drietraps trainingsraamwerk dat MLLM's progressief voorziet van gestructureerd redeneervermogen, leert om vertrouwen te verwoorden en de vertrouwensexpressie kalibreert. Dit resulteert in EmoCaliber, een bewust-betrouwbare MLLM voor VEC. Door eerlijke en uitgebreide evaluaties op de gestandaardiseerde benchmark VECBench toont EmoCaliber een algehele superioriteit ten opzichte van bestaande methoden, zowel in emotievoorspelling als in vertrouwensschatting. Deze resultaten valideren de effectiviteit van onze aanpak en markeren een haalbare stap naar betrouwbaardere VEC-systemen. Projectpagina: https://github.com/wdqqdw/EmoCaliber.