Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen maken gebruik van internet-schaal tekstdata, maar embodied AI blijft beperkt door de hoge kosten van het verzamelen van fysieke trajecten. Desktopomgevingen – met name gaming – bieden een overtuigend alternatief: ze bieden rijke sensomotorische interacties op schaal, terwijl ze de gestructureerde observatie-actiekoppeling behouden die essentieel is voor embodied learning. Wij presenteren D2E (Desktop to Embodied AI), een raamwerk dat aantoont dat desktopinteracties kunnen dienen als een effectief voorbereidend substraat voor robotics embodied AI-taken. In tegenstelling tot eerder werk dat domeinspecifiek bleef (bijvoorbeeld VPT voor Minecraft) of data propriëtair hield (bijvoorbeeld SIMA), stelt D2E een complete pijplijn op van schaalbare desktopdatacollectie tot geverifieerde overdracht in embodied domeinen. Ons raamwerk bestaat uit drie componenten: (1) de OWA Toolkit die diverse desktopinteracties verenigt in een gestandaardiseerd formaat met een compressie van 152x, (2) de Generalist-IDM die sterke zero-shot generalisatie bereikt over onbekende spellen door timestamp-gebaseerde gebeurtenisvoorspelling, waardoor internet-schaal pseudo-labeling mogelijk wordt, en (3) VAPT die desktop-voorbereide representaties overdraagt naar fysieke manipulatie en navigatie. Met behulp van 1.300+ uur aan data (259 uur aan menselijke demonstraties en 1.000+ uur aan pseudo-gelabelde gameplay) bereiken we een totaal succespercentage van 96,6% op de LIBERO-manipulatiebenchmark en 83,3% op de CANVAS-navigatiebenchmark. Dit valideert dat sensomotorische primitieven in digitale interacties voldoende invariantie vertonen om betekenisvol over te dragen naar fysieke embodied taken, waardoor desktopvoorbereiding wordt gevestigd als een praktisch paradigma voor robotica. Wij zullen al ons werk openbaar maken, inclusief de OWA-toolkit, datasets van door mensen verzamelde en pseudo-gelabelde data, en VAPT-getrainde modellen, beschikbaar op https://worv-ai.github.io/d2e/.
Camera-gericht begrip en generatie zijn twee hoekstenen van ruimtelijke intelligentie, maar worden doorgaans afzonderlijk bestudeerd. Wij presenteren Puffin, een verenigd camera-gericht multimodaal model dat het ruimtelijk bewustzijn uitbreidt langs de camera-dimensie. Puffin integreert taalregressie en diffusie-gebaseerde generatie om scènes te interpreteren en te creëren vanuit willekeurige gezichtspunten. Om de kloof tussen camera's en visueel-taalmodellen te overbruggen, introduceren we een nieuw paradigma dat de camera als taal behandelt, waardoor het mogelijk wordt om met de camera te denken. Dit leidt het model om ruimtelijk verankerde visuele aanwijzingen af te stemmen op fotografische terminologie, terwijl het redeneert over geometrische context. Puffin is getraind op Puffin-4M, een grootschalige dataset van 4 miljoen visueel-taal-camera-triplets. We integreren zowel globale cameraparameters als pixelgewijze camerakaarten, wat resulteert in flexibele en betrouwbare ruimtelijke generatie. Experimenten tonen aan dat Puffin superieure prestaties levert ten opzichte van gespecialiseerde modellen voor camera-gerichte generatie en begrip. Met instructieafstemming generaliseert Puffin naar diverse kruisview-taken zoals ruimtelijke verbeelding, wereldverkenning en fotografische begeleiding. We zullen de code, modellen, datasetpijplijn en benchmark vrijgeven om onderzoek naar multimodale ruimtelijke intelligentie vooruit te helpen.
Dit werk presenteert het eerste grootschalige onderzoek naar de constructie van een volledig open bilingue groot taalmodel (LLM) voor een niet-Engelse taal, specifiek Koreaans, getraind voornamelijk op synthetische data. We introduceren KORMo-10B, een model met 10,8 miljard parameters dat vanaf nul is getraind op een Koreaans-Engels corpus waarin 68,74% van het Koreaanse deel synthetisch is. Door systematisch experimenteren tonen we aan dat synthetische data, wanneer zorgvuldig samengesteld met een gebalanceerde linguïstische dekking en diverse instructiestijlen, geen instabiliteit of degradatie veroorzaakt tijdens grootschalige voorafgaande training. Bovendien bereikt het model prestaties die vergelijkbaar zijn met die van hedendaagse open-weight meertalige baselines over een breed scala aan redeneer-, kennis- en instructievolgbeproevingen. Onze experimenten onthullen twee belangrijke bevindingen: (1) synthetische data kan betrouwbaar langdurige voorafgaande training ondersteunen zonder modelcollaps, en (2) bilingue instructieafstemming maakt bijna-moedertaalredenering en discourscoherentie in het Koreaans mogelijk. Door alle componenten, inclusief data, code, trainingsrecepten en logs volledig vrij te geven, stelt dit werk een transparant kader vast voor de ontwikkeling van synthetische data-gedreven volledig open modellen (FOMs) in omgevingen met weinig bronnen en zet het een reproduceerbaar precedent voor toekomstig meertalig LLM-onderzoek.
Naarmate het volume aan peer-reviewed onderzoek toeneemt, vertrouwen wetenschappers steeds meer op sociale platforms voor ontdekking, terwijl auteurs aanzienlijke inspanningen leveren om hun werk te promoten om zichtbaarheid en citaties te garanderen. Om dit proces te stroomlijnen en de afhankelijkheid van menselijke inspanning te verminderen, introduceren we Automatic Promotion (AutoPR), een nieuwe taak die onderzoeksartikelen omzet in nauwkeurige, boeiende en tijdige publieke content. Om een rigoureuze evaluatie mogelijk te maken, lanceren we PRBench, een multimodale benchmark die 512 peer-reviewed artikelen koppelt aan hoogwaardige promotieposts, waarbij systemen worden beoordeeld langs drie assen: Trouw (nauwkeurigheid en toon), Betrokkenheid (doelgroepgerichtheid en aantrekkelijkheid), en Afstemming (timing en kanaaloptimalisatie). We introduceren ook PRAgent, een multi-agent framework dat AutoPR automatiseert in drie fasen: contentextractie met multimodale voorbereiding, collaboratieve synthese voor gepolijste outputs, en platformspecifieke aanpassing om normen, toon en tagging te optimaliseren voor maximale reikwijdte. In vergelijking met directe LLM-pipelines op PRBench, toont PRAgent aanzienlijke verbeteringen, waaronder een stijging van 604% in totale kijktijd, een toename van 438% in likes, en minstens een 2,9x boost in totale betrokkenheid. Ablatiestudies tonen aan dat platformmodellering en gerichte promotie het meest bijdragen aan deze winsten. Onze resultaten positioneren AutoPR als een behapbaar, meetbaar onderzoeksprobleem en bieden een routekaart voor schaalbare, impactvolle geautomatiseerde wetenschappelijke communicatie.
Vision-language models (VLMs) kunnen real-time assistenten en autonome agents aandrijven, maar ze worden geconfronteerd met een kritieke uitdaging: het begrijpen van bijna oneindige videostreams zonder dat de latentie en het geheugengebruik escaleren. Het verwerken van volledige video's met volledige aandacht leidt tot kwadratische rekenkosten en slechte prestaties op lange video's. Eenvoudige sliding window-methoden zijn eveneens gebrekkig, omdat ze ofwel de samenhang verstoren of te lijden hebben onder hoge latentie door overbodige herberekening. In dit artikel introduceren we StreamingVLM, een model ontworpen voor real-time, stabiel begrip van oneindige visuele input. Onze aanpak is een uniform raamwerk dat de training afstemt op streaming inferentie. Tijdens de inferentie behouden we een compacte KV-cache door de staten van attention sinks te hergebruiken, een kort venster van recente visuele tokens en een lang venster van recente teksttokens. Deze streaming-capaciteit wordt ingebracht via een eenvoudige supervised fine-tuning (SFT)-strategie die volledige aandacht toepast op korte, overlappende videofragmenten, wat effectief het aandachtspatroon tijdens inferentie nabootst zonder training op onpraktisch lange contexten. Voor evaluatie hebben we Inf-Streams-Eval gebouwd, een nieuwe benchmark met video's van gemiddeld meer dan twee uur die een dichte, per seconde afstemming tussen frames en tekst vereist. Op Inf-Streams-Eval behaalt StreamingVLM een winstpercentage van 66,18% tegen GPT-4O mini en behoudt stabiele, real-time prestaties tot 8 FPS op een enkele NVIDIA H100. Opmerkelijk is dat onze SFT-strategie ook de algemene VQA-vaardigheden verbetert zonder enige VQA-specifieke fine-tuning, met prestatieverbeteringen van +4,30 op LongVideoBench en +5,96 op OVOBench Realtime. Code is beschikbaar op https://github.com/mit-han-lab/streaming-vlm.
Recente diffusiemodellen behalen de state-of-the-art prestaties in beeldgeneratie, maar lijden vaak aan semantische inconsistenties of hallucinaties. Hoewel verschillende inferentie-tijd begeleidingsmethoden de generatie kunnen verbeteren, werken ze vaak indirect door te vertrouwen op externe signalen of architectuurwijzigingen, wat extra rekenkosten met zich meebrengt. In dit artikel stellen we Tangential Amplifying Guidance (TAG) voor, een efficiëntere en directere begeleidingsmethode die uitsluitend werkt op trajectsignalen zonder het onderliggende diffusiemodel aan te passen. TAG maakt gebruik van een tussenliggend monster als projectiebasis en versterkt de tangentiële componenten van de geschatte scores ten opzichte van deze basis om het bemonsteringspad te corrigeren. We formaliseren dit begeleidingsproces door gebruik te maken van een eerste-orde Taylor-expansie, wat aantoont dat het versterken van de tangentiële component de toestand richting hogere-waarschijnlijkheidsregio's stuurt, waardoor inconsistenties worden verminderd en de monsterkwaliteit wordt verbeterd. TAG is een plug-and-play, architectuuronafhankelijke module die de betrouwbaarheid van diffusiebemonstering verbetert met minimale rekenkundige toevoegingen, en biedt een nieuw perspectief op diffusiebegeleiding.
Grote Taalmodellen (LLM's) hebben opmerkelijke successen geboekt, en hun multimodale uitbreidingen (MLLM's) ontsluiten verder mogelijkheden die zich uitstrekken over afbeeldingen, video's en andere modaliteiten naast tekst. Desondanks blijven promptoptimalisatiebenaderingen, die zijn ontworpen om de last van handmatige promptcreatie te verminderen terwijl de prestaties worden gemaximaliseerd, beperkt tot tekst, wat uiteindelijk het volledige potentieel van MLLM's beperkt. Gemotiveerd door deze kloof introduceren we het nieuwe probleem van multimodale promptoptimalisatie, dat de eerdere definitie van promptoptimalisatie uitbreidt naar de multimodale ruimte die wordt gedefinieerd door de paren van tekstuele en niet-tekstuele prompts. Om dit probleem aan te pakken, stellen we vervolgens de Multimodale Prompt Optimizer (MPO) voor, een uniform raamwerk dat niet alleen de gezamenlijke optimalisatie van multimodale prompts uitvoert door middel van uitlijning-bewarende updates, maar ook het selectieproces van kandidaat-prompts begeleidt door eerdere evaluaties te benutten als priors in een op Bayes gebaseerde selectiestrategie. Door middel van uitgebreide experimenten over diverse modaliteiten die verder gaan dan tekst, zoals afbeeldingen, video's en zelfs moleculen, demonstreren we dat MPO toonaangevende tekst-alleen optimalisatiemethoden overtreft, waardoor multimodale promptoptimalisatie wordt gevestigd als een cruciale stap om het potentieel van MLLM's te realiseren.
Belichaamde capaciteiten verwijzen naar een reeks fundamentele vaardigheden die een agent nodig heeft om waar te nemen, te begrijpen en te interageren met de fysieke wereld. Hoewel multimodale grote taalmodellen (MLLMs) veelbelovend zijn als belichaamde agents, blijft een grondige en systematische evaluatie van hun belichaamde capaciteiten onderbelicht, aangezien bestaande benchmarks zich voornamelijk richten op specifieke domeinen zoals planning of ruimtelijk begrip. Om deze kloof te overbruggen, introduceren we BEAR, een uitgebreide en gedetailleerde benchmark die MLLMs evalueert op atomische belichaamde capaciteiten. BEAR bestaat uit 4.469 verweven beeld-video-tekst items verspreid over 14 domeinen in 6 categorieën, waaronder taken variërend van laag niveau, zoals aanwijzen en trajectbegrip, tot hoog niveau, zoals ruimtelijk redeneren en planning. Uitgebreide evaluatieresultaten van 20 representatieve MLLMs onthullen hun aanhoudende beperkingen in alle domeinen van belichaamde capaciteiten. Om deze tekortkoming aan te pakken, stellen we BEAR-Agent voor, een multimodaal gespreksagent die voorgetrainde vision-modellen integreert om de waarneming, 3D-begrip en planningscapaciteiten van MLLMs te versterken. Het verbetert de prestaties van MLLMs aanzienlijk op diverse belichaamde capaciteiten in BEAR, met een absolute winst van 9,12% en een relatieve verbetering van 17,5% op GPT-5. Bovendien tonen onze experimenten aan dat het verbeteren van de belichaamde capaciteiten van MLLMs voordelen kan bieden voor belichaamde taken in gesimuleerde omgevingen. Projectwebsite: https://bear-official66.github.io/
Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald door imitatieleren op enorme tekstcorpora, maar dit paradigma creëert een kloof tussen training en generatie en beperkt robuust redeneren. Reinforcement learning (RL) biedt een meer data-efficiënte oplossing die deze kloof kan overbruggen, maar de toepassing ervan is beperkt door een kritisch dataknelpunt: bestaande RL-datasets zijn ordes van grootte kleiner en minder divers dan web-schaal pre-trainingscorpora. Om dit aan te pakken, introduceren we de Webscale-RL-pijplijn, een schaalbare data-engine die systematisch grootschalige pre-trainingsdocumenten omzet in miljoenen diverse, verifieerbare vraag-antwoordparen voor RL. Met behulp van deze pijplijn construeren we de Webscale-RL-dataset, die 1,2 miljoen voorbeelden bevat uit meer dan 9 domeinen. Onze experimenten tonen aan dat het model dat op deze dataset is getraind, aanzienlijk beter presteert dan voortgezette pre-training en sterke data-verfijning baselines over een reeks benchmarks. Opmerkelijk is dat RL-training met onze dataset aanzienlijk efficiënter blijkt, waarbij de prestaties van voortgezette pre-training worden bereikt met tot wel 100 keer minder tokens. Ons werk biedt een haalbare route naar het opschalen van RL naar pre-trainingsniveaus, waardoor krachtigere en efficiëntere taalmodellen mogelijk worden.
Crowdsourced model evaluatieplatforms, zoals Chatbot Arena, maken real-time evaluatie vanuit menselijk perspectief mogelijk om de kwaliteit van modelreacties te beoordelen. In het domein van coderen is het handmatig onderzoeken van de kwaliteit van door LLM gegenereerde inhoud buitengewoon uitdagend, omdat het begrip vereist van lange stukken ruwe code en het bewust simuleren van code-uitvoering. Daarom introduceren we BigCodeArena, een open platform voor menselijke evaluatie van codegeneratie, ondersteund door een uitgebreide en directe uitvoeringsomgeving. Gebouwd bovenop Chatbot Arena, maakt BigCodeArena de uitvoering van door LLM gegenereerde code mogelijk en stelt het mensen in staat om te interageren met het uitvoeringsproces en de resultaten. We hebben meer dan 14.000 ruwe code-gerichte conversatiesessies verzameld over 10 veelgebruikte LLM's, verspreid over 10 talen en 8 soorten uitvoeringsomgevingen. Onder deze conversaties hebben we meer dan 4.700 multi-turn voorbeelden geïdentificeerd met paarsgewijze menselijke voorkeuren. Verdere analyse onthult onderbelichte voorkeuren van LLM's in fijnmazige domeinen gekenmerkt door taken, talen en frameworks. Om de codebegrip- en generatiecapaciteiten van toonaangevende LLM's systematisch te onderzoeken, hebben we twee benchmarks samengesteld op basis van de verzamelde gegevens, namelijk BigCodeReward en AutoCodeArena. Voor BigCodeReward hebben we de 4.700 conversaties naverwerkt en de consistentie tussen beloningsmodellen en menselijke voorkeuren geëvalueerd. De evaluatie toont aan dat de meeste LLM's superieure prestaties leveren in het beoordelen van codevoorkeuren wanneer de uitvoeringsresultaten beschikbaar zijn. Geïnspireerd door deze bevindingen stellen we AutoCodeArena voor, een automatische Elo-ratingbenchmark ontworpen om de codekwaliteit van LLM's te beoordelen zonder menselijke betrokkenheid. We constateren dat propriëtaire LLM's zoals GPT-5, Claude-Sonnet-4 en Claude-Opus-4 nog steeds leidend zijn in codegeneratieprestaties onder recent opkomende modellen.
Recente ontwikkelingen in test-time scaling voor redeneermodellen (bijv. OpenAI o1, DeepSeek-R1) hebben tot opmerkelijke verbeteringen geleid door middel van lange Chain-of-Thought (CoT). Bestaande benchmarks richten zich echter voornamelijk op directe, enkelvoudige taken, waardoor ze onvoldoende in staat zijn om het vermogen van modellen om complexe, langetermijnscenario's te begrijpen en erop te reageren, te evalueren. Om deze onvolledige evaluatie van Large Reasoning Models (LRMs) aan te pakken, stellen we R-HORIZON voor, een methode die is ontworpen om langetermijnredeneergedrag in LRMs te stimuleren door middel van querycompositie. Op basis van R-HORIZON construeren we een langetermijnredeneerbenchmark, bestaande uit complexe meerstapsredeneertaken met onderling afhankelijke problemen die zich uitstrekken over lange redeneerhorizons. Door middel van een uitgebreide evaluatie van LRMs met behulp van de R-HORIZON-benchmark, ontdekken we dat zelfs de meest geavanceerde LRMs aanzienlijke prestatievermindering vertonen. Onze analyse toont aan dat LRMs een beperkte effectieve redeneerlengte hebben en moeite hebben om het denkbudget over meerdere problemen op de juiste manier toe te wijzen. Gezien deze beperkingen gebruiken we R-HORIZON om langetermijnredeneerdata te construeren voor reinforcement learning met geverifieerde beloningen (RLVR). Vergeleken met training met enkelvoudige data, verbetert RLVR met R-HORIZON niet alleen aanzienlijk de prestaties op meerhorizonredeneertaken, maar bevordert het ook de nauwkeurigheid op standaardredeneertaken, met een toename van 7,5 op AIME2024. Deze resultaten positioneren R-HORIZON als een schaalbare, controleerbare en kosteneffectieve paradigma voor het verbeteren en evalueren van de langetermijnredeneercapaciteiten van LRMs.
Grote taalmodellen voor redenering vertonen complexe redeneergedragingen door middel van uitgebreide keten-van-gedachten-generatie, wat een ongekende Key-Value (KV) cache-overhead veroorzaakt tijdens de decodeerfase. Bestaande methoden voor KV-cachecompressie presteren slecht op redeneermodellen: methoden die tokens weglaten, breken de redeneerintegriteit door kritieke informatie te verwijderen, terwijl methoden die heads herverdelen ten onrechte redeneerkritieke heads comprimeren omdat ze zijn ontworpen voor retrievaultaken, wat leidt tot aanzienlijke prestatievermindering naarmate de compressiepercentages toenemen. We veronderstellen dat KV-heads functionele heterogeniteit vertonen in redeneermodellen—sommige heads zijn kritiek voor de consistentie van de keten-van-gedachten, terwijl andere comprimeerbaar zijn. Om dit inzicht te valideren en te benutten, stellen we RLKV voor, een nieuw framework voor het identificeren van redeneerkritieke heads, dat reinforcement learning gebruikt om de relatie tussen het cachegebruik van elke head en de redeneerkwaliteit direct te optimaliseren. Omdat RLKV beloningen produceert op basis van daadwerkelijk gegenereerde voorbeelden tijdens de training, identificeert het van nature heads die relevant zijn voor redeneergedragingen. We wijzen vervolgens volledige KV-cache toe aan deze heads, terwijl we gecomprimeerde constante KV-cache toepassen op andere heads voor efficiënte inferentie. Onze experimenten tonen aan dat slechts een klein deel van de aandacht-heads essentieel is voor redenering, waardoor onze KV-compressieaanpak de basislijnmethoden overtreft en een cache-reductie van 20-50% bereikt met bijna verliesvrije prestaties in vergelijking met ongecomprimeerde resultaten.
Met de huidige toename in onderzoek naar ruimtelijk redeneren hebben onderzoekers aanzienlijke vooruitgang geboekt in het begrijpen van binnenruimtes, maar worstelen ze nog steeds met diverse toepassingen zoals robotica en autonoom rijden. Dit artikel beoogt ruimtelijk redeneren op alle schalen in diverse scenario's te bevorderen door twee belangrijke uitdagingen aan te pakken: 1) de sterke afhankelijkheid van 3D-scans van binnenruimtes en arbeidsintensieve handmatige annotaties voor het samenstellen van datasets; 2) het ontbreken van effectieve modellering van scènes op alle schalen, wat vaak leidt tot overfitting op individuele scènes. In dit artikel introduceren we een holistische oplossing die een gestructureerd kennisysteem voor ruimtelijk redeneren, schaalbewuste modellering en een progressief trainingsparadigma integreert, als eerste poging om, voor zover wij weten, de ruimtelijke intelligentie op alle schalen van MLLMs te verbreden. Met behulp van een taakspecifieke, specialist-gestuurde geautomatiseerde pijplijn hebben we meer dan 38K videoscènes over 5 ruimtelijke schalen samengesteld om SpaceVista-1M te creëren, een dataset bestaande uit ongeveer 1M ruimtelijke vraag-antwoordparen die 19 diverse taaktypen omvatten. Hoewel specialistmodellen nuttige domeinkennis kunnen toevoegen, zijn ze niet betrouwbaar voor evaluatie. Vervolgens bouwen we een benchmark op alle schalen met nauwkeurige annotaties door handmatig video-gebaseerde gegevens vast te leggen, op te halen en samen te stellen. Echter, naïeve training met SpaceVista-1M levert vaak suboptimale resultaten op vanwege mogelijke kennisconflicten. Daarom introduceren we SpaceVista-7B, een ruimtelijk redeneringsmodel dat dichte inputs accepteert die verder gaan dan semantiek en schaal gebruikt als anker voor schaalbewuste experts en progressieve beloningen. Ten slotte tonen uitgebreide evaluaties over 5 benchmarks, waaronder onze SpaceVista-Bench, competitieve prestaties aan, waarbij sterke generalisatie over alle schalen en scenario's wordt getoond. Onze dataset, model en benchmark zullen worden vrijgegeven op https://peiwensun2000.github.io/mm2km.
Het evalueren van moderne machine learning-modellen is buitengewoon kostbaar geworden. Benchmarks zoals LMMs-Eval en HELM vereisen duizenden GPU-uren per model. De hoge evaluatiekosten verminderen de inclusiviteit, vertragen de innovatiecyclus en verergeren de milieueffecten. De gebruikelijke aanpak volgt twee stappen. Eerst wordt een ankerdeelverzameling van gegevens geselecteerd. Vervolgens wordt een mapping getraind van de nauwkeurigheid op deze deelverzameling naar het uiteindelijke testresultaat. Het nadeel is dat de selectie van ankers afhangt van clustering, wat complex kan zijn en gevoelig is voor ontwerpkeuzes. Wij beargumenteren dat het bevorderen van diversiteit onder steekproeven niet essentieel is; wat telt, is het selecteren van steekproeven die de diversiteit in modelresponsen maximaliseren. Onze methode, Diversifying Sample Condensation (DISCO), selecteert de top-k steekproeven met de grootste modelonenigheid. Dit maakt gebruik van hebberige, steekproefgewijze statistieken in plaats van globale clustering. De aanpak is conceptueel eenvoudiger. Vanuit een theoretisch perspectief biedt onenigheid tussen modellen een informatie-theoretisch optimale regel voor dergelijke hebberige selectie. DISCO toont empirische verbeteringen ten opzichte van eerdere methoden en behaalt state-of-the-art resultaten in prestatievoorspelling over MMLU, Hellaswag, Winogrande en ARC. Code is hier beschikbaar: https://github.com/arubique/disco-public.
Reinforcement learning met verifieerbare beloningen (RLVR) is een standaardaanpak geworden voor het verbeteren van grote taalmodelen (LLMs) bij redeneertaken, waarbij Group Relative Policy Optimization (GRPO) veelvuldig in de praktijk wordt gebruikt. Toch verspilt GRPO aanzienlijke rekenkracht aan negatieve groepen: groepen waarin geen enkele bemonsterde reactie correct is, leveren geen voordeel op en dus ook geen gradient. We onderzoeken of negatieve groepen benut kunnen worden zonder extra supervisie. Uitgaande van een maximum-likelihood (MLE) doelstelling in beloningsmodellering, laten we zien dat de MLE-gradient equivalent is aan een beleidsgradient voor een aangepaste waardefunctie. Deze waardefunctie voegt een vertrouwensgewogen straf toe op incorrecte reacties, waarbij meer zelfverzekerde fouten zwaardere straffen krijgen. We noemen dit Likelihood Estimation with Negative Samples (LENS). LENS past GRPO aan om niet-nul, vertrouwensafhankelijke beloningen toe te kennen aan incorrecte generaties, waardoor negatieve groepen informatief worden en eerder verspilde samples worden omgezet in nuttige gradientupdates. Op de MATH-benchmark met Llama-3.1-8B en Qwen-2.5-3B presteert de voorgestelde variant consistent beter dan de GRPO-basislijn, met aanzienlijke verbeteringen op moeilijkere items. Deze resultaten tonen een principiële en praktische manier aan om negatieve groepen te "redden", wat de efficiëntie en prestaties in RLVR verbetert.
Recente vooruitgang in multimodale grote redeneermodellen (MLRMs) heeft hun vermogen om complexe tekstuele en visuele taken op te lossen aanzienlijk verbeterd. Deze modellen hebben echter de neiging om te veel na te denken over eenvoudige problemen, wat resulteert in onnodig uitgebreide redeneersporen, terwijl ze uitdagende problemen onvoldoende verkennen, wat leidt tot gemiste oplossingen. Om deze onbalans aan te pakken, stellen we ARES voor, een geïntegreerd open-source raamwerk voor adaptief redeneren dat dynamisch verkenningsinspanningen toewijst op basis van de taakmoeilijkheid. Onze aanpak is gemotiveerd door twee belangrijke empirische bevindingen: (i) hoewel enkelvoudige token-entropie ruis bevat, kunnen tokens met hoge venster-entropie (HWE) (token-niveau entropieën gemiddeld onder een verschuivend venster) betrouwbaar kritieke redeneermomenten vastleggen; en (ii) het verminderen van HWE-gebruik is gunstig voor eenvoudige problemen, terwijl het verhogen ervan essentieel is voor het oplossen van moeilijke problemen. Gebaseerd op deze inzichten introduceert ARES een tweefasig trainingspijplijn. In de Adaptieve Koude-Start fase cureren we multimodale en tekstuele data gepaard met redeneersporen van een lengte die evenredig is aan de probleemmoeilijkheid, waardoor het model een initieel bewustzijn van moeilijkheidsgraad krijgt. In de tweede fase ontwikkelen we Adaptieve Entropiebeleidsoptimalisatie (AEPO), dat HWE-tokens gebruikt als verkenningsprikkels om te beslissen wanneer te verkennen, en een hiërarchische entropiebeloning met dynamische KL-controle om te beslissen hoeveel te verkennen. Uitgebreide experimenten tonen aan dat ARES superieure prestaties en redeneerefficiëntie bereikt over diverse wiskundige, logische en multimodale benchmarks, terwijl het de kloof met toonaangevende commerciële systemen verkleint bij aanzienlijk lagere inferentiekosten.
Het vermogen om gereedschap te gebruiken, te begrijpen en te creëren is een kenmerk van menselijke intelligentie, wat een verfijnde interactie met de fysieke wereld mogelijk maakt. Voor een algemeen intelligente agent om echte veelzijdigheid te bereiken, moet deze ook deze fundamentele vaardigheden beheersen. Hoewel moderne Multimodale Grote Taalmodellen (MLLMs) hun uitgebreide algemene kennis benutten voor hoogwaardige planning in embodied AI en in downstream Vision-Language-Action (VLA) modellen, blijft de omvang van hun werkelijke begrip van fysiek gereedschap onbekend. Om deze kloof te overbruggen, presenteren we PhysToolBench, de eerste benchmark die specifiek is ontworpen om het begrip van fysiek gereedschap door MLLMs te evalueren. Onze benchmark is gestructureerd als een Visual Question Answering (VQA) dataset die bestaat uit meer dan 1.000 afbeelding-tekst paren. Het beoordeelt vaardigheden op drie verschillende moeilijkheidsniveaus: (1) Gereedschapsherkenning: Vereist het herkennen van de primaire functie van een gereedschap. (2) Gereedschapsbegrip: Test het vermogen om de onderliggende principes van de werking van een gereedschap te begrijpen. (3) Gereedschapscreatie: Daagt het model uit om een nieuw gereedschap te maken uit omringende objecten wanneer conventionele opties niet beschikbaar zijn. Onze uitgebreide evaluatie van 32 MLLMs - variërend van propriëtaire, open-source, gespecialiseerde embodied en backbones in VLA's - onthult een significant tekort in gereedschapsbegrip. Bovendien bieden we een diepgaande analyse en stellen we voorlopige oplossingen voor. Code en dataset zijn publiekelijk beschikbaar.
Recente vooruitgang heeft de grenzen van AI verschoven van patroonherkenningstaken naar problemen die stap-voor-stap, System2-achtig redeneren vereisen, vooral met grote taalmodellen. Toch is er, in tegenstelling tot leren, waar generalisatie en out-of-distribution (OoD)-evaluatieconcepten goed zijn geformaliseerd, geen duidelijke, consistente definitie of metriek voor redeneervermogen. Wij stellen Complexity Out of Distribution (Complexity OoD)-generalisatie voor als een raamwerk en probleemstelling om redeneren te definiëren en te meten. Een model vertoont Complexity OoD-generalisatie wanneer het prestaties behoudt op testgevallen waarvan de minimaal vereiste oplossingscomplexiteit, hetzij representatief (rijkere oplossingsstructuur) of computationeel (meer redeneerstappen/programmalengte), die van alle trainingsvoorbeelden overstijgt. We formaliseren complexiteit via de Kolmogorov-complexiteit van oplossingsbeschrijvingen en operationele proxies (bijv. object-/relatietellingen; redeneerstaptellingen), waarbij we verduidelijken hoe Complexity OoD verschilt van lengte- en compositionele OoD. Deze lens verenigt leren en redeneren: veel gevallen die oplosbaar zijn met System1-achtige verwerking bij lage complexiteit worden System2-achtig onder complexiteitsdruk, terwijl System2 kan worden gezien als generalisatie over oplossingsstructuren. We vertalen dit perspectief naar de praktijk met aanbevelingen voor het operationaliseren van Complexity OoD over de hele stack: het integreren van complexiteit in het ontwerp van benchmarks en evaluatiemetrices, het heroverwegen van supervisie om oplossingssporen te targeten, het zoeken en ontwerpen van inductieve biases voor Complexity OoD-generalisatie, het aanpakken van spillovers van leren naar redeneren zoals valse shortcuts, semantische robuustheid, catastrofaal vergeten en stapgewijze calibratie. Omdat Complexity OoD niet kan worden opgelost door alleen data te schalen, zal vooruitgang naar robuust redeneren architecturen en trainingsregimes vereisen die expliciet rekening houden met complexiteit en berekening toewijzen.
De taak van 3D-occupancyvoorspelling heeft de afgelopen jaren aanzienlijke vooruitgang geboekt en speelt een cruciale rol in visiegestuurde autonome rijsystemen. Terwijl traditionele methoden beperkt zijn tot vaste semantische categorieën, zijn recente benaderingen verschoven naar het voorspellen van tekstuitgelijnde kenmerken om open-vocabulary tekstquery's in real-world scènes mogelijk te maken. Er bestaat echter een afweging bij tekstuitgelijnde scènemodellering: een spaarse Gaussische representatie heeft moeite met het vastleggen van kleine objecten in de scène, terwijl een dichte representatie aanzienlijke rekenkosten met zich meebrengt. Om deze beperkingen aan te pakken, presenteren we PG-Occ, een innovatief Progressief Gaussisch Transformer Framework dat open-vocabulary 3D-occupancyvoorspelling mogelijk maakt. Ons framework maakt gebruik van progressieve online verdichting, een feed-forward strategie die geleidelijk de 3D Gaussische representatie verbetert om fijnmazige scènedetails vast te leggen. Door de representatie iteratief te verbeteren, bereikt het framework een steeds nauwkeuriger en gedetailleerder scènebegrip. Een andere belangrijke bijdrage is de introductie van een anisotropiebewuste bemonsteringsstrategie met spatio-temporele fusie, die adaptief receptieve velden toewijst aan Gaussische verdelingen op verschillende schalen en stadia, waardoor effectievere kenmerksaggregatie en rijkere scène-informatie worden vastgelegd. Door uitgebreide evaluaties tonen we aan dat PG-Occ state-of-the-art prestaties bereikt met een relatieve verbetering van 14,3% mIoU ten opzichte van de vorige best presterende methode. Code en vooraf getrainde modellen zullen worden vrijgegeven na publicatie op onze projectpagina: https://yanchi-3dv.github.io/PG-Occ
Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in redeneren, vaak door middel van supervised fine-tuning (SFT). SFT is echter resource-intensief, omdat het afhankelijk is van grote, zorgvuldig samengestelde datasets, afgewezen demonstraties en uniforme optimalisatie over alle tokens, ook al draagt slechts een fractie daarvan betekenisvolle leerwaarde. In dit werk onderzoeken we een contra-intuïtief idee: kunnen kleinere taalmodellen (SLM's) grotere taalmodellen (LLM's) onderwijzen door hoogwaardige redeneermomenten te onthullen die de unieke kracht van de laatste weerspiegelen? We stellen LightReasoner voor, een nieuw raamwerk dat gebruikmaakt van het gedragsverschil tussen een sterker expertmodel (LLM) en een zwakker amateurmodel (SLM). LightReasoner werkt in twee fasen: (1) een bemonsteringsfase die cruciale redeneermomenten identificeert en supervisievoorbeelden construeert die het voordeel van de expert vastleggen door middel van expert-amateur contrast, en (2) een fine-tuningfase die het expertmodel afstemt op deze gedistilleerde voorbeelden, waardoor zijn redeneerkracht wordt versterkt. Over zeven wiskundige benchmarks verbetert LightReasoner de nauwkeurigheid met tot 28,1%, terwijl het tijdverbruik met 90%, bemonsterde problemen met 80% en het gebruik van getunede tokens met 99% wordt verminderd, allemaal zonder afhankelijk te zijn van grondwaarheid-labels. Door zwakkere SLM's om te zetten in effectieve leersignalen, biedt LightReasoner een schaalbare en resource-efficiënte aanpak voor het bevorderen van LLM-redeneren. Code is beschikbaar op: https://github.com/HKUDS/LightReasoner
Huidige beheersbare diffusiemodellen vertrouwen doorgaans op vaste architecturen die tussenliggende activaties aanpassen om begeleiding te injecteren die is geconditioneerd op een nieuwe modaliteit. Deze aanpak gebruikt een statische conditioneringsstrategie voor een dynamisch, meerfasig denoisingsproces, wat de mogelijkheid van het model beperkt om zijn reactie aan te passen naarmate de generatie evolueert van grove structuur naar fijne details. Wij introduceren TC-LoRA (Temporally Modulated Conditional LoRA), een nieuw paradigma dat dynamische, contextbewuste controle mogelijk maakt door de gewichten van het model direct te conditioneren. Ons framework gebruikt een hypernetwerk om LoRA-adapters on-the-fly te genereren, waarbij gewichtsaanpassingen worden afgestemd op de bevroren backbone bij elke diffusiestap, gebaseerd op tijd en de conditie van de gebruiker. Dit mechanisme stelt het model in staat om een expliciete, adaptieve strategie te leren en uit te voeren voor het toepassen van conditionele begeleiding gedurende het hele generatieproces. Door experimenten op verschillende datadomeinen tonen we aan dat deze dynamische, parametrische controle de generatieve kwaliteit en naleving van ruimtelijke condities aanzienlijk verbetert in vergelijking met statische, activatiegebaseerde methoden. TC-LoRA introduceert een alternatieve benadering waarbij de conditioneringsstrategie van het model wordt aangepast door een diepere functionele aanpassing van zijn gewichten, waardoor controle kan worden afgestemd op de dynamische eisen van de taak en het generatiestadium.
We introduceren MRMR, de eerste expert-level multidisciplinaire multimodale retrieval benchmark die intensief redeneren vereist. MRMR bevat 1.502 queries die 23 domeinen beslaan, waarbij positieve documenten zorgvuldig zijn geverifieerd door menselijke experts. In vergelijking met eerdere benchmarks introduceert MRMR drie belangrijke verbeteringen. Ten eerste daagt het retrievalsystemen uit over diverse expertisegebieden, waardoor een gedetailleerde modelvergelijking tussen domeinen mogelijk is. Ten tweede zijn de queries intensief in redenering, waarbij afbeeldingen een diepere interpretatie vereisen, zoals het diagnosticeren van microscopische preparaten. We introduceren verder Contradiction Retrieval, een nieuwe taak die modellen vereist om conflicterende concepten te identificeren. Tot slot zijn queries en documenten opgebouwd als beeld-tekst interleaved sequenties. In tegenstelling tot eerdere benchmarks die beperkt waren tot enkele afbeeldingen of unimodale documenten, biedt MRMR een realistische setting met multi-image queries en gemengde modaliteit corpusdocumenten. We voeren een uitgebreide evaluatie uit van 4 categorieën multimodale retrievalsystemen en 14 frontier modellen op MRMR. Het tekstembeddingmodel Qwen3-Embedding met door LLM gegenereerde beeldbeschrijvingen behaalt de hoogste prestaties, wat wijst op aanzienlijke ruimte voor verbetering van multimodale retrievalmodellen. Hoewel de nieuwste multimodale modellen zoals Ops-MM-Embedding competitief presteren op expert-domein queries, schieten ze tekort bij taken die intensief redeneren vereisen. Wij geloven dat MRMR de weg vrijmaakt voor de vooruitgang van multimodale retrieval in meer realistische en uitdagende scenario's.
Redeneermodellen hebben recentelijk opmerkelijke vooruitgang geboekt in domeinen zoals wiskunde en programmeren. Hun expertniveau in wiskunde en programmeren staat echter in schril contrast met hun prestaties in langetermijn, interactieve taken zoals webnavigatie en computer/telefoongebruik. Geïnspireerd door literatuur over menselijke cognitie, stellen wij dat huidige AI-agenten ''vicarious trial and error'' nodig hebben - het vermogen om mentaal alternatieve toekomsten te simuleren voordat ze handelen - om hun begrip en prestaties in complexe interactieve omgevingen te verbeteren. We introduceren Dyna-Mind, een tweefasen trainingsframework dat (V)LM-agenten expliciet leert om dergelijke simulatie in hun redenering te integreren. In fase 1 introduceren we Reasoning with Simulations (ReSim), dat de agent traint om gestructureerde redeneersporen te genereren uit uitgebreide zoekbomen die zijn opgebouwd uit echte ervaringen verzameld door interacties met de omgeving. ReSim verankert zo de redenering van de agent in betrouwbare werelddynamiek en stelt hem in staat om toekomstige staten in zijn redenering te anticiperen. In fase 2 stellen we Dyna-GRPO voor, een online reinforcement learning-methode om het simulatie- en besluitvormingsvermogen van de agent verder te versterken door zowel uitkomstbeloningen als tussenliggende staten als feedback te gebruiken van echte rollouts. Experimenten op twee synthetische benchmarks (Sokoban en ALFWorld) en één realistische benchmark (AndroidWorld) tonen aan dat (1) ReSim effectief simulatievermogen in AI-agenten infuseert, en (2) Dyna-GRPO uitkomst- en interactieniveau-signalen benut om betere beleidsregels te leren voor langetermijn, planningsintensieve taken. Samen benadrukken deze resultaten de centrale rol van simulatie bij het in staat stellen van AI-agenten om effectiever te redeneren, plannen en handelen in steeds uitdagendere omgevingen.
Dynamische viewsynthese heeft aanzienlijke vooruitgang geboekt, maar het reconstrueren van scènes uit ongekalibreerde, informele video's blijft uitdagend vanwege trage optimalisatie en complexe parameterbepaling. In dit werk presenteren we Instant4D, een monocular reconstructiesysteem dat gebruikmaakt van een native 4D-representatie om informele videosequenties efficiënt binnen enkele minuten te verwerken, zonder gekalibreerde camera's of dieptesensoren. Onze methode begint met geometrisch herstel via deep visual SLAM, gevolgd door grid pruning om de scène-representatie te optimaliseren. Ons ontwerp vermindert redundantie aanzienlijk terwijl de geometrische integriteit behouden blijft, waardoor de modelgrootte wordt teruggebracht tot minder dan 10% van de oorspronkelijke omvang. Om temporele dynamiek efficiënt te hanteren, introduceren we een gestroomlijnde 4D Gaussische representatie, wat een 30x versnelling oplevert en de trainingsduur terugbrengt tot binnen twee minuten, terwijl competitieve prestaties op verschillende benchmarks worden behouden. Onze methode reconstrueert een enkele video binnen 10 minuten op de Dycheck-dataset of voor een typische 200-frame video. We passen ons model verder toe op video's in het wild, wat de generaliseerbaarheid ervan aantoont. Onze projectwebsite is gepubliceerd op https://instant4d.github.io/.
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in wiskundig en logisch redeneren, maar statistiek, als een aparte en integrerende discipline, blijft onderbelicht in benchmarkinspanningen. Om dit gat te dichten, introduceren we StatEval, de eerste uitgebreide benchmark die specifiek gericht is op statistiek, en die zowel breedte als diepte bestrijkt over verschillende moeilijkheidsniveaus. StatEval bestaat uit 13.817 fundamentele problemen die het bachelor- en mastercurriculum omvatten, samen met 2374 onderzoeksniveau bewijstaken die zijn geëxtraheerd uit toonaangevende tijdschriften. Om de benchmark te construeren, hebben we een schaalbare multi-agent pijplijn ontworpen met menselijke validatie in de loop, die grootschalige probleemextractie, herschrijven en kwaliteitscontrole automatiseert, terwijl academische strengheid wordt gewaarborgd. We stellen verder een robuust evaluatiekader voor dat is afgestemd op zowel computationele als bewijsgebaseerde taken, waardoor een gedetailleerde beoordeling van redeneervaardigheid mogelijk wordt. Experimentele resultaten laten zien dat gesloten modellen zoals GPT5-mini minder dan 57% halen op onderzoeksniveau problemen, terwijl open-source modellen aanzienlijk lager presteren. Deze bevindingen benadrukken de unieke uitdagingen van statistisch redeneren en de beperkingen van huidige LLMs. We verwachten dat StatEval zal dienen als een rigoureuze benchmark voor het bevorderen van statistische intelligentie in grote taalmodellen. Alle data en code zijn beschikbaar op ons webplatform: https://stateval.github.io/.
Robuste spraakherkenning (ASR) onder domeinverschuiving is cruciaal omdat systemen in de praktijk te maken krijgen met onbekende accenten en domeinen met beperkte gelabelde data. Hoewel pseudo-labeling een praktische oplossing biedt, introduceert het vaak systematische, accent-specifieke fouten die filtering niet kan verhelpen. Wij stellen de vraag: Hoe kunnen we deze terugkerende biases corrigeren zonder de beschikking over doel-grondwaarheden? We stellen een eenvoudige correctie in de parameterruimte voor: in een brondomein dat zowel echte als pseudo-gelabelde data bevat, worden twee ASR-modellen gefinetuned vanuit dezelfde initialisatie, één op grondwaarheid-labels en de andere op pseudo-labels, en hun gewichtsverschil vormt een correctievector die de biases van pseudo-labels vastlegt. Wanneer deze vector wordt toegepast op een pseudo-gelabeld doelmodel, verbetert dit de herkenning, wat resulteert in een relatieve vermindering van het Word Error Rate (WER) tot wel 35% op AfriSpeech-200 over tien Afrikaanse accenten met het Whisper tiny-model.
Traditionele multimodale leerders vinden geünificeerde representaties voor taken zoals visuele vraagbeantwoording, maar zijn sterk afhankelijk van gepaarde datasets. Een over het hoofd gezien maar potentieel krachtige vraag is echter: kan men aanvullende ongepaarde multimodale data benutten om de representatieleer in een doelmodaliteit direct te verbeteren? Wij introduceren UML: Unpaired Multimodal Learner, een modaliteitsagnostisch trainingsparadigma waarin een enkel model afwisselend invoer van verschillende modaliteiten verwerkt terwijl het parameters deelt tussen deze modaliteiten. Dit ontwerp maakt gebruik van de aanname dat verschillende modaliteiten projecties zijn van een gedeelde onderliggende realiteit, waardoor het model kan profiteren van cross-modale structuur zonder expliciete paren nodig te hebben. Theoretisch tonen we aan, onder lineaire data-genererende aannames, dat ongepaarde aanvullende data representaties kan opleveren die strikt meer informatief zijn over het data-genererende proces dan unimodale training. Empirisch laten we zien dat het gebruik van ongepaarde data van aanvullende modaliteiten – zoals tekst, audio of afbeeldingen – consequent de downstream-prestaties verbetert over diverse unimodale doelen zoals afbeeldingen en audio. Onze projectpagina: https://unpaired-multimodal.github.io/
DeepResearch-agents vertegenwoordigen een transformerend AI-paradigma, waarbij ze expertniveau onderzoek uitvoeren door middel van geavanceerd redeneren en integratie van meerdere tools. Het evalueren van deze systemen blijft echter een grote uitdaging vanwege open-einde onderzoeksscenario's en bestaande benchmarks die zich richten op geïsoleerde capaciteiten in plaats van holistische prestaties. In tegenstelling tot traditionele LLM-taken moeten DeepResearch-systemen diverse bronnen synthetiseren, inzichten genereren en samenhangende bevindingen presenteren, wat capaciteiten zijn die zich verzetten tegen eenvoudige verificatie. Om dit gat te dichten, introduceren we DeepResearch-ReportEval, een uitgebreid framework ontworpen om DeepResearch-systemen te beoordelen aan de hand van hun meest representatieve output: onderzoeksrapporten. Onze aanpak meet systematisch drie dimensies: kwaliteit, redundantie en feitelijkheid, met behulp van een innovatieve LLM-as-a-Judge methodologie die sterke overeenstemming met experts bereikt. We dragen bij met een gestandaardiseerde benchmark van 100 zorgvuldig samengestelde queries die 12 real-world categorieën omvatten, waardoor een systematische vergelijking van capaciteiten mogelijk wordt. Onze evaluatie van vier toonaangevende commerciële systemen onthult verschillende ontwerpfilosofieën en prestatieafwegingen, wat fundamentele inzichten biedt terwijl DeepResearch evolueert van informatie-assistenten naar intelligente onderzoekspartners. Broncode en data zijn beschikbaar op: https://github.com/HKUDS/DeepResearch-Eval.
AI-controleprotocollen dienen als een verdedigingsmechanisme om te voorkomen dat niet-vertrouwde LLM-agents schade veroorzaken in autonome omgevingen. Eerder werk behandelt dit als een beveiligingsprobleem, waarbij stress tests worden uitgevoerd met exploits die de implementatiecontext gebruiken om subtiel schadelijke neventaken te voltooien, zoals het inbrengen van achterdeuren. In de praktijk zijn de meeste AI-controleprotocollen fundamenteel gebaseerd op LLM-monitors, die een centraal punt van falen kunnen worden. Wij bestuderen adaptieve aanvallen door een niet-vertrouwd model dat het protocol en het monitor-model kent, wat plausibel is als het niet-vertrouwde model is getraind met een latere kennisafsluitdatum of deze informatie autonoom kan opzoeken. We concretiseren een eenvoudige adaptieve aanvalsvector waarbij de aanvaller publiek bekende of zero-shot prompt-injecties in de modeloutputs inbedt. Met deze tactiek ontwijken frontier-modellen consistent diverse monitors en voltooien ze schadelijke taken op twee belangrijke AI-controlebenchmarks. De aanval werkt universeel tegen huidige protocollen die afhankelijk zijn van een monitor. Bovendien werkt het recente Defer-to-Resample-protocol zelfs averechts, omdat het hermonsteren de prompt-injectie versterkt en deze effectief herformuleert als een best-of-n aanval. Over het algemeen vormen adaptieve aanvallen op monitor-modellen een groot blinde vlek in huidige controleprotocollen en zouden ze een standaardonderdeel moeten worden van evaluaties voor toekomstige AI-controlemechanismen.
Parallelle testtijd-schaalbaarheid (TTS) is een cruciale aanpak voor het verbeteren van grote taalmmodellen (LLMs), meestal door het parallel bemonsteren van meerdere token-gebaseerde ketens van gedachten en het samenvoegen van resultaten via stemmen of zoeken. Recente vooruitgang in latent redeneren, waarbij tussenliggend redeneren plaatsvindt in continue vectorruimtes, biedt een efficiënter alternatief voor expliciete Chain-of-Thought. Echter, of dergelijke latente modellen op dezelfde manier kunnen profiteren van parallelle TTS, blijft een open vraag, voornamelijk door het ontbreken van bemonsteringsmechanismen in continue ruimte en het gebrek aan probabilistische signalen voor geavanceerde trajectaggregatie. \ Dit werk maakt parallelle TTS mogelijk voor latente redeneermodellen door de bovengenoemde problemen aan te pakken. Voor bemonstering introduceren we twee op onzekerheid geïnspireerde stochastische strategieën: Monte Carlo Dropout en Additief Gaussiaans Ruis. Voor aggregatie ontwerpen we een Latent Beloningsmodel (LatentRM) dat is getraind met een stapsgewijs contrastief doel om latent redeneren te scoren en te begeleiden. Uitgebreide experimenten en visualisatieanalyses tonen aan dat beide bemonsteringsstrategieën effectief schalen met rekenkracht en verschillende verkenningseigenschappen vertonen, terwijl LatentRM effectieve trajectselectie mogelijk maakt. Samen openen onze verkenningen een nieuwe richting voor schaalbare inferentie in continue ruimtes. Code is vrijgegeven op https://github.com/YRYangang/LatentTTS.
Zero-shot captioners zijn recent voorgestelde modellen die gebruikmaken van gemeenschappelijke visie-taalrepresentaties om afbeeldingen te beschrijven zonder te vertrouwen op gepaarde afbeelding-tekstgegevens. Om een afbeelding te beschrijven, decoderen ze tekstueel een tekst-uitgelijnde afbeeldingsfeature, maar ze beperken hun scope tot globale representaties en beschrijvingen van de hele afbeelding. Wij presenteren , een uniform raamwerk voor zero-shot captioning dat verschuift van een afbeeldingsgericht naar een patchgericht paradigma, waardoor het mogelijk wordt om willekeurige regio's te beschrijven zonder de noodzaak van regiogebonden supervisie. In plaats van te vertrouwen op globale afbeeldingsrepresentaties, behandelen we individuele patches als atomische captioning-eenheden en aggregeren we deze om willekeurige regio's te beschrijven, van enkele patches tot niet-aaneengesloten gebieden en volledige afbeeldingen. We analyseren de belangrijkste ingrediënten die huidige latente captioners in staat stellen om te werken binnen ons nieuw voorgestelde raamwerk. Experimenten tonen aan dat backbones die betekenisvolle, dichte visuele features produceren, zoals DINO, essentieel zijn om state-of-the-art prestaties te behalen in meerdere regiogebonden captioning-taken. In vergelijking met andere baselines en state-of-the-art concurrenten, behalen onze modellen betere prestaties op zero-shot dense, region-set en een nieuw geïntroduceerde trace captioning-taak, wat de effectiviteit van patchgewijze semantische representaties voor schaalbare caption-generatie benadrukt. Projectpagina op https://paciosoft.com/Patch-ioner/ .
Peer review is de hoeksteen van wetenschappelijk publiceren, maar kampt met inconsistenties, subjectiviteit van beoordelaars en schaalbaarheidsuitdagingen. Wij introduceren ReviewerToo, een modulair raamwerk voor het bestuderen en inzetten van AI-ondersteunde peer review om menselijk oordeel aan te vullen met systematische en consistente beoordelingen. ReviewerToo ondersteunt systematische experimenten met gespecialiseerde reviewer-persona's en gestructureerde evaluatiecriteria, en kan gedeeltelijk of volledig worden geïntegreerd in echte conferentiewerkstromen. Wij valideren ReviewerToo op een zorgvuldig samengestelde dataset van 1.963 paper inzendingen van ICLR 2025, waar onze experimenten met het gpt-oss-120b model een nauwkeurigheid van 81,8% bereiken voor de taak van het categoriseren van een paper als accept/reject, vergeleken met 83,9% voor de gemiddelde menselijke beoordelaar. Daarnaast worden door ReviewerToo gegenereerde reviews beoordeeld als hogere kwaliteit dan het menselijk gemiddelde door een LLM-rechter, hoewel ze nog steeds achterblijven bij de sterkste expertbijdragen. Onze analyse belicht domeinen waar AI-beoordelaars uitblinken (bijv. feitencontrole, literatuurdekking) en waar ze moeite hebben (bijv. het beoordelen van methodologische nieuwigheid en theoretische bijdragen), wat het blijvende belang van menselijke expertise onderstreept. Op basis van deze bevindingen stellen wij richtlijnen voor voor het integreren van AI in peer-review processen, waarbij we laten zien hoe AI consistentie, dekking en eerlijkheid kan verbeteren terwijl complexe evaluatieve oordelen worden overgelaten aan domeinexperts. Ons werk biedt een basis voor systematische, hybride peer-review systemen die meeschalen met de groei van wetenschappelijk publiceren.
Grote redeneermodellen (LRMs) die worden verbeterd door Reinforcement Learning from Verifier Reward (RLVR) hebben een grote kracht getoond in het oplossen van problemen, maar veroorzaken vaak overdenken: excessief, meanderend redeneren dat de rekenkosten opdrijft. Eerdere ontwerpen van strafmaatregelen in RLVR zijn erin geslaagd het tokenverbruik te verminderen, maar schaden vaak de modelprestaties, wat voortkomt uit de te eenvoudige token-niveau supervisie. In dit artikel beargumenteren we dat de granulariteit van supervisie een cruciale rol speelt bij het balanceren van efficiëntie en nauwkeurigheid, en stellen we Group Relative Segment Penalization (GRSP) voor, een stap-niveau methode om redeneren te reguleren. Aangezien voorlopige analyses aantonen dat redeneersegmenten sterk gecorreleerd zijn met tokenverbruik en modelprestaties, ontwerpen we een lengtebewust weegmechanisme over segmentclusters. Uitgebreide experimenten tonen aan dat GRSP superieure token-efficiëntie bereikt zonder de nauwkeurigheid zwaar te compromitteren, vooral de voordelen bij moeilijkere problemen. Bovendien stabiliseert GRSP RL-training en schaalt het effectief over modelgroottes.
Real-time gesproken taalmodellen (SLMs) hebben moeite om Chain-of-Thought (CoT)-redenering te benutten vanwege de onaanvaardbare latentie die ontstaat bij het sequentieel genereren van het volledige denkproces. Het mogelijk maken voor SLMs om te denken terwijl ze spreken, vergelijkbaar met mensen, trekt steeds meer aandacht. Wij presenteren voor het eerst Mind-Paced Speaking (MPS), een brein-geïnspireerd raamwerk dat hoogwaardige, real-time redenering mogelijk maakt. Net zoals mensen verschillende hersengebieden gebruiken voor denken en reageren, stellen wij een nieuwe dual-brain aanpak voor, waarbij een "Formulering Brein" wordt ingezet voor hoogwaardige redenering om een apart "Articulatie Brein" te sturen voor vloeiende spraakgeneratie. Deze taakverdeling elimineert modus-switching en behoudt de integriteit van het redeneerproces. Experimenten tonen aan dat MPS aanzienlijk beter presteert dan bestaande denk-terwijl-je-spreekt methoden en redeneerprestaties bereikt die vergelijkbaar zijn met modellen die de volledige CoT vooraf berekenen voordat ze spreken, terwijl de latentie drastisch wordt verminderd. Onder een zero-latentie configuratie behaalt de voorgestelde methode een nauwkeurigheid van 92,8% op de wiskundige redeneertaak Spoken-MQA en een score van 82,5 op de spraakconversatietaak URO-Bench. Ons werk overbrugt effectief de kloof tussen hoogwaardige redenering en real-time interactie.
Agents gebaseerd op grote taalmodellen (LLMs) hebben moeite met doelloos trial-and-error en het genereren van hallucinerende acties vanwege een gebrek aan globale planning bij taken met een lange horizon. In dit artikel introduceren we een plan-en-uitvoer raamwerk en stellen we EAGLET voor, een efficiënte en effectieve methode voor het trainen van planners om de planningsvaardigheden van de uitvoerende agent te verbeteren zonder menselijke inspanning. Specifiek trainen we een plug-and-play globale planner via een tweestaps proces: we synthetiseren eerst hoogwaardige plannen van een geavanceerd LLM met behulp van onze voorgestelde homologe consensusfilterstrategie, en passen fine-tuning toe als een koude start. Bovendien verbeteren we de planner verder met een op regels gebaseerde reinforcement learning-fase met behulp van een nieuwe beloning voor het verkrijgen van uitvoeringscapaciteit, waardoor deze taken van verschillende moeilijkheidsgraden aankan. Experimenten op drie taken voor agents met een lange horizon laten zien dat uitvoerende agents uitgerust met onze planner bestaande methoden overtreffen en nieuwe state-of-the-art prestaties behalen. Tegelijkertijd reduceert EAGLET de trainingskosten met een factor 8 vergeleken met RL-gebaseerde baselines, en vereist het geen handmatige inspanning of extra trainingsdata, wat een efficiënte en effectieve oplossing biedt.
Als een nieuw paradigma voor het genereren van visuele inhoud, lijden autoregressieve tekst-naar-beeldmodellen onder trage inferentie vanwege hun sequentiële token-voor-token decodeerproces, waarbij vaak duizenden modelvoorwaartse passes nodig zijn om een enkele afbeelding te genereren. Om deze inefficiëntie aan te pakken, stellen we Speculative Jacobi-Denoising Decoding (SJD2) voor, een raamwerk dat het denoisingproces integreert in Jacobi-iteraties om parallelle token-generatie in autoregressieve modellen mogelijk te maken. Onze methode introduceert een next-clean-token voorspellingsparadigma dat vooraf getrainde autoregressieve modellen in staat stelt om met ruis verstoorde token-embeddings te accepteren en de volgende schone tokens te voorspellen via kostenefficiënte fine-tuning. Dit denoisingparadigma leidt het model naar stabielere Jacobi-trajecten. Tijdens inferentie initialiseert onze methode tokenreeksen met Gaussiaanse ruis en voert iteratieve next-clean-token-voorspelling uit in de embeddingruimte. We gebruiken een probabilistisch criterium om meerdere tokens parallel te verifiëren en te accepteren, en verfijnen de niet-geaccepteerde tokens voor de volgende iteratie met het denoisingtraject. Experimenten tonen aan dat onze methode de generatie kan versnellen door het aantal modelvoorwaartse passes te verminderen, terwijl de visuele kwaliteit van de gegenereerde afbeeldingen behouden blijft.
Referring Video Object Segmentation (RVOS) heeft als doel het object te segmenteren waarnaar wordt verwezen in de queryszin in de video. De meeste bestaande methoden vereisen end-to-end training met dichte maskerannotaties, wat rekenintensief en minder schaalbaar kan zijn. In dit werk heroverwegen we het RVOS-probleem en streven we ernaar de sleutel tot deze taak te onderzoeken. Gebaseerd op bestaande foundation-segmentatiemodellen, ontleden we de RVOS-taak in verwijzings-, video- en segmentatiefactoren, en stellen we een Temporal Prompt Generation and Selection (Tenet) framework voor om de verwijzings- en videofactoren aan te pakken, terwijl we het segmentatieprobleem overlaten aan foundation-modellen. Om op afbeeldingen gebaseerde foundation-segmentatiemodellen efficiënt aan te passen aan verwijzende video-objectsegmentatie, maken we gebruik van kant-en-klare objectdetectoren en trackers om temporele prompts te genereren die geassocieerd zijn met de verwijzende zin. Hoewel hoogwaardige temporele prompts kunnen worden geproduceerd, kunnen ze niet eenvoudig worden geïdentificeerd aan de hand van betrouwbaarheidsscores. Om dit probleem aan te pakken, stellen we Prompt Preference Learning voor om de kwaliteit van de geproduceerde temporele prompts te evalueren. Door dergelijke prompts te gebruiken om op afbeeldingen gebaseerde foundation-segmentatiemodellen te instrueren, kunnen we hoogwaardige maskers produceren voor het bedoelde object, waardoor efficiënte modelaanpassing aan verwijzende video-objectsegmentatie mogelijk wordt. Experimenten op RVOS-benchmarks demonstreren de effectiviteit van het Tenet-framework.
Grote taalmodellen (LLM's) en opkomende agent-gebaseerde frameworks beginnen een transformatie teweeg te brengen in de single-cell biologie door natuurlijke-taalredenering, generatieve annotatie en multimodale dataintegratie mogelijk te maken. Toch blijft de vooruitgang gefragmenteerd over verschillende datamodaliteiten, architecturen en evaluatiestandaarden. LLM4Cell presenteert de eerste geïntegreerde overzicht van 58 foundation- en agent-gebaseerde modellen die zijn ontwikkeld voor single-cell onderzoek, waarbij RNA, ATAC, multi-omische en ruimtelijke modaliteiten worden bestreken. We categoriseren deze methoden in vijf families—foundation, tekst-brug, ruimtelijk, multimodaal, epigenomisch en agent-gebaseerd—en koppelen ze aan acht belangrijke analytische taken, waaronder annotatie, traject- en perturbatiemodellering, en medicijnresponsvoorspelling. Gebaseerd op meer dan 40 openbare datasets, analyseren we de geschiktheid van benchmarks, datadiversiteit, en ethische of schaalbaarheidsbeperkingen, en evalueren we modellen over 10 domeindimensies die biologische grondslag, multi-omics alignering, eerlijkheid, privacy en uitlegbaarheid omvatten. Door datasets, modellen en evaluatiedomeinen met elkaar te verbinden, biedt LLM4Cell het eerste geïntegreerde overzicht van taalgedreven single-cell intelligentie en schetst het open uitdagingen op het gebied van interpreteerbaarheid, standaardisatie en betrouwbare modelontwikkeling.
Grote taalmmodellen (LLM's) brengen aanzienlijke implementatie-uitdagingen met zich mee vanwege hun immense rekenkundige en geheugenvereisten. Hoewel semi-gestructureerd snoeien, met name 2:4-sparsiteit, een weg biedt naar praktische hardwareversnelling, leiden bestaande methoden vaak tot aanzienlijke prestatievermindering. Om deze kloof te overbruggen, introduceren we ARMOR: (Adaptive Representation with Matrix-factORization), een innovatief one-shot post-training snoeialgoritme. In plaats van direct gewichten te snoeien, factoriseert ARMOR elke gewichtsmatrix in een 2:4-sparse kern omhuld door twee laag-overhead, blokdiagonale matrices. Deze omhulsels fungeren als efficiënte pre- en post-transformatie foutcorrectoren, wat meer flexibiliteit biedt om modelkwaliteit te behouden in vergelijking met conventionele 2:4-snoeitechnieken. De sparse kern en blokdiagonale omhulsels worden gekozen via een blokcoördinaat-dalingsalgoritme dat een laagsgewijze proxyverlies minimaliseert. We bewijzen theoretisch dat deze optimalisatie gegarandeerd convergeert naar een oplossing met een proxyverlies dat kleiner dan of gelijk is aan state-of-the-art snoeialgoritmen. Experimenten op de Llama (Touvron et al., 2023; Dubey et al., 2024) en Qwen (Yang et al., 2025) modelfamilies tonen aan dat ARMOR consistent en significant beter presteert dan state-of-the-art 2:4-snoeimethoden over een breed scala aan downstream taken en perplexiteitsevaluaties. ARMOR bereikt deze superieure prestaties terwijl het de inferentieversnellingen en aanzienlijke geheugengebruiksreducties van 2:4-snoeien behoudt, waardoor een effectievere afweging tussen modelcompressie en taaknauwkeurigheid wordt gevestigd.
Robots in de echte wereld moeten handelen onder gedeeltelijke waarneembaarheid en lange tijdsperioden, waarbij belangrijke signalen lang voordat ze van invloed zijn op de besluitvorming kunnen verschijnen. De meeste moderne benaderingen vertrouwen echter uitsluitend op directe informatie, zonder inzichten uit het verleden te integreren. Standaard recurrent of transformer-modellen hebben moeite met het behouden en benutten van langetermijnafhankelijkheden: contextvensters beperken de geschiedenis, terwijl naïeve geheugenuitbreidingen falen onder schaal en schaarste. Wij stellen ELMUR (External Layer Memory with Update/Rewrite) voor, een transformer-architectuur met gestructureerd extern geheugen. Elke laag onderhoudt geheugen-embeddings, interageert ermee via bidirectionele cross-attention, en werkt ze bij via een Least Recently Used (LRU)-geheugenmodule met vervanging of convexe blending. ELMUR breidt effectieve tijdsperioden uit tot 100.000 keer verder dan het aandachtvenster en behaalt een slagingspercentage van 100% op een synthetische T-Maze-taak met gangen tot een miljoen stappen. In POPGym presteert het beter dan de basislijnen op meer dan de helft van de taken. Op MIKASA-Robo-manipulatietaken met visuele observaties en schaarse beloningen verdubbelt het bijna de prestaties van sterke basislijnen. Deze resultaten tonen aan dat gestructureerd, lokaal extern geheugen per laag een eenvoudige en schaalbare benadering biedt voor besluitvorming onder gedeeltelijke waarneembaarheid.
Hoe kunnen we grote multimodale modellen (LMMs) nieuwe vaardigheden aanleren zonder eerdere capaciteiten te wissen? We bestuderen sequentiële fine-tuning op vijf doelvaardigheden terwijl we de algemene prestaties monitoren op acht achtergehouden benchmarks in drie modelfamilies. We observeren dat schijnbaar "vergeten" op achtergehouden taken na nauwe fine-tuning gedeeltelijk kan herstellen in latere fasen. We leiden dit gedrag terug naar een meetbare verschuiving in de uitvoertokenverdeling, die zich manifesteert via een eenvoudige telbias-test die samenhangt met vergeten. Geleid door dit inzicht identificeren we twee eenvoudige, robuuste fine-tuningmethoden die sterk leren terwijl verschuiving wordt beperkt: (i) alleen de self-attention-projectielagen updaten, en (ii) alleen de MLP Gate&Up updaten terwijl de Down-projectie wordt bevroren. Over modellen en taken heen leveren deze keuzes sterke doelwinsten op terwijl de prestaties op achtergehouden taken grotendeels behouden blijven. Code is beschikbaar op https://github.com/jessemelpolio/LMM_CL.
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in redeneren, maar produceren soms reacties die suboptimaal zijn voor gebruikers bij taken zoals schrijven, informatie zoeken of praktische begeleiding bieden. Conventionele afstemmingspraktijken gaan er doorgaans van uit dat het maximaliseren van de beloning van het model ook het gebruikerswelzijn maximaliseert, maar deze aanname faalt vaak in de praktijk: modellen kunnen overmatig verduidelijken of overdreven uitgebreide redeneringen genereren wanneer gebruikers liever beknopte antwoorden hebben. Dergelijk gedrag lijkt op het gevangenendilemma, waarbij individueel rationele keuzes leiden tot sociaal suboptimale uitkomsten. De fundamentele uitdaging is het ontbreken van een principieel besluitvormingsmechanisme dat zowel het LLM als de gebruiker wederzijds ten goede komt. Wij stellen Game-Theoretic Alignment (GTAlign) voor, een afstemmingsraamwerk dat speltheoretische besluitvorming integreert in zowel redeneren als training. Tijdens het redeneren behandelt het model de interactie tussen gebruiker en LLM expliciet als een strategisch spel: het construeert uitbetalingsmatrices binnen zijn redeneerketen om het welzijn voor zowel zichzelf als de gebruiker te schatten, en selecteert vervolgens acties die wederzijds voordelig zijn. Tijdens de training introduceren we een wederzijds welzijnsbeloning die coöperatieve reacties versterkt, waardoor het gedrag van het model wordt afgestemd op sociaal efficiënte uitkomsten. Daarnaast introduceren we een inferentietechniek die gebruikmaakt van speltheoretisch redeneren om de reactie van het LLM dynamisch aan te passen wanneer prijsbeleid van de LLM-dienst verandert. Uitgebreide experimenten tonen aan dat GTAlign de redeneerefficiëntie, antwoordkwaliteit en wederzijds welzijn aanzienlijk verbetert in vergelijking met baseline-methoden bij diverse taken. De code is beschikbaar op https://github.com/ulab-uiuc/GTAlign.
Persoonlijke verhalen zijn verhalen die auteurs construeren om betekenis te geven aan hun ervaringen. Stijl, de kenmerkende manier waarop auteurs taal gebruiken om zichzelf uit te drukken, is fundamenteel voor hoe deze verhalen subjectieve ervaringen overbrengen. Toch ontbreekt een formeel kader om deze stilistische keuzes systematisch te analyseren. Wij presenteren een nieuwe benadering die stijl in persoonlijke verhalen formaliseert als patronen in de linguïstische keuzes die auteurs maken bij het communiceren van subjectieve ervaringen. Ons kader integreert drie domeinen: functionele taalkunde benadert taal als een systeem van betekenisvolle keuzes, computerwetenschap biedt methoden om sequentiële patronen automatisch te extraheren en te analyseren, en deze patronen worden gekoppeld aan psychologische observaties. Met behulp van taalmodelleertechnieken extraheren we automatisch linguïstische kenmerken zoals processen, deelnemers en omstandigheden. We passen ons kader toe op honderden droomverhalen, inclusief een casestudy over een oorlogsveteraan met posttraumatische stressstoornis. Analyse van zijn verhalen onthult onderscheidende patronen, met name hoe verbale processen domineren ten opzichte van mentale, wat de relatie tussen linguïstische keuzes en psychologische toestanden illustreert.
Huidige zelfgesuperviseerde monocular depth estimation (MDE) benaderingen ondervinden prestatiebeperkingen door onvoldoende extractie van semantisch-ruimtelijke kennis. Om deze uitdaging aan te pakken, stellen we Hybrid-depth voor, een nieuw raamwerk dat foundation modellen (bijv. CLIP en DINO) systematisch integreert om visuele priors te extraheren en voldoende contextuele informatie te verkrijgen voor MDE. Onze aanpak introduceert een coarse-to-fine progressief leerraamwerk: 1) Ten eerste aggregeren we multi-granulaire kenmerken van CLIP (globale semantiek) en DINO (lokale ruimtelijke details) onder contrastieve taalbegeleiding. Een proxy-taak die close-distant beeldpatches vergelijkt, is ontworpen om diepte-bewuste kenmerkuitlijning af te dwingen met behulp van tekstprompts; 2) Vervolgens bouwen we voort op de grove kenmerken en integreren we camerapose-informatie en pixelgewijze taaluitlijning om dieptevoorspellingen te verfijnen. Deze module integreert naadloos met bestaande zelfgesuperviseerde MDE-pipelines (bijv. Monodepth2, ManyDepth) als een plug-and-play dieptecoder, waardoor continue diepteschatting wordt verbeterd. Door CLIP's semantische context en DINO's ruimtelijke details te aggregeren via taalbegeleiding, lost onze methode effectief mismatches in kenmerkgranulariteit op. Uitgebreide experimenten op de KITTI-benchmark tonen aan dat onze methode aanzienlijk beter presteert dan SOTA-methoden op alle metrieken, wat ook daadwerkelijk voordelen biedt voor downstream taken zoals BEV-perceptie. Code is beschikbaar op https://github.com/Zhangwenyao1/Hybrid-depth.
Grote Taalmodellen (LLMs) vereisen efficiënte kennisbewerking (KE) om feitelijke informatie bij te werken, maar bestaande methoden vertonen een aanzienlijke prestatievermindering bij het terugroepen van feiten over meerdere stappen. Dit falen is vooral acuut wanneer bewerkingen tussenliggende impliciete onderwerpen binnen redeneerketens betreffen. Door middel van causale analyse onthullen we dat deze beperking voortkomt uit een over het hoofd zien van hoe geketende kennis dynamisch wordt gerepresenteerd en benut op het niveau van neuronen. We ontdekken dat tijdens redenering over meerdere stappen impliciete onderwerpen functioneren als queryneuronen, die opeenvolgend corresponderende waardeneuronen activeren over transformerlagen om informatie te accumuleren richting het uiteindelijke antwoord, een dynamiek die eerdere KE-werkzaamheden over het hoofd hebben gezien. Geleid door dit inzicht stellen we ACE voor: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, een raamwerk dat gebruikmaakt van neuroniveau-attributie om deze kritieke query-waarde (Q-V) paden te identificeren en te bewerken. ACE biedt een mechanistisch onderbouwde oplossing voor KE over meerdere stappen, en presteert empirisch beter dan state-of-the-art methoden met 9,44% op GPT-J en 37,46% op Qwen3-8B. Onze analyse onthult verder meer fijnmazige activatiepatronen in Qwen3 en toont aan dat de semantische interpreteerbaarheid van waardeneuronen wordt georkestreerd door query-gestuurde accumulatie. Deze bevindingen leggen een nieuw pad voor het bevorderen van KE-capaciteiten gebaseerd op het principiële begrip van interne redeneermechanismen.
Het personaliseren van diffusiemodellen stelt gebruikers in staat nieuwe afbeeldingen te genereren die een bepaald onderwerp incorporeren, wat meer controle biedt dan een tekstprompt. Deze modellen presteren vaak minder goed wanneer ze simpelweg het onderwerp opnieuw creëren en de tekstprompt negeren. We observeren dat een populaire methode voor personalisatie, de IP-Adapter, automatisch maskers genereert waarmee we het onderwerp tijdens de inferentie duidelijk van de achtergrond kunnen segmenteren. Wij stellen voor om dit automatisch gegenereerde masker in een tweede ronde te gebruiken om de beeldtokens te maskeren, waardoor deze beperkt blijven tot het onderwerp en niet de achtergrond, zodat de tekstprompt zich kan richten op de rest van de afbeelding. Voor tekstprompts die locaties en plaatsen beschrijven, resulteert dit in afbeeldingen die het onderwerp nauwkeurig weergeven en tegelijkertijd exact overeenkomen met de prompt. We vergelijken onze methode met enkele andere personalisatiemethoden tijdens de testfase en constateren dat onze methode een hoge afstemming tussen de prompt en de bronafbeelding vertoont.