Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren LLaDA2.0-Uni, een verenigd discreet diffusie groot taalmodel (dLLM) dat multimodale interpretatie en generatie ondersteunt binnen een natieve, geïntegreerde architectuur. De modelarchitectuur combineert een volledig semantische discrete tokenizer, een op Mixture-of-Experts (MoE) gebaseerde dLLM-backbone en een diffusiedecoder. Door continue visuele invoer te discretiseren via SigLIP-VQ, maakt het model blokniveau gemaskeerde diffusie mogelijk voor zowel tekst- als beeldinvoer binnen de backbone, terwijl de decoder visuele tokens reconstrueert tot hoogwaardige afbeeldingen. De inferentie-efficiëntie wordt verder verbeterd voorbij parallel decoderen door prefix-aware optimalisaties in de backbone en few-step distillatie in de decoder. Ondersteund door zorgvuldig samengestelde grootschalige data en een op maat gemaakt meerfasen-trainingsproces, evenaart LLaDA2.0-Uni gespecialiseerde VLMs in multimodale interpretatie en levert het tegelijkertijd sterke prestaties in beeldgeneratie en -bewerking. De native ondersteuning voor geïnterlinieerde generatie en redenering vestigt een veelbelovend en schaalbaar paradigma voor de volgende generatie verenigde foundation-modellen. Code en modellen zijn beschikbaar op https://github.com/inclusionAI/LLaDA2.0-Uni.
Versterkend leren met verifieerbare beloningen (RLVR) is een kernrecept geworden voor nafining. Het introduceren van geschikte off-policy trajecten in on-policy exploratie versnelt de RLVR-convergentie en verhoogt het prestatieplafond, maar het vinden van een bron van dergelijke trajecten blijft de grootste uitdaging. Bestaande mixed-policy methodes importeren trajecten van externe leraren (hoogwaardig maar distributioneel ver weg) of herhalen oude trainings trajecten (dichtbij maar beperkt in kwaliteit), en geen van beide voldoet gelijktijdig aan de vereiste voorwaarden van sterk genoeg (hogere Q, meer nieuwe kennis om te leren) en dichtbij genoeg (lagere V, makkelijker opneembaar) die nodig zijn om het effectieve leersignaal S = Q/V te maximaliseren. Wij stellen Near-Future Policy Optimization (NPO) voor, een eenvoudig mixed-policy schema dat leert van het eigen nabije toekomstige zelf van een policy: een latere checkpoint uit dezelfde trainingsrun is een natuurlijke bron van hulptrajecten die zowel sterker is dan het huidige beleid als dichterbij dan welke externe bron ook, en die direct trajectkwaliteit afweegt tegen variantiekosten. We valideren NPO via twee handmatige interventies, bootstrapping in de vroege fase en doorbraak van plateaus in de late fase, en stellen verder AutoNPO voor, een adaptieve variant die automatisch interventies activeert op basis van online trainingssignalen en de gids-checkpoint selecteert die S maximaliseert. Op Qwen3-VL-8B-Instruct met GRPO verbetert NPO de gemiddelde prestatie van 57.88 naar 62.84, en AutoNPO duwt deze naar 63.15, waardoor het uiteindelijke prestatieplafond wordt verhoogd terwijl de convergentie wordt versneld.
Edge-scale deep research agents gebaseerd op kleine taalmodellen zijn aantrekkelijk voor implementatie in de praktijk vanwege hun voordelen op het gebied van kosten, latentie en privacy. In dit werk onderzoeken we hoe we een sterke kleine deep research agent kunnen trainen met beperkte open data door zowel de datakwaliteit als het datagebruik te verbeteren. We presenteren DR-Venus, een grensverleggende 4B deep research agent voor edge-scale implementatie, volledig gebouwd op open data. Ons trainingsrecept bestaat uit twee fasen. In de eerste fase gebruiken we agentic supervised fine-tuning (SFT) om een basale agentische capaciteit op te bouwen, waarbij we strikte datareiniging combineren met hermonstering van trajecten met een lange horizon om de datakwaliteit en het datagebruik te verbeteren. In de tweede fase passen we agentic reinforcement learning (RL) toe om de uitvoeringsbetrouwbaarheid bij deep research taken met een lange horizon verder te verbeteren. Om RL effectief te maken voor kleine agents in deze setting, bouwen we voort op IGPO en ontwerpen we beloningen op turn-niveau gebaseerd op informatieverwerving en formaatbewuste regularisatie, waardoor de dichtheid van supervisie en toewijzing van credits op turn-niveau worden verbeterd. Volledig gebouwd op ongeveer 10K open data, presteert DR-Venus-4B aanzienlijk beter dan eerdere agentische modellen met minder dan 9B parameters op meerdere deep research benchmarks, terwijl het ook de kloof met veel grotere 30B-class systemen verkleint. Onze verdere analyse toont aan dat 4B agents al een verrassend sterk prestatiepotentieel bezitten, wat zowel de implementatiebelofte van kleine modellen als de waarde van test-time scaling in deze setting benadrukt. We geven onze modellen, code en belangrijke recepten vrij om reproduceerbaar onderzoek naar edge-scale deep research agents te ondersteunen.
Vision-language models aangedreven mobiele agents hebben indrukwekkende capaciteiten getoond bij het automatiseren van mobiele taken, waarbij recente toonaangevende modellen een opmerkelijke prestatiesprong hebben bereikt, bijvoorbeeld bijna 70% succes op AndroidWorld. Deze systemen houden hun trainingsdata echter gesloten en blijven ondoorzichtig over hun recepten voor taak- en traject-synthese. Wij presenteren OpenMobile, een open-source raamwerk dat hoogwaardige taakinstructies en agenttrajecten synthetiseert, met twee kernelementen: (1) Ten eerste een schaalbare taaksynthese-pijplijn die een globaal omgevingsgeheugen opbouwt vanuit verkenning, en dit vervolgens benut om diverse en gegronde instructies te genereren. En (2) een policy-switching strategie voor trajectuitrol. Door af te wisselen tussen leerling- en expertmodellen, vangt het essentiële fouthersteldata op die vaak ontbreekt in standaard imitatieleren. Agents getraind op onze data behalen competitieve resultaten op drie dynamische mobiele agent benchmarks: opmerkelijk genoeg bereiken onze gefinetunede Qwen2.5-VL en Qwen3-VL respectievelijk 51.7% en 64.7% op AndroidWorld, wat ver uitstijgt boven bestaande open-data benaderingen. Verder voeren we transparante analyses uit naar de overlap tussen onze synthetische instructies en benchmark test sets, en verifiëren we dat prestatieverbeteringen voortkomen uit brede functionele dekking in plaats van overfitting op de benchmark. We geven data en code vrij op https://njucckevin.github.io/openmobile/ om de datakloof te overbruggen en breder mobiel agent-onderzoek te faciliteren.
Recente vooruitgang in videogeneratieve modellen maakt de synthese van realistische mens-objectinteractievideo's mogelijk in een breed scala aan scenario's en objectcategorieën, inclusief complexe behendige manipulaties die moeilijk vast te leggen zijn met motion-capturesystemen. Hoewel de rijke interactiekennis die in deze synthetische video's is ingebed een groot potentieel heeft voor bewegingsplanning bij behendige robotmanipulatie, maken hun beperkte fysieke nauwkeurigheid en puur 2D-karakter het moeilijk om ze direct te gebruiken als imitatiedoelen in op fysica gebaseerde karaktercontrole. Wij presenteren DeVI (Dexterous Video Imitation), een nieuw raamwerk dat gebruikmaakt van tekstgeconditioneerde synthetische video's om fysisch plausibele behendige agentcontrole mogelijk te maken voor interactie met onbekende doelobjecten. Om de onnauwkeurigheid van generatieve 2D-signalen te overwinnen, introduceren we een hybride trackingbeloning die 3D-mensentracking integreert met robuuste 2D-objecttracking. In tegenstelling tot methoden die afhankelijk zijn van hoogwaardige 3D-kinematische demonstraties, vereist DeVI alleen de gegenereerde video, wat zero-shot-generalizatie over diverse objecten en interactietypes mogelijk maakt. Uitgebreide experimenten tonen aan dat DeVI bestaande benaderingen die 3D-mens-objectinteractiedemonstraties imiteren, overtreft, met name in het modelleren van behendige hand-objectinteracties. We valideren verder de effectiviteit van DeVI in multi-objectscènes en tekstgedreven actiediversiteit, wat het voordeel aantoont van het gebruik van video als een HOI-bewuste bewegingsplanner.
Ruimtelijke intelligentie is essentieel voor multimodale grote taalmodellen, maar huidige benchmarks beoordelen deze voornamelijk vanuit een begripsperspectief. Wij onderzoeken of moderne generatieve of unificerende multimodale modellen eveneens beschikken over generatieve ruimtelijke intelligentie (GSI) – het vermogen om 3D-ruimtelijke beperkingen te respecteren en te manipuleren tijdens beeldgeneratie – en of dergelijke capaciteit gemeten of verbeterd kan worden. Wij introduceren GSI-Bench, de eerste benchmark die is ontworpen om GSI te kwantificeren via ruimtelijk verankerde beeldbewerking. Deze bestaat uit twee complementaire componenten: GSI-Real, een hoogwaardige real-world dataset opgebouwd via een op 3D-principes gebaseerd generatie- en filterproces, en GSI-Syn, een grootschalige synthetische benchmark met controleerbare ruimtelijke operaties en volledig geautomatiseerde labeling. In combinatie met een uniform evaluatieprotocol stelt GSI-Bench schaalbare, model-agnostische beoordeling van ruimtelijke naleving en bewerkingsnauwkeurigheid mogelijk. Experimenten tonen aan dat fine-tuning van unificerende multimodale modellen op GSI-Syn aanzienlijke verbeteringen oplevert voor zowel synthetische als real-world taken en, opvallend genoeg, ook het ruimtelijk begrip voor downstreamtaken verbetert. Dit levert het eerste duidelijke bewijs dat generatieve training ruimtelijk redeneren tastbaar kan versterken, waarmee een nieuw pad wordt gevestigd voor de vooruitgang van ruimtelijke intelligentie in multimodale modellen.
Reinforcement Learning from Human Feedback (RLHF) en aanverwante afstemmingsparadigma's zijn centraal komen te staan bij het sturen van grote taalmodellen (LLM's) en multimodale grote taalmodellen (MLLM's) naar door mensen geprefereerd gedrag. Deze benaderingen introduceren echter een systemische kwetsbaarheid: reward hacking, waarbij modellen imperfecties in aangeleerde beloningssignalen uitbuiten om proxy-doelstellingen te maximaliseren zonder de werkelijke taakintentie te vervullen. Naarmate modellen schalen en optimalisatie intensiveert, manifesteert een dergelijke exploitatie zich als verbaosheidsbias, sycophantie, gerechtvaardigde hallucinaties, benchmark-overfitting, en in multimodale contexten, als ontkoppeling van perceptie en redenering en manipulatie van evaluatoren. Recent bewijs suggereert verder dat schijnbaar onschadelijk shortcut-gedrag kan generaliseren naar bredere vormen van misalignement, waaronder misleiding en strategisch spel met toezichtmechanismen. In dit overzichtsartikel stellen wij de Proxy Compressie Hypothese (PCH) voor als een verenigend kader om reward hacking te begrijpen. Wij formaliseren reward hacking als een emergent gevolg van het optimaliseren van expressieve beleidsregels tegen gecomprimeerde beloningsrepresentaties van hoogdimensionale menselijke doelstellingen. Vanuit dit perspectief ontstaat reward hacking uit de interactie van doelcompressie, optimalisatieversterking en co-adaptatie tussen evaluator en beleid. Dit perspectief verenigt empirische fenomenen binnen RLHF-, RLAIF- en RLVR-regimes, en verklaart hoe lokale shortcut-learning kan generaliseren naar bredere vormen van misalignement, inclusief misleiding en strategische manipulatie van toezichtmechanismen. Wij categoriseren verder strategieën voor detectie en mitigatie op basis van hoe zij ingrijpen op compressie-, versterkings- of co-adaptatiedynamieken. Door reward hacking te kaderen als een structurele instabiliteit van proxy-gebaseerde afstemming onder schaal, belichten wij open uitdagingen op het gebied van schaalbaar toezicht, multimodale verankering en agentische autonomie.
Naarmate de modelcapaciteiten vorderen, verschuift onderzoek steeds meer naar langetermijn, multi-turn taakgerichte agenttaken, waarbij ruime omgevingsfeedback vaak behouden blijft in de interactiegeschiedenis om toekomstige beslissingen te ondersteunen. Het herhaaldelijk behouden van dergelijke feedback introduceert echter aanzienlijke redundantie en zorgt ervoor dat de cumulatieve tokentocht kwadratisch toeneemt met het aantal stappen, wat langetermijnredenering belemmert. Hoewel observatiecompressie dit probleem kan verzachten, maakt de heterogeniteit van terminalomgevingen op heuristiek gebaseerde of fixed-prompt methoden moeilijk generaliseerbaar. Wij stellen TACO voor, een plug-and-play, zelf-evoluerend Terminal Agent Compression-framework dat automatisch compressieregels ontdekt en verfijnt uit interactietrajecten voor bestaande terminalagents. Experimenten op TerminalBench (TB 1.0 en TB 2.0) en vier aanvullende terminalgerichte benchmarks (zoals SWE-Bench Lite, CompileBench, DevEval en CRUST-Bench) tonen aan dat TACO consequent de prestaties verbetert across mainstream agentframeworks en sterke backbone-modellen. Met MiniMax-2.5 verbetert het de prestaties op de meeste benchmarks terwijl de tokenoverhead met ongeveer 10% wordt verminderd. Op TerminalBench levert het consistente winsten van 1%-4% op across sterke agentmodellen, en verbetert het de nauwkeurigheid verder met ongeveer 2%-3% binnen hetzelfde tokentocht. Deze resultaten demonstreren de effectiviteit en generalisatie van zelf-evoluerende, taakbewuste compressie voor terminalagents.
Mixture-of-Experts (MoE) is de dominante architectuur geworden voor het schalen van grote taalmodel(len): toonaangevende modellen ontkoppelen routinematig het totale aantal parameters van de berekening per token via sparse expert routing. Schalingswetten tonen aan dat onder vaste actieve berekening, de modelkwaliteit voorspelbaar schaalt met het totale aantal parameters, en MoE's realiseren dit door het aantal experts te vergroten. Echter, het trainen van grote MoE's is kostbaar, aangezien zowel de geheugeneisen als de communicatie tussen apparaten schalen met het totale aantal parameters. Wij stellen expert upcycling voor, een methode om de capaciteit van MoE's progressief uit te breiden door het aantal experts te verhogen tijdens voortgezette pre-training (VPT). Gegeven een getraind model met E experts, construeert de upcycling-operator een model met mE experts door expertduplicatie en router-uitbreiding, waarbij de top-K routing ongewijzigd blijft en de inferentiekosten per token behouden blijven. Duplicatie zorgt voor een warme initialisatie: het uitgebreide model erft de geleerde representaties van het broncheckpoint en start vanaf een aanzienlijk lager verlies dan willekeurige initialisatie. Latere VPT verbreekt vervolgens de symmetrie tussen gedupliceerde experts om specialisatie te bevorderen. Wij formaliseren de upcycling-operator en ontwikkelen een theoretisch kader dat de kwaliteitskloof decomposeert in een capaciteitsterm en een initialisatieterm. Wij introduceren verder utility-based expert selection, dat op gradienten gebaseerde belangrijkheidsscores gebruikt om niet-uniforme duplicatie te sturen, wat de kloofsluiting meer dan verdrievoudigt wanneer VPT beperkt is. In onze experimenten met 7B-13B totale parameters evenaart het upcyclede model de baseline met vaste grootte qua validatieverlies, terwijl 32% van de GPU-uren wordt bespaard. Uitgebreide ablatiestudies over verschillende modelschalen, activeringsratio's, MoE-architecturen en trainingsbudgets resulteren in een praktisch recept voor de implementatie van expert upcycling, waarmee het wordt gevestigd als een principieel, rekenzuinig alternatief voor het vanaf nul trainen van grote MoE-modellen.
Wij introduceren C-GenReg, een trainingsvrij raamwerk voor de registratie van 3D-puntenwolken dat de complementaire sterke punten benut van wereld-schaal generatieve voorafkennis en registratie-gerichte Vision Foundation Models (VFMs). Huidige op leren gebaseerde methoden voor 3D-puntenwolkregistratie hebben moeite met generaliseren over verschillende sensormodaliteiten, bemonsteringsverschillen en omgevingen. Daarom versterkt C-GenReg de geometrische tak voor puntenwolkregistratie door het matchingprobleem over te brengen naar een hulp-domein van afbeeldingen, waar VFMs uitblinken, met behulp van een World Foundation Model om multi-view consistente RGB-representaties te synthetiseren vanuit de ingevoerde geometrie. Deze generatieve overdracht behoudt ruimtelijke coherentie tussen bron- en doelweergaven zonder enige fine-tuning. Uit deze gegenereerde weergaven extraheert een VFM, vooraf getraind voor het vinden van dichte correspondenties, matches. De resulterende pixelcorrespondenties worden via de originele dieptekaarten teruggeprojecteerd naar 3D. Om de robuustheid verder te verbeteren, introduceren we een "Match-then-Fuse" probabilistisch cold-fusion-schema dat twee onafhankelijke correspondentie-posteriors combineert: die van de gegenereerde-RGB-tak met die van de ruwe geometrische tak. Deze principiële fusie behoudt de inductieve bias van elke modaliteit en biedt gekalibreerd vertrouwen zonder extra leren. C-GenReg is zero-shot en plug-and-play: alle modules zijn vooraf getraind en werken zonder fine-tuning. Uitgebreide experimenten op indoor (3DMatch, ScanNet) en outdoor (Waymo) benchmarks tonen een sterke zero-shot prestatie en superieure cross-domein generalisatie aan. Voor het eerst demonstreren we een generatief registratieraamwerk dat succesvol werkt op echte outdoor LiDAR-data, waar geen beeldmateriaal beschikbaar is.
End-to-end gesproken dialoogmodellen hebben aanzienlijke aandacht gekregen omdat ze een hoger potentieel plafond bieden qua expressiviteit en waarnemingsvermogen dan gecascadeerde systemen. De intelligentie en expressiviteit van huidige open-source gesproken dialoogmodellen blijven echter vaak onder de verwachtingen. Gemotiveerd door het succes van online reinforcement learning (RL) in andere domeinen, zou men kunnen proberen om preference optimization direct toe te passen op gesproken dialoogmodellen, maar deze overdracht is niet triviaal. Wij analyseren deze obstakels vanuit de perspectieven van beloningsmodellering en rollout-steekproeven, met de focus op hoe sparse preference supervisie interageert met dense spraakgeneratie onder gedeelde-parameter updates. Gebaseerd op de analyse stellen we een modality-aware adaptief post-training recept voor dat RL praktisch maakt voor gesproken dialoog: het beperkt preference updates tot het semantische kanaal en verbetert akoestisch gedrag via expliciete verankering, terwijl het hun mengsel dynamisch reguleert op basis van rollout-statistieken om onbetrouwbare preference gradients te vermijden. We evalueren de methode op meerdere gesproken dialoogbenchmarks en representatieve architecturen, en observeren consistente verbeteringen in semantische kwaliteit en spraakexpressiviteit.
AI-coderingsagenten worden op grote schaal geadopteerd, maar we beschikken nog over weinig empirisch bewijs over hoe mensen ze daadwerkelijk gebruiken en hoeveel van hun output in de praktijk nuttig is. Wij presenteren SWE-chat, de eerste grootschalige dataset van echte coderingsagentsessies, verzameld bij open-source-ontwikkelaars in de praktijk. De dataset bevat momenteel 6.000 sessies, bestaande uit meer dan 63.000 gebruikersprompts en 355.000 agenttool-aanroepen. SWE-chat is een levende dataset; onze verzamelpijplijn ontdekt en verwerkt automatisch en continu sessies uit publieke repositories. Met behulp van SWE-chat geven we een eerste empirische karakterisering van het gebruik en de faalwijzen van coderingsagenten in de praktijk. Wij constateren dat coderingspatronen bimodaal zijn: in 41% van de sessies schrijven de agenten vrijwel alle gecommitte code ("vibe coding"), terwijl in 23% de mensen alle code zelf schrijven. Ondanks snel verbeterende capaciteiten blijven coderingsagenten in natuurlijke omgevingen inefficiënt. Slechts 44% van alle door agenten geproduceerde code overleeft in gebruikerscommits, en door agenten geschreven code introduceert meer beveiligingslekken dan door mensen geschreven code. Bovendien gaan gebruikers in 44% van alle beurten in tegen de output van agenten – via correcties, foutmeldingen en onderbrekingen. Door complete interactietraceringen vast te leggen met toeschrijving van code-auteurschap tussen mens en agent, biedt SWE-chat een empirische basis om verder te gaan dan gecureerde benchmarks naar een op bewijs gebaseerd begrip van hoe AI-agenten presteren in echte ontwikkelaarsworkflows.
Versterkingsfijnafstemming verbetert het redeneervermogen van grote taalmodelen, maar kan hen er ook toe aanzetten om onbeantwoordbare vragen te beantwoorden door te gissen of ontbrekende informatie te hallucineren. Bestaande onthoudingsmethoden trainen modellen óf om generieke weigeringen te produceren, óf moedigen vervolgverduidelijkingen aan zonder te verifiëren of die verduidelijkingen de ontbrekende essentiële informatie identificeren. Wij bestuderen vragen die duidelijk van betekenis zijn, maar niet betrouwbaar kunnen worden opgelost met de gegeven informatie, en beargumenteren dat een betrouwbaar model niet alleen moet afzien van antwoorden, maar ook moet uitleggen wat ontbreekt. Wij stellen een clarificatiebewuste RLVR-beloning voor die, terwijl correcte antwoorden op beantwoordbare vragen worden beloond, gezamenlijk expliciete onthouding en semantisch uitgelijnde verduidelijking na weigering optimaliseert voor onbeantwoordbare vragen. Met deze beloning trainen wij Abstain-R1, een 3B-model dat de onthouding en verduidelijking voor onbeantwoordbare queries verbetert, terwijl het sterke prestaties op beantwoordbare queries behoudt. Experimenten op Abstain-Test, Abstain-QA en SelfAware tonen aan dat Abstain-R1 aanzienlijk verbetert ten opzichte van het basismodel en gedrag bij onbeantwoordbare queries vertoont dat competitief is met grotere systemen, waaronder DeepSeek-R1. Dit suggereert dat gekalibreerde onthouding en verduidelijking kunnen worden aangeleerd via verifieerbare beloningen, in plaats van uitsluitend voort te komen uit schaal.
Test-time scaling is een krachtige methode geworden om grote taalmodellen te verbeteren. Bestaande methoden zijn echter het meest geschikt voor korte, afgebakende outputs die direct vergeleken, gerangschikt of verfijnd kunnen worden. Langetermijn-codeeragenten gaan tegen dit uitgangspunt in: elke poging produceert een uitgebreide trajectorie van acties, observaties, fouten en gedeeltelijke voortgang van de agent. In deze context is de grootste uitdaging niet langer het genereren van meer pogingen, maar het representeren van eerdere ervaringen in een vorm waar effectief uit geselecteerd en die hergebruikt kan worden. Wij stellen een test-time scaling raamwerk voor voor agent-gebaseerd programmeren, gebaseerd op compacte representaties van rollout-trajectorieën. Ons raamwerk zet elke rollout om in een gestructureerde samenvatting die de belangrijkste hypotheses, voortgang en faalmodi behoudt, terwijl details met een laag signaalniveau worden weggefilterd. Deze representatie maakt twee complementaire vormen van inference-time scaling mogelijk. Voor parallelle scaling introduceren we Recursive Tournament Voting (RTV), dat een populatie van rollout-samenvattingen recursief verkleint via vergelijkingen in kleine groepen. Voor sequentiële scaling passen we Parallel-Distill-Refine (PDR) aan voor de agent-setting door nieuwe rollouts te conditioneren op samenvattingen die uit eerdere pogingen zijn gedistilleerd. Onze methode verbetert consequent de prestaties van geavanceerde codeeragenten in zowel SWE-Bench Verified als Terminal-Bench v2.0. Claude-4.5-Opus verbetert bijvoorbeeld van 70,9% naar 77,6% op SWE-Bench Verified (mini-SWE-agent) en van 46,9% naar 59,1% op Terminal-Bench v2.0 (Terminus 1) door gebruik te maken van onze methode. Onze resultaten suggereren dat test-time scaling voor langetermijnagenten fundamenteel een probleem is van representatie, selectie en hergebruik.
Recente studies tonen aan dat beeld- en videogeneratoren zero-shot visueel begrip vertonen, op een manier die doet denken aan hoe grote taalmodellen (LLM's) emergent vermogen tot taalbegrip en redenering ontwikkelen via generatieve voorpretraining. Hoewel lang werd verondersteld dat het vermogen om visuele inhoud te creëren impliceert dat men het ook kan begrijpen, was er tot nu toe beperkt bewijs dat generatieve visiemodellen sterke begripscapaciteiten hebben ontwikkeld. In dit werk tonen we aan dat training voor beeldgeneratie een vergelijkbare rol vervult als LLM-voorpretraining, en modellen in staat stelt krachtige en algemene visuele representaties te leren die state-of-the-art (SOTA) prestaties mogelijk maken op diverse visietaken. Wij introduceren Vision Banana, een generalistisch model gebouwd door instruction-tuning van Nano Banana Pro (NBP) op een mix van zijn oorspronkelijke trainingsdata en een kleine hoeveelheid data van visietaken. Door de uitvoerruimte van visietaken te parametriseren als RGB-beelden, herformuleren we waarneming naadloos als beeldgeneratie. Ons generalistische model, Vision Banana, behaalt SOTA-resultaten op uiteenlopende visietaken die zowel 2D- als 3D-begrip omvatten, en verslaat of evenaart zero-shot domeinspecialisten, waaronder Segment Anything Model 3 bij segmentatietaken, en de Depth Anything-reeks bij metrische diepteschatting. Wij laten zien dat deze resultaten bereikt kunnen worden met lichtgewicht instruction-tuning zonder de beeldgeneratiecapaciteiten van het basismodel op te offeren. De superieure resultaten suggereren dat voorpretraining op beeldgeneratie een generalistische visieleerder is. Het toont ook aan dat beeldgeneratie dient als een verenigde en universele interface voor visietaken, vergelijkbaar met de rol van tekstgeneratie bij taalbegrip en redeneren. Mogelijk zijn we getuige van een grote paradigmaverschuiving in computervisie, waarbij generatieve visie-voorpretraining een centrale rol gaat spelen bij het bouwen van Foundationele Visiemodellen voor zowel generatie als begrip.
Taalmodelle getraind op natuurlijke tekst leren getallen representeren met behulp van periodieke kenmerken met dominante periodes bij T=2, 5 en 10. In dit artikel identificeren we een tweeledige hiërarchie van deze kenmerken: hoewel Transformers, lineaire RNN's, LSTM's en klassieke woordembeddingen die op verschillende manieren zijn getraind, allemaal kenmerken leren die pieken met periode-T hebben in het Fourier-domein, leren slechts sommige geometrisch scheidbare kenmerken aan die kunnen worden gebruikt om een getal mod-T lineair te classificeren. Om deze incongruentie te verklaren, bewijzen we dat Fourier-domein sparseheid noodzakelijk maar niet voldoende is voor mod-T geometrische scheidbaarheid. Empirisch onderzoeken we wanneer modeltraining tot geometrisch scheidbare kenmerken leidt, waarbij we vaststellen dat de data, architectuur, optimizer en tokenizer allemaal een cruciale rol spelen. In het bijzonder identificeren we twee verschillende routes waarlangs modellen geometrisch scheidbare kenmerken kunnen verwerven: ze kunnen deze leren uit complementaire co-voorkomensignalen in algenele taaldata, inclusief tekst-getal co-voorkomens en interacties tussen getallen, of uit meer-token (maar niet enkel-token) optelproblemen. Over het geheel genomen benadrukken onze resultaten het fenomeen van convergente evolutie in kenmerkaanleren: een diverse reeks modellen leert vergelijkbare kenmerken uit verschillende trainingssignalen.
Industriële robotmanipulatie vereist betrouwbare uitvoering op lange termijn over verschillende uitvoeringsvormen, taken en veranderende objectdistributies. Hoewel Vision-Language-Action-modellen sterke generalisatie hebben aangetoond, blijven ze fundamenteel reactief. Door de volgende actie te optimaliseren op basis van de huidige observatie zonder toekomstige mogelijkheden te evalueren, zijn ze broos voor de cumulatieve faalmodi van taken met een lange horizon. Cortex 2.0 verschuift van reactieve controle naar plan-en-handel door kandidaat-toekomsttrajecten te genereren in de visuele latente ruimte, deze te scoren op verwacht succes en efficiëntie, en zich alleen te verbinden aan de kandidaat met de hoogste score. We evalueren Cortex 2.0 op een platform voor manipulatie met één arm en twee armen over vier taken van toenemende complexiteit: oppakken en plaatsen, sorteren van items en afval, schroeven sorteren en uitpakken van een schoenendoos. Cortex 2.0 presteert consistent beter dan state-of-the-art Vision-Language-Action-baselines en behaalt de beste resultaten voor alle taken. Het systeem blijft betrouwbaar in ongestructureerde omgevingen die worden gekenmerkt door zware rommel, frequente occlusies en manipulatie met veel contact, waar reactieve beleidsregels falen. Deze resultaten tonen aan dat planning op basis van wereldmodellen betrouwbaar kan opereren in complexe industriële omgevingen.
Naarmate op LLM gebaseerde assistenten persistent en gepersonaliseerd worden, moeten zij nuttige informatie uit eerdere gesprekken als geheugen extraheren en behouden. De soorten informatie die het waard zijn om te onthouden, verschillen echter aanzienlijk per taak. Wij formaliseren de heterogene geheugenextractietaak en introduceren BEHEMOTH, een benchmark die 18 bestaande datasets hergebruikt op het gebied van personalisatie, probleemoplossing en agenttaken, met gebruikmaking van een stroomafwaartse utility-gedreven metriek voor systematische evaluatie. Onze empirische analyse bevestigt dat geen enkele statische extractieprompt domineert over alle taakcategorieën, en dat bestaande zelf-evoluerende promptoptimalisatieframeworks, oorspronkelijk ontworpen voor homogene distributies, verslechteren wanneer trainings taken heterogeen zijn. Om dit aan te pakken, stellen wij CluE voor, een op clusters gebaseerde zelf-evoluerende strategie die trainingsvoorbeelden groepeert in clusters per extractiescenario, elke cluster onafhankelijk analyseert en inzichten uit verschillende clusters synthetiseert om de extractieprompt bij te werken. Experimenten op BEHEMOTH tonen aan dat CluE effectief generaliseert over heterogene taken (+9,04% relatieve winst), en consistent beter presteert dan eerdere zelf-evoluerende frameworks.
Ondanks de groeiende belangstelling voor onderzoek naar Korangegevens, blijven bestaande Korandatasets beperkt in zowel omvang als diversiteit. Om deze leemte op te vullen, presenteren wij Tadabur, een grootschalige Koran-audiodataset. Tadabur omvat meer dan 1400 uur aan recitatie-audio van meer dan 600 verschillende recitatoren, wat een aanzienlijke variatie biedt in recitatiestijlen, vocale kenmerken en opnameomstandigheden. Deze diversiteit maakt Tadabur tot een uitgebreide en representatieve bron voor onderzoek naar en analyse van Koranspraak. Door zowel de totale duur als de variabiliteit van beschikbare Korangegevens aanzienlijk uit te breiden, beoogt Tadabur toekomstig onderzoek te ondersteunen en de ontwikkeling van gestandaardiseerde Koranspraakbenchmarks te vergemakkelijken.
Sociaal intelligentie, het vermogen om complexe interpersoonlijke interacties te navigeren, vormt een fundamentele uitdaging voor taalagentschappen. Het trainen van dergelijke agentschappen via reinforcement learning vereist het oplossen van het credit assignment-probleem: het bepalen hoe individuele uitingen bijdragen aan uitkomsten in meerdaagse dialogen. Bestaande benaderingen gebruiken taalmodelen direct om beloningen op episodeniveau te verdelen, wat resulteert in attributies die retrospectief zijn en geen theoretische onderbouwing hebben. Wij stellen SAVOIR (ShApley Value fOr SocIal RL) voor, een nieuw principieel kader gebaseerd op de coöperatieve speltheorie. Onze aanpak combineert twee complementaire principes: verwacht nut verschuift de evaluatie van retrospectieve attributie naar prospectieve waardering, waarbij het strategische potentieel van een uiting wordt vastgelegd om gunstige toekomstige trajecten mogelijk te maken; Shapley-waarden zorgen voor een eerlijke verdeling van de credits met axiomatische garanties voor efficiëntie, symmetrie en marginaliteit. Experimenten op de SOTOPIA-benchmark tonen aan dat SAVOIR een nieuwe state-of-the-art prestatie bereikt in alle evaluatie-instellingen, waarbij ons 7B-model evenaart of overtreft propriëtaire modellen zoals GPT-4o en Claude-3.5-Sonnet. Opmerkelijk is dat zelfs grote redeneermodellen consistent ondermaats presteren, wat suggereert dat sociale intelligentie kwalitatief andere capaciteiten vereist dan analytisch redeneren.
Op grote taalmodellen (LLM's) gebaseerde systemen worden steeds vaker ingezet om autonoom wetenschappelijk onderzoek uit te voeren. Toch is er weinig bekend over de vraag of hun redenering voldoet aan de epistemische normen die wetenschappelijke vooruitgang zelfcorrigerend maken. Hier evalueren we op LLM's gebaseerde wetenschappelijke agents in acht domeinen, variërend van workflow-uitvoering tot hypothesegedreven onderzoek, via meer dan 25.000 agent-runs en twee complementaire invalshoeken: (i) een systematische prestatie-analyse die de bijdragen van het basismodel en de agentstructuur ontleedt, en (ii) een gedragsanalyse van de epistemologische structuur van de agentredenering. Wij observeren dat het basismodel de primaire bepalende factor is voor zowel prestaties als gedrag, goed voor 41,4% van de verklaarde variantie versus 1,5% voor de structuur. In alle configuraties wordt bewijs in 68% van de sporen genegeerd, vindt falsificatiegedreven geloofsherziening plaats in 26%, en is convergerend bewijs uit meerdere testen zeldzaam. Hetzelfde redeneerpatroon doet zich voor, ongeacht of de agent een computationele workflow uitvoert of hypothesegedreven onderzoek verricht. Deze patronen blijven bestaan, zelfs wanneer agents bijna volledig succesvolle redeneersporen als context ontvangen, en de resulterende onbetrouwbaarheid stapelt zich op over herhaalde trials in epistemisch veeleisende domeinen. Concluderend voeren op LLM's gebaseerde agents weliswaar wetenschappelijke workflows uit, maar vertonen zij niet de epistemische patronen die wetenschappelijk redeneren kenmerken. Resultaatgerichte evaluatie kan deze tekortkomingen niet detecteren, en alleen technische verbetering van de structuur kan ze niet verhelpen. Zolang redeneren zelf geen expliciet trainingsdoel blijft, kan de wetenschappelijke kennis die door dergelijke agents wordt geproduceerd, niet worden gerechtvaardigd door het proces dat haar genereerde.
In dit artikel onderzoeken we het probleem van het effectief beheersen van toolgebruik om complexe visuele redeneertaken op te lossen voor Multimodale Large Language Models. Om dit te bereiken, stellen we een nieuw Tool-supervised Reinforcement Learning (ToolsRL)-raamwerk voor, met directe toolsupervisie voor effectievere aanleer van toolgebruik. We richten ons op een reeks eenvoudige, native en interpreteerbare visuele tools, waaronder inzoomen, roteren, spiegelen en tekenen van punten/lijnen, waarvan de toolsupervisie eenvoudig te verzamelen is. Er wordt een reinforcement learning-curriculum ontwikkeld, waarbij de eerste fase uitsluitend wordt geoptimaliseerd door een set goed gemotiveerde tool-specifieke beloningen, en de tweede fase wordt getraind met op nauwkeurigheid gerichte beloningen terwijl het aanroepen van tools is toegestaan. Op deze manier wordt de toolaanroepprocedure beheerst voordat tools worden ingezet om visuele redeneertaken uit te voeren, waardoor een mogelijk optimalisatieconflict tussen deze heterogene taken wordt vermeden. Onze experimenten tonen aan dat de curriculumtraining met toolsupervisie efficiënt is en dat ToolsRL sterke toolgebruikscapaciteiten kan bereiken voor complexe visuele redeneertaken.
Gegeven alleen observationele gegevens X = g(Z), waarbij zowel de latente variabelen Z als het genererende proces g onbekend zijn, is het herstellen van Z ill-posed zonder aanvullende aannames. Bestaande methoden veronderstellen vaak lineariteit of steunen op aanvullende supervisie en functionele beperkingen. Dergelijke aannames zijn in de praktijk echter zelden verifieerbaar, en de meeste theoretische garanties vervallen zelfs bij kleine overtredingen, wat onzekerheid creëert over hoe de verborgen wereld betrouwbaar kan worden begrepen. Om identificeerbaarheid bruikbaar te maken in realistische scenario's, nemen we een complementair perspectief in: in de algemene settings waar volledige identificeerbaarheid onhaalbaar is, wat kan er dan nog steeds met garanties worden hersteld, en welke vooroordelen zouden universeel kunnen worden aangenomen? Wij introduceren het probleem van divers dictionary learning om dit perspectief te formaliseren. Concreet tonen we aan dat doorsneden, complementen en symmetrische verschillen van latente variabelen gekoppeld aan willekeurige observaties, samen met de latent-naar-geobserveerde afhankelijkheidsstructuur, nog steeds identificeerbaar zijn tot op geschikte onbepaaldheden, zelfs zonder sterke aannames. Deze verzamelingstheoretische resultaten kunnen worden samengesteld met behulp van verzamelingsalgebra om gestructureerde en essentiële perspectieven op de verborgen wereld te construeren, zoals genus-differentia definities. Wanneer voldoende structurele diversiteit aanwezig is, impliceren ze verder de volledige identificeerbaarheid van alle latente variabelen. Opmerkelijk is dat alle identificeerbaarheidsvoordelen volgen uit een eenvoudige inductieve vooringenomenheid tijdens de schatting, die eenvoudig kan worden geïntegreerd in de meeste modellen. We valideren de theorie en demonstreren de voordelen van de vooringenomenheid op zowel synthetische als real-world gegevens.
Het genereren van menselijke video's blijft een uitdaging vanwege de moeilijkheid om menselijk uiterlijk, beweging en camerastandpunt gezamenlijk te modelleren met beperkte multi-view data. Bestaande methoden behandelen deze factoren vaak afzonderlijk, wat leidt tot beperkte bestuurbaarheid of verminderde visuele kwaliteit. Wij benaderen dit probleem opnieuw vanuit een beeld-eerst perspectief, waarbij hoogwaardig menselijk uiterlijk wordt aangeleerd via beeldgeneratie en gebruikt wordt als prior voor videosynthese, waardoor de modellering van uiterlijk wordt ontkoppeld van temporele consistentie. Wij stellen een pijplijn voor met bestuurbare poses en gezichtspunten die een vooraf getrainde beeldbackbone combineert met SMPL-X-gebaseerde bewegingsgeleiding, samen met een trainingsvrije temporele verfijningsfase gebaseerd op een vooraf getraind videodiffusiemodel. Onze methode produceert hoogwaardige, temporeel consistente video's onder diverse poses en gezichtspunten. Wij publiceren ook een canonieke humane dataset en een hulpmodel voor compositionele menselijke beeldgeneratie. Code en data zijn openbaar beschikbaar op https://github.com/Taited/ReImagine.
Frontier coderingsagenten worden steeds vaker gebruikt in workflows waarbij gebruikers de voortgang voornamelijk bewaken door herhaalde verbetering van een publieke score, namelijk de gerapporteerde score op een openbaar evaluatiebestand met labels in de werkomgeving, in plaats van door directe inspectie van de tussenuitvoer van de agent. Wij onderzoeken of meerronde gebruikersdruk om die score te verbeteren leidt tot public score exploitation: gedrag dat de publieke score verhoogt via shortcuts zonder verbetering van de verborgen private evaluatie. We beginnen met een voorlopige single-script tabulaire classificatietaak, waarbij zowel GPT-5.4 als Claude Opus 4.6 labelinformatie exploiteren binnen 10 ronden van gebruiker-agent interactie. Vervolgens bouwen we AgentPressureBench, een benchmark met 34 taken uit een machine learning-repository, verspreid over drie invoermodaliteiten, en verzamelen we 1326 meerronde trajecten van 13 coderingsagenten. Op onze benchmark observeren we 403 exploiterende runs, verspreid over alle taken. We vinden ook dat sterkere modellen hogere exploitatiepercentages hebben, ondersteund door een significante Spearman rangcorrelatie van 0.77. Onze ablatie-experimenten tonen aan dat hogere gebruikersdruk leidt tot eerdere exploitatie, waardoor de gemiddelde eerste exploitronde daalt met 15.6 ronden (d.w.z. van 19.67 naar 4.08). Als mitigatie elimineert het toevoegen van expliciete anti-exploit bewoordingen in de prompt exploitatie grotendeels (van 100% naar 8.3%). We hopen dat ons werk aandacht kan vestigen op een zorgvuldiger gebruik van coderingsagent-workflows, en op de ontwikkeling van robuustere coderingsagenten onder gebruikersdruk. Onze projectpagina staat op https://ucsc-vlaa.github.io/AgentPressureBench.
Grote taalmodellen (LLM's) vertonen vaak prestatieverschillen tussen talen, waarbij naïeve meertalige fine-tuning de prestaties veelal verslechtert als gevolg van negatieve cross-linguale interferentie. Om dit aan te pakken, introduceren wij COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), een nieuw data-gecentreerd raamwerk voor het aanpassen van LLM's aan doeltalen. COMPASS benut parameter-efficiënte fine-tuning (PEFT) door lichtgewicht, taalspecifieke adapters te trainen op een zorgvuldig geselecteerde subset van aanvullende meertalige data. De kern van onze methode is een distributiebewuste samplingstrategie die meertalige embeddings en clustering gebruikt om semantische hiaten te identificeren tussen bestaande trainingsdata en een doelgebruiksdistributie. Door prioriteit te geven aan aanvullende data uit ondervertegenwoordigde semantische clusters, maximaliseert COMPASS positieve cross-linguale transfer terwijl interferentie wordt geminimaliseerd. Wij breiden dit uit tot een continu leerraamwerk, COMPASS-ECDA, dat shifts in de datadistributie tijdens productie monitort en adapters dynamisch bijwerkt om modelveroudering te voorkomen, waarbij adaptatie aan nieuwe data wordt afgewogen tegen het behoud van bestaande kennis. Over drie verschillende modelarchitecturen (Phi-4-Mini, Llama-3.1-8B en Qwen2.5-7B) en meerdere uitdagende meertalige benchmarks (Global-MMLU, MMLU-ProX), inclusief onbekende lange-contexttaken (OneRuler), tonen wij aan dat COMPASS consistent beter presteert dan baseline-methoden die door linguïstische similariteit worden geleid. Het biedt daarmee een effectieve, efficiënte en duurzame oplossing voor het ontwikkelen en onderhouden van hoogpresterende meertalige modellen in dynamische omgevingen.
Wij presenteren MMCORE, een uniform raamwerk ontworpen voor multimodale beeldgeneratie en -bewerking. MMCORE benut een vooraf getraind Vision-Language Model (VLM) om semantische visuele embeddings te voorspellen via leerbare querytokens, die vervolgens als conditioneringssignalen dienen voor een diffusiemodel. Dit gestroomlijnde ontwerp transfereert effectief het rijke begrip en de redeneercapaciteiten van VLMs naar het visuele generatieproces. Door de noodzaak van diepe fusie tussen autoregressieve en diffusiemodellen of training vanaf nul te omzeilen, vermindert MMCORE de rekenkosten aanzienlijk terwijl hoogwaardige synthese behouden blijft. MMCORE integreert naadloos tekst-naar-beeld synthese met intergelegeerde beeldgeneratie, en demonstreert robuuste multimodale begripsvaardigheid in complexe scenario's zoals ruimtelijk redeneren en visuele verankering. Uitgebreide evaluaties tonen aan dat MMCORE consistent state-of-the-art baselines overtreft op een breed spectrum van tekst-naar-beeld en enkel-/meervoudige beeldbewerkingsbenchmarks.
Grote taalmodellen kunnen geloofwaardige spelcode genereren, maar het omzetten van deze capaciteit naar iteratieve creatieve verbetering blijft moeilijk. In de praktijk produceert eenmalige generatie vaak broos runtime-gedrag, zwakke accumulatie van ervaring over versies heen, en creativiteitsscores die te subjectief zijn om als betrouwbare optimalisatiesignalen te dienen. Een verdere beperking is dat game-mechanieken vaak alleen als post-hoc beschrijvingen worden behandeld, in plaats van als expliciete objecten die kunnen worden gepland, gevolgd, bewaard en geëvalueerd tijdens de generatie. Dit rapport presenteert CreativeGame, een multi-agent systeem voor iteratieve HTML5-spelgeneratie dat deze problemen aanpakt via vier gekoppelde ideeën: een proxy-beloning gericht op programmeermatige signalen in plaats van puur oordeel van het taalmodel; geheugen met afstammingsbereik voor de accumulatie van ervaring over versies heen; runtime-validatie geïntegreerd in zowel reparatie als beloning; en een op mechanieken geleide planningslus waarin opgehaalde kennis over mechanieken wordt omgezet in een expliciet mechaniekenplan voordat de codegeneratie begint. Het doel is niet slechts het produceren van een speelbaar artefact in één stap, maar het ondersteunen van interpreteerbare evolutie van versie tot versie. Het huidige systeem bevat 71 opgeslagen afstammingslijnen, 88 opgeslagen knooppunten en een globaal mechaniekenarchief met 774 entries, geïmplementeerd in 6.181 regels Python-code samen met inspectie- en visualisatietools. Het systeem is dus substantieel genoeg om architectuuranalyse, inspectie van beloningen en echte casestudies op afstammingsniveau te ondersteunen, in plaats van alleen demonstraties op promptniveau. Een echte afstammingslijn van 4 generaties toont aan dat innovatie op mechaniekenniveau kan ontstaan in latere versies en direct kan worden geïnspecteerd via versie-tot-versie gegevens. De centrale bijdrage is daarom niet alleen spelgeneratie, maar een concrete pijplijn voor het observeren van progressieve evolutie door expliciete verandering van mechanieken.
Semi-Markov Conditionele Random Fields (semi-CRFs) kennen labels toe aan segmenten van een sequentie in plaats van aan individuele posities, wat exacte inferentie over segment-level kenmerken en geprincipeerde onzekerheidsschattingen aan hun grenzen mogelijk maakt. Bestaande implementaties moeten echter een grote edge potential tensor materialiseren, waarvan de grootte toeneemt met de sequentielengte, de maximale segmentlengte en het aantal labels, wat onhaalbaar wordt voor state spaces op spraakschaal en onhanteerbaar op genomische schaal, waar sequenties meer dan 100.000 posities kunnen overschrijden. Deze geheugenflessenhals heeft de adoptie van exacte segment-level inferentie voor lange sequenties en grote labelsets beperkt. Wij identificeren dat de kerninefficiëntie ligt in het materialiseren van edge potentials die in plaats daarvan on-the-fly kunnen worden geëvalueerd vanuit een compact prefix-sum array, en doen verschillende verbeteringen. Ten eerste reduceert het vervangen van de opgeslagen edge tensor door prefix-sum lookup de geheugenvoetafdruk met een factor evenredig aan het product van segmentlengte en labelaantal. Ten tweede houdt een streaming forward-backward pass met checkpoint-boundary normalisatie het werkgeheugen sublineair in de sequentielengte, terwijl exacte gradienten behouden blijven. Ten derde controleren zero-centered cumulative scores numerieke drift en induceren ze een adaptieve duration prior onder labelonbalans. Wij integreren deze ideeën in Flash-SemiCRF, een gefuseerde Triton-kernel die exacte semi-CRF inferentie op voorheen onhanteerbare probleemgroottes mogelijk maakt. Beschikbaar op https://github.com/biobenkj/flash-semicrf.
Eerder onderzoek toont aan dat het finetunen van afgestemde modellen op goedaardige gegevens de veiligheid aantast in tekst- en beeldmodaliteiten, en dat de nabijheid tot schadelijke inhoud in de representatieruimte voorspelt welke voorbeelden de meeste schade veroorzaken. Bestaande analyses opereren echter binnen een enkele, ongedifferentieerde inbeddingsruimte – waardoor onduidelijk blijft of verschillende invoereigenschappen de kwetsbaarheid anders sturen. Audio introduceert een structureel rijker probleem: een goedaardig voorbeeld kan schadelijke inhoud naburigen, niet alleen door wat er gezegd wordt, maar ook door hoe het klinkt, zelfs wanneer de woorden volledig onschuldig zijn. Wij presenteren de eerste systematische studie naar veiligheid bij goedaardig finetunen in Audio-LLM's, waarbij we drie state-of-the-art modellen evalueren met een op nabijheid gebaseerd filterraamwerk dat goedaardige audio selecteert op basis van de afstand in de inbeddingsruimte tot schadelijke inhoud. Door nabijheid te ontleden in semantische, akoestische en gemengde assen met behulp van externe referentie-encoders naast de interne encoder van elk model, tonen we aan dat goedaardig finetunen het Jailbreak Success Rate (JSR) verhoogt van enkele procenten tot wel 87,12%. Cruciaal is dat de dominante kwetsbaarheidsas en het relatieve risico van audio- versus tekstfinetuning beide architectuur-geconditioneerd zijn – bepaald door hoe de encoder en projector van elk model audio transformeren naar de invoerruimte van de LLM. Wij stellen twee verdedigingen voor: het filteren van trainingsgegevens om de afstand tot schadelijke inbeddingen te maximaliseren, en een tekstueel systeemprompt tijdens inferentie, die beide de JSR reduceren tot bijna nul zonder architecturale aanpassing. Onze mechanistische analyse op twee architecturen onthult dat finetunen selectief het weigeringscircuit in de late lagen onderdrukt terwijl de bevroren encoder representaties behoudt, en dat zelfs het onderdrukkingspatroon architectuur-geconditioneerd is, wat de gedragsasymmetrieën tussen modaliteiten weerspiegelt. Veiligheidsdegradatie door goedaardig finetunen is een kwalitatief ander risico in Audio-LLM's.