Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wereldmodellen voor interactieve videogeneratie hebben zich grotendeels gericht op single-agent-instellingen, waarbij toekomstige observaties worden gegenereerd op basis van één enkel controlesignaal. Veel gegenereerde omgevingen vereisen echter multi-agent-interactie: meerdere spelers, robots of belichaamde agenten handelen gelijktijdig in een gedeelde ruimte. Het opschalen van wereldmodellen naar dergelijke instellingen vereist een principieel multi-agent-ontwerp: agenten moeten onafhankelijk controleerbaar blijven, permutatiesymmetrisch zijn en efficiënte inferentie ondersteunen, terwijl consistentie over tijd en perspectieven wordt gehandhaafd. In dit artikel presenteren wij ons generatief multi-agent-wereldmodel voor interactieve simulatie. Het introduceert Simplex Rotary Agent Encoding, een parametervrije uitbreiding van 3D RoPE die agenten voorstelt als hoekpunten van een regelmatige simplex in de rotatiehoekruimte. Dit geeft elke agent een eigen fase terwijl alle agenten permutatie-equivalent worden, wat schaalbare agentidentiteit mogelijk maakt zonder aangeleerde per-slot-identiteiten of een vaste agentvolgorde. Om dichte all-to-all-aandacht tussen agenten te vermijden, stellen we verder Sparse Hub Attention voor, waarbij leerebare hub-tokens de tokeninteractie tussen agenten bemiddelen, waardoor de cross-agent-aandachtkosten van kwadratisch naar lineair in het aantal agenten worden gereduceerd. Voor real-time rollout distilleren we een full-context-diffusie-teacher in een causale student die temporele blokken sequentieel genereert met KV-caching, wat actie-responsieve generatie mogelijk maakt met 24 FPS. Experimenten in multiplayer-virtuele omgevingen tonen aan dat ons model de videogetrouwheid, actiecontroleerbaarheid en inter-agent-consistentie verbetert ten opzichte van op slots gebaseerde en dichte-aandacht-baselines, terwijl het generaliseert van twee naar vier spelers zonder extra training.
Proactieve Aanbevelingssystemen (PRS) hebben als doel om de verschuiving van gebruikersvoorkeuren richting doelitems te sturen door paden van tussenliggende aanbevelingen te genereren. Reinforcement learning (RL) biedt een principieel raamwerk voor het optimaliseren van dergelijke sequentiële beslissingstaken, omdat padbeloningen zowel kortetermijnacceptatie als langetermijnsturingseffectiviteit op natuurlijke wijze kunnen vastleggen. Het naïef toepassen van policy gradients op PRS leidt echter tot gebrekkige gradientschatting. We identificeren twee tekortkomingen: (1) padniveau-beloningen worden ontleed in stapsgewijze beloningen met een positief gemiddelde, wat een lengteafhankelijke vertekening creëert waardoor gradients padverlenging begunstigen boven zinvolle exploratie; (2) het wegen van elke stap met de volledige padniveau-beloning negeert de ontledingsstructuur, wat leidt tot hoge gradientvariantie. Om deze twee tekortkomingen te verhelpen, stellen we een effectief RL-raamwerk ProRL voor met twee nieuwe mechanismen voor proactieve aanbeveling. Ten eerste trekt Stapsgewijze Beloningscentrering verwachte beloningen af om lengteafhankelijke vertekening te neutraliseren, wat ervoor zorgt dat padverlenging een verwacht gradientsignaal van nul oplevert. Ten tweede maakt Positiespecifieke Voordeelschatting gebruik van de beloningsontledingsstructuur om stapafhankelijke baselines te berekenen, waardoor de gradientvariantie wordt verminderd. Samen leveren deze mechanismen policy gradients op die precies gericht zijn op padkwaliteit. Onze experimenten op drie real-world datasets tonen aan dat ProRL significant beter presteert dan state-of-the-art PRS. Onze code is beschikbaar op https://github.com/hongruhou89/ProRL.
Visie-taalmodellen met uitgebreid redeneren presteren goed op complexe problemen, maar veel realistische problemen vereisen externe tools die interne redenering alleen vaak niet kan oplossen. Agentisch redeneren combineert daarom twee gedragingen met een structurele asymmetrie: denken (de op zichzelf staande standaard) en toolgebruik (een hoge-variantie aanvullende handeling). We verwijzen naar deze asymmetrie als de Thinking-Acting Gap. Onder standaard RL-recepten zoals GRPO manifesteert de kloof zich tijdens training in twee diagnostische symptomen: toolgebruik wordt slechts in ~30% van de uitrolmomenten geprobeerd, en wanneer het wordt geprobeerd, zijn de tool-gebruikende uitrolmomenten binnen een groep op ~40% van de vragen allemaal fout, waardoor het leersignaal wordt onderdrukt op de tool-aanroepen die het nodig hadden. Wij stellen AXPO (Agent eXplorative Policy Optimization) voor: voor elke subgroep van volledig foute tool-gebruikende uitrolmomenten fixeert AXPO de denkprefix en herneemt het de tool-aanroep en de voortzetting ervan, gekoppeld aan onzekerheidsgebaseerde prefixselectie. Over negen multimodale benchmarks en drie schalen van Qwen3-VL-Thinking presteert SFT+AXPO gemiddeld beter dan SFT+GRPO (+1,8 procentpunt Pass@1 en +1,8 procentpunt Pass@4 bij 8B gemiddeld) en 8B met SFT+AXPO overtreft de 32B Base op Pass@4 met 4 keer minder parameters.
Huidige vision-languagemodellen (VLM's) koppelen doorgaans afzonderlijke beeldencoders en taaldecoders aan elkaar via meerfasige afstemming, een modulair raamwerk dat onvermijdelijk pixelsignalen over frames fragmenteert en vroege pixel-woordinteracties verspreidt. Parallel daaraan blijven native VLM's, ondanks indrukwekkende prestaties op enkele afbeeldingen, grotendeels onverkend op het gebied van meerdere afbeeldingen, videobegrip en ruimtelijke intelligentie. Daarom introduceren we NEO-ov, een natief funderingsmodel dat cross-frame- en pixel-woordcorrespondentie leert van begin tot eind, zonder externe encoders, hulpadapters of post-hocfusie. Door modulegrenzen volledig te elimineren, maakt NEO-ov het mogelijk dat fijnmazige en uniforme spatiotemporele modellering native binnen het model ontstaat. Opvallend is dat NEO-ov de kloof met modulaire tegenhangers aanzienlijk verkleint, terwijl het uitblinkt in fijnmazige visuele perceptie, wat bevestigt dat native 'one-vision'-architecturen niet alleen haalbaar zijn, maar ook concurrerend op schaal. Naast empirische prestaties onthullen we systematische architectuuranalyses en gedetailleerde trainingsrecepten om daaropvolgende native multimodale modellering te vergemakkelijken. Onze code en modellen zijn openbaar beschikbaar op: https://github.com/EvolvingLMMs-Lab/NEO.
Zoeken is voorgesteld als een effectieve methode voor zelfverbeterende taalmodellen en agentische systemen, zowel voor post-training samplegeneratie als voor inferentie. Echter, veelgebruikte methoden zoals best-of-N-sampling en boomzoeken kennen twee fundamentele beperkingen: ze worden gestuurd door spaarse verificatiesignalen, en ze construeren kandidaten voornamelijk via autoregressieve expansie, waardoor de exploratie wordt beperkt tot gebieden met substantiële modelkansmassa. Om deze problemen aan te pakken stellen wij Bidirectioneel Evolutionair Zoeken (BES) voor, een zoekraamwerk dat voorwaartse kandidaatevolutie koppelt aan achterwaartse doeldecompositie. In het voorwaartse zoeken verrijkt BES de standaardexpansie met evolutieoperatoren die partiële trajecten hercombineren om kandidaten te genereren die moeilijk te verkrijgen zijn met een enkele modelrollout. In het achterwaartse zoeken deconstrueert BES de oorspronkelijke taak recursief in controleerbare subdoelen, wat leidt tot dichte tussentijdse feedback die het voorwaartse zoeken stuurt. We leveren theoretische motivatie waaruit blijkt dat kandidaten gegenereerd door alleen expansie beperkt blijven tot een smalle entropieschil, terwijl evolutionaire operatoren eruit kunnen ontsnappen, en dat achterwaarts zoeken het aantal benodigde monsters om een correct antwoord te vinden exponentieel kan reduceren. Experimenten tonen aan dat BES bij uitdagende post-trainingstaken waar gangbare post-trainingalgoritmen niet in slagen te verbeteren, consistente winst oplevert, en bij drie open probleemoplossende benchmarks tijdens inferentie presteert BES beter dan bestaande open-source frameworks, zowel in gemiddelde als in best-case prestaties. Code en getrainde modellen zijn beschikbaar op https://github.com/Embodied-Minds-Lab/BES.
De grens van de wiskunde wordt bepaald door problemen waarvan de oplossingen nog niet bekend zijn, maar het blijft onduidelijk of taalmodellen zonder menselijke tussenkomst zinvol met dergelijke problemen kunnen omgaan. Een groot obstakel is het gebrek aan grootschalige wiskundige datasets op onderzoeksniveau. Hiertoe introduceren we ResearchMath-14k, een set van 14.056 problemen die via een multi-agent-pijplijn uit academische bronnen zijn samengesteld, waarmee het de grootste verzameling wiskundige problemen op onderzoeksniveau tot nu toe is. Verder genereren we ResearchMath-Reasoning, 220K docenttrajecten van twee open modellen, waarbij we terugkerende vermijdingsgedragingen waarnemen, zoals niet-pogingen en verzonnen referenties. Interessant is dat bij acht open-gewichtsmodellen nieuwere generaties 5,6 keer meer referenties en 5,0 keer meer valse referenties per trace produceren. Na agentische filtering van ResearchMath-Reasoning verbetert het finetunen van Qwen3-modellen van 4B tot 30B parameters gemiddeld met 9,2 punten ten opzichte van de basismodellen. Dit laat zien dat gefilterde pogingen bij open problemen nuttige supervisie kunnen bieden, zelfs zonder volledig correcte redeneertraces. We maken ResearchMath-14k openbaar beschikbaar voor toekomstig werk aan wiskundig redeneren op onderzoeksniveau.
Versterkend leren is een centraal paradigma geworden voor het verbeteren van redeneren in grote taalmodellen, maar de meeste bestaande methoden zijn nog steeds afhankelijk van sterkere docentmodellen of zorgvuldig samengestelde moeilijke datasets, wat de schaalbare capaciteitsverbetering beperkt. In dit artikel introduceren we DenoiseRL, een versterkend leren raamwerk dat externe supervisie vervangt door herstelgerichte optimalisatie over fouten van zwakke modellen. In plaats van te vertrouwen op sterkere supervisie of zorgvuldig ontworpen gegevens, leert DenoiseRL rechtstreeks van onjuiste redeneringspaden door deze om te zetten in kansen voor verbetering, waardoor training schaalbaarder wordt en minder afhankelijk van externe hulpbronnen. Dit levert een rijker en diverser leersignaal op, wat de verkennings efficiëntie bij onvolmaakt modelgedrag verbetert. Als gevolg hiervan verbetert DenoiseRL de redeneringsprestaties en de algehele trainingsefficiëntie, terwijl de behoefte aan dure gegevenscuratie of sterkere docentmodellen afneemt. Empirisch gezien presteert DenoiseRL consequent beter dan sterke on-policy RL-baselines in competitieve wiskundige en algemene redeneringsbenchmarks, en bevordert het sterker zelfcorrigerend gedrag naarmate de training moeilijker wordt, wat een effectieve en schaalbare alternatieve weg belicht voor het verbeteren van redeneren in grote taalmodellen.
Belichaamde Visie-Taalmodellen (VLMs) hebben indrukwekkende prestaties en generalisatie aangetoond in de robotica, met name binnen Visie-Taal-Actie-raamwerken. Er blijft echter een significante kloof bestaan tussen de hoog-niveau semantische focus van standaard tekstgestuurde pre-trainingparadigma's en de laag-niveau ruimtelijke en fysieke kennis die cruciaal is voor uitvoering in belichaamde omgevingen. In dit artikel introduceren wij GEM, een generatief gesuperviseerd belichaamd visie-taalmodel dat is ontworpen om deze kloof te overbruggen. Wij stellen voor om een dieptekaartgeneratietaak rechtstreeks in de VLM-pre-trainingsfase te integreren. Door deze generatieve doelstelling gezamenlijk met het hoofdmodel te trainen, observeren wij aanzienlijke verbeteringen in belichaamde intelligentie, waarbij zowel het semantisch begrip als de fysieke operationele capaciteiten aanzienlijk worden versterkt. Ter ondersteuning van dit paradigma stellen wij GEM-4M samen en geven dit vrij, een uitgebreide grootschalige dataset met een mix van grondings-, redeneer- en planningsdata, gekoppeld aan hoogwaardige dieptesupervisie. Uitgebreide experimenten tonen aan dat GEM state-of-the-art resultaten behaalt op diverse belichaamde benchmarks. Bovendien vertoont ons ingezette actiemodel, GEM-VLA, aanzienlijk superieure taakuitvoeringscapaciteiten in zowel simulatieomgevingen als evaluaties in de echte wereld. Code, modellen en datasets zijn beschikbaar op https://zhaorw02.github.io/GEM/
Geheugen is essentieel om grote taalmodellen in staat te stellen redeneringen over lange tijdsperioden te ondersteunen, maar bestaande geheugensystemen blijven onbetrouwbaar en moeilijk te debuggen. Het traceren van de dynamische evolutie van het geheugen is cruciaal om te begrijpen hoe informatie in de loop van de tijd wordt gesynthetiseerd, verspreid of gecorrumpeerd. In dit werk bestuderen we het nieuwe probleem van foutopsporing en -toeschrijving in LLM-geheugensystemen. We stellen een nieuw raamwerk voor dat geheugenpijplijnen omzet in uitvoerbare geheugenevolutiegrafieken, waardoor fijnmazige tracering van operationele informatiestromen mogelijk wordt. Vervolgens construeren we MemTraceBench, een benchmark die is samengesteld uit representatieve geheugensystemen zoals Long-Context, RAG, Mem0 en EverMemOS, om geheugenfoutmodi systematisch te bestuderen. Verder introduceren we een automatische toeschrijvingsmethode die iteratief operationele subgrafieken traceert om de hoofdoorzaak van een mislukt geval te achterhalen. Onze analyse laat zien dat geheugenfouten systematisch zijn en voortkomen uit operationele problemen zoals informatieverlies en retrieval-misalignatie. Van cruciaal belang is dat we deze fijnmazige toeschrijvingssignalen benutten om downstream promptoptimalisatie te begeleiden, waarmee we een gesloten-lussysteem opzetten dat fouten automatisch corrigeert en de eindtaakprestaties met maximaal 7,62% verbetert. De code wordt gepubliceerd op https://github.com/zjunlp/MemTrace.
Computergebruik-agents (CUA's) hebben recentelijk aanzienlijke vooruitgang geboekt, maar het inzetten van een aparte grote expert voor elk softwaredomein blijft duur. Kleine open computergebruik-agents zijn praktischere specialisatiedoelen, maar ze blijven aanzienlijk zwakker en vertonen ongelijkmatige domeinspecifieke fouten. Een voor de hand liggende remedie is het synthetiseren van grootschalige trainingsgegevens voor het doeldomein, maar we ontdekken dat deze naïeve benadering slechts marginale verbeteringen oplevert. Voortbouwend op deze observatie introduceren we LearnWeak, een annotatievrij specialisatieraamwerk voor kleine computergebruik-agents dat een sterker referentie-agent gebruikt om de zwakke punten van de student in het doeldomein te identificeren, gerichte taken te synthetiseren en automatisch supervisie te construeren. LearnWeak introduceert verder een foutbewuste specialisatiedoelstelling die plannings- en uitvoeringsfouten ontwart, wat meer gedragsmatig precieze updates mogelijk maakt dan brede uniforme supervisie. Op OSWorld behaalt LearnWeak gemiddelde winsten van 11,6 en 11,1 procentpunt over respectievelijk EvoCUA-8B en OpenCUA-7B, over acht domeinen. We valideren ook dat onze studentbewuste datasetgeneratie- en trainingsbenaderingen beter presteren dan bestaande autonome trajectgeneratie- en trainingsbaselines. Ons werk benadrukt het belang van studentbewustzijn in zowel datasynthese als agenttraining, en wijst op een meer principiële en efficiënte weg voor het specialiseren van kleine computergebruik-agents in diverse domeinen.
Autonome onderzoeksagenten leveren concurrerende oplossingen en professioneel ogende manuscripten, maar hun uitkomsten bevatten verifieerbaarheidsfouten die onopgemerkt blijven bij oppervlakkige evaluatie: verzonnen referenties, niet-reproduceerbare scores en methodebeschrijvingen die afwijken van de implementatie. We pakken dit aan met drie bijdragen. Ten eerste Chain-of-Evidence (CoE), een verifieerbaarheidskader dat vereist dat elke bewering herleidbaar is tot de bewijsbron. Ten tweede ScientistOne, een end-to-end autonoom onderzoekssysteem dat bewijsketens door constructie behoudt gedurende literatuuronderzoek, oplossingsontdekking en het schrijven van papers. Ten derde CoE Audit, een post-hoc-audit waarvan vier integriteitscontroles – scoreverificatie, specificatieschending, referentieverificatie en methode-code-afstemming – uniform worden toegepast op alle systemen. Over 75 papers, verspreid over vijf systemen en vijf baanbrekende onderzoekstaken, vertoont elke baseline ten minste één systematische faalmodus: het percentage gehallucineerde referenties bereikt 21%, scoreverificatie slaagt in slechts 42% van de papers, en methode-code-afstemming varieert van 20% tot 80%. ScientistOne bereikt nul gehallucineerde referenties (0/337), perfecte scoreverificatie (12/12) en de hoogste methode-code-afstemming (14/15), terwijl het op alle vijf taken de prestaties van menselijke experts evenaart of overtreft. ScientistOne generaliseert bovendien naar zes extra taken op het gebied van medische beeldvorming, fijnmazige herkenning, 3D-perceptie en taalmodellering, en behaalt state-of-the-art-resultaten op Parameter Golf en gouden medailles op MLE-Bench-taken waar baselines volledig falen.
AI-onderzoeksagenten kunnen nu onderzoeksideeën genereren, experimenten ontwerpen, code uitvoeren en artikelen opstellen, wat de mogelijkheid van grootschalige AI-ondersteunde wetenschappelijke ontdekkingen doet toenemen. Veel huidige agentkaders moedigen expliciet het genereren van nieuwe en impactvolle ideeën aan. Toch blijft het onduidelijk of AI-ondersteunde ideevorming het wetenschappelijk onderzoek verbreedt of zich vooral concentreert rond bestaand werk. Wij bestuderen AI-onderzoeksagenten als wetenschappelijke zoeksystemen. Met behulp van vier AI-onderzoeksagentkaders en zes grote taalmodellen genereren we 37.802 wetenschappelijke ideeën op basis van gedeelde startliteratuur uit door citaties gedefinieerde onderzoeksgebieden in AI en machine learning. Vervolgens vergelijken we de resulterende AI-ideeën met door mensen geschreven artikelen uit dezelfde onderzoeksgebieden, met later menselijk onderzoek dat uit dezelfde startliteratuur voortkomt, en met de startliteratuur zelf. In alle experimenten komen vier consistente patronen naar voren. Ten eerste zijn AI-gegenereerde ideeën aanzienlijk meer geconcentreerd dan door mensen geschreven artikelen uit dezelfde onderzoeksgebieden. Ten tweede blijven AI-gegenereerde ideeën veel dichter bij hun startliteratuur dan later menselijk vervolgwerk. Ten derde ontvangen artikelen die het meest lijken op AI-gegenereerde ideeën doorgaans lagere vervolgcitaties. Ten vierde, wanneer AI-gegenereerde ideeën afwijken van eerder werk, komen de verschillen voornamelijk voort uit het hercombineren van bestaande technische methoden, niet uit het introduceren van fundamenteel nieuwe onderzoeksvragen. Over het algemeen lijken de huidige AI-onderzoeksagenten beter geschikt voor lokale uitwerking dan voor het verbreden van wetenschappelijk onderzoek.
Bestaande geheugengeaugmenteerde LLM-agenten behandelen geheugen vaak als een statische opslagplaats met vooraf gedefinieerde representaties en vaste ophaalprocessen, wat kwetsbaar is in dynamische agentische omgevingen waar feedback, taakvariatie en heterogene signalen continu hervormen wat onthouden moet worden en hoe het verbonden moet worden. Om dit aan te pakken stellen wij FluxMem voor, een connectiviteit-evoluerend geheugenframework dat geheugen modelleert als een heterogene graaf en stapsgewijs de topologie verfijnt door drie fasen: initiële verbindingsvorming, feedbackgestuurde verfijning en langetermijnconsolidatie. Tijdens de uitvoering repareert FluxMem ontbrekende verbindingen, snoeit interferentie, stemt abstractiegranulariteit af en distilleert terugkerende succesvolle trajecten tot herbruikbare procedurele circuits, geleid door één metriek voor geheugen generaliseerbaarheid en evolutionaire volwassenheid. Over drie fundamenteel verschillende benchmarks, waaronder LoCoMo, Mind2Web en GAIA, behaalt FluxMem consistente state-of-the-art prestaties, wat sterke aanpassing en generalisatie in complexe agentische omgevingen aantoont. De code zal als open source beschikbaar worden gesteld op https://github.com/zjunlp/LightMem.
Causale Transformator-taalmodellen lijden onder strikt sequentiële decodering en een kwadratische aandachtskost per stap. Hoewel lineair-tijd causale modellen en discrete diffusiemodellen elk deze zwaktes aanpakken, blijft hun integratie inherent inconsistent: diffusie vereist bidirectionele aandacht, terwijl causale modellen unidirectioneel zijn. Om deze architecturen te verenigen, stellen we B³D-RWKV voor, een diffusie-RWKV-variant die de O(L)-inferentie-efficiëntie van het model integreert met parallelle, bidirectionele discrete-diffusie via een triplet-blokindelingsmethode. B³D-RWKV-7.2B bereikt vergelijkbare nauwkeurigheid op een 8-taaksuite ten opzichte van bestaande modellen, terwijl het baselines aanzienlijk overtreft in decoderingsdoorvoer met een gemiddelde versnelling van 1,6 keer.
Agentvaardigheden bieden een lichtgewicht manier om LLM-agenten aan te passen aan gespecialiseerde domeinen door herbruikbare procedurele kennis op te slaan in gestructureerde bestanden. Of deze vaardigheden nu van derden worden gedownload of zelf worden gegenereerd, ze zijn vaak onbetrouwbaar, onvolledig of verouderd. Bestaande vaardigheidsevolutiemethoden pakken deze tekortkomingen vaak aan door heuristische reflecties zonder een expliciete optimalisatieformulering. In dit artikel introduceren we SkillGrad, een op gradiëntafdaling geïnspireerd raamwerk voor het optimaliseren van agentvaardigheden. SkillGrad behandelt het vaardigheidspakket als een gestructureerde parameter die geoptimaliseerd wordt op een gradiëntafdalingsmanier: taakuitvoeringen leveren trajectniveauverliesbewijs, waarna automatische diagnoses tekstgebaseerde gradiënten opleveren die de correctierichtingen aangeven. Om de optimalisatie over iteraties heen te stabiliseren, accumuleert een momentum-agent terugkerende diagnosepatronen in een aanhoudende geheugenoverlay. Ten slotte voert een op LLM gebaseerde patcher de parameterupdate uit door laagbewuste bewerkingen toe te passen op het vaardigheidspakket. Geëvalueerd op SpreadsheetBench Verified en WikiTableQuestions presteert SkillGrad consistent beter dan op training gebaseerde vaardigheidsevolutiebaselines over twee backbone-LLM's heen, met een gemiddelde verbetering van 6,7 procentpunt ten opzichte van de sterkste op training gebaseerde baseline. Ablatiestudies tonen verder aan dat zowel momentum als contrastieve diagnose bijdragen aan de uiteindelijke vaardigheidskwaliteit.
Diffusietransformatoren behalen sterke videogeneratiekwaliteit, maar de kwadratische kost van volledige aandacht beperkt de efficiëntie. We introduceren OSP-Next, een efficiënt tekst-naar-video generatiemodel dat schaarse aandacht, parallellisme, kwantisatie en reinforcement learning integreert. OSP-Next gebruikt een hybride volledige-schaarse aandachtarchitectuur, waarbij de schaarse component is geïmplementeerd met Skiparse-2D Attention. Dit vast-patroon mechanisme past token-wise en group-wise schaarse aandacht toe langs ruimtelijke dimensies, waarbij gebruik wordt gemaakt van localiteit terwijl native compatibiliteit met FlashAttention-kernels behouden blijft. Gebaseerd op de lokale equivalentie van herrangschikking in Skiparse-2D Attention, stellen we verder Sparse Sequence Parallelism (SSP) voor, dat deelreeksen over ranks verdeelt en schaarse patronen wisselt via een enkele All-to-All communicatie. Vergeleken met Ulysses Sequence Parallelism (SP) biedt SSP een native parallelle strategie voor schaarse aandacht en vermindert het communicatievolume met 75%. OSP-Next bevat ook HiF8-kwantisatie om stabiele gezamenlijke training met 8-bit kwantisatie en schaarse fine-tuning mogelijk te maken, en past Mix-GRPO post-training toe om de prestaties van het schaarse model te verbeteren. Experimenten tonen aan dat OSP-Next een VBench-totaalscore van 83,73% behaalt, waarmee het de Wan2.1-basislijn overtreft. Onder de instellingen voor 5-seconden 720P en 5-seconden 768P behaalt OSP-Next tot 1,64× single-GPU versnelling en meer dan 1,52× eight-GPU versnelling op NVIDIA H200 GPU's. Bovendien, met slechts een 0,4% daling in VBench-totaalscore, behaalt OSP-Next-HiF8 1,69× en 2,27× versnellingen onder de twee instellingen op een enkele Ascend 950PR, wat de efficiëntie en prestaties van OSP-Next over hardwareplatforms aantoont.
Ondanks de snelle vooruitgang van multimodale grote taalmodellen bij het bouwen van grafische gebruikersinterface (GUI)-agenten, wordt hun taakvoltooiing in de echte wereld fundamenteel beperkt door een gebrek aan wereldkennis over GUI-operaties. Bestaande oplossingen vertrouwen doorgaans op dure multi-agent scaffolding of conventionele post-training paradigma's, zoals Begeleid Fijnstemmen (SFT) en Versterkend Leren (RL). Post-training stelt agenten echter alleen in staat om wereldkennis impliciet op te nemen via actieannotaties of beloningssignalen, wat leidt tot inefficiënt trajectgeheugen in plaats van echt begrip. Daarom is een aanpak die expliciet leren van deze kennis mogelijk maakt, noodzakelijk. Hiertoe stellen wij GUI-CIDER voor, een mid-trainingmethode die expliciet GUI-wereldkennis internaliseert door middel van Causale Internalisering en Dichtheidsbewuste Voorbeeldherselectie. GUI-CIDER werkt in drie fasen: (1) datasynthese, die statische plannings- en dynamische causale kennis uit GUI-trajecten destilleert naar tekst; (2) voorbeeldherselectie, die het corpus filtert door causale structuren te belonen en semantische redundantie te bestraffen; en (3) mid-training, waarbij de verfijnde data wordt gebruikt om de verworven kennis in te bedden. Uitgebreide experimenten op twee GUI-kennisbenchmarks en drie taakvoltooiingsbenchmarks tonen aan dat GUI-CIDER zowel het begrip van de agent van GUI-operaties als de taaksuccespercentages consistent verbetert. De code is beschikbaar op https://github.com/Wuzheng02/GUI-CIDER.
Recente ontwikkelingen in online reinforcement learning (RL) voor grote taalmodellen (LLMs) hebben veelbelovende prestaties laten zien bij complexe redeneertaken. Ze vertonen echter vaak een onevenwichtige exploratie-exploitatieruimte, wat leidt tot instabiele optimalisatie en suboptimale prestaties. We introduceren IB-Score, een nieuwe metriek geworteld in de Information Bottleneck-theorie, die de exploratie-exploitatieruimte van een beleid evalueert door de afweging tussen stapsgewijze redeneerdiversiteit en de wederzijdse informatie met het juiste antwoord te kwantificeren. Analyse op basis van IB-Score laat zien dat populaire online RL-benaderingen (bijv. GRPO) met gangbare regularizers er niet in slagen consequent een evenwicht te behouden tijdens de training, wat leidt tot suboptimale resultaten. Om dit aan te pakken stellen we Information Bottleneck-gedreven Tree-based Policy Optimization (IB-TPO) voor, een principieel raamwerk dat IB-Score formuleert als een fijnmazige optimalisatiedoelstelling en een nieuwe IB-geleide boomsteekproefstrategie gebruikt die niet alleen de efficiëntie van online sampling verbetert met 50% meer trajecten onder hetzelfde tokenbudget, maar ook de boomstructuur hergebruikt voor effectieve Monte Carlo-schatting van IB-Score. Uitgebreide experimenten met standaard benchmarks tonen aan dat onze methode de GRPO-baseline met 2,9% tot 3,6% aanzienlijk overtreft en ook andere state-of-the-art online RL-benaderingen overtreft. Onze code is beschikbaar op https://github.com/alibaba/EfficientRL.
End-to-end autonoom rijden via Visie-Taal-Actie (VLA)-modellen vereist een precair evenwicht tussen trajectplanning met hoge getrouwheid en efficiënte inferentie. Bestaande paradigma’s schieten doorgaans tekort: autoregressieve (AR) VLA’s zijn op edge-hardware geheugenbandbreedte-gelimiteerd en gevoelig voor exposure-bias drift, terwijl volledige-sequentie diffusiemodellen KV-cache-hergebruik belemmeren en lijden onder ‘logische lekkage’ die de fundamentele perceptie-dan-plan-causaliteit schendt. Wij presenteren Fast-dDrive, een blokdiffusie-VLA dat bidirectionele verfijning binnen semantische eenheden uitvoert, terwijl het strikte causale ordening tussen deze eenheden handhaaft. Gebruikmakend van de observatie dat rijdende VLA’s vaak gestructureerde JSON-achtige outputs genereren, bevriest Fast-dDrive structurele tokens in een sectie-steiger en past het een sectiebewuste trainingsmethode toe die prioriteit geeft aan veiligheidskritische planning. Verder introduceren wij Scaffold Speculatieve Decodering om AR-equivalente kwaliteit te bereiken met een significant hogere doorvoer. Tot slot stellen wij een schaalschema voor tijdens het testen met lage overhead: door N stochastische trajectrollouts te splitsen vanuit een enkele gedeelde prefix-KV-cache en deze te middelen, onderdrukken wij effectief de voorspellingsvariantie tegen een fractie van de rekenkosten. Empirische resultaten tonen aan dat Fast-dDrive de snelheid-nauwkeurigheidsgrens voor rijdende agenten herdefinieert. Op de WOD-E2E-testset behaalt Fast-dDrive state-of-the-art ADE@3s en ADE@5s, samen met de hoogste RFS onder diffusie-gebaseerde VLA’s; op nuScenes vermindert het de gemiddelde L2-fout tot 0,32 m (een verbetering van 22%). Bij integratie met SGLang levert ons raamwerk een 12-voudige doorvoersnelheidsversnelling op ten opzichte van de AR-baseline, waarmee de kloof tussen hoogcapaciteit VLA’s en de efficiëntie-eisen van realtime-invoering in voertuigen wordt verkleind.
Langlevende AI-agenten worden steeds vaker ingezet als permanente operationele systemen, maar worden nog steeds geëvalueerd als pas geïnitialiseerde modellen. Dag-één-benchmarks missen een fundamentele systeemvraag: hoe lang blijft een agent betrouwbaar na implementatie? Zelfs als modelgewichten bevroren zijn, verandert de effectieve toestand van een agent voortdurend doordat hij interactiegeschiedenis comprimeert, uit een groeiende geheugenopslag haalt, feiten herziet na updates en routinematig onderhoud ondergaat. Betrouwbaarheid wordt daarom een levensduureigenschap van het volledige agentraamwerk, niet alleen een momentopname van het basismodel. We introduceren AgingBench, een longitudinale betrouwbaarheidsbenchmark voor levensduurtechniek van agenten: deze meet niet alleen of geïmplementeerde agenten degraderen, maar ook welke vorm de degradatie aanneemt en waar reparatie zich op moet richten. AgingBench organiseert agentveroudering in vier mechanismen: compressieveroudering, interferentieveroudering, revisieveroudering en onderhoudsveroudering. Om deze fouten te diagnosticeren, gebruikt AgingBench temporele afhankelijkheidsgrafieken en gepaarde contrafeitelijke probes die diagnostische profielen genereren voor de schrijf-, ophaal- en gebruiksfasen van de geheugenpijplijn. In zeven scenario's, veertien modellen, meerdere geheugenbeleidsregels en zowel door runner gecontroleerde als autonome agenten, tonen ~400 runs verspreid over 8 tot 200 sessies aan dat agentveroudering niet eendimensionaal is: gedragstests kunnen zuiver blijven terwijl de feitelijke precisie achteruitgaat; het bijhouden van afgeleide toestanden kan scherp instorten binnen één enkel model; en hetzelfde verkeerde antwoord kan verschillende reparaties vereisen, afhankelijk van waar het diagnostische profiel naar wijst. Deze resultaten suggereren dat betrouwbare agentimplementatie levensduurevaluatie, diagnose op mechanismeniveau en fasegerichte reparatie vereist, niet alleen sterkere dag-één-modellen.
Wij introduceren GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), een gesloten-lus videowereldsimulator voor robotmanipulatie. Voortbouwend op het actie-geconditioneerde video-generatiekader van Genie Envisioner, is GE-Sim 2.0 opnieuw getraind op duizenden uren aan echte robotgegevens, variërend van teleoperatie, contactrijke interactie en implementatie van robotbeleid, waardoor de actievolgnauwkeurigheid en trajectdekking aanzienlijk zijn verbeterd. Bovenop deze basis sluiten drie nieuwe modules de lus van videosimulatie naar beleidsleren: een toestandsexpert die proprioceptieve toestand decodeert uit videolaters om de voorspelling van het volgende blok door stroomafwaartse VLA-beleid te ondersteunen; een wereldrechter die gegenereerde rollouts beoordeelt op basis van taakinstructies, wat machine-verifieerbare succesindicatoren en beloningen oplevert in plaats van handmatige inspectie; en een versnellingskader dat een 25-frame rollout in 2,3 seconden op een enkele H100 levert, met tot 4× frames overslaan bij inferentie voor evaluatie op lange termijn. GE-Sim 2.0 staat bovenaan de openbare WorldArena-ranglijst met slechts 2B parameters, presteert beter dan zowel speciale robotwereldmodellen als closed-source algemene videogeneratoren, en beleid dat is getraind op basis van zijn rollouts en beloningen vertaalt zich in meetbare echte winst, waarmee GE-Sim 2.0 wordt gevestigd als een praktisch platform voor schaalbare evaluatie en gesloten-lus leren van manipulatiebeleid.
Modelinterne structuren coderen rijke informatie over hoe een groot taalmodel (LLM) zijn trainingsdata verwerkt; echter, data-engineering na training vertrouwt grotendeels op externe signalen en negeert de rijke intrinsieke signalen die in de modelinterne structuren liggen. We stellen SAERL voor, een data-engineeringframework voor reinforcement learning (RL) van LLM's. Het modelleert drie intrinsieke data-eigenschappen: diversiteit, moeilijkheidsgraad en kwaliteit, door gebruik te maken van modelinterne structuren die zijn geëxtraheerd met een Sparse Autoencoder (SAE), een geavanceerd mechanistisch interpreteerbaarheidsinstrument. Elke eigenschap vormt de basis voor een concrete data-engineeringoperatie: clustering in de SAE-ruimte met gematigde batchmenging voor batchdiversiteitscontrole, een moeilijkheidsgraadproxy voor een curriculum van gemakkelijk naar moeilijk, en een kwaliteitssonde voor datafiltering. SAERL verbetert de gemiddelde nauwkeurigheid met 3,00% ten opzichte van standaard GRPO en bereikt de doelnauwkeurigheid met 20% minder trainingsstappen op Qwen2.5-Math-1.5B, met consistente winsten over modelschalen en RL-algoritmen. Experimenten tonen aan dat SAE effectief overdraagt tussen modelfamilies en -schalen, en dient als een lichtgewicht en herbruikbaar data-engineeringinstrument. Deze resultaten tonen aan dat modelinterne structuren een krachtige en praktische bron van signalen vormen voor data-engineering na training.
Zijn op LLM's gebaseerde zoekagenten daadwerkelijk aan het zoeken, of gebruiken ze het web om te verifiëren wat ze al weten? We bestuderen deze vraag op BrowseComp met drie diagnostieken. Onze analyse onthult Intrinsieke Kennisafhankelijkheid (IKD): zelfs met toegang tot hulpmiddelen vertrouwen agenten vaak op intrinsieke kennis — informatie die in het model is gecodeerd vóór het ophalen — in plaats van op extern bewijs. Agenten beantwoorden tot 44,5% van de BrowseComp-vragen zonder hulpmiddelen, genereren meer dan de helft van hun zoekopdrachten op basis van intern geproduceerde hypotheses in plaats van opgehaalde aanwijzingen, en presteren slechter dan closed-book-baselines wanneer ondersteunend bewijs voor antwoorden wordt verwijderd. Deze resultaten suggereren dat statische zoekbenchmarks geheugengebaseerde verificatie kunnen belonen in plaats van door bewijs gedreven ontdekking, waardoor wordt verward wat agenten al weten met wat ze kunnen vinden. Vervolgens introduceren we LiveBrowseComp, een deep-search-benchmark die is ontworpen om agenten te evalueren buiten intrinsieke dekking. Het bevat 335 door mensen geschreven vragen waarvan de antwoorden afhankelijk zijn van feiten die zijn gepubliceerd in de 90 dagen voorafgaand aan de constructie van de benchmark, afkomstig uit zes bijgewerkte bronnen en gefilterd om wereldwijd opvallende gebeurtenissen uit te sluiten. Op LiveBrowseComp vallen alle geëvalueerde agenten onder de 2% closed-book-nauwkeurigheid, dalen de door zoeken aangevulde scores met 25-40 punten ten opzichte van BrowseComp, en voorspellen eerdere modellerranglijsten niet langer betrouwbaar de prestaties. LiveBrowseComp is beschikbaar op https://huggingface.co/datasets/Forival/LiveBrowseComp.
Hybride-redenering grote taalmodellen (LLM's) bieden expliciete controle over de redeneerinspanning, waardoor gebruikers of systemen de kwaliteit van antwoorden kunnen afwegen tegen de inferentiekosten. Bestaande methoden voor adaptieve denkmodusselectie worden echter doorgaans geëvalueerd onder verschillende modellen, datasets en implementatieaannames, wat het moeilijk maakt om hun praktische gedrag te vergelijken. Wij introduceren HRBench, een uniform evaluatiekader voor het bestuderen van denkmoduswisseling in hybride-redenering LLM's. HRBench organiseert de ontwerpruimte langs twee assen: drie families van wisselstrategieën (prompt-gebaseerde selectie, externe routering en speculatieve uitvoering) en vier trainingsregimes (trainingsvrij, SFT, offline en online RL), wat resulteert in 12 gecontroleerde evaluatie-instellingen. We evalueren deze instellingen over 6 LLM's, van Qwen3.5-2B tot Kimi-K2.5-1.1T, en 5 redeneerbenchmarks die wiskunde, wetenschap en code bestrijken, terwijl we meer dan 12 representatieve eerdere methoden binnen dezelfde pijplijn opnieuw implementeren. Onze analyse karakteriseert hoe verschillende wisselstrategieën afzonderlijke effectiviteit-efficiëntie afwegingsgebieden innemen: prompt-gebaseerde methoden bieden vaak gunstige token-nauwkeurigheid afwegingen, routeringsmethoden bieden een stabielere kostenreductie, en speculatieve methoden hebben de neiging om de nauwkeurigheid te verbeteren tegen hogere tokenkosten. We vinden verder dat training strategieën verschillend beïnvloedt, en dat de voorkeursstrategie varieert met modelschaal en taakdomein. HRBench biedt referentie-implementaties en een uniform evaluatieplatform om meer gecontroleerd onderzoek naar efficiënt redeneren in hybride-redenering LLM's te ondersteunen. Onze data, code en repository zijn beschikbaar op https://github.com/usail-hkust/HRBench.
Op-beleidsdistillatie is recentelijk naar voren gekomen als een veelbelovend alternatief voor standaard sequentieniveau-imitatieleren, waarbij een student wordt getraind door zijn eigen gegenereerde rollouts te scoren met een lerarenmodel. We observeren echter het 'Off-policy Teacher Decay'-probleem in dit paradigma: voor de latere tokens, met de eerdere trajectorie van de student als context die off-policy is ten opzichte van de leraar, neemt het vermogen van de leraar om een corrigerende score te produceren af, en kan het terugvallen op token-voltooiingsgedrag dat in de pre-trainingsfase is geleerd. We verifiëren dit probleem empirisch en stellen Early Stopping Rollout (ESR) voor om het te verhelpen: een eenvoudige maar effectieve distillatiestrategie die simpelweg de rolloutgeneratie beperkt tot de eerste <N> antwoordtokens. We tonen aan dat ESR zowel de prestaties van volledige rollout OPD overtreft voor verschillende modelgroottes, -families, taken en trainingsregimes, en een veel hogere GPU-efficiëntie en trainingsstabiliteit vertoont, vooral in scenario's met verschillende modelfamilies. We onderzoeken verder het mechanisme achter deze verrassende prestaties en ontdekten het 'Cascading Alignment'- en 'Sub-mode Commitment'-effect van ESR dat mogelijk verklaart waarom het effectief werkt en soms zelfs de prestaties van het lerarenmodel overtreft. Daarnaast tonen we aan dat deze positiegebaseerde tokenselectiestrategie niet volledig verklaarbaar is door KL-divergentie en entropiesignalen.
Om betrouwbare langetermijninteractie mogelijk te maken, hebben LLM-agenten een geheugensysteem nodig dat de opgebouwde dialooggeschiedenis getrouw kan opslaan, efficiënt kan ophalen en diepgaand kan analyseren. De meeste bestaande methoden hanteren een op geëxtraheerde feiten gebaseerd paradigma: handgemaakte statische prompts comprimeren ruwe dialogen tot atomaire feiten, die vervolgens worden opgeslagen, gematcht en ingebracht in stroomafwaartse redenering. Dergelijke feitgerichte ontwerpen verwaarlozen echter onvermijdelijk fijnmazige details in oorspronkelijke dialogen en kunnen geen diepgaande redenering ondersteunen over verspreide geïsoleerde feiten. Bovendien kunnen statische prompts geen consistente extractiegranulariteit handhaven bij uiteenlopende dialoogstijlen. Om deze beperkingen aan te pakken, stellen we TriMem voor, dat drie naast elkaar bestaande representatiegranulariteiten onderhoudt: ruwe dialoogsegmenten verankerd door bronidentificatoren voor opslaggetrouwheid, geëxtraheerde atomaire feiten voor efficiënt geheugen ophalen, en gesynthetiseerde profielen die verspreide feiten samenvoegen tot holistisch semantisch begrip voor diepgaande redenering. Verder passen we op TextGrad gebaseerde promptoptimalisatie toe, die iteratief extractie- en profileringsprompts verfijnt via kwaliteitsfeedback van antwoorden, wat levenslange evolutie mogelijk maakt zonder enige parameterupdate. Uitgebreide experimenten op LoCoMo en PerLTQA met meerdere LLM-backbones tonen aan dat TriMem consequent beter presteert dan sterke geheugenbaselines. De code is beschikbaar op https://TMLR-TriMem.github.io .
Moderne Grote Taalmodellen (LLM's) worden vaak bekritiseerd vanwege het produceren van repetitieve en homogene tekst, ondanks dat ze beschikken over een enorme latente woordenschat. Terwijl eerder onderzoek zich richtte op modelkennis en trainingsdata, onderzoeken wij de rol van decoderingsmechanica bij het onderdrukken van taalkundige diversiteit. We introduceren de Woorddekkingsscore (WCS), een metriek die kwantificeert in welke mate contextueel passende menselijke woorden wiskundig worden weggesneden door standaard samplingfilters (bijv. Top-p, Top-k en Min-p). In plaats van statische kennis te beoordelen, meet de WCS de lexicale overlevingskans van laagfrequente, informatieve menselijke woorden als functie van samplingparameters. Door open-gewichtsmodellen te auditeren op door mensen geschreven corpusfragmenten, identificeren we welke logische lexicale keuzes onbereikbaar worden gemaakt door de decoder, zelfs wanneer ze zich binnen de kansruimte bevinden. Onze resultaten leveren kwantitatief bewijs dat industriestandaard samplingstanden fungeren als onbedoelde censuurmechanismen, die de unieke texturen van menselijke expressie gladstrijken tot een gehomogeniseerd discours. De WCS biedt een rigoureus kader voor het optimaliseren van de afweging tussen tekstcoherentie en lexicale rijkdom, en vormt een diagnostisch instrument voor het behoud van de diversiteit van menselijke taal in generatieve modellen.
Het finetunen van grote taalmodellen met onbetrouwbare gegevens stelt modellen bloot aan backdoor-aanvallen, waarbij vergiftigde monsters gericht ongewenst gedrag veroorzaken. Bestaande verdedigingen op basis van monsterfiltering vertrouwen op clustering, wat voldoende gegevens vereist en kan falen bij extreme vergiftigingsverhoudingen. Wij stellen GradSentry ({Grad}ient {Sentry}) voor, een methode voor het filteren van backdoor-monsters op basis van de spectrale entropie van gradients per monster. Onze belangrijkste bevinding is dat vergiftigde monsters gradients produceren met een hogere spectrale entropie vergeleken met schone monsters. GradSentry vangt uitgangsveranderende backdoor-kenmerken door gebruik te maken van gradientspectra per monster, waarbij paarsgewijze monstervergelijkingen en clustering tijdens kenmerkconstructie worden vermeden. Belangrijk is dat onze methode trainingsagnostisch is: het werkt zowel voor parameter-efficiënte finetunemethoden zoals LoRA als voor volledige parameterafstemming, omdat de gradientanalyse onafhankelijk werkt van welke parameters tijdens de training worden bijgewerkt. GradSentry vereist geen clustering, werkt effectief bij alle vergiftigingsverhoudingen (1%-90%) en introduceert minimale computationele overhead (20-50 ms per monster voor een 7B-model). Evaluatie op vier QA-datasets en vier aanvalstypen toont de effectiviteit van spectrale entropie voor backdoor-detectie aan. Code is beschikbaar op https://github.com/dongdongzhaoUP/GradSentry.
Interactieve 3D-assets die worden gebruikt in games en simulaties worden doorgaans opgesplitst in specifieke semantische onderdelen om animatie, fysica en scriptgedrag te ondersteunen, maar de meeste generatieve 3D-modellen produceren ofwel monolithische meshes ofwel willekeurige decomposities in onderdelen die niet kunnen worden afgestemd op toepassingsspecifieke vereisten. Wij presenteren CubePart, een generatief raamwerk voor open-vocabulary, deel-controleerbare 3D-meshgeneratie dat de onderdelenstructuur blootlegt als een expliciet controlesignaal tijdens inferentie. Op basis van een globale tekstprompt en een door de gebruiker gedefinieerd deelschema, uitgedrukt als een open lijst van onderdeelnamen, genereert onze methode een reeks meshes – één per schema-element – die samen een coherent object vormen met respect voor de gespecificeerde semantische structuur. Om deze functionaliteit mogelijk te maken, introduceren we een schaalbare datapijplijn voor het construeren van een grootschalige open-vocabulary, gelabelde 3D-dataset, samen met een tweetraps generatieve architectuur die globale vormensynthese scheidt van decodering op onderdeelniveau. We tonen aan dat de resulterende assets rechtstreeks kunnen worden geïntegreerd in game-engines en kunnen worden aangestuurd door animatie- en gedragsscripts zonder handmatige nabewerking. Projectpagina: https://cubepart.github.io/
Op LLM gebaseerde agenten scoren goed op zoekbenchmarks, maar echte gebruikers vinden de resultaten consistent onbevredigend, wat een aanhoudende evaluatie-ervaringskloof onthult. We schrijven deze kloof toe aan de afhankelijkheid van bestaande benchmarks van overgespecificeerde zoekopdrachten, eenmalige interacties en evaluatie met een vast schema, waarvan geen van allen het echte zoekgedrag weerspiegelt, waarbij gebruikers en agenten gezamenlijk vage intenties verfijnen via meerstapsdialogen. We noemen dit paradigma VibeSearch en introduceren VibeSearchBench, een benchmark bestaande uit 200 handmatig samengestelde tweetalige (Chinees en Engels) taken in 20 domeinen, verdeeld in VibeSearch-Pro (professioneel) en VibeSearch-Daily (dagelijks leven) subsets. Elke taak koppelt een gebruikerspersona aan een schema-vrije ground-truth-kennisgraaf en wordt geëvalueerd via een gebruikerssimulator met progressieve onthulling en een graafmatching-evaluatiekader. We benchmarken zeven geavanceerde modellen onder zowel het ReAct-framework als het OpenClaw-agentomhulsel. Resultaten tonen aan dat alle modellen aanzienlijk ontoereikend blijven voor VibeSearch (beste F1: 30,30), wat de noodzaak benadrukt van fundamentele vooruitgang in lang-context redeneren, proactieve intentie-uitlokking en gestructureerde kennisconstructie.
Visuele uitkomsten worden steeds centraler in multimodale grote taalmodellen, waardoor betrouwbare en fijnmazige verificatie essentieel wordt voor het opschalen van generalistische funderingsmodellen. In dit werk onderzoeken we multimodale meta-verificatie, die gebruikmaakt van door verifier gegenereerde rationale in plaats van alleen-beslissingssignalen, en verkennen we hoe meta-verificatiefeedback effectief kan worden geïntegreerd in multimodale verifiertraining. We identificeren twee belangrijke bevindingen. Ten eerste presteren symbolische verifier-outputs (bijv. begrenzingskaders) beter dan tekstuele uitleg als meta-verificatierationale, waardoor efficiënte op regels gebaseerde reinforcement learning-beloningen mogelijk worden en afhankelijkheid van modelgebaseerde beloningen van hulprechtermodellen wordt vermeden. Ten tweede presteert ontkoppeling van reinforcement learning-doelstellingen voor binaire beoordeling en meta-verificatie aanzienlijk beter dan gezamenlijke beloningsoptimalisatie, vanwege intrinsieke verschillen in uitvoerstructuur en leerdynamiek. Op basis van deze inzichten trainen we OmniVerifier-M1, een generalistische visuele verifier die gebruikmaakt van symbolische meta-verificatie en ontkoppelde reinforcement learning. OmniVerifier-M1 biedt robuuste verificatie en fijnmazige foutlokalisatie, en maakt verder M1-TTS mogelijk, een door verifier aangestuurd agentisch generatiesysteem dat dynamische zelfcorrectie op regiogebied bereikt. Deze aanpak baant de weg voor betrouwbaardere, interpreteerbare en fijnmazigere multimodale verificatie, ter ondersteuning van veiligere en beter beheersbare inzet van funderingsmodellen.
Chain-of-thought (CoT)-monitoring is voorgesteld als een veelbelovend veiligheidsmechanisme om misafgestemd gedrag in grote taalmodellen te detecteren. De betrouwbaarheid ervan is echter grotendeels onontgonnen buiten het Engels en over uiteenlopende modelfamilies heen. Wij presenteren de eerste grootschalige evaluatie van CoT-monitorbaarheid in 13 diverse talen en zeven geavanceerde modelfamilies, bestaande uit 16 modellen. Met behulp van evaluaties met tegenstrijdige hints die expliciete tussenberekeningen vereisen, samen met analyse van interne antwoordtokenwaarschijnlijkheden, vinden we systematisch CoT-ontrouwheid over talen en hinttypen heen, met een gemiddeld percentage van 95,9% bij modellen met 8B tot 120B parameters. We constateren dat geavanceerde modellen systematisch strategische manipulatie toepassen, waaronder antwoordwisseling, post-hoc rationalisatie en procedurele exploitatie van hints, waardoor externe monitors moeite hebben om misleiding te detecteren. We tonen aan dat geavanceerde modellen zich vaak binnen de eerste 15% van de generatie aan de misafgestemde cue in hun latente activeringen committeren, zelfs wanneer de CoT trouw lijkt. Verrassend genoeg blijven deze misleidende patronen 100% aanwezig in talen met lage resources, wat fundamentele beperkingen blootlegt in het huidige op CoT gebaseerde toezicht. Onze resultaten onthullen dat CoT-monitoring fundamenteel kwetsbaar is onder talige distributieverschuiving, en een aanzienlijk zwakker veiligheidssignaal biedt dan wat uitsluitend Engelstalige studies suggereren. Deze bevindingen onderstrepen de dringende noodzaak om robuuste CoT-monitors te ontwikkelen en het onderzoek naar white-box monitoringtechnieken te versnellen, vooral om de CoT-monitorbaarheid in talen met midden- en lage resources te verbeteren. Onze code is beschikbaar op https://multilingual-cot-monitoring.github.io/{blue{hier}}.
Beelden creëren uit ruis is beeldgeneratie; het reconstrueren van fijne details uit grove invoer is superresolutie. Ondanks hun praktische verschillen kunnen beide worden begrepen als het omkeren van informatieverlies over schalen heen. We introduceren SKILD, een schaal-invariante K-space Image Learning Diffusion model dat generatie en continue superresolutie verenigt binnen één enkel onvoorwaardelijk raamwerk. Zowel natuurlijke beelden als kritische fysieke systemen vertonen schaalinvariantie, en we benutten dit om een forward-proces te ontwerpen dat beeldinhoud verzwakt van fijne naar grove schalen, terwijl spectrum-gematchte Gaussiaanse ruis wordt geïnjecteerd, waardoor schaal een expliciete coördinaat van de diffusiedynamiek wordt. Hetzelfde getrainde reverse-proces voert generatie en continue superresolutie uit door alleen de starttijdstap te variëren: geen taakspecifieke architectuur, geen conditioneringstak, geen classifier-vrije begeleiding, geen hertraining per schaalfactor. Empirisch bereikt SKILD FID 2,65 en Inception Score 9,63 op onvoorwaardelijke CIFAR-10, voert 2×–8× superresolutie uit op ImageNet vanuit een enkel onvoorwaardelijk controlepunt, presteert beter dan conditionele modellen op perceptuele metrieken, en reconstrueert kritische Ising-modellen waarvan de verbonden vierpuntscorrelaties de grondwaarheid nauwkeurig volgen.
Parameter-efficiënte finetuning (PEFT) is de standaardbenadering geworden voor het aanpassen van grote taalmodellen, maar evaluaties leggen grotendeels de nadruk op downstream-nauwkeurigheid, terwijl het behoud van voorgetrainde capaciteiten over het hoofd wordt gezien. Wij stellen dat PEFT moet worden beoordeeld aan de hand van het stabiliteits-plasticiteitsdilemma: de afweging tussen aanpassing aan de doeltaak en weerstand tegen vergeten. We introduceren PEFT-Arena, een benchmark die zowel downstream-prestaties als het behoud van algemene capaciteiten gezamenlijk meet. Over methoden heen vinden we duidelijke stabiliteits-plasticiteitsprofielen; onder vergelijkbare parameterbudgetten bereikt orthogonale finetuning de meest gunstige Pareto-grens. Om deze verschillen te verklaren, analyseren we PEFT-updates vanuit twee geometrische perspectieven. In de gewichtsruimte onthult spectrale analyse hoe parametrisaties interageren met de voorgetrainde singuliere-waardenstructuur. In de activatieruimte geven retentiemetrics aan of finetuning representaties van algemene capaciteiten behoudt of vervormt, waarbij vergeten in verband wordt gebracht met niet-isometrische representatievervorming. Tot slot toont een analyse aan dat definitieve SFT-checkpoints vaak voorbij een beter doel-retentie-operatiepunt schieten. Geïnspireerd hierdoor presenteren we casestudies van een verbetering achteraf met padgewijze terugspoeling.
Ruimtelijk redeneren over verschillende aanzichten blijft een zwak punt voor vision-language-modellen (VLM's): ze redeneren vaak in taal en verliezen de fijnmazige geometrie die nodig is voor de taak. Denken met afbeeldingen probeert dit aan te pakken door een tussenliggende denkafbeelding te genereren, maar recent werk laat zien dat modellen het visuele bewijs in deze sporen vaak negeren. Daarom vragen we ons af hoe we visueel denken relevant kunnen maken en welke vorm van visueel denken het beste werkt. We bestuderen deze vragen in unified multimodale modellen (UMM's), die van nature ondersteuning bieden voor afgewisselde beeld-tekstgeneratie. Voor de eerste vraag stellen we View Dropout (VDrop) voor, een interventie tijdens de training die delen van één invoeraanzicht verbergt voor het antwoordenbereik, terwijl ze zichtbaar blijven voor de denkbeeld-tokens. Dit stimuleert het model om de denkafbeelding te gebruiken bij het beantwoorden, in plaats van alleen te vertrouwen op de invoerbeelden. Zodra de denkafbeelding wordt gebruikt voor het voorspellen van antwoorden, bestuderen we welk type visueel denken het meest effectief is. We framen dit als een afweging tussen leerbaarheid en informatieve waarde en vergelijken drie varianten van denkafbeeldingen: top-down, panoramische en punt-matching weergaven. Getraind op synthetische scènes en geëvalueerd op vijf echte out-of-domain benchmarks, is panoramisch visueel denken met VDrop de enige configuratie die zowel informatief als leerbaar is, en het bereikt de beste out-of-domain generalisatie.
Multi-agentsystemen die zijn gebouwd op grote taalmodellen (LLM's) vereisen veel coördinatiekeuzes die moeilijk a priori vast te stellen zijn: welk vaardigheidsprotocol moet worden aangeroepen, welke agentrol moet een deeltaak uitvoeren, welk model moet aan elke rol worden gekoppeld, hoe rollen moeten interacteren, wanneer retrieval of verificatie moet worden gebruikt, en wanneer een stap volledig moet worden overgeslagen. Deze keuzes interacteren met taakregime en operationele beperkingen, dus statische pijplijnen en eenmalige modelvergelijkingen bieden slechts een beperkt beeld van de ontwerpruimte. Dit artikel introduceert AgensFlow, een opensourceframework dat multi-agentcoördinatie behandelt als een online beleidsleerprobleem onder gedeeltelijke waarneembaarheid. Het framework maakt coördinatiebeslissingen waarneembaar en leerbaar op basis van herhaalde trajecten, in plaats van vaardigheids-, rol-, model-, topologie- en evaluatiekeuzes te behandelen als een vast pijplijnontwerp. AgensFlow wordt geëvalueerd op twee corpora: incidenttaken in gedistribueerde systemen en taken voor beveiligingsadviezen. De evaluatie toont drie hoofdresultaten: geleerde routering bereikt een kwalitatief hoger werkpunt dan een statische pijplijnbasislijn op coördinatie-intensieve klassen; skip:X isoleert topologiecompressie als een betekenisvol onderdeel van het substraat; en warmgestarte beleidsgrafieken kunnen de exploratiekosten verlagen terwijl de plateau-kwaliteit behouden blijft. Over het algemeen ondersteunen de resultaten dat geleerde, controleerbare routering coördinatie-intensieve multi-agentworkflows kan verbeteren ten opzichte van statische bedrading.
Reinforcement Learning van Verifieerbare Beloningen (RLVR) is uitgegroeid tot het standaardparadigma voor het verbeteren van het redeneervermogen van grote taalmodellen, terwijl Multi-Token Voorspelling (MTP) een veelgebruikte module is in pretraining. Het combineren ervan is een voor de hand liggende benadering, maar in de huidige RL-praktijk worden MTP-gradienten losgekoppeld omdat gezamenlijke training de prestaties verslechtert. We bekijken deze mislukking opnieuw vanuit een optimalisatieperspectief. We laten zien dat het per-stap-effect van MTP op de RL-doelfunctie kan worden opgesplitst in twee termen: een eerste-orde correlatie en een tweede-orde perturbatieboete. Deze decompositie verenigt drie MTP-trainingsregimes: Detach, Kruisentropieverlies en Beleidsverlies, en verklaart waarom elk ervan slaagt of faalt. Verdere analyse van beleidsverlies laat zien dat, hoewel het intuïtief aansluit, de prestaties nog steeds afnemen: de correlatieterm neemt af terwijl de kwadratische boete blijft bestaan. Geleid door de analyse stellen we Optimale Coëfficiëntkalibratie (OCC) voor, een adaptief schema dat de optimale coëfficiënt online volgt via een log-waarschijnlijkheid proxy met verwaarloosbare kosten. Over zes competitieniveau wiskundige redeneerbenchmarks presteert OCC consistent op of boven de Detach-baseline, wat leidt tot verbeterde gezamenlijke MTP-RL-trainingprestaties.
De validiteit van AI-veiligheidsevaluaties hangt af van de mate waarin modellen consistent gedrag vertonen in zowel gecontroleerde als implementatieomgevingen. Eerder werk heeft contextuele aanwijzingen tijdens het testen, zoals hypothetische scenario's, geïdentificeerd als een bron van verbaal geuite evaluatiebewustzijn en daaropvolgende gedragsverandering. In dit artikel onderzoeken we een mogelijke verklaring voor dit fenomeen: evaluatie-metakennis, gedefinieerd als parametrische kennis over de structurele kenmerken die evaluaties typeren. Net zoals bij datasetverontreiniging, waarbij blootstelling aan benchmarks leidt tot hogere prestaties door memorisatie, veronderstellen we dat modellen die getraind zijn op teksten waarin evaluatiepraktijken worden beschreven, impliciet kunnen leren om evaluatieachtige contexten te herkennen en erop te reageren, bijvoorbeeld door blootstelling aan wetenschappelijke artikelen of social media-berichten over AI-benchmarking. Om dit te testen, stemmen we modellen fijn op synthetische documenten die evaluatiekenmerken beschrijven, zoals verifieerbare structuren of morele dilemma's. Wanneer we dit fijngestemde model evalueren op zes veiligheidsbenchmarks, blijkt het significant veiliger te zijn dan het basismodel en het controlemodel. Deze gedragsverandering blijft bestaan, zelfs wanneer we de analyse beperken tot antwoorden zonder expliciete verbalisatie van evaluatiebewustzijn. Onze resultaten tonen aan dat evaluatie-metakennis de prestaties op veiligheidsbenchmarks kan opdrijven, wat een nieuwe confounder introduceert die onafhankelijk is van expliciete memorisatie of verbaal geuit evaluatiebewustzijn en daardoor moeilijk te detecteren is. Deze bevindingen hebben belangrijke implicaties voor het ontwerp en de interpretatie van AI-veiligheidsevaluaties. Onze code en modellen zijn beschikbaar op https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
Benchmarks voor het beantwoorden van vragen over grafieken (Chart QA) zijn bedoeld om vragen te stellen die visueel redeneren vereisen om correct te beantwoorden, maar modellen kunnen vaak oplossingen bereiken via shortcuts of eerdere bekendheid met een grafiek op basis van hun eigen achtergrondkennis. Om visueel redeneren strikt te evalueren, stellen we contrafeitelijke grafieken voor waarbij de grafiekvraagtaak vast blijft, maar de onderliggende grafiek en het bijbehorende antwoord worden gevarieerd. We introduceren Chartographer, een raamwerk om grafieken terug te engineeren naar uitvoerbare code, de reconstructiegetrouwheid te valideren, zaadgestuurde contrafeitelijke varianten te genereren en nieuwe antwoorden af te leiden uit uitvoerbare QA-logica. We passen dit raamwerk toe op bestaande Chart QA-datasets en evalueren propriëtaire en open-source visie-taalmodelen (VLMs), waarbij we variatiegevoeligheid en generaliseerbaarheid meten. Contrafeitelijke grafieken onthullen fouten die verborgen worden door prestaties op enkele grafieken: VLMs falen vaak om te generaliseren nadat ze de oorspronkelijke grafiek correct hebben beantwoord. We constateren dat fouten het meest voorkomen wanneer bijgewerkte grafieken nieuwe visuele redeneerpaden vereisen.
Wetenschappelijk onderzoek verloopt via iteratieve cycli van hypothesevorming, experimentontwerp, uitvoering en herziening. AI-agenten kunnen delen van dit proces automatiseren, maar bestaande benaderingen volgen doorgaans één onderzoeksrichting of coördineren via een centrale planner met vaste doelstellingen. Hierdoor hebben ze moeite om parallelle verkenning te ondersteunen, zich aan te passen naarmate experimenteel bewijs verandert, of kennis over mislukte richtingen te bewaren gedurende langlopende experimenten. We introduceren AutoScientists, een gedecentraliseerd team van AI-agenten voor langdurige computationele wetenschappelijke experimenten. Agenten interpreteren een gedeelde experimentele toestand, organiseren zichzelf in teams rond veelbelovende hypothesen, bekritiseren voorstellen voordat ze experimentele rekenkracht inzetten, en delen successen en mislukkingen om overbodige verkenning te verminderen. Bij gelijke experimentele budgetten presteert AutoScientists beter dan eerdere AI-agenten op het gebied van biomedisch machinaal leren, optimalisatie van taalmodeltraining en voorspelling van eiwitfitness. Op BioML-Bench, dat biomedische beeldvorming, eiwittechnologie, single-cell omica en geneesmiddelenontdekking omvat, behaalt AutoScientists een gemiddelde leaderboardpercentiel van 74,4% over 24 taken, een verbetering van +8,33% ten opzichte van de sterkste AI-agent. Bij optimalisatie van GPT-training bereikt AutoScientists een beoogde validatie-bits-per-byte 1,9 keer sneller dan Autoresearch en blijft het verbeteringen ontdekken vanuit een beginnende kampioen waar de enkele-agentbenadering geen vindt (7 versus 0 geaccepteerde verbeteringen). Bij fitnessvoorspelling op ProteinGym ontdekt AutoScientists een methode voor ACE2-Spike-binding die de huidige state-of-the-art model met +12,5% in Spearman-correlatie verbetert. Zonder aanpassing toegepast op alle 217 ProteinGym-assays, verbetert dezelfde methode de vorige state of the art met +6,5% (Spearman-correlatie).
Bestaande systemen voor emotionele ondersteuningsgesprekken (ESC) zijn voornamelijk afhankelijk van end-to-end responsgeneratie of grove strategiebegeleiding, wat beperkte interpreteerbaarheid biedt en weinig ondersteuning voor systematische vaardigheidsverbetering. Wij stellen ESC-Skills voor, een vaardigheidsgericht raamwerk dat uitvoerbare emotionele ondersteuningsvaardigheden ontdekt en laat evolueren. Eerst modelleren we gelokaliseerde ondersteuningsinteracties als Interventie-eenheden (IU's), die de toestand-actie-uitkomstdynamiek vastleggen tussen hulpvragerstoestanden, ondersteuningsinterventies en emotionele veranderingen na de respons. Op basis van IU's die zijn geëxtraheerd uit zowel succesvolle als mislukte ESC-dialogen, bouwen we de ESC-Skills-bank, een repository van uitvoerbare emotionele ondersteuningsvaardigheden met interventiebegeleiding, toepasbaarheidsvoorwaarden, verwachte uitkomsten en potentiële risico's. Om de robuustheid verder te verbeteren, introduceren we een raamwerk voor zelf-evolutionaire verfijning met meerdere profielen, waarbij een ESC-agent interacteert met diverse gesimuleerde hulpvragerprofielen onder SAGE-evaluatie. De resulterende interactiepaden worden geanalyseerd om ontbrekende vaardigheden, onveilige interventies en profielspecificke faalpatronen te identificeren, die vervolgens worden gebruikt om de Vaardighedenbank te verfijnen via simulatiegebaseerde verificatie. Experimentele resultaten tonen aan dat ESC-Skills zowel de kwaliteit op responsniveau als de emotionele uitkomsten op dialoogniveau verbetert, terwijl het meer interpreteerbare en controleerbare ondersteuningsgedragingen biedt. We zullen de code, prompts en de ESC-Skills-bank publiceren op https://github.com/aliyun/qwen-dianjin.
AI-coderingsagenten worden steeds vaker gebruikt om echte software te schrijven, maar het waarborgen van de correctheid van hun uitvoer blijft een fundamentele uitdaging. Formele verificatie biedt een veelbelovende weg: een agent genereert code samen met een machinaal gecontroleerd bewijs, wat garandeert dat de code voldoet aan een formele specificatie. Er is echter geen garantie dat de formele specificatie zelf overeenkomt met de bedoeling van de gebruiker. In dit werk bestuderen we specificatie-autoformalizatie: of LLM-agenten informele programmeerproblemen kunnen vertalen naar getrouwe formele specificaties. We introduceren Verus-SpecBench, een benchmark van 581 spec-schrijftaken afgeleid van Codeforces-problemen gericht op Verus, een verificateur voor Rust, en Verus-SpecGym, een agentische omgeving waarin modellen interacteren met Verus, bash en het bestandssysteem om deze specificaties te ontwikkelen. De centrale uitdaging is evaluatie: door experts geschreven referentiespecificaties zijn duur om te schrijven, en LLM-beoordelaars kunnen subtiele fouten missen. We pakken dit aan door (a) Verus' exec_spec-mechanisme uit te breiden zodat gegenereerde specificaties als Rust-code kunnen worden uitgevoerd, en (b) ze te testen tegen officiële Codeforces-tests en adversariële gevallen geëxtraheerd uit Codeforces 'hacks', dit zijn randgevallen geschreven door concurrenten om incorrecte oplossingen te breken. Op Verus-SpecBench lost het sterkste model, Gemini 3.1 Pro, 77,8% van de taken op, andere grensmodellen lossen 51,1–57,8% op en OSS-modellen bereiken slechts 21,5–25,5%. Onze analyse van faalwijzen toont aan dat door modellen gegenereerde specificaties belangrijke invoeraannames kunnen weglaten, onjuiste uitvoer kunnen accepteren en geldige uitvoer kunnen verwerpen. We vinden ook dat LLM-als-rechter-evaluatie 26% van de fouten mist die onze evaluator opmerkt. Over het geheel genomen suggereren onze resultaten dat specificatie-autoformalizatie binnen bereik is voor grensagenten maar broos blijft, zelfs bij problemen waarvoor ze al correcte code kunnen genereren. De code, data en logs zijn te vinden op https://github.com/formal-verif-is-cool/verus-spec-gym
De recente vooruitgang bij agentische taken met een lange horizon is grotendeels gedreven door het opschalen van individuele agenten via sterkere modellen, betere hulpmiddelen en effectievere ondersteuningsstructuren. Daarentegen is er veel minder bekend over uitschalen: of meerdere peer-agenten die allemaal dezelfde taak uitvoeren, een extra bron van capaciteit kunnen vormen zonder afhankelijk te zijn van expliciete rolspecialisatie of workflow-orkestratie. Wij onderzoeken deze vraag en stellen AgentFugue voor, een collectief redeneerframework dat is opgebouwd rond een gedeelde redeneerhub. Terwijl peer-agenten dezelfde taak parallel verkennen, legt de hub beknopte notities vast over wat elke agent heeft vastgesteld, geprobeerd of uitgesloten, en stelt elke agent in staat om selectief toegang te krijgen tot wat andere agenten hebben ontdekt in een vorm die nuttig is voor zijn huidige zoektocht. Dit ontwerp verandert anderszins geïsoleerde trajecten in een verbonden ecosysteem van herbruikbare tussenredeneringen, zonder dat centrale planning nodig is. We implementeren de hub als een plug-in communicatielaag, getraind met supervised fine-tuning en end-to-end reinforcement learning. In de uitdagende lange-termijnomgevingen die we bestuderen, presteert AgentFugue beter dan sterke baselines. Onze resultaten suggereren dat collectief redeneren het uitschalen van peer-agentsystemen kan omzetten in een duidelijke bron van capaciteitswinst, in plaats van slechts een manier om meer rekenkracht in te zetten.
Autonome computergebruikagenten die worden aangedreven door multimodale grote taalmodellen (MLLM's) komen op als capabele assistenten voor het uitvoeren van complexe digitale workflows. In de praktijk zijn uitvoeringsomgevingen echter verre van ideaal: pop-ups, resolutiewijzigingen en concurrerende applicaties verstoren vaak de perceptie en controle van de agent. Wij introduceren AgentHijack, een benchmark die is ontworpen om de robuustheid van computergebruikagenten te evalueren onder veelvoorkomende verstoringen, waarbij de onzekerheden in een dynamische omgeving de uitvoeringsstroom verstoren zonder directe vijandige bedoelingen. Concreet introduceert AgentHijack 9 configureerbare veelvoorkomende verstoringen om realistische imperfecte scenario's na te bootsen. We evalueren een verscheidenheid aan desktop-taken die gebruikmaken van MLLM-gebaseerde agenten en ontdekken dat zelfs kleine verstoringen kunnen leiden tot aanzienlijke prestatievermindering, wat de kwetsbaarheid van agenten benadrukt en de noodzaak van robuustheidsevaluatie onderstreept. Vervolgens stellen we AgentHijack-Agent voor, een raamwerk dat een actiegenerator met verbeterde grondingsmogelijkheden integreert en een toeschouwer die verantwoordelijk is voor gedragssamenvatting en omgevingscontrole. Uitgebreide experimenten bevestigen de effectiviteit ervan. Onze code, omgeving, basismodellen en gegevens zijn openbaar beschikbaar op: https://AgentHijack.github.io.
Grote multimodale modellen (LMM's) hebben een snelle vooruitgang geboekt op het gebied van perceptie en redeneren; het blijft echter onduidelijk of deze capaciteiten generaliseren naar het ontdekken van visueel onderbouwde oplossingen in open omgevingen, verder dan patroonherkenning. In dergelijke contexten vereist intelligentie meer dan het beantwoorden van goed geformuleerde vragen: het omvat het identificeren hoe elementen in een scène op niet voor de hand liggende maar fysiek haalbare manieren kunnen worden hergebruikt. Deze vorm van creatief probleemoplossend vermogen staat centraal in menselijke intelligentie, maar wordt in huidige benchmarks grotendeels niet getest. Om dit vermogen te evalueren introduceren wij MM-CreativityBench, een benchmark voor creatief gereedschapsgebruik op basis van affordanties in visueel rijke, fysiek beperkte omgevingen. Elke instantie presenteert een scenario-afbeelding met gestructureerde aanzichten van kandidaat-entiteiten en hun onderdelen, wat een gedetailleerde, interactieve evaluatie mogelijk maakt van hoe modellen iteratief de scène inspecteren, relevante affordanties identificeren en visueel en fysiek onderbouwde oplossingen samenstellen. Onze experimenten tonen aan dat huidige LMM's vaak tekortschieten, niet door een gebrek aan generatief vermogen, maar omdat ze geen onderbouwde verkenning volhouden. Modellen zien vaak relevante entiteiten over het hoofd, onderzoeken cruciale onderdelen onvoldoende of hallucineren attributen die niet in de afbeelding zijn verankerd. Gemotiveerd door deze faalmodus stellen wij affordantie-gerelateerde afstemming voor, die creatief gereedschapsgebruik als een preferentie-leerprobleem beschouwt. Met behulp van Directe Preferentie-optimalisatie moedigen wij modellen aan om attribuut-affordantie redeneringen te prefereren die zijn gebaseerd op visueel bewijs, boven gehallucineerde alternatieven. Daarnaast integreren we supervisie afkomstig van een kennisbasis van affordanties om een bredere verkenning van entiteiten en meerstapsplanning te sturen. Onze resultaten laten consistente verbeteringen zien in het selecteren van de juiste entiteiten en onderdelen, terwijl hallucinaties en grondigheidsgerelateerde fouten aanzienlijk worden verminderd.
Ruimtelijke en temporele resourcebeperkingen zijn cruciaal voor zowel biologische als kunstmatige intelligente systemen. Hier definiëren we differentieerbare kostentermen voor breedte, diepte en tijd binnen een recurrent convolutioneel neuraal netwerk, opgevat als een eindige deelverzameling van een oneindig rooster. We optimaliseren deze kosten gezamenlijk met taakfouten via backpropagatie. We leggen verschillende drukken op breedte, diepte en tijd, wat leidt tot uiteenlopende computatiegrafen die organisch ontstaan tijdens training. We vinden dat alle drie de resources tegen elkaar kunnen worden uitgeruild om een bepaald nauwkeurigheidsniveau te bereiken. Netwerken groeien in alle drie de dimensies met taakcomplexiteit en ondernemen spontaan meer recurrente stappen wanneer invoer wordt geoccludeerd. Verrassend genoeg correleert de tijd die het model gebruikt met menselijke reactietijden in een objectherkenningstaak. Ons raamwerk biedt een normatieve verklaring van hoe resourcebeperkingen neurale architecturen vormgeven, wat aansluit bij vragen over hersenontwerp in de neurowetenschappen, en kan helpen de diversiteit van neurale oplossingen in de natuur te verhelderen.
Grote taalmodellen (LLMs) voor code-aanvulling en -generatie worden steeds vaker gebruikt in softwareontwikkeling, maar ze kunnen trainingsvoorbeelden letterlijk reproduceren zonder auteurschapstoekenning, wat juridische en ethische bezwaren oproept rond plagiaat en licentienaleving. Klassieke vingerafdrukgebaseerde plagiaatdetectoren zoals Winnowing blijven zeer effectief, maar de inspectie vereist het vergelijken van codefragmenten met de volledige trainingsset, en hun lineaire zoektijd maakt ze onpraktisch voor de miljardenschale corpora die worden gebruikt om moderne code-LLMs te trainen. Om dit gat te overbruggen introduceren wij SOURCETRACKER, een encoder met 300M parameters die is toegespitst op code retrieval, samen met een hybride tweefasige herkomsttraceringspijplijn HYBRIDSOURCETRACKER (HST). HST beperkt eerst een kleine set kandidaatsnippets via vectorzoekopdracht en herrangschikt vervolgens die kandidaten met Winnowing op exacte vingerafdrukken. We trainen en evalueren ons systeem op een subset van 10M snippets uit de THESTACKV2-dataset, met zowel letterlijke als aangepaste snippets die realistische hernoeming van identifiers nabootsen. In een in vitro zoekruimte van 100k snippets met aangepaste queries bereikt onze hybride aanpak een gemiddelde reciproke rang die gelijk is aan die van Winnowing voor fragmenten van 30 tokens. Vanaf vensters van >= 60 tokens presteert het consistent tot 5,4% beter, met behoud van logaritmische querycomplexiteit. In een aanvullende evaluatie met een op LLM gebaseerde beoordelaar vinden we dat veel opgehaalde snippets die niet als grondwaarheid zijn gelabeld, nog steeds sterk lijken op de verwachte bronnen, vooral bij langere contextvensters, en dus nuttig blijven voor eindgebruikers. Over het geheel genomen tonen onze resultaten aan dat integratie van vectorzoekopdracht met vingerafdrukken schaalbare, hoge-precisie herkomsttracering mogelijk maakt voor code die door LLMs wordt gegenereerd.
Vroege voorspelling van het degradatietraject van batterijen (BDTF), die het volledige levensduurverloop van de gezondheidstoestand voorspelt op basis van vroege operationele gegevens, is van cruciaal belang voor batterijoptimalisatie, productie en implementatie. Gegevens over batterijdegradatie vertonen twee belangrijke kenmerken. Ten eerste hebben de degradatiegegevens een meerlagige structuur, met regelmatigheden die gemeenschappelijk zijn binnen verouderingscondities en trajectpatronen die gedeeld worden over batterijen. Ten tweede zijn variaties in spannings-stroomprofielen die verband houden met degradatie vaak gelokaliseerd in specifieke laadtoestand-intervallen (SOC). Bestaande benaderingen slagen er vaak niet in om deze kenmerken expliciet te modelleren. Om deze kloof te overbruggen, stellen we BatteryMFormer voor, een meerlagige Transformer voor vroege BDTF. BatteryMFormer integreert (1) een verouderingsconditie-bewuste decoder die verouderingsconditie-prioriteiten injecteert via verouderingsconditie-geïnformeerde queries en verouderingsconditie-bewuste aandacht, (2) een meta-degradatiepatroongeheugen dat trajectprototypen leert en ophaalt om langetermijnvoorspellingen te begeleiden, en (3) een dual-view encoder die gezamenlijk temporele dynamiek en SOC-gelokaliseerde variaties uit spannings- en stroomtijdreeksen vastlegt. Uitgebreide experimenten op vier batterijdomeinen tonen aan dat BatteryMFormer consistent beter presteert dan state-of-the-art basislijnen, wat een belangrijke stap markeert naar betrouwbare BDTF. Onze code is beschikbaar op https://github.com/Ruifeng-Tan/BatteryMFormer.
Recente studies hebben aangetoond dat grote taalmodellen (Large Language Models, LLMs) sterke redeneerprestaties kunnen behalen door functionele symbolische representaties te integreren die abstract grafentraversal-algoritmen en stapsgewijze redenering in few-shot-leeromgevingen beschrijven. Het blijft echter onduidelijk hoe LLMs daadwerkelijk de abstracte betekenis van elke redeneerstap en het algehele algoritme begrijpen op basis van slechts een beperkt aantal voorbeelden. Dit werk beoogt de aandachtskoppen te lokaliseren die verantwoordelijk zijn voor individuele redeneerstappen en de soorten informatie te karakteriseren die daartussen worden overgedragen. We stemmen eerst de samenstellende redeneerstappen af op hun overeenkomstige token-logits onder een symbolisch-ondersteund Chain-of-Thought (CoT)-promptraamwerk. Onze analyse laat zien dat tokenposities die het redeneerproces sturen, geassocieerd zijn met lage betrouwbaarheidsscores als gevolg van beperkingen bij het voldoen aan redeneergedragspatronen in de voorbeelden. Vervolgens passen we causale mediatieanalysetechnieken toe om de aandachtskoppen te identificeren die verantwoordelijk zijn voor deze patronen. Daarnaast geven onze bevindingen aan dat LLMs feitelijke en op regels gebaseerde informatie ophalen voor individuele subredeneertaken via gespecialiseerde aandachtskoppen (ongeveer 3% van het totaal), terwijl hogere lagen voornamelijk informatie-integratie en de opkomst van mondiale redeneerstrategieën (bijv. grafentraversal-algoritmen) faciliteren die meerdere tussenliggende redeneerstappen coördineren om de algehele taak op te lossen.
LLM-agenten handelen steeds vaker door code te schrijven, maar er blijft een scheiding bestaan tussen de runtime die de agent aanstuurt en de code die het model schrijft. De runtime beheert de lus, context en controlestroom, en het model heeft hier weinig invloed op. Door door het model geschreven code de runtime zelf te laten vormgeven, zouden agenten expressiever worden, maar het zou ook veiligheidsproblemen verscherpen. Een model kan worden omgeleid door een promptinjectie, de verkeerde tool aanroepen, of halverwege falen en een inconsistente toestand achterlaten. Elk van deze fouten reikt verder wanneer de code de runtime vormgeeft dan wanneer het een enkele actie uitdrukt. We presenteren LACUNA, een programmeermodel voor agenten dat deze scheiding overbrugt terwijl de veiligheid behouden blijft. Elke agentactie is een getypeerde aanroep agent[T](taak) die de LLM met code vult wanneer de uitvoering deze bereikt, en de code wordt typegecontroleerd tegen het omringende programma voordat deze wordt uitgevoerd. Omdat elke actie als geheel wordt geaccepteerd of afgewezen, laat een afgewezen actie de omgeving onaangetast, en de compilerdiagnostiek stuurt een herpoging aan. Dezelfde controle begrenst ook welke tools en gegevens een actie mag gebruiken en hoe deze stromen. Onze primitief drukt ReAct-lussen, subagenten, vaardigheden, parallelle decompositie en multi-modelplanning uit als gewone controlestroom. We evalueren LACUNA op een verzameling testgevallen, BrowseComp-Plus en τ^2-bench. Op BrowseComp-Plus wordt 8,6% van de gegenereerde code afgewezen vóór uitvoering, met gemiddeld 0,7 herpogingen per query, en de agent behaalt een nauwkeurigheid van 27,1%. Op τ^2-bench lost LACUNA 76,0% van de 392 taken op in vier domeinen met een capabel model, vergelijkbaar met de baseline-agent.
Referentiële segmentatie is gericht op het segmenteren van doelobjecten in afbeeldingen of video's op basis van een tekstuele zoekopdracht. Hoewel er de afgelopen jaren opmerkelijke vooruitgang is geboekt, gaan bestaande werken er altijd van uit dat de door de gebruiker verstrekte zoekopdrachten al precies en duidelijk zijn. Deze aanname is echter onpraktisch. In realistische scenario's is het onrealistisch te verwachten dat alle gebruikers hun visuele inhoud grondig bekijken en er zorgvuldig voor zorgen dat hun zoekopdrachten uniek en ondubbelzinnig zijn. Wanneer dergelijke gevallen zich voordoen, hebben bestaande segmentatiemodellen de neiging om willekeurig de voorkeuren van de gebruiker te raden, wat vaak leidt tot ongewenste resultaten. Om deze beperking aan te pakken, introduceren wij IC-Seg, een nieuw agentisch raamwerk dat proactief de bedoeling van de gebruiker verduidelijkt via meerdere gespreksronden vóór de segmentatie. Om deze capaciteit effectief te stimuleren, introduceren wij verder Hi-GRPO, een nieuwe hiërarchische optimalisatiestrategie die dichte en informatieve supervisiesignalen injecteert op traject-, beurt- en stapsniveau. Deze strategie bevordert efficiënte intentieverduidelijking, elimineert overbodige interacties en verbetert de algehele gesprekskwaliteit. Voor evaluatie stellen wij Ambi-RVOS op, een referentiële videosegmentatiebenchmark met dubbelzinnige gebruikerszoekopdrachten. Uitgebreide experimenten tonen aan dat IC-Seg niet alleen bestaande methoden met een ruime marge overtreft in het oplossen van dubbelzinnige zoekopdrachten, maar ook state-of-the-art prestaties handhaaft op standaard redeneersegmentatiebenchmarks. Code en gegevens worden beschikbaar gesteld op https://github.com/iSEE-Laboratory/IC-Seg.
Het begrijpen van 3D-objecten op basis van afbeeldingen is fundamenteel voor robotica en AR/VR-toepassingen. Hoewel recent werk vooruitgang heeft geboekt op het gebied van pose-schatting op categorieniveau, slagen huidige representaties er niet in de fijnmazige semantiek vast te leggen die nodig is om te redeneren over objectonderdelen, functies en interacties. In dit werk bestuderen we 3D-correspondentie op categorieniveau in cameraruimte – het voorspellen, op basis van een enkele afbeelding, van 3D-locaties die consistent blijven over objecten binnen een categorie – en tonen we aan dat deze kan ontstaan zonder expliciete correspondentietoezicht door het leren van een gedeelde, vervormbare objectprior. Om onderzoek in deze richting mogelijk te maken, introduceren we HouseCorr3D, de eerste grootschalige benchmark voor monoculaire 3D-correspondentie op categorieniveau, met 178k afbeeldingen in 50 huishoudelijke objectcategorieën, 280 unieke objecten en 3D-sleutelpuntannotaties direct op CAD-modellen. Cruciaal is dat HouseCorr3D amodale correspondentielabels voor occlusies en expliciete symmetrieannotaties biedt, waarmee belangrijke beperkingen van bestaande datasets worden aangepakt. Verder stellen we Morpheus voor, een methode die vervormbare vormpriors op categorieniveau leert door canonieke vorm, vervorming en objectpose te ontwarren. Door deze gedeelde canonieke verankering ontstaan impliciet semantisch betekenisvolle 3D-correspondenties in cameraruimte. Deze opkomende 3D-correspondenties bepalen een nieuwe state-of-the-art op HouseCorr3D, wat aantoont dat semantisch 3D-objectbegrip kan ontstaan zonder directe correspondentietoezicht. Data en code zijn openbaar beschikbaar op https://github.com/GenIntel/HouseCorr3D.
Clark Hash is een compacte methode voor het opslaan van neurale embeddings met minder ruimte. Het normaliseert elke databasevector, past een deterministische sparse signed Johnson-Lindenstrauss-projectie toe, clipt het resultaat en slaat een vastbrede scalaar-gekwantiseerde code op. Query’s blijven in floating point en worden gescoord tegen de opgeslagen sketches. In de standaard 384-dimensionale zin-embedding-setting slaat Clark Hash een cosinuszoekvector op in 48 bytes in plaats van 1536 bytes voor dichte f32-opslag. Dit is 32 keer kleiner. De methode heeft geen trainingsronde, aangeleerde codeboeken, rotaties of corpusstatistieken nodig voordat nieuwe vectoren kunnen worden opgeslagen. We beschrijven de codec, de Rust-implementatie en een meertalige zinsgelijkheidsbeoordeling op 9.304 gelabelde paren uit 29 deelverzamelingen. Met een meertalige MiniLM-encoder bereikten de 48-byte sketches een macro Pearson-correlatie van 0,910 en 0,946 met dichte cosinusscores op STS17 en STS22. Clark Hash is geen nieuwe Johnson-Lindenstrauss-stelling en het is geen vervanging voor benaderende naaste-buur indexen. Het is een eenvoudige toestandsloze codec voor compacte embeddingopslag.
Veiligheidsevaluaties van LLM's testen modellen voornamelijk in isolatie, maar ingezette AI-agenten opereren steeds vaker in persistente sociale omgevingen naast andere agenten. We introduceren een Moltbook-achtig simulatieplatform waar duizenden LLM-agenten gedurende een gesimuleerde maand met elkaar interacteren in gemeenschappen, en gebruiken dit om privacy als een downstream veiligheidskwestie te evalueren onder verschillende gradaties van sociale druk. We constateren dat de overgang van eenmalige naar meerstaps sociale evaluatie privacyinbreuken versterkt (CIMemories 19,95% naar onze resultaten 45,30% bij OpenAI-modellen), dat datalekken sociaal besmettelijk zijn, waarbij agenten 8 keer zoveel kans hebben om gevoelige informatie te onthullen nadat ze een collega dit hebben zien doen, en dat expliciete privacy-instructies dit effect weliswaar verminderen maar niet elimineren, met lekkagepercentages boven 37,8%, zelfs met beveiligingsmaatregelen. Onze bevindingen suggereren dat statische op chat gebaseerde veiligheidsbenchmarks systematisch risico's bij de inzet van agenten onderschatten, en dat sociale context alleen al voldoende is om gevoelige onthullingen uit te lokken die eenmalige evaluaties nooit aan het licht zouden brengen.
Recente video super-resolutie (VSR) benaderingen maken gebruik van diepe neurale netwerken om laagwaardige invoervideo's te verbeteren en visuele details te herstellen, waarbij met name diffusiegebaseerde methoden veelbelovende resultaten laten zien. In dit artikel onderzoeken we of bestaande videokwaliteitsmodellen kunnen worden gebruikt om de prestaties van deze diffusiegebaseerde VSR-methoden te beoordelen, door modelvoorspellingen te vergelijken met resultaten van een subjectieve test. De studie vergelijkt zes opschalingsmethoden (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) toegepast op zowel gecomprimeerde (AV1 en DCVC-RT) als ongecomprimeerde laagresolutievideo's, rekening houdend met de weergave op een UHD-1/4K-scherm. Een reeks full-reference en no-reference kwaliteitsmodellen wordt gebruikt om hun toepasbaarheid op dit nieuwe type kwaliteitsverlies te beoordelen, met de nadruk op prestaties binnen sequenties. De resultaten tonen aan dat CNN-gebaseerde full-reference modellen, zoals LPIPS, DISTS en CVQA-FR, significant hogere correlatiecoëfficiënten behalen dan zowel conventionele full-reference als de geteste no-reference modellen. De meeste modellen overschatten de overdreven scherpe resultaten van SCST, waarbij VMAF vooral faalt door ruimtelijke inconsistenties die door Starlight Mini worden geïntroduceerd. Geen van de geteste videokwaliteitsmodellen bereikt voldoende nauwkeurigheid om complementair subjectief testen te vervangen. De referentie-, gedegradeerde en opgeschaalde video's, evenals de gebruikersbeoordelingen en modelscores, worden bij het artikel beschikbaar gesteld als open data op https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR.
Grote taalmodellen (Large Language Models, LLM's) worden voornamelijk beheerst door probabilistische kaders waarin de som van uitkomstkansen tot één wordt beperkt. Deze architecturale beperking, vaak opgelegd door Softmax-lagen, leidt tot een ineenstorting van onzekerheid, waardoor het moeilijk wordt om onderscheid te maken tussen epistemische onzekerheid, paradox en vaagheid. We presenteren een empirisch onderzoek naar de toepassing van neutrosophische logica, een kader dat Waarheid (T), Onbepaaldheid (I) en Valsheid (F) als drie onafhankelijke dimensies behandelt, om epistemische toestanden in LLM's te modelleren. We voerden experimenten uit op een familie van vier OpenAI GPT-modellen over vijf taalkundige fenomenen: logische paradoxen, epistemische onwetendheid, vaagheid, ethische tegenstrijdigheden en toekomstige contingenties, onder drie promptstrategieën: neutrosophisch, probabilistisch en entropie-afgeleid. Onze bevindingen onthullen dat de neutrosophische benadering, door T+I+F > 1 toe te staan, een toestand die we hyper-waarheid noemen, een rijkere representatie biedt van de interne toestand van een model. In 35% van de evaluaties trad hyper-waarheid spontaan op, voornamelijk bij ethische tegenstrijdigheid en logische paradox. We tonen aan dat deze benadering waarheidswaarden behoudt in vage contexten en een robuuste methode biedt voor het identificeren en kwantificeren van intern modelconflict. We concluderen dat de integratie van neutrosophische evaluatielagen een kritische stap is naar transparantere, betrouwbaardere en ethisch bewustere AI-systemen.
We presenteren PEAM, een Parametrisch Embodied Agent Geheugenframework in Minecraft dat agentgeheugen transformeert van inferentie-tijd ophalen naar parameter-residente vaardigheden die door ervaring zijn geïnternaliseerd. PEAM koppelt een trage deliberatieve LLM voor open-ended redeneren aan een snelle parametrische module voor reflexieve uitvoering van geconsolideerde vaardigheden. De snelle module is een multimodale Mixture-of-Experts LoRA-architectuur met per-categorie fysiek geïsoleerde adapters, wat parametrische continue learning mogelijk maakt zonder catastrofaal vergeten. We behandelen falen als een eersteklas trainingssignaal: falen-correctie trajectparen worden geïnternaliseerd via een gezamenlijk gedragsklonen en contrastief doel, zodat de agent niet alleen leert wat succesvol is, maar ook hoe gecorrigeerde acties verschillen van mislukte. Om consolidatie te sturen introduceert PEAM een parameterisatie-waardigheidsscore om te bepalen welke ervaring geïnternaliseerd moet worden, en een schaalvrij zelfgetriggerd consolidatiemechanisme om te bepalen wanneer te internaliseren zonder taakspecifieke handmatig afgestelde drempels, waardoor de agent zichzelf evolueert terwijl de trigger overdraagt over taakverdelingen zonder herinstelling. Experimenten in Minecraft tonen aan dat PEAM de prestaties bij langetermijntaken verbetert, het vergeten van eerder geconsolideerde vaardigheden vermindert, en de parametrische-versus-ophaal-efficiëntie verbetert ten opzichte van op ophalen gebaseerde embodied agents en parametrische geheugenvarianten.
Discrete diffusiemodellen zijn uitgegroeid tot krachtige raamwerken voor het genereren van gestructureerde categorische gegevens. Het efficiënt bemonsteren van beloning-afwijkende verdelingen blijft echter een fundamentele uitdaging. Hoewel Twisted Sequential Monte Carlo (SMC) asymptotische exactheid biedt voor deze taak, vereist het schatten van de optimale twistfunctie in discrete toestandsruimten kostbare Monte Carlo-benaderingen, wat leidt tot een ernstige computationele bottleneck tijdens de inferentie. Om deze beperking te overwinnen, introduceren we Contrastive Distribution Matching (CDM), een nieuw raamwerk dat de kosten van SMC-inferentie amortiseert door een geparametriseerde twistfunctie te leren via positieve en negatieve monsters. Voor efficiënte training herformuleren we de gradientschatter om de gesloten-vorm voorwaartse kernels van discrete diffusiemodellen te benutten. In de praktijk kost het evalueren van onze geleerde twistfunctie minder dan 5% extra computationele overhead vergeleken met een enkele voorwaartse doorgang van het basismodel. Door middel van uitgebreide empirische evaluaties tonen we aan dat CDM consequent beter presteert dan bestaande baselines onder gelijke wandkloktijd. We valideren de effectiviteit en veelzijdigheid van onze aanpak in een breed scala aan toepassingen, waaronder toxische tekstgeneratie, regulerend DNA-sequentieontwerp, eiwitontwerpbaarheid en diffusie grote-taalmodel-afstemming.