Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren Green-VLA, een gefaseerd Vision-Language-Action (VLA) raamwerk voor implementatie in de echte wereld op de Green humanoïde robot, waarbij generalisatie over diverse belichamingen behouden blijft. Green-VLA volgt een curriculum van vijf fasen: (L0) fundamentele VLMs, (L1) multimodale grounding, (R0) vooraf trainen op meerdere belichamingen, (R1) belichamingsspecifieke aanpassing, en (R2) beleidsalignering via reinforcement learning (RL). Wij koppelen een schaalbare gegevensverwerkingspijplijn (3.000 uur aan demonstraties) met temporele alignering en kwaliteitsfiltering, en gebruiken een uniforme, belichamingsbewuste actie-interface die een enkel beleid in staat stelt humanoïden, mobiele manipulatoren en vaste robotarmen aan te sturen. Tijdens inferentie wordt de VLA-controller versterkt met voorspelling van de episodevoortgang, detectie van out-of-distribution gegevens, en op gezamenlijke voorspelling gebaseerde begeleiding om de veiligheid en precieze doelselectie te verbeteren. Experimenten op Simpler BRIDGE WidowX en CALVIN ABC-D, evenals evaluaties op echte robots, tonen sterke generalisatie en prestatieverbeteringen door RL-alignering op het gebied van slagingspercentage, robuustheid en efficiëntie over lange tijdshorizonnen.
Wij introduceren Kimi K2.5, een open-source multimodaal agent-model dat is ontworpen om de algemene agent-intelligentie te bevorderen. K2.5 legt de nadruk op de gezamenlijke optimalisatie van tekst en visie, zodat de twee modaliteiten elkaar versterken. Dit omvat een reeks technieken zoals gezamenlijke tekst-visie pre-training, zero-vision SFT, en gezamenlijke tekst-visie reinforcement learning. Voortbouwend op deze multimodale basis introduceert K2.5 Agent Swarm, een zelfgestuurd parallel agent-orchestratiekader dat complexe taken dynamisch ontleedt in heterogene subproblemen en deze gelijktijdig uitvoert. Uitgebreide evaluaties tonen aan dat Kimi K2.5 state-of-the-art resultaten behaalt op diverse domeinen, waaronder coderen, visie, redeneren en agent-taken. Agent Swarm vermindert de latentie ook met tot wel 4,5 keer vergeleken met single-agent basislijnen. Wij geven het getrainde Kimi K2.5 model-checkpoint vrij om toekomstig onderzoek en praktische toepassingen van agent-intelligentie te vergemakkelijken.
Multimodale grote taalmodellen (MLLM's) hebben opmerkelijke successen geboekt in een breed scala aan visuele taken. Echter, beperkt door de capaciteit van hun interne wereldkennis, hebben eerdere onderzoeken voorgesteld om MLLM's aan te vullen via "redeneren-dan-gereedschap-gebruik" voor visuele en tekstuele zoekmachines, om aanzienlijke winst te behalen bij taken die uitgebreide feitelijke informatie vereisen. Deze benaderingen definiëren multimodale zoekopdrachten echter typisch in een naïeve setting, waarbij wordt aangenomen dat een enkele query op volledig beeldniveau of entiteitsniveau en enkele tekstquery's volstaan om de sleutelbewijzen op te halen die nodig zijn om de vraag te beantwoorden, wat onrealistisch is in realistische scenario's met aanzienlijke visuele ruis. Bovendien zijn ze vaak beperkt in redeneerdiepte en zoekbreedte, waardoor het moeilijk is complexe vragen op te lossen die het samenvoegen van bewijsmateriaal uit diverse visuele en tekstuele bronnen vereisen. Voortbouwend hierop stellen wij Vision-DeepResearch voor, dat een nieuw multimodaal deep-research-paradigma introduceert, namelijk het uitvoeren van multi-turn, multi-entiteit en multi-schaal visueel en tekstueel zoeken om robuust prestaties te leveren op real-world zoekmachines onder zware ruis. Onze Vision-DeepResearch ondersteunt tientallen redeneerstappen en honderden zoekmachine-interacties, terwijl deep-research-capaciteiten worden geïnternaliseerd in de MLLM via cold-start supervisie en RL-training, wat resulteert in een sterke end-to-end multimodale deep-research MLLM. Het presteert aanzienlijk beter dan bestaande multimodale deep-research MLLM's en workflows gebouwd op sterke closed-source foundation modellen zoals GPT-5, Gemini-2.5-pro en Claude-4-Sonnet. De code zal worden vrijgegeven op https://github.com/Osilly/Vision-DeepResearch.
Multimodale Large Language Models (MLLM's) hebben vraag-antwoordsystemen voor visuele inhoud (VQA) verder gebracht en ondersteunen nu Vision-DeepResearch-systemen die zoekmachines gebruiken voor complexe visueel-textuele feitenvinding. Het evalueren van deze visuele en tekstuele zoekcapaciteiten blijft echter moeilijk, en bestaande benchmarks kampen met twee grote beperkingen. Ten eerste zijn bestaande benchmarks niet visueel zoek-gecentreerd: antwoorden die visueel zoeken vereisen, worden vaak uitgelekt via kruislingere tekstuele aanwijzingen in de tekstvragen of kunnen worden afgeleid uit de wereldkennis die huidige MLLM's al bezitten. Ten tweede een te geïdealiseerd evaluatiescenario: aan beeldzoekzijde kan de benodigde informatie vaak verkregen worden via bijna exacte matching met de volledige afbeelding, terwijl de tekstzoekzijde te direct en onvoldoende uitdagend is. Om deze problemen aan te pakken, construeren we de Vision-DeepResearch-benchmark (VDR-Bench) bestaande uit 2.000 VQA-instanties. Alle vragen worden gecreëerd via een zorgvuldig, meerfasig curatieproces en rigoureuze expertreview, ontworpen om het gedrag van Vision-DeepResearch-systemen onder realistische, praktijkomstandigheden te beoordelen. Bovendien, om de ontoereikende visuele retriev
Huidige repository-agents kampen met een redeneerkloof door gefragmenteerde representaties, aangezien bestaande methoden leunen op geïsoleerde API-documentatie of afhankelijkheidsgrafen die semantische diepte missen. Wij beschouwen repository-begrip en -generatie als inverse processen binnen een verenigde cyclus: generatie expandeert intentie naar implementatie, terwijl begrip implementatie comprimeert terug naar intentie. Om dit aan te pakken, stellen wij RPG-Encoder voor, een raamwerk dat de Repository Planning Graph (RPG) generaliseert van een statisch generatief blauwdruk naar een verenigde, hoogwaardige representatie. RPG-Encoder sluit de redeneerlus via drie mechanismen: (1) Encodering van ruwe code in de RPG, die opgeheven semantische kenmerken combineert met code-afhankelijkheden; (2) Incrementele evolutie van de topologie om onderhoudskosten te ontkoppelen van repositorieschaal, wat de overhead met 95,7% reduceert; en (3) Opereren als een verenigde interface voor structuurbewuste navigatie. In evaluaties vestigt RPG-Encoder state-of-the-art repository-begrip op SWE-bench Verified met 93,7% Acc@5 en overtreft de beste baseline met meer dan 10% op SWE-bench Live Lite. Deze resultaten benadrukken onze superieure fijnmazige localisatienauwkeurigheid in complexe codebasissen. Bovendien behaalt het 98,5% reconstructiedekking op RepoCraft, wat RPG's hoogwaardige capaciteit bevestigt om de originele codebase te weerspiegelen en de lus tussen intentie en implementatie sluit.
Unified multimodale modellen hebben vaak moeite met complexe synthetiseringstaken die diepgaand redeneren vereisen, en behandelen tekst-naar-beeldgeneratie en beeldbewerking doorgaans als geïsoleerde capaciteiten in plaats van onderling verbonden redeneerstappen. Om dit aan te pakken, stellen we UniReason voor, een unified framework dat deze twee taken harmoniseert via een duale redeneerparadigma. We formuleren generatie als planning verrijkt met wereldkennis om impliciete beperkingen in te brengen, en benutten bewerkingscapaciteiten voor fijnmazige visuele verfijning om visuele fouten verder te corrigeren via zelfreflectie. Deze aanpak verenigt generatie en bewerking binnen een gedeelde representatie, wat het menselijke cognitieve proces van planning gevolgd door verfijning weerspiegelt. We ondersteunen dit framework door systematisch een grootschalige, op redeneren gerichte dataset (~300k samples) te construeren die vijf belangrijke kennisdomeinen (bijv. culturele commonsense, natuurkunde, etc.) dekt voor planning, naast een door agenten gegenereerd corpus voor visuele zelfcorrectie. Uitgebreide experimenten tonen aan dat UniReason geavanceerde prestaties behaalt op reasoning-intensieve benchmarks zoals WISE, KrisBench en UniREditBench, terwijl het superieure algemene synthesecapaciteiten behoudt.
Wij stellen SWE-Universe voor, een schaalbare en efficiënte framework voor het automatisch construeren van real-world software engineering (SWE) verifieerbare omgevingen vanuit GitHub pull requests (PR's). Om de heersende uitdagingen van automatisch bouwen, zoals lage productieopbrengst, zwakke verifiers en verbiedende kosten, te overwinnen, maakt onze framework gebruik van een bouwagent aangedreven door een efficiënt, op maat getraind model. Deze agent hanteert iteratieve zelfverificatie en in-loop hackingdetectie om de betrouwbare generatie van hoogwaardige, verifieerbare taken te waarborgen. Met deze methode schalen we het aantal real-world meertalige SWE-omgevingen naar een miljoenenschaal (807.693). We demonstreren de diepgaande waarde van onze omgevingen via grootschalige agent-gebaseerde mid-training en reinforcement learning. Ten slotte hebben we deze techniek toegepast op Qwen3-Max-Thinking en behaalden een score van 75,3% op SWE-Bench Verified. Ons werk biedt zowel een kritieke hulpbron als een robuuste methodologie om de volgende generatie coderingsagenten vooruit te helpen.
Diepgaand onderzoek komt naar voren als een representatieve langetermijntaak voor grote-taalmodel (LLM) agenten. Echter overschrijden lange trajecten bij diepgaand onderzoek vaak de contextlimieten van modellen, wat het tokenbudget voor zowel het verzamelen van bewijs als het schrijven van rapporten comprimeert en effectieve schaalvergroting tijdens testen verhindert. Wij introduceren FS-Researcher, een op bestandssystemen gebaseerd dual-agent raamwerk dat diepgaand onderzoek voorbij het contextvenster schaalt via een persistente werkruimte. Concreet fungeert een Context Builder-agent als bibliothecaris die het internet doorzoekt, gestructureerde notities schrijft en ruwe bronnen archiveert in een hiërarchische kennisbank die ver voorbij de contextlengte kan groeien. Een Report Writer-agent stelt vervolgens het eindrapport sectie voor sectie samen, waarbij de kennisbank als feitenbron dient. In dit raamwerk fungeert het bestandssysteem als een duurzaam extern geheugen en een gedeeld coördinatiemedium tussen agenten en sessies, wat iteratieve verfijning voorbij het contextvenster mogelijk maakt. Experimenten op twee open-einde benchmarks (DeepResearch Bench en DeepConsult) tonen aan dat FS-Researcher state-of-the-art rapportkwaliteit bereikt across verschillende backbone-modellen. Verdere analyses demonstreren een positief verband tussen de uiteindelijke rapportkwaliteit en de aan de Context Builder toegewezen rekenkracht, wat effectieve schaalvergroting tijdens testen valideert onder het bestandssysteemparadigma. De code en data zijn anoniem open-source gemaakt op https://github.com/Ignoramus0817/FS-Researcher.
Pixel-diffusie genereert afbeeldingen direct in de pixelruimte op een end-to-end manier, waardoor de artefacten en knelpunten vermeden worden die door VAE's worden geïntroduceerd in tweestaps latente diffusie. Het is echter een uitdaging om hoogdimensionale pixelvariëteiten te optimaliseren die veel perceptueel irrelevante signalen bevatten, waardoor bestaande pixel-diffusiemethoden achterblijven bij latente diffusiemodellen. Wij stellen PixelGen voor, een eenvoudig pixel-diffusieraamwerk met perceptueel toezicht. In plaats van de volledige beeldvariëteit te modelleren, introduceert PixelGen twee complementaire perceptuele verliezen om het diffusiemodel te leiden naar het leren van een betekenisvollere perceptuele variëteit. Een LPIPS-verlies bevordert het aanleren van betere lokale patronen, terwijl een op DINO gebaseerd perceptueel verlies de globale semantiek versterkt. Met perceptueel toezicht overstijgt PixelGen sterke latente diffusie-baselines. Het behaalt een FID van 5,11 op ImageNet-256 zonder classifier-free guidance met slechts 80 trainingsepochs, en toont gunstige schaalprestaties bij grootschalige tekst-naar-beeldgeneratie met een GenEval-score van 0,79. PixelGen vereist geen VAE's, geen latente representaties en geen hulpstadia, en biedt zo een eenvoudiger maar krachtiger generatief paradigma. Code is openbaar beschikbaar op https://github.com/Zehong-Ma/PixelGen.
Progressief Leren (PL) vermindert de computationele overhead van voorafgaande training door de modelschaal geleidelijk te vergroten. Hoewel eerder onderzoek uitgebreid de uitbreiding in diepte heeft onderzocht, blijft uitbreiding in breedte aanzienlijk onderbestudeerd, waarbij de weinige bestaande methoden beperkt zijn tot de vroege trainingsfasen. Het uitbreiden van de breedte tijdens de middenfase is echter essentieel om computationele besparingen te maximaliseren, maar blijft een formidabele uitdaging vanwege ernstige trainingsinstabiliteiten. Empirisch tonen we aan dat naïeve initialisatie in deze fase de activatiewaarden verstoort, wat leidt tot verliespieken, terwijl kopie-gebaseerde initialisatie gradiëntsymmetrie introduceert die de featurediversiteit belemmert. Om deze problemen aan te pakken, stellen we SPARKLING voor (een balans tussen {S}ignaalbehoud {A}nd symmet{R}ie-doorbreking {K} voor breedte-progressief {L}er{EN}), een nieuw raamwerk voor breedte-uitbreiding in de middenfase. Onze methode bereikt signaalbehoud via RMS-schaalconsistentie, waardoor de activatiewaarden tijdens de uitbreiding worden gestabiliseerd. Symmetrie-doorbreking wordt gegarandeerd door asymmetrische reset van de optimizerstatus en her-opwarming van het leertempo. Uitgebreide experimenten met Mixture-of-Experts (MoE)-modellen tonen aan dat SPARKLING, over meerdere breedte-assen en optimizerfamilies heen, consistent beter presteert dan training vanaf nul en de trainingskosten met tot 35% reduceert bij een 2x breedte-uitbreiding.
Op Semantic ID (SID) gebaseerde aanbeveling is een veelbelovend paradigma voor het schalen van sequentiële aanbevelingssystemen, maar bestaande methoden volgen grotendeels een semantisch-gecentreerde pijplijn: item-embeddings worden aangeleerd van foundation-modellen en gediscretiseerd met behulp van generieke kwantiseringsschema's. Dit ontwerp is niet in lijn met generatieve aanbevelingsdoelen: semantische embeddings zijn zwak gekoppeld aan collaboratieve voorspelling, en generieke kwantisering is inefficiënt in het verminderen van sequentiële onzekerheid voor autoregressieve modellering. Om deze problemen aan te pakken, stellen we ReSID voor, een aanbevelingsnativ, principekader voor SID dat representatieleren en kwantisering opnieuw bekijkt vanuit het perspectief van informatiebehoud en sequentiële voorspelbaarheid, zonder afhankelijk te zijn van LLM's. ReSID bestaat uit twee componenten: (i) Veldbewuste Gemaskeerde Auto-codering (FAMAE), die voorspellingsvoldoende itemrepresentaties aanleert van gestructureerde kenmerken, en (ii) Globaal Uitgelijnde Orthogonale Kwantisering (GAOQ), die compacte en voorspelbare SID-sequenties produceert door gezamenlijk semantische dubbelzinnigheid en prefix-conditionele onzekerheid te verminderen. Theoretische analyse en uitgebreide experimenten op tien datasets tonen de effectiviteit van ReSID aan. ReSID presteert consistent beter dan sterke sequentiële en op SID gebaseerde generatieve baseline-methoden met gemiddeld meer dan 10%, terwijl de tokenisatiekosten tot 122x worden verlaagd. Code is beschikbaar op https://github.com/FuCongResearchSquad/ReSID.
Het natreinen van redeneer-LLM's is een holistisch proces dat doorgaans bestaat uit een offline SFT-fase (Supervised Fine-Tuning) gevolgd door een online reinforcement learning (RL)-fase. SFT wordt echter vaak geïsoleerd geoptimaliseerd om alleen de SFT-prestaties te maximaliseren. Wij tonen aan dat, na identieke RL-training, modellen geïnitialiseerd vanuit sterkere SFT-checkpoints aanzienlijk slechter kunnen presteren dan modellen geïnitialiseerd vanuit zwakkere checkpoints. Wij schrijven dit toe aan een mismatch die typisch is in huidige SFT-RL-pipelines: de verdeling die de offline SFT-gegevens genereert, kan aanzienlijk verschillen van het beleid dat wordt geoptimaliseerd tijdens online RL, dat leert van zijn eigen rollouts. Wij stellen PEAR voor (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), een SFT-fase methode die deze mismatch corrigeert en het model beter voorbereidt op RL. PEAR gebruikt importance sampling om het SFT-verlies te herwegen, met drie varianten die opereren op token-, blok- en sequentieniveau. Het kan worden gebruikt om standaard SFT-doelstellingen aan te vullen en veroorzaakt weinig extra trainingsoverhead zodra de kansen voor de offline gegevens zijn verzameld. Wij voeren gecontroleerde experimenten uit op verifieerbare redeneerspellen en wiskundige redeneertaken op Qwen 2.5- en 3- en DeepSeek-gedistilleerde modellen. PEAR verbetert consequent de post-RL-prestaties ten opzichte van canonieke SFT, met pass@8-winst tot 14,6 procent op AIME2025. Onze resultaten suggereren dat PEAR een effectieve stap is naar meer holistisch natreinen van LLM's door SFT te ontwerpen en evalueren met het oog op downstream RL in plaats van geïsoleerd.
Grafische gebruikersinterface (GUI) wereldmodellen (WM's) voor mobiele apparaten bieden een veelbelovende weg om de prestaties van mobiele GUI-agenten te verbeteren, zowel tijdens training als inferentie. Huidige benaderingen kampen echter met een cruciaal dilemma: op tekst gebaseerde WM's offeren visuele nauwkeurigheid op, terwijl het onvermogen van visuele WM's om tekst precies weer te geven, leidde tot hun afhankelijkheid van trage, complexe pijplijnen die op tal van externe modellen steunen. Wij stellen een nieuw paradigma voor: visuele wereldmodellering via renderbare codegeneratie, waarbij een enkel Vision-Language Model (VLM) de volgende GUI-toestand voorspelt als uitvoerbare webcode die naar pixels wordt gerenderd, in plaats van pixels direct te genereren. Dit combineert de sterke punten van beide benaderingen: VLM's behouden hun linguïstische prior voor nauwkeurige tekstweergave, terwijl hun pre-training op gestructureerde webcode hoogwaardige visuele generatie mogelijk maakt. Wij introduceren gWorld (8B, 32B), de eerste open-weight visuele mobiele GUI WM's die op dit paradigma zijn gebouwd, samen met een datageneratieframework (gWorld) dat automatisch op code gebaseerde trainingsdata synthetiseert. In een uitgebreide evaluatie over 4 in-distributie- en 2 out-of-distributie benchmarks stelt gWorld een nieuwe pareto-grens vast voor nauwkeurigheid versus modelgrootte, en presteert het beter dan 8 toonaangevende open-weight modellen die tot 50,25 keer groter zijn. Verdere analyses tonen aan dat (1) het schalen van trainingsdata via gWorld zinvolle winst oplevert, (2) elke component van onze pijplijn de datakwaliteit verbetert, en (3) sterker wereldmodelleren de prestaties van downstream mobiele GUI-beleid verbetert.
Op grafieken gebaseerde Retrieval-Augmented Generation (GraphRAG) organiseert externe kennis als een hiërarchische grafiek, wat efficiënte retrieval en aggregatie van verspreid bewijs uit meerdere documenten mogelijk maakt. Bestaande benchmarks voor GraphRAG zijn echter vaak gebaseerd op korte, gecureerde passages als externe kennis, waardoor ze ontoereikend zijn om systemen te evalueren in realistische situaties met lange contexten en grootschalige heterogene documenten. Om deze kloof te overbruggen, introduceren wij WildGraphBench, een benchmark ontworpen om GraphRAG-prestaties in de praktijk te beoordelen. Wij benutten de unieke structuur van Wikipedia, waarbij samenhangende narratieven zijn gebaseerd op lange en heterogene externe referentiedocumenten, om een benchmark te construeren die realistische scenario's weerspiegelt. Concreet nemen we artikelen over 12 top-level onderwerpen, gebruiken hun externe referenties als retrievalcorpus en citatie-gelinkte uitspraken als grondwaarheid, wat resulteert in 1.100 vragen verdeeld over drie complexiteitsniveaus: enkelvoudige feitenvragen, meervoudige feitenvragen en sectieniveau-samenvatting. Experimenten met meerdere basislijnen tonen aan dat huidige GraphRAG-pipelines helpen bij multi-fact aggregatie wanneer het bewijs afkomstig is uit een beperkt aantal bronnen, maar dat dit aggregatieparadigma hoogstwaarschijnlijk hoog-niveau uitspraken overbenadrukt ten koste van fijnmazige details, wat leidt tot zwakkere prestaties bij samenvattings taken. Projectpagina: https://github.com/BstWPY/WildGraphBench.
Chain-of-Thought-redenering heeft grote taalmodellen ertoe gebracht zich uit te breiden van redeneren met tekst naar redeneren met afbeeldingen en video's. Toch hebben verschillende modaliteiten nog steeds duidelijke beperkingen: statische afbeeldingen kunnen tijdelijke structuren moeilijk weergeven, terwijl video's aanzienlijke redundantie en rekenkosten met zich meebrengen. In dit werk stellen we Denken met Strips voor, een visueel redeneerparadigma dat strips gebruikt als een medium met hoge informatiedichtheid, gepositioneerd tussen afbeeldingen en video's in. Strips behouden tijdelijke structuur, ingebedde tekst en narratieve samenhang, terwijl ze aanzienlijk lagere redeneerkosten vereisen. We bestuderen systematisch twee redeneerpaden op basis van strips en evalueren deze op een reeks redeneertaken en taken voor het begrijpen van lange contexten. Experimentele resultaten tonen aan dat Denken met Strips beter presteert dan Denken met Afbeeldingen bij meerstaps temporele en causale redeneertaken, terwijl het aanzienlijk efficiënter blijft dan Denken met Video. Verdere analyse geeft aan dat verschillende stripnarratieven en stijlen consequent de prestaties over taken heen beïnvloeden, wat suggereert dat strips dienen als een effectieve intermediaire visuele representatie voor het verbeteren van multimodaal redeneren.
Wij presenteren RLAnything, een reinforcement learning-framework dat dynamisch omgevings-, beleids- en beloningsmodellen smeedt door middel van gesloten-lus optimalisatie. Dit versterkt de leer-signalen en versterkt het algehele RL-systeem voor elke LLM of agent-gebaseerde scenario. Specifiek wordt het beleid getraind met geïntegreerde feedback van stap-voor-stap- en resultaatsignalen, terwijl het beloningsmodel gezamenlijk wordt geoptimaliseerd via consistentie-feedback, wat op zijn beurt de beleidstraining verder verbetert. Bovendien verbetert onze theoretisch gemotiveerde automatische omgevingsaanpassing de training voor zowel de belonings- als beleidsmodellen door gebruik te maken van critic-feedback van elk, waardoor leren door ervaring mogelijk wordt. Empirisch gezien verbetert elke toegevoegde component consistent het algehele systeem, en levert RLAnything substantiële winsten op in diverse representatieve LLM- en agent-taken. Het boost Qwen3-VL-8B-Thinking met 9,1% op OSWorld en Qwen2.5-7B-Instruct met respectievelijk 18,7% en 11,9% op AlfWorld en LiveBench. Wij tonen ook aan dat geoptimaliseerde beloningsmodelsignalen presteren beter dan uitkomsten die afhankelijk zijn van menselijke labels. Code: https://github.com/Gen-Verse/Open-AgentRL
Deep Research Agents (DRA's) hebben opmerkelijke capaciteiten getoond in autonome informatieverwerking en rapportgeneratie, wat een groot potentieel aantoont om mensen te ondersteunen bij complexe onderzoektaken. Huidige evaluatiekaders baseren zich voornamelijk op door LLM's gegenereerde referenties of door LLM's afgeleide evaluatiedimensies. Hoewel deze benaderingen schaalbaarheid bieden, ontbreekt het hen vaak aan de betrouwbaarheid van door experts geverifieerde inhoud en hebben zij moeite met objectieve, fijnmazige beoordelingen van kritieke dimensies. Om deze kloof te overbruggen, introduceren wij Wiki Live Challenge (WLC), een live benchmark die de nieuwste Wikipedia Good Articles (GA's) gebruikt als expertniveau-referenties. Wikipedia's strikte normen voor neutraliteit, volledigheid en verifieerbaarheid vormen een grote uitdaging voor DRA's, waarbij GA's het toppunt hiervan vertegenwoordigen. Wij hebben een dataset samengesteld met 100 recente Good Articles en stellen Wiki Eval voor, een uitgebreid evaluatieraamwerk bestaande uit een fijnmazige evaluatiemethode met 39 criteria voor schrijfkwaliteit en rigoureuze metrieken voor feitelijke verifieerbaarheid. Uitgebreide experimenten met diverse DRA-systemen tonen een significante kloof aan tussen huidige DRA's en Wikipedia-artikelen op menselijk expertenniveau, wat de effectiviteit van WLC voor het bevorderen van agentonderzoek valideert. Onze benchmark is vrijgegeven op https://github.com/WangShao2000/Wiki_Live_Challenge.
Direct preference optimalisatiemethoden zijn naar voren gekomen als een computationeel efficiënt alternatief voor Reinforcement Learning from Human Feedback (RLHF) voor het aligneren van grote taalmodellen. Recente benaderingen hebben het aligneringsproces gestroomlijnd door impliciete beloningsfuncties af te leiden, maar ze lijden vaak onder een kritiek doelconflict: het optimaliseren van de relatieve marge tussen gekozen en verworpen antwoorden garandeert niet het behoud van de absolute waarschijnlijkheid van het gekozen antwoord. Dit kan leiden tot "afleren" (*unlearning*), waarbij het model de waarschijnlijkheid van hoogwaardige uitvoer degradeert om aan margebeperkingen te voldoen, en "formaatcollaps" (*formatting collapse*) veroorzaakt door de overmatige bestraffing van verworpen reeksen. In dit werk introduceren we SLIME (Stabilized Likelihood Implicit Margin Enforcement), een referentieloze aligneringsdoelstelling ontworpen om voorkeursleren te ontkoppelen van generatiekwaliteit. SLIME omvat een drieledige doelstelling: (1) een ankerterm om de waarschijnlijkheid van geprefereerde antwoorden te maximaliseren; (2) een stabiliserende strafterm die voorkomt dat de waarschijnlijkheden van verworpen tokens naar nul collapsen; en (3) een duale-marge-mechanisme dat harde en zachte beperkingen combineert voor precieze begrenzingsvorming. Onze resultaten tonen aan dat SLIME superieure prestaties bereikt in vergelijking met state-of-the-art baseline-methoden, terwijl het een hogere generatiestabiliteit handhaaft.
Autoregressieve videodiffusiemodellen maken streaminggeneratie mogelijk, wat de deur opent naar synthese van lange vorm, videowereldmodellen en interactieve neurale game-engines. Hun kern-attentielagen worden echter een grote bottleneck tijdens inferentie: naarmate de generatie vordert, groeit de KV-cache, wat leidt tot toenemende latentie en stijgend GPU-geheugengebruik. Dit beperkt op zijn beurt de bruikbare temporele context en schaadt de consistentie op lange termijn. In dit werk bestuderen we redundantie in autoregressieve videodiffusie en identificeren we drie hardnekkige bronnen: bijna-identieke gecachete sleutels tussen frames, langzaam evoluerende (voornamelijk semantische) queries/sleutels die veel aandachtberekeningen overbodig maken, en cross-attention over lange prompts waarbij slechts een kleine subset tokens per frame relevant is. Voortbouwend op deze observaties stellen we een uniform, trainingsvrij attentieraamwerk voor voor autoregressieve diffusie: TempCache comprimeert de KV-cache via temporele correspondentie om de cachegroei te begrenzen; AnnCA versnelt cross-attention door framerelevante prompt-tokens te selecteren met snelle approximatieve nearest neighbor (ANN)-koppeling; en AnnSA verspaart self-attention door elke query te beperken tot semantisch gematchte sleutels, eveneens met een lichtgewicht ANN. Gezamenlijk verminderen deze modules aandacht, rekenwerk en geheugen, en zijn ze compatibel met bestaande autoregressieve diffusie-backbones en wereldmodellen. Experimenten tonen end-to-end versnellingen tot x5–x10 aan, met behoud van bijna identieke visuele kwaliteit en, cruciaal, stabiele doorvoer en nagenoeg constant piek-GPU-geheugengebruik over lange rollouts, waar eerdere methoden progressief vertragen en lijden onder toenemend geheugengebruik.
Om real-time interactieve videogeneratie te bereiken, distilleren huidige methoden vooraf getrainde bidirectionele videodiffusiemodellen naar autoregressieve (AR) modellen met weinig stappen, waarbij een architectuurkloof ontstaat wanneer volledige aandacht wordt vervangen door causale aandacht. Bestaande benaderingen overbruggen deze kloof echter niet theoretisch. Zij initialiseren de AR-student via ODE-distillatie, wat frame-level injectiviteit vereist: elk ruisframe moet onder de PF-ODE van een AR-leraar afbeelden op een uniek schoon frame. Het distilleren van een AR-student uit een bidirectionele leraar schendt deze voorwaarde, waardoor de stroomafbeelding van de leraar niet kan worden hersteld en in plaats daarvan een voorwaardelijke-verwachtingsoplossing ontstaat, wat de prestaties verslechtert. Om dit probleem aan te pakken, stellen wij Causal Forcing voor, dat een AR-leraar gebruikt voor ODE-initialisatie en zo de architectuurkloof overbrugt. Empirische resultaten tonen aan dat onze methode alle referentiemethoden op alle metrieken overtreft, met een verbetering van 19,3% in Dynamic Degree, 8,7% in VisionReward en 16,7% in Instruction Following ten opzichte van de state-of-the-art Self Forcing. Projectpagina en code: https://thu-ml.github.io/CausalForcing.github.io/
Text-to-video (T2V)-generatie heeft als doel video's te synthetiseren met een hoge visuele kwaliteit en temporele consistentie die semantisch zijn afgestemd op de invoertekst. Post-training op basis van beloningen is naar voren gekomen als een veelbelovende richting om de kwaliteit en semantische afstemming van gegenereerde video's te verbeteren. Recente methoden vertrouwen echter ofwel op grootschalige annotaties van menselijke voorkeuren, ofwel opereren op niet-uitgelijnde embeddingen van vooraf getrainde vision-language-modellen, wat leidt tot beperkte schaalbaarheid of suboptimale supervisie. Wij presenteren PISCES, een annotatievrije post-training-algoritme dat deze beperkingen aanpakt via een nieuwe Dual Optimal Transport (OT)-aligned Rewards-module. Om beloningssignalen af te stemmen op menselijk oordeel, gebruikt PISCES OT om tekst- en video-embeddings te verbinden op zowel distributioneel als discreet tokenniveau, waardoor beloningssupervisie twee doelstellingen kan vervullen: (i) een Distributioneel OT-afgestemde Kwaliteitsbeloning die de algehele visuele kwaliteit en temporele coherentie vastlegt; en (ii) een Discrete Token-level OT-afgestemde Semantische Beloning die semantische, spatio-temporele correspondentie tussen tekst- en videotokens afdwingt. Voor zover wij weten, is PISCES de eerste methode die annotatievrije beloningssupervisie in generatieve post-training verbetert door de bril van OT. Experimenten met zowel korte als lange videogeneratie tonen aan dat PISCES zowel annotatiegebaseerde als annotatievrije methoden overtreft op VBench voor zowel Kwaliteits- als Semantische scores, waarbij studies naar menselijke voorkeur de effectiviteit verder valideren. Wij tonen aan dat de Dual OT-aligned Rewards-module compatibel is met meerdere optimalisatieparadigma's, waaronder directe backpropagatie en reinforcement learning fine-tuning.
Hoewel tekst-naar-beeldgeneratie een ongekende nauwkeurigheid heeft bereikt, functioneert de overgrote meerderheid van bestaande modellen in wezen als statische tekst-naar-pixel-decoders. Hierdoor slagen zij er vaak niet in impliciete gebruikersintenties te begrijpen. Hoewel opkomende geünificeerde begrips-generatiemodellen het intentiebegrip hebben verbeterd, hebben zij nog steeds moeite met taken die complexe kennisredenering vereisen binnen één model. Bovendien kunnen deze modellen, beperkt door statische interne prioriteiten, zich niet aanpassen aan de evoluerende dynamiek van de echte wereld. Om deze kloof te overbruggen, introduceren wij Mind-Brush, een geünificeerd agent-gebaseerd raamwerk dat generatie omzet in een dynamische, kennisdrijvende workflow. Mind-Brush simuleert een menselijk 'denk-onderzoek-creëer'-paradigma door actief multimodale informatie op te halen om buiten-de-verdeling-concepten te verankeren en redeneerhulpmiddelen in te zetten om impliciete visuele beperkingen op te lossen. Om deze capaciteiten rigoureus te evalueren, stellen wij Mind-Bench voor, een uitgebreide benchmark bestaande uit 500 verschillende samples die real-time nieuws, opkomende concepten en domeinen zoals wiskundige en geo-redenering omvat. Uitgebreide experimenten tonen aan dat Mind-Brush de capaciteiten van geünificeerde modellen aanzienlijk verbetert, waarbij een nul-tot-één-capaciteitssprong wordt gerealiseerd voor de Qwen-Image-basislijn op Mind-Bench, terwijl superieure resultaten worden behaald op gevestigde benchmarks zoals WISE en RISE.
Er worden steeds meer inspanningen geleverd om kennisdistillatie (KD) in grote taalmmodellen (LLM's) te verbeteren door de dichte supervisie van de leraar te vervangen door selectieve distillatie, waarbij een subset van tokenposities, vocabulaire klassen of trainingsvoorbeelden voor supervisie wordt gebruikt. Het blijft echter onduidelijk welke belangrijkheidssignalen, selectiebeleidslijnen en hun onderlinge samenhang het meest effectief zijn. In dit werk herzien we waar en hoe te distilleren in autoregressieve LLM's. We ontwarren selectieve KD langs de positie-, klasse- en voorbeeldassen en vergelijken systematisch belangrijkheidssignalen en selectiebeleidslijnen. Vervolgens identificeren we, geleid door deze analyse, onderbelichte mogelijkheden en introduceren we student-entropie-gestuurde positie-selectie (SE-KD). Over een reeks benchmarks heen verbetert SE-KD vaak de nauwkeurigheid, de naleving van downstreamtaken en de geheugenefficiëntie in vergelijking met dichte distillatie. Het uitbreiden van deze aanpak over de klasse- en voorbeeldassen (SE-KD 3X) levert complementaire efficiëntiewinsten op die offline caching van de leraar haalbaar maken. In de praktijk reduceert dit de wandtijd met 70% en het piekgeheugen met 18%, terwijl het opslaggebruik met 80% wordt verminderd ten opzichte van eerdere methoden zonder prestatieverlies.
LLM-gebaseerde diepgaande onderzoeksagenten zijn grotendeels gebouwd op het ReAct-framework. Deze lineaire ontwerpaanpak maakt het moeilijk om eerdere staten opnieuw te bezoeken, af te wijken naar alternatieve zoekrichtingen of een globaal overzicht te behouden bij lange contexten, wat vaak leidt tot lokale optima, redundante verkenning en inefficiënt zoekgedrag. Wij stellen Re-TRAC voor, een agentframework dat kruis-trajectverkenning uitvoert door na elk traject een gestructureerde staatrepresentatie te genereren om evidence, onzekerheden, fouten en toekomstplannen samen te vatten, en vervolgtrajecten te conditioneren op deze staatrepresentatie. Hierdoor worden iteratieve reflectie en globaal geïnformeerde planning mogelijk, waarbij onderzoek wordt herkaderd als een progressief proces. Empirische resultaten tonen aan dat Re-TRAC op BrowseConsistent 15-20% beter presteert dan ReAct bij gebruik van geavanceerde LLM's. Voor kleinere modellen introduceren we Re-TRAC-bewuste supervised fine-tuning, wat state-of-the-art prestaties oplevert op vergelijkbare schalen. Opmerkelijk is dat Re-TRAC een monotone afname vertoont in toolaanroepen en tokenverbruik over meerdere rondes, wat wijst op progressief gerichte verkenning gedreven door kruis-trajectreflectie in plaats van redundante zoekacties.
Wij introduceren FSVideo, een snel, op transformers gebaseerd image-to-video (I2V) diffusiekader. Ons framework rust op de volgende kerncomponenten: 1.) een nieuwe video-auto-encoder met een sterk gecomprimeerde latente ruimte (64x64x4 ruimtelijk-temporele downsampling ratio), die een competitieve reconstructiekwaliteit bereikt; 2.) een diffusie-transformer (DIT) architectuur met een nieuwe layer memory-ontwerp om de informatie-uitwisseling tussen lagen en contexthergebruik binnen de DIT te verbeteren, en 3.) een multi-resolutie generatiestrategie via een DIT-upsampler met weinig stappen om de videokwaliteit te verhogen. Ons uiteindelijke model, dat bestaat uit een 14B DIT-basismodel en een 14B DIT-upsampler, behaalt competitieve prestaties in vergelijking met andere populaire open-source modellen, terwijl het een orde van grootte sneller is. In dit verslag bespreken we ons modelontwerp evenals de trainingsstrategieën.
Het Japanse financiële taalgebruik combineert een agglutinerende, hoofd-finale linguïstische structuur, gemengde schriftsystemen en communicatienormen met een hoge contextafhankelijkheid die steunt op indirecte expressie en impliciete toezeggingen. Dit vormt een aanzienlijke uitdaging voor grote taalmodelen (LLM's). Wij introduceren Ebisu, een benchmark voor het begrip van authentiek Japans financieel taalgebruik, bestaande uit twee linguïstisch en cultureel gefundeerde, door experts geannoteerde taken: JF-ICR, dat de herkenning van impliciete toezeggingen en weigeringen evalueert in vraag-en-antwoordscenario's voor investeerders, en JF-TE, dat de hiërarchische extractie en rangschikking van geneste financiële terminologie uit professionele openbaarmakingen beoordeelt. Wij evalueren een diverse reeks open-source en propriëtaire LLM's, variërend van algemene modellen tot modellen aangepast voor het Japans en financiële domein. Resultaten tonen aan dat zelfs state-of-the-art systemen moeite hebben met beide taken. Hoewel een grotere modelschaal beperkte verbeteringen oplevert, leidt aanpassing voor specifieke talen en domeinen niet tot een betrouwbare prestatieverbetering, waardoor aanzienlijke hiaten onopgelost blijven. Ebisu biedt een gerichte benchmark voor de vooruitgang van linguïstisch en cultureel gefundeerde financiële NLP. Alle datasets en evaluatiescripts zijn openbaar vrijgegeven.
Een visuele metafoor vormt een hoogwaardige vorm van menselijke creativiteit, waarbij cross-domein semantische fusie wordt ingezet om abstracte concepten om te zetten in impactvolle visuele retoriek. Ondanks de opmerkelijke vooruitgang van generatieve AI blijven bestaande modellen grotendeels beperkt tot pixel-level instructie-afstemming en oppervlakkige uiterlijk-behoud, zonder de onderliggende abstracte logica te vangen die nodig is voor authentieke metaforische generatie. Om deze kloof te overbruggen, introduceren we de taak van Visuele Metafoor Transfer (VMT), die modellen uitdaagt om autonoom de "creatieve essentie" van een referentiebeeld te ontkoppelen en die abstracte logica opnieuw te materialiseren op een door de gebruiker gespecificeerd doelsubject. Wij stellen een cognitief-geïnspireerd, multi-agent raamwerk voor dat Conceptual Blending Theory (CBT) operationaliseert via een nieuwe Schema Grammatica ("G"). Deze gestructureerde representatie ontkoppelt relationele invarianten van specifieke visuele entiteiten, en biedt zo een rigoureuze basis voor cross-domein logische her-instantiëring. Onze pijplijn voert VMT uit via een collaboratief systeem van gespecialiseerde agents: een perceptie-agent die de referentie destilleert tot een schema, een transfer-agent die generieke ruimte-invariantie handhaaft om geschikte dragers te ontdekken, een generatie-agent voor hoogwaardige synthese en een hiërarchische diagnostische agent die een professionele criticus nabootst door middel van gesloten-lus backtracking om fouten te identificeren en te rectificeren op het gebied van abstracte logica, componentselectie en promptcodering. Uitgebreide experimenten en humane evaluaties tonen aan dat onze methode SOTA-baselines significant overtreft op het gebied van metaforische consistentie, analogie-geschiktheid en visuele creativiteit, waardoor de weg wordt geplaveid voor geautomatiseerde hoogimpact creatieve toepassingen in reclame en media. De broncode zal openbaar beschikbaar worden gesteld.
Multimodale Large Language Models (MLLM's) hebben opmerkelijke successen geboekt bij open-vocabularium perceptuele taken, maar hun vermogen om complexe cognitieve problemen op te lossen blijft beperkt, vooral wanneer visuele details abstract zijn en visueel geheugen vereisen. Huidige benaderingen schalen voornamelijk Chain-of-Thought (CoT) redenering op in de tekstruimte, zelfs wanneer taal alleen onvoldoende is voor heldere en gestructureerde redenering, en verwaarlozen grotendeels visuele redeneermechanismen die analoog zijn aan het menselijke visueel-ruimtelijke kladblok en visuele verbeelding. Om dit tekort te verhelpen, introduceren we Cognitive Supersensing, een nieuwe trainingsparadigma dat MLLM's voorziet van mensachtige visuele verbeelding door integratie van een Latent Visual Imagery Prediction (LVIP)-head. Deze leert gezamenlijk sequenties van visueel-cognitieve latente embeddings en aligneert deze met het antwoord, waardoor op visie gebaseerde interne redeneerketens worden gevormd. We introduceren verder een reinforcement learning-fase die tekstredeneerpaden optimaliseert op basis van deze gegronde visuele latent. Om de cognitieve capaciteiten van MLLM's te evalueren, presenteren we CogSense-Bench, een uitgebreide visuele vraag-antwoord (VQA) benchmark die vijf cognitieve dimensies beoordeelt. Uitgebreide experimenten tonen aan dat MLLM's getraind met Cognitive Supersensing aanzienlijk beter presteren dan state-of-the-art basismodellen op CogSense-Bench en superieure generalisatie vertonen op out-of-domain wiskunde- en wetenschaps-VQA benchmarks. Dit suggereert dat interne visuele verbeelding mogelijk de sleutel is om de kloof tussen perceptuele herkenning en cognitief begrip te overbruggen. We zullen CogSense-Bench en onze modelgewichten open source maken.
Recente generatieve modellen hebben opmerkelijke vooruitgang geboekt in beeldbewerking. Bestaande systemen en benchmarks blijven echter grotendeels tekstgestuurd. Menselijke communicatie is daarentegen van nature multimodaal, waarbij visuele instructies zoals schetsen ruimtelijke en structurele intentie efficiënt overbrengen. Om deze kloof te dichten, introduceren we VIBE, de Visuele Instructie Benchmark voor Beeldbewerking, met een drielaagse interactiehiërarchie die verwijzende verankering, morfologische manipulatie en causaal redeneren vastlegt. Voor deze niveaus hebben we hoogwaardige en diverse testcases samengesteld die een geleidelijk toenemende complexiteit in het opvolgen van visuele instructies weerspiegelen. Verder stellen we een robust LMM-as-a-judge evaluatieraamwerk voor met taakspecifieke metrieken om schaalbare en fijnmazige beoordeling mogelijk te maken. Uit een uitgebreide evaluatie van 17 representatieve open-source en propriëtaire beeldbewerkingsmodellen blijkt dat propriëtaire modellen vroege visuele instructie-opvolgingscapaciteiten vertonen en consequent beter presteren dan open-source modellen. De prestaties nemen echter aanzienlijk af bij toenemende taakmoeilijkheid, zelfs voor de sterkste systemen, wat veelbelovende onderzoeksrichtingen voor de toekomst aangeeft.
Het genereren van sprekende avatars is een fundamentele taak in videogeneratie. Hoewel bestaande methoden volledige sprekende avatars met eenvoudige menselijke beweging kunnen genereren, blijft het uitbreiden van deze taak naar *grounded human-object interaction* (GHOI) een onopgeloste uitdaging. Dit vereist dat de avatar tekstgebaseerde interacties met omringende objecten uitvoert. Deze uitdaging ontstaat door de behoefte aan omgevingsperceptie en het *control-quality dilemma* bij GHOI-generatie. Om dit aan te pakken, stellen we een nieuw dual-stream raamwerk voor, InteractAvatar, dat perceptie en planning ontkoppelt van videosynthese voor *grounded human-object interaction*. Door detectie te benutten om de omgevingsperceptie te verbeteren, introduceren we een *Perception and Interaction Module* (PIM) om tekstgebaseerde interactiebewegingen te genereren. Daarnaast wordt een *Audio-Interaction Aware Generation Module* (AIM) voorgesteld om levendige sprekende avatars te synthetiseren die objectinteracties uitvoeren. Met een speciaal ontworpen *motion-to-video aligner* delen PIM en AIM een vergelijkbare netwerkstructuur en maken ze parallelle co-generatie van bewegingen en geloofwaardige video's mogelijk, waardoor het *control-quality dilemma* effectief wordt verminderd. Tot slot stellen we een benchmark, GroundedInter, op voor het evalueren van GHOI-videogeneratie. Uitgebreide experimenten en vergelijkingen tonen de effectiviteit van onze methode aan bij het genereren van *grounded human-object interactions* voor sprekende avatars. Projectpagina: https://interactavatar.github.io
Standaard beloningsmodellen voorspellen typisch scalaire scores die de veelzijdige aard van responskwaliteit in niet-verifieerbare domeinen, zoals creatief schrijven of het opvolgen van open-ended instructies, niet kunnen vatten. Om deze beperking aan te pakken, stellen we Rubric-ARM voor, een raamwerk dat een rubriekgenerator en een beoordelaar gezamenlijk optimaliseert met behulp van reinforcement learning op basis van voorkeursfeedback. In tegenstelling tot bestaande methoden die vertrouwen op statische rubrieken of onsamenhangende trainingspijplijnen, behandelt onze aanpak rubriekgeneratie als een latente actie die wordt aangeleerd om de beoordelingsnauwkeurigheid te maximaliseren. We introduceren een afwisselende optimalisatiestrategie om de non-stationariteit van gelijktijdige updates te mitigeren, ondersteund door een theoretische analyse die aantoont hoe dit schema de variantie van de gradiënt tijdens de training reduceert. Uitgebreide experimenten tonen aan dat Rubric-ARM state-of-the-art prestaties bereikt onder baseline-methoden op meerdere benchmarks en de downstream policy-afstemming significant verbetert in zowel offline als online reinforcement learning settings.
Computer-Using Agents (CUA's) hebben als doel om computersystemen autonoom te bedienen om taken in de echte wereld te voltooien. Bestaande agent-systemen zijn echter nog steeds moeilijk op te schalen en presteren minder goed dan mensen. Een belangrijke beperking is het ontbreken van herbruikbare en gestructureerde vaardigheidsabstracties die vastleggen hoe mensen omgaan met grafische gebruikersomgevingen en hoe deze vaardigheden kunnen worden benut. Wij introduceren CUA-Skill, een vaardigheidsbasis voor computergebruikende agents, die menselijke kennis over computergebruik codeert als vaardigheden, gekoppeld aan geparametriseerde uitvoerings- en samenstellingsgrafieken. CUA-Skill is een grootschalige bibliotheek van zorgvuldig ontworpen vaardigheden voor veelgebruikte Windows-toepassingen, en dient als een praktische infrastructuur en tool-substraat voor de ontwikkeling van schaalbare, betrouwbare agents. Gebaseerd op deze vaardigheidsbasis construeren we CUA-Skill Agent, een end-to-end computergebruikende agent die dynamische vaardigheidsretrieval, argumentinstantiatie en geheugenbewust herstel bij falen ondersteunt. Onze resultaten tonen aan dat CUA-Skill de slagingspercentages en robuustheid aanzienlijk verbetert op uitdagende end-to-end agent benchmarks, en zo een sterke basis legt voor toekomstige ontwikkeling van computergebruikende agents. Op WindowsAgentArena behaalt CUA-Skill Agent een state-of-the-art slagingspercentage van 57,5% (beste van drie) en is tegelijkertijd aanzienlijk efficiënter dan eerdere en gelijktijdige benaderingen. De projectpagina is beschikbaar op https://microsoft.github.io/cua_skill/.
Methoden voor het beheersen van grote taalmmodellen (LLM's), waaronder lokale gewichtsfinetuning, LoRA-gebaseerde aanpassing en op activatie gebaseerde interventies, worden vaak geïsoleerd bestudeerd. Dit verhult hun onderlinge verbanden en maakt vergelijking moeilijk. In dit werk presenteren we een verenigde visie die deze interventies beschouwt als dynamische gewichtsupdates veroorzaakt door een stuursignaal, en plaatst ze binnen een enkel conceptueel kader. Voortbouwend op deze visie introduceren we een verenigde preferentie-utiliteitsanalyse die stuur-effecten scheidt in *preferentie* (gedefinieerd als de neiging naar een doelconcept) en *utiliteit* (gedefinieerd als coherente en taak-valide generatie), en meet beide op een gedeelde log-odds-schaal met behulp van polarity-gepaarde contrastieve voorbeelden. Over alle methoden heen observeren we een consistente afweging tussen preferentie en utiliteit: sterkere sturing verhoogt de preferentie, maar vermindert voorspelbaar de utiliteit. We verklaren dit gedrag verder via een perspectief van activatie-variëteiten, waarin sturing representaties verschuift langs doelconcept-richtingen om preferentie te versterken, terwijl utiliteit voornamelijk afneemt wanneer interventies representaties van de variëteit van valide generatie van het model duwen. Ten slotte introduceren we een nieuwe stuurmethode, SPLIT, geleid door deze analyse, die de preferentie verbetert en tegelijkertijd de utiliteit beter behoudt. Code is beschikbaar op https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
In dit artikel identificeren we een subsysteem voor schaarse beloningen in de verborgen toestanden van Large Language Models (LLMs), waarbij we een analogie trekken met het biologische beloningssubsysteem in het menselijk brein. We tonen aan dat dit subsysteem waardeneuronen bevat die de interne verwachting van de modelwaarde van een toestand vertegenwoordigen, en we stellen door interventie-experimenten het belang van deze neuronen voor redeneren vast. Onze experimenten onthullen dat deze waardeneuronen robuust zijn over diverse datasets, modelschalen en architecturen; bovendien vertonen ze een aanzienlijke overdraagbaarheid tussen verschillende datasets en modellen die zijn gefinetuned vanuit hetzelfde basismodel. Door gevallen te onderzoeken waarin waardevoorspellingen en werkelijke beloningen uiteenlopen, identificeren we dopamine-neuronen binnen het beloningssubsysteem die beloningsvoorspellingsfouten (RPE) coderen. Deze neuronen vertonen een hoge activering wanneer de beloning hoger is dan verwacht en een lage activering wanneer de beloning lager is dan verwacht.
Recente vooruitgang in visueel redeneren heeft vision transformers ingezet om de ARC-AGI-benchmark aan te pakken. Wij stellen echter dat de feed-forward architectuur, waarbij de computationele diepte strikt gebonden is aan de parameteromvang, tekortschiet in het vatten van het iteratieve, algoritmische karakter van menselijke inductie. In dit werk stellen we een recursieve architectuur voor, genaamd Loop-ViT, die de redeneerdiepte ontkoppelt van de modelcapaciteit door middel van gewichtsgebonden recurrentie. Loop-ViT itereert een gewichtsgebonden Hybride Blok, dat lokale convoluties en globale aandacht combineert, om een latente keten van gedachten te vormen. Cruciaal is dat we een parameter-vrij Dynamisch Uitstapmechanisme introduceren, gebaseerd op voorspellende entropie: het model stopt de inferentie wanneer zijn interne toestand "kristalliseert" in een aantrekker met lage onzekerheid. Empirische resultaten op de ARC-AGI-1 benchmark valideren dit perspectief: ons model met 18M parameters behaalt een nauwkeurigheid van 65,8% en presteert daarmee beter dan massieve ensembles met 73M parameters. Deze bevindingen tonen aan dat adaptieve iteratieve berekening een veel efficiëntere schaalas biedt voor visueel redeneren dan simpelweg de netwerkbreedte te vergroten. De code is beschikbaar op https://github.com/WenjieShu/LoopViT.
Grote taalmodellen (LLM's) hebben sterke redeneervermogens getoond door middel van stapsgewijze redenering via de chain-of-thought (CoT)-methode. Desalniettemin blijkt CoT vaak ontoereikend bij de grenzen van de modelcapaciteit, en hun strikt sequentiële aard beperkt de schaalbaarheid tijdens het testen. Een mogelijk alternatief is divide-and-conquer (DAC)-redenering, waarbij een complex probleem wordt opgesplitst in subproblemen om een effectievere verkenning van de oplossing te vergemakkelijken. Hoewel veelbelovend, toont onze analyse een fundamentele mismatch aan tussen algemeen post-training gebruik en DAC-stijl inferentie, wat het vermogen van het model beperkt om dit potentieel volledig te benutten. Om deze kloof te overbruggen en de redeneervermogens van LLM's bij de meest uitdagende taken volledig te ontsluiten, stellen we een end-to-end reinforcement learning (RL)-raamwerk voor om hun DAC-redeneervermogen te versterken. Bij elke stap deelt het beleid een probleem op in een groep subproblemen, lost deze sequentieel op, en behandelt het oorspronkelijke probleem op basis van de subprobleemoplossingen, waarbij zowel decompositie als oplossing zijn geïntegreerd in de RL-training. Onder vergelijkbare trainingsomstandigheden voorziet ons DAC-raamwerk het model van een hoger prestatieplafond en sterkere schaalbaarheid tijdens het testen, waarbij het CoT met 8,6% in Pass@1 en 6,3% in Pass@32 overtreft op competitieniveau benchmarks.
Tekst-naar-beeldgeneratie (T2I) heeft aanzienlijke vooruitgang geboekt, maar bestaande methoden missen vaak het vermogen om dynamisch te redeneren en te verfijnen tijdens het generatieproces – een kenmerk van menselijke creativiteit. Huidige, met redeneren versterkte paradigma's zijn voornamelijk afhankelijk van expliciete denkprocessen, waarbij tussentijdse redenering op vaste stappen wordt gedecodeerd naar discrete tekst, met frequente beelddecodering en opnieuw coderen. Dit leidt tot inefficiëntie, informatieverlies en cognitieve mismatches. Om deze kloof te overbruggen, introduceren wij LatentMorph, een nieuw framework dat impliciete latente redenering naadloos integreert in het T2I-generatieproces. De kern van LatentMorph bestaat uit vier lichtgewicht componenten: (i) een condenser voor het samenvatten van tussentijdse generatietoestanden tot compact visueel geheugen, (ii) een translator voor het omzetten van latente gedachten naar uitvoerbare richtlijnen, (iii) een shaper voor het dynamisch sturen van volgende beeldtokenvoorspellingen, en (iv) een met reinforcement learning getrainde invoker voor het adaptief bepalen van het juiste moment om redenering aan te roepen. Door redenering volledig in continue latente ruimtes uit te voeren, vermijdt LatentMorph de knelpunten van expliciete redenering en maakt het adaptievere zelfverfijning mogelijk. Uitgebreide experimenten tonen aan dat LatentMorph (I) het basismodel Janus-Pro verbetert met 16% op GenEval en 25% op T2I-CompBench; (II) expliciete paradigma's (zoals TwiG) overtreft met 15% en 11% op abstracte redeneertaken zoals WISE en IPV-Txt, (III) terwijl de inferentietijd met 44% en het tokenverbruik met 51% wordt gereduceerd; en (IV) een cognitieve alignement van 71% met menselijke intuïtie vertoont betreffende het aanroepen van redenering.
Het vermogen van AI-agenten om taken met toenemende duur en complexiteit effectief af te handelen, blijft groeien en vertoont uitzonderlijke prestaties bij codering, diepgaand onderzoek en evaluaties van complexe probleemoplossing. In dagelijkse scenario's blijft de perceptie van deze geavanceerde AI-mogelijkheden onder algemene gebruikers echter beperkt. Wij stellen dat huidige evaluaties prioriteit geven aan het verhogen van taakmoeilijkheid zonder voldoende aandacht voor de diversiteit van agenttaken die nodig zijn om de dagelijkse werk-, levens- en leeractiviteiten van een breed demografisch publiek te dekken. Om dit aan te pakken, stellen we AgentIF-OneDay voor, gericht op het bepalen of algemene gebruikers natuurlijke taal-instructies en AI-agenten kunnen gebruiken om een diverse reeks dagelijkse taken te voltooien. Deze taken vereisen niet alleen probleemoplossing via dialoog, maar ook het begrijpen van diverse bijlagetypes en het leveren van tastbare, op bestanden gebaseerde resultaten. De benchmark is gestructureerd rond drie gebruikersgerichte categorieën: Open Workflow-uitvoering, die de naleving van expliciete en complexe workflows beoordeelt; Latente Instructie, die vereist dat agenten impliciete instructies uit bijlagen afleiden; en Iteratieve Verfijning, die het aanpassen of uitbreiden van doorlopend werk omvat. We gebruiken instantie-niveau rubrics en een verfijnd evaluatieproces dat op LLM gebaseerde verificatie afstemt op menselijk oordeel, waarbij een overeenstemmingspercentage van 80,1% wordt bereikt met Gemini-3-Pro. AgentIF-OneDay omvat 104 taken die 767 scoringspunten beslaan. We hebben vier toonaangevende algemene AI-agenten gebenchmarkt en ontdekten dat agentproducten gebouwd op API's en ChatGPT-agenten gebaseerd op agent-RL gelijktijdig in de eerste tier blijven. Toonaangevende LLM-API's en open-sourcemodellen hebben agentmogelijkheden geïnternaliseerd, waardoor AI-toepassingsteams baanbrekende Agent-producten kunnen ontwikkelen.
Naarmate op LLM gebaseerde agents worden ingezet in steeds complexere real-world omgevingen, ondervertegenwoordigen bestaande benchmarks cruciale uitdagingen zoals het handhaven van globale restricties, het coördineren van redeneren met meerdere tools en het aanpassen aan evoluerend gebruikersgedrag tijdens lange, multi-turn interacties. Om deze kloof te dichten, introduceren we TRIP-Bench, een benchmark voor lange-termijnplanning gebaseerd op realistische reisplanningsscenario's. TRIP-Bench maakt gebruik van real-world data, biedt 18 zorgvuldig samengestelde tools en meer dan 40 reisvereisten, en ondersteunt geautomatiseerde evaluatie. Het bevat splitsingen van uiteenlopende moeilijkheidsgraad; de moeilijke splitsing benadrukt lange en ambigue interacties, stijlverschuivingen, veranderende haalbaarheid en iteratieve versie-revisie. Dialogen beslaan tot 15 gebruikersbeurten, kunnen meer dan 150 tool-aanroepen omvatten en kunnen een context van meer dan 200k tokens overschrijden. Experimenten tonen aan dat zelfs geavanceerde modellen hooguit 50% succes behalen op de eenvoudige splitsing, waarbij de prestaties dalen tot onder 10% op moeilijke subsets. We stellen verder GTPO voor, een online multi-turn reinforcement learning-methode met gespecialiseerde reward-normalisatie en reward-differencing. Toegepast op Qwen2.5-32B-Instruct, verbetert GTPO de restrictienaleving en interactierobuustheid en presteert het beter dan Gemini-3-Pro in onze evaluatie. We verwachten dat TRIP-Bench praktische, langetermijn interactieve agents vooruit zal helpen, en dat GTPO een effectief online RL-recept zal bieden voor robuuste langetermijntraining.
Flow matching-modellen (FM's) hebben een revolutie teweeggebracht in tekst-naar-beeld (T2I) generatie, waarbij reinforcement learning (RL) een cruciale post-training strategie is voor afstemming op beloningsdoelen. In dit onderzoek tonen we aan dat huidige RL-pipelines voor FM's lijden onder twee onderschatte maar belangrijke beperkingen: sample-inefficiëntie door onvoldoende generatiediversiteit, en uitgesproken promptoverfitting, waarbij modellen specifieke trainingsformuleringen memoriseren en een dramatische prestatie-ineenstorting vertonen wanneer geëvalueerd met semantisch equivalente maar stilistisch gevarieerde prompts. Wij presenteren PromptRL (Prompt Matters in RL for Flow-Based Image Generation), een raamwerk dat taalmodellen (LM's) integreert als trainbare promptverfijningsagenten direct binnen de op flow gebaseerde RL-optimalisatielus. Dit ontwerp levert twee complementaire voordelen op: de snelle ontwikkeling van geavanceerde promptherschrijfcapaciteiten en, cruciaal, een synergetisch trainingsregime dat de optimalisatiedynamiek hervormt. PromptRL behaalt state-of-the-art prestaties op meerdere benchmarks, met scores van 0.97 op GenEval, 0.98 op OCR-nauwkeurigheid en 24.05 op PickScore. Verder valideren we de effectiviteit van onze RL-aanpak op grootschalige beeldbewerkingsmodellen, waarbij we de EditReward van FLUX.1-Kontext verbeteren van 1.19 naar 1.43 met slechts 0.06 miljoen rollouts. Dit overtreft Gemini 2.5 Flash Image (ook wel Nano Banana genoemd), dat een score van 1.37 behaalt, en bereikt vergelijkbare prestaties met ReasonNet (1.44), dat afhankelijk was van fijnmazige data-annotaties samen met een complexe meerfasen training. Onze uitgebreide experimenten tonen empirisch aan dat PromptRL consistent hogere prestatieplafonds bereikt terwijl het meer dan 2x minder rollouts vereist in vergelijking met naïeve flow-only RL. Onze code is beschikbaar op https://github.com/G-U-N/UniRL.
Sparse autoencoders (SAE's) zijn naar voren gekomen als een veelbelovende methode voor het interpreteren van neurale netwerkrepresentaties door activeringen te ontbinden in sparse combinaties van woordenboekatomen. SAE's veronderstellen echter dat kenmerken additief combineren via lineaire reconstructie, een aanname die compositionele structuur niet kan vastleggen: lineaire modellen kunnen niet onderscheiden of "Starbucks" ontstaat uit de compositie van "ster" en "koffie"-kenmerken of slechts uit hun co-voorkomen. Dit dwingt SAE's om monolithische kenmerken toe te wijzen voor samengestelde concepten in plaats van ze te ontbinden in interpreteerbare constituenten. Wij introduceren PolySAE, dat de SAE-decoder uitbreidt met hogere-orde termen om kenmerkinteracties te modelleren, terwijl de lineaire encoder die essentieel is voor interpreteerbaarheid behouden blijft. Door middel van low-rank tensorfactorisatie op een gedeelde projectiesubruimte vangt PolySAE paarsgewijze en drievoudige kenmerkinteracties op met een kleine parameteroverhead (3% op GPT2). Over vier taalmodelen en drie SAE-varianten behaalt PolySAE een gemiddelde verbetering van ongeveer 8% in probing F1, bij een vergelijkbare reconstructiefout, en produceert het 2-10 keer grotere Wasserstein-afstanden tussen klasse-conditionele kenmerkverdelingen. Cruciaal is dat de geleerde interactiegewichten een verwaarloosbare correlatie vertonen met co-voorkomensfrequentie (r = 0,06 versus r = 0,82 voor SAE-kenmerkcovariantie), wat suggereert dat polynoomtermen compositionele structuur vastleggen, zoals morfologische binding en frasecompositie, grotendeels onafhankelijk van oppervlaktestatistieken.
Grote Redeneermodellen (LRM's) hebben aanzienlijk baat bij training op uitdagende vragen van wedstrijdniveau. Bestaande geautomatiseerde methoden voor vraaggeneratie ontberen echter een precieze moeilijkheidscontrole, vergen hoge computationele kosten en slagen er niet in om op grote schaal vragen van wedstrijdniveau te genereren. In dit artikel stellen we CoDiQ (Controllable Difficult Question Generation) voor, een nieuw raamwerk dat fijnmazige moeilijkheidscontrole mogelijk maakt via test-time scaling, waarbij tegelijkertijd de oplosbaarheid van vragen gewaarborgd wordt. Concreet identificeren we eerst een test-time scaling tendens (een uitgebreid redeneertokenbudget verhoogt de moeilijkheidsgraad maar vermindert de oplosbaarheid) en de intrinsieke eigenschappen die de bovengrens definiëren van het vermogen van een model om geldige, hoogcomplexe vragen te genereren. Vervolgens ontwikkelen we CoDiQ-Generator op basis van Qwen3-8B, wat de bovengrens voor het genereren van moeilijke vragen verhoogt en het model bijzonder geschikt maakt voor het construeren van uitdagende vragen. Gebaseerd op het CoDiQ-raamwerk, bouwen we CoDiQ-Corpus (44K vraagsequenties van wedstrijdkwaliteit). Menselijke evaluaties tonen aan dat deze vragen aanzienlijk uitdagender zijn dan die van LiveCodeBench/AIME, met een oplosbaarheidspercentage van meer dan 82%. Het trainen van LRM's op CoDiQ-Corpus verbetert de redeneerprestaties aanzienlijk, wat bevestigt dat het schalen van trainingsvragen met gecontroleerde moeilijkheidsgraad de redeneervaardigheden versterkt. We maken CoDiQ-Corpus, CoDiQ-Generator en implementaties open source om gerelateerd onderzoek te ondersteunen.
Het inzetten van moderne spraaktaalmodellen (SpeechLMs) in streamingomgevingen vereist systemen die lage latentie, hoge doorvoer en sterke garanties voor stroombaarheid bieden. Bestaande systemen schieten tekort in het flexibel en efficiënt ondersteunen van diverse modellen. Wij presenteren VoxServe, een uniform serversysteem voor SpeechLMs dat de streamingprestaties optimaliseert. VoxServe introduceert een modeluitvoeringsabstractie die de modelarchitectuur ontkoppelt van systeemoptimalisaties, waardoor ondersteuning voor diverse SpeechLM-architecturen binnen een enkel raamwerk mogelijk wordt. Voortbouwend op deze abstractie implementeert VoxServe een streamingbewuste planning en een asynchrone inferentiepijplijn om de end-to-end efficiëntie te verbeteren. Evaluaties met meerdere moderne SpeechLMs tonen aan dat VoxServe een 10-20x hogere doorvoer bereikt dan bestaande implementaties bij vergelijkbare latentie, terwijl een hoge stroombaarheid behouden blijft. De code van VoxServe is beschikbaar op https://github.com/vox-serve/vox-serve.
Op vragen gebaseerde universele geluidsseparatie is fundamenteel voor intelligente auditieve systemen, met als doel specifieke bronnen uit mengsels te isoleren. Ondanks recente vooruitgang lijden bestaande methoden nog steeds onder restinterferentie in complexe akoestische scènes. Deze prestatiebeperking komt grotendeels voort uit een dataknelpunt: datasets uit de praktijk bevatten zwakke labels en ernstige co-voorkomen van gebeurtenissen. Deze tekortkomingen leiden ertoe dat modellen valse correlaties tussen achtergrondruis en doelcategorieën leren in plaats van robuuste akoestische kenmerken. Om dit aan te pakken, stellen we een geautomatiseerde pijplijn voor die het co-voorkomen van gebeurtenissen elimineert door hoogzuivere segmenten met enkele gebeurtenissen te delven uit praktijkdatasets via een semantisch consistente syntheseprotocol. Met behulp van deze pijplijn construeerden we Hive, een hoogwaardige synthetische dataset bestaande uit 2,4 duizend uur ruwe audio. Experimentele resultaten tonen aan dat, vergeleken met het state-of-the-art model SAM-Audio dat werd getraind op een enorme dataset ongeveer 500 keer groter dan Hive, bepaalde open-source modellen getraind op Hive competitieve scheidingsnauwkeurigheid en perceptuele kwaliteit bereiken. Bovendien vertoonden deze modellen opmerkelijke zero-shot generalisatie op out-of-distribution evaluatiebenchmarks. Deze bevindingen benadrukken dat het prioriteren van zuiverheid van begeleidende signalen aanzienlijke data-efficiëntie mogelijk maakt, wat een nieuw paradigma biedt voor het trainen van robuuste auditieve foundation modellen met gereduceerde rekenkosten. Code en dataset zijn beschikbaar op https://shandaai.github.io/Hive.
Multimodale grote taalmodellen (MLLM's) kampen met hoge rekenkosten door een overvloed aan visuele tokens, met name in scenario's met hoge resolutie en op video gebaseerde toepassingen. Bestaande methoden voor tokenreductie richten zich doorgaans op geïsoleerde pijplijnonderdelen en verwaarlozen vaak tekstuele afstemming, wat leidt tot prestatieverlies. In dit artikel presenteren we VisionTrim, een uniform raamwerk voor trainingsvrije MLLM-versnelling, dat twee effectieve plug-and-play modules integreert: 1) de Dominant Vision Token Selection (DVTS)-module, die essentiële visuele tokens behoudt via een globaal-lokaal perspectief, en 2) de Text-Guided Vision Complement (TGVC)-module, die contextbewuste tokensamenvoeging mogelijk maakt geleid door tekstuele aanwijzingen. Uitgebreide experimenten met diverse multimodale benchmarks voor afbeeldingen en video's tonen de prestatiesuperioriteit van onze VisionTrim aan, wat de praktische inzet van MLLM's in real-world toepassingen bevordert. De code is beschikbaar op: https://github.com/hanxunyu/VisionTrim.
Wereldmodellen leren een interne representatie van omgevingsdynamiek, waardoor agents toekomstige toestanden kunnen simuleren en redeneren binnen een compacte latente ruimte voor taken zoals planning, voorspelling en inferentie. Het uitvoeren van wereldmodellen vereist echter zware rekenkosten en een groot geheugenverbruik, waardoor modelkwantisatie essentieel is voor efficiënte implementatie. Tot op heden zijn de effecten van post-training kwantisatie (PTQ) op wereldmodellen grotendeels ononderzocht. In dit werk presenteren we een systematische empirische studie van wereldmodelkwantisatie met DINO-WM als representatief geval, waarbij we diverse PTQ-methoden evalueren in zowel gewichts- als gezamenlijke gewichts-activeringsconfiguraties. We voeren uitgebreide experimenten uit met verschillende visuele plannings taken over een breed scala aan bit-breedtes, kwantisatiegranulariteiten en planningshorizons tot 50 iteraties. Onze resultaten tonen aan dat kwantisatie-effecten in wereldmodellen verder reiken dan de standaard nauwkeurigheid-bit-breedte afwegingen: groepsgewijze gewichtskwantisatie kan low-bit rollouts stabiliseren, activeringskwantisatiegranulariteit levert inconsistente voordelen op, en kwantisatiegevoeligheid is sterk asymmetrisch tussen encoder- en voorspellermodules. Bovendien leidt agressieve low-bit kwantisatie tot een significante verslechtering van de afstemming tussen het planningsdoel en taaksucces, wat resulteert in fouten die niet kunnen worden verholpen door aanvullende optimalisatie. Deze bevindingen onthullen distinctieve door kwantisatie geïnduceerde faalmodi in op wereldmodellen gebaseerde planning en bieden praktische richtlijnen voor het implementeren van gekwantiseerde wereldmodellen onder strikte rekenbeperkingen. De code zal beschikbaar zijn op https://github.com/huawei-noah/noah-research/tree/master/QuantWM.
Grote taalmmodellen (LLM's) worden veelvuldig gebruikt als referentievrije evaluatoren via prompting, maar dit "LLM-as-a-Judge"-paradigma is kostbaar, ondoorzichtig en gevoelig voor promptontwerp. In dit werk onderzoeken we of kleinere modellen kunnen dienen als efficiënte evaluatoren door gebruik te maken van interne representaties in plaats van oppervlakkige generatie. We ontdekken een consistent empirisch patroon: kleine LM's, ondanks hun zwakke generatieve vermogen, coderen rijke evaluatieve signalen in hun verborgen toestanden. Dit motiveert ons om de Hypothese van Semantische Capaciteitsasymmetrie voor te stellen: evaluatie vereist aanzienlijk minder semantische capaciteit dan generatie en kan worden verankerd in intermediaire representaties, wat suggereert dat evaluatie niet per se hoeft te steunen op grootschalige generatieve modellen, maar in plaats daarvan latente kenmerken van kleinere modellen kan benutten. Onze bevindingen motiveren een paradigmaverschuiving van LLM-as-a-Judge naar Representation-as-a-Judge, een decodeervrije evaluatiestrategie die de interne modelstructuur onderzoekt in plaats van te vertrouwen op geprompte output. We concretiseren dit paradigma via INSPECTOR, een op probing gebaseerd raamwerk dat aspectniveau-evaluatiescores voorspelt uit kleine modelrepresentaties. Experimenten op redeneerbenchmarks (GSM8K, MATH, GPQA) tonen aan dat INSPECTOR op prompting gebaseerde kleine LM's aanzienlijk overtreft en volwaardige LLM-rechters dicht benadert, terwijl het een efficiënter, betrouwbaarder en interpreteerbaarder alternatief biedt voor schaalbare evaluatie.
De agency die wordt verwacht van Agentic Large Language Models gaat verder dan correct antwoorden; het vereist autonomie om doelen te stellen en te beslissen wat onderzocht moet worden. Wij noemen dit onderzoekende intelligentie, ter onderscheiding van uitvoerende intelligentie, die slechts toegewezen taken voltooit. Data Science biedt een natuurlijke testomgeving, omdat real-world analyse begint met ruwe data in plaats van expliciete vragen, maar er zijn weinig benchmarks die zich hierop richten. Om dit aan te pakken, introduceren we Deep Data Research (DDR), een open-ended taak waarbij LLM's zelfstandig belangrijke inzichten uit databases halen, en DDR-Bench, een grootschalige, checklist-gebaseerde benchmark die een verifieerbare evaluatie mogelijk maakt. Resultaten tonen aan dat hoewel frontier-modellen opkomende agency vertonen, verkenning op lange termijn een uitdaging blijft. Onze analyse benadrukt dat effectieve onderzoekende intelligentie niet alleen afhangt van agent-scaffolding of simpelweg schaalvergroting, maar ook van de intrinsieke strategieën van agentic modellen.
Grote Vision-Language Modellen (LVLMs) leveren sterke prestaties bij taken met één afbeelding, maar hun prestaties gaan achteruit wanneer meerdere afbeeldingen als invoer worden gegeven. Een belangrijke reden is het lekken van informatie tussen afbeeldingen, waarbij het model moeite heeft om informatie van verschillende afbeeldingen te onderscheiden. Bestaande LVLMs gebruiken al scheidingstokens om het begin en einde van elke afbeelding aan te geven, maar onze analyse toont aan dat deze tokens er niet effectief in slagen om het lekken van informatie tussen afbeeldingen tegen te gaan. Om hun effectiviteit te vergroten, stellen we een methode voor die de verborgen toestanden van de scheidingstokens schaalt. Dit versterkt het vermogen van het model om afbeeldingsspecifieke informatie te behouden door de interactie binnen afbeeldingen te versterken en ongewenste interacties tussen afbeeldingen te beperken. Hierdoor is het model beter in staat om onderscheid te maken tussen afbeeldingen en er nauwkeuriger over te redeneren. Experimenten tonen prestatieverbeteringen aan op benchmarks met meerdere afbeeldingen, zoals Mantis, MuirBench, MIRB en QBench2. We evalueren onze methode verder op taken met alleen tekst die een duidelijk onderscheid vereisen. De methode verbetert de prestaties op benchmarks voor het begrijpen van meerdere documenten en tabellen, waaronder TQABench, MultiNews en WCEP-10. Opmerkelijk is dat onze methode geen extra trainings- of inferentiekosten met zich meebrengt.
Versterkend leren met verifieerbare beloningen (RLVR) heeft groot potentieel getoond om het redeneervermogen van grote taalmodellen (LLM's) te verbeteren. Vanwege de beperkte hoeveelheid informatie die tijdens het RLVR-proces wordt verstrekt, kan het model zich echter alleen bezighouden met grotendeels blinde exploratie, wat vaak resulteert in falen bij uitdagende problemen. Om aanvullende informatie te bieden voor het RLVR-proces zonder afhankelijk te zijn van een leraarmodel, stellen we A^2D voor, een Adaptieve Vermogensdecompositiemethode om de effectiviteit van RLVR te vergroten. Concreet trainen we eerst een decompositor via RLVR zonder distillatie, zodat deze complexe vragen kan opsplitsen in een reeks eenvoudigere subvragen. Vervolgens gebruiken we deze decompositor om subvragen te annoteren voor elke vraag in de trainingsdataset, en trainen we de redenaar onder RLVR met subvragen als leidraad. Om A^2D beter te begrijpen, vergelijken we eerst de prestaties met competitieve baseline-methoden, wat de effectiviteit aantoont. Vervolgens observeren we dat onze methode functioneert als een plug-and-play module die kan worden toegepast op verschillende RLVR-algoritmen. Verder voeren we een analyse uit van de decompositor, die onthult hoe het RLVR-proces de prestaties en het gedrag ervan beïnvloedt, en welk type leidraad beter geschikt is voor het verbeteren van de exploratie- en exploitatievermogens van de redenaar.
3D-lijnmapping op basis van multi-view RGB-beelden biedt een compacte en gestructureerde visuele representatie van scènes. Wij benaderen dit probleem vanuit een fysiek en topologisch perspectief: een 3D-lijn ontstaat het meest natuurlijk als de rand van een eindig 3D vlak. Wij presenteren LiP-Map, een raamwerk voor gezamenlijke optimalisatie van lijnen en vlakken dat leerbare lijn- en vlakprimitieven expliciet modelleert. Deze koppeling maakt nauwkeurige en gedetailleerde 3D-lijnmapping mogelijk, met behoud van een sterke efficiëntie (typisch voltooid in 3 tot 5 minuten per scène). LiP-Map is baanbrekend door de integratie van vlakke topologie in 3D-lijnmapping, niet door paarsgewijze coplanariteitsbeperkingen op te leggen, maar door expliciet interacties tussen vlak- en lijnprimitieven te construeren, wat zo een principiële route biedt naar gestructureerde reconstructie in door de mens gemaakte omgevingen. Op meer dan 100 scènes uit ScanNetV2, ScanNet++, Hypersim, 7Scenes en Tanks\&Temple verbetert LiP-Map zowel de nauwkeurigheid als de volledigheid ten opzichte van state-of-the-art methoden. Naast de kwaliteit van lijnmapping verbetert LiP-Map significant visuele lokalisatie met lijnondersteuning, met sterke prestaties op 7Scenes. Onze code is vrijgegeven op https://github.com/calmke/LiPMAP voor reproduceerbaar onderzoek.
Recente onderzoeken hebben aangetoond dat layer pruning grote taalmodellen (LLM's) kan comprimeren terwijl sterke prestaties op classificatiebenchmarks behouden blijven, met weinig of geen finetuning. Bestaande pruningtechnieken leiden echter vaak tot ernstige prestatieverliezen op generatieve redeneertaken. Uit een systematische studie over meerdere modelfamilies blijkt dat taken die multi-step reasoning vereisen bijzonder gevoelig zijn voor dieptereductie. Naast oppervlakkige tekstdegeneratie observeren we achteruitgang van kritieke algoritmische capaciteiten, waaronder rekenkundige bewerkingen voor wiskundig redeneren en het genereren van gebalanceerde haakjes voor codesynthese. Onder realistische post-training beperkingen, zonder toegang tot pretrainingschaal data of rekenkracht, evalueren we een eenvoudige mitigatiestrategie gebaseerd op supervised finetuning met Self-Generated Responses. Deze aanpak bereikt een sterk herstel op classificatietaken, met behoud van tot 90% van de baselineprestaties, en levert substantiële winsten op van tot 20-30 procentpunt op generatieve benchmarks vergeleken met eerdere post-pruning technieken. Cruciaal is dat, ondanks deze winsten, het herstel voor generatief redeneren fundamenteel beperkt blijft ten opzichte van classificatietaken en vooral haalbaar is bij lagere pruningratio's. Al met al karakteriseren we de praktische grenzen van layer pruning voor generatief redeneren en bieden we richtlijnen voor wanneer dieptereductie effectief toegepast kan worden onder beperkte post-training omstandigheden.
Kennisdistillatie biedt een veelbelovende weg om redeneervaardigheden over te dragen van grote leraar-modellen naar efficiënte student-modellen. Echter, bestaande *on-policy* distillatiemethoden op tokenniveau vereisen een token-level alignering tussen de student- en leraar-modellen. Dit beperkt het verkenningsvermogen van het student-model, verhindert het effectieve gebruik van feedback uit de interactieve omgeving en leidt tot ernstige geheugenknelpunten bij *reinforcement learning*. Wij introduceren *On-policy Verbal Distillation* (OVD), een geheugenefficiënt raamwerk dat kansverdeling op tokenniveau vervangt door trajectovereenkomst met behulp van discrete verbale scores (0–9) van leraar-modellen. OVD vermindert de geheugenconsumptie aanzienlijk, maakt *on-policy* distillatie mogelijk van leraar-modellen met verbale feedback en vermijdt token-level alignering, waardoor het student-model vrij de uitvoerruimte kan verkennen. Uitgebreide experimenten met *Web question answering* en wiskundige redeneertaken tonen aan dat OVD bestaande methoden aanzienlijk overtreft, met een verbetering tot +12,9% absoluut in gemiddelde EM op Web Q&A-taken en een winst tot +25,7% op wiskundige benchmarks (wanneer getraind met slechts één willekeurig voorbeeld), terwijl het ook superieure trainings efficiëntie vertoont. Onze projectpagina is beschikbaar op https://OVD.github.io.
Inferentietijd-berekening is opnieuw naar voren gekomen als een praktische manier om de redeneercapaciteit van grote taalmodellen (LLM's) te verbeteren. De meeste test-time scaling (TTS) algoritmen zijn gebaseerd op autoregressieve decodering, wat niet geschikt is voor discrete diffusie-taalmodellen (dLLM's) vanwege hun parallelle decodering over de gehele sequentie. Als gevolg hiervan blijft de ontwikkeling van effectieve en efficiënte TTS-methoden om het volledige generatieve potentieel van dLLM's te ontsluiten een onderbelichte uitdaging. Om dit aan te pakken, stellen we Prism voor (Pruning, Remasking, and Integrated Self-verification Method), een efficiënt TTS-raamwerk voor dLLM's dat (i) Hiërarchische Trajectorie Zoektocht (HTS) uitvoert, waarbij rekenkracht dynamisch wordt gesnoeid en herverdeeld in een vroeg-tot-midden denoiseringsvenster, (ii) Lokale vertakking met gedeeltelijke remasking introduceert om diverse implementaties te verkennen terwijl tokens met een hoge betrouwbaarheid behouden blijven, en (iii) externe verifiers vervangt door Zelf-Geverifieerde Feedback (ZGF) verkregen via zelfevaluatie-prompts op tussentijdse voltooiingen. Over vier wiskundige redeneer- en codegeneratiebenchmarks op drie dLLM's, waaronder LLaDA 8B Instruct, Dream 7B Instruct en LLaDA 2.0-mini, behaalt onze Prism een gunstige prestatie-efficiëntie-verhouding, waarbij het de best-of-N-prestatie evenaart met aanzienlijk minder functie-evaluaties (NFE). De code is vrijgegeven op https://github.com/viiika/Prism.
Hoewel grote taalmodellen (LLM's) een significante vooruitgang in kunstmatige intelligentie vertegenwoordigen, zijn de hardware- en rekenkosten voor het trainen ervan eveneens aanzienlijk belastend. Onder de state-of-the-art optimalisatiemethoden vertrouwt AdamW op diagonale kromtingsschattingen en negeert het structurele eigenschappen, terwijl Muon globale spectrale normalisatie toepast ten koste van kromtingsinformatie. In deze studie hebben wij manifold-optimalisatiemethoden opnieuw onderzocht voor het trainen van LLM's, wat de beperkingen van beide optimalisatiemethoden mogelijk kan aanpakken, terwijl conventionele manifold-optimalisatiemethoden grotendeels over het hoofd zijn gezien vanwege de slechte prestaties bij grootschalige modeloptimalisatie. Door het momentum innovatief te projecteren op de raakruimte van de modelparameters en het te beperken tot een roterende Oblique-manifold, stellen wij een nieuwe, krachtige en efficiënte optimalisatiemethode voor, genaamd **Mano**, die als eerste de prestatiekloof tussen manifold-optimalisatie en moderne optimalisatiemethoden overbrugt. Uitgebreide experimenten met de LLaMA- en Qwen3-modellen tonen aan dat Mano consistent en significant beter presteert dan AdamW en Muon, zelfs met respectievelijk een lager geheugengebruik en een lagere rekencomplexiteit. Dit suggereert een uitgebreid Pareto-frontier in termen van ruimtelijke en temporele efficiëntie.
Diffusion Transformers zijn fundamenteel voor video- en beeldgeneratie, maar hun efficiëntie wordt beperkt door de kwadratische complexiteit van attention. Hoewel block sparse attention de berekening versnelt door alleen kritieke key-value blokken te verwerken, leidt dit bij hoge sparseheid tot kwaliteitsverlies door het wegvallen van context. In dit werk ontdekken we dat attention-scores van niet-kritieke blokken distributionele stabiliteit vertonen, waardoor ze nauwkeurig en efficiënt kunnen worden benaderd in plaats van verwijderd – een cruciaal inzicht voor sparse attention-ontwerp. Geïnspireerd door dit inzicht presenteren we PISA, een trainingsvrije Piecewise Sparse Attention die de volledige attention-span dekt met subkwadratische complexiteit. In tegenstelling tot het conventionele keep-or-drop paradigma dat niet-kritieke blokinformatie direct verwerpt, introduceert PISA een exact-or-approximate strategie: het behoudt exacte berekening voor kritieke blokken terwijl de rest efficiënt wordt benaderd via bloksgewijze Taylor-expansie. Dit ontwerp stelt PISA in staat als nauwkeurige proxy voor volledige attention te fungeren, waardoor de kloof tussen snelheid en kwaliteit wordt overbrugd. Experimentele resultaten tonen aan dat PISA respectievelijk 1,91× en 2,57× versnelling bereikt op Wan2.1-14B en Hunyuan-Video, terwijl het consistent de hoogste kwaliteit onder sparse attention-methoden handhaaft. Opmerkelijk is dat PISA zelfs voor beeldgeneratie op FLUX een 1,2× versnelling bereikt zonder in te leveren op visuele kwaliteit. Code is beschikbaar op: https://github.com/xie-lab-ml/piecewise-sparse-attention.
Wij onderzoeken de relatie tussen representatiegeometrie en de prestaties van neurale netwerken. Door analyse van 52 vooraf getrainde ImageNet-modellen uit 13 architectuurfamilies tonen wij aan dat effectieve dimensie – een ongecontroleerde geometrische maatstaf – de nauwkeurigheid sterk voorspelt. Effectieve dimensie van de output bereikt een partiële r=0,75 (p < 10^(-10)) na correctie voor modelcapaciteit, terwijl totale compressie een partiële r=-0,72 bereikt. Deze bevindingen repliceren op ImageNet en CIFAR-10, en generaliseren naar NLP: effectieve dimensie voorspelt de prestaties voor 8 encodermodellen op SST-2/MNLI en 15 uitsluitend-decoder LLM's op AG News (r=0,69, p=0,004), terwijl modelgrootte dat niet doet (r=0,07). Wij stellen bidirectionele causaliteit vast: verslechtering van de geometrie door ruis veroorzaakt nauwkeurigheidsverlies (r=-0,94, p < 10^(-9)), terwijl verbetering van de geometrie via PCA de nauwkeurigheid handhaaft over verschillende architecturen (-0,03 procentpunt bij 95% variantie). Deze relatie is onafhankelijk van het ruistype – Gaussische, uniforme, dropout- en zout-en-peperruis vertonen allemaal |r| > 0,90. Deze resultaten bevestigen dat effectieve dimensie domeinonafhankelijke voorspellende en causale informatie verschaft over de prestaties van neurale netwerken, geheel zonder labels berekend.
Versterkend leren is centraal komen te staan bij het na-trainen van grote taalmodellen, maar dominante algoritmen zijn afhankelijk van clipping-mechanismen die optimalisatieproblemen op grote schaal introduceren, zoals gebieden met nulgradiënten, reward hacking en traininstabiliteit. Wij stellen Clipping-Free Policy Optimization (CFPO) voor, waarbij heuristische clipping wordt vervangen door een convexe kwadratische strafterm afgeleid van Total Variatie-divergentiebeperkingen. Dit resulteert in een overal differentieerbare doelstellingsfunctie die stabiele beleidsupdates afdwingt zonder harde grenzen. We evalueren CFPO in zowel redeneer- als aligneringscontexten. Bij redeneren evenaart CFPO clipping-gebaseerde methoden op downstream benchmarks, terwijl het het stabiele trainingsregime verlengt. Bij alignment vermindert CFPO exploitatie van spraakzaamheid en beperkt het capaciteitsdegradatie, waarbij het competitieve prestaties voor instructie-opvolging behaalt. CFPO vereist slechts een wijziging van één coderegel en geen extra hyperparameters. Onze resultaten suggereren dat CFPO een veelbelovende, directe vervanging is voor clipping-gebaseerde methoden bij het na-trainen van grote taalmodellen.
Bestaande Tool-Integrated Reasoning (TIR)-modellen hebben de vraag-beantwoordingscapaciteiten van LLM's effectief uitgebreid door externe tools te integreren. Echter, in realistische scenario's doen zich talloze open-eindproblemen voor waarbij vaste tools vaak niet aan de taakeisen voldoen. Bovendien betekent het ontbreken van zelfoptimalisatiemechanismen dat foutieve tooloutputs de antwoorden van de LLM kunnen misleiden. Daarnaast vereist de constructie van bestaande tools aanzienlijke handmatige inspanning, wat hun toepasbaarheid beperkt. Omdat de redeneersporen van LLM's impliciete probleemoplossende capaciteiten omvatten, stellen wij UCT voor, een nieuw trainingsvrij raamwerk dat agents transformeert van toolgebruikers naar toolcreators. Deze aanbouw oogst redeneerervaringen en destilleert deze tot herbruikbare middelen. Deze methode transformeert de agent van een loutere toolgebruiker naar een toolcreator, waardoor adaptieve toolcreatie en zelfupdates tijdens het inferentieproces mogelijk worden. Wij introduceren ook een geheugenconsolidatiemechanisme om de toolbibliotheek te onderhouden, waardoor een hoge herbruikbaarheid van behouden ervaringsgeheugen voor latere redeneertaken wordt gegarandeerd. Dit nieuwe geautomatiseerde toolconstructieparadigma verbetert continu de toolkwaliteit tijdens het redeneren, waardoor het overall agentsysteem kan voortschrijden zonder aanvullende training. Uitgebreide experimenten tonen aan dat onze methode een nieuw paradigma vormt voor het verbeteren van de capaciteiten van TIR-modellen. In het bijzonder valideren de significante prestatieverbeteringen van +20,86%↑ en +23,04%↑ op benchmarks voor multidomein wiskundige en wetenschappelijke redeneertaken het zelf-evoluerende vermogen van de agent.
Cultureel bewuste veiligheidsmaatregelen zijn cruciaal voor AI-afstemming in praktijksituaties, waarbij veiligheid verder reikt dan gezond verstand en diverse lokale waarden, normen en regiospecifieke voorschriften omvat. Het opbouwen van grootschalige, cultureel verankerde datasets is echter uitdagend door beperkte middelen en een schaarste aan moedertaalannotators. Hierdoor vertrouwen veel veiligheidsmodellen op machinale vertaling van Engelstalige datasets, waarbij regionale en culturele nuances vaak verloren gaan. Wij presenteren een nieuw agent-gebaseerd datageneratieraamwerk om op schaal authentieke, regiospecifieke veiligheidsdatasets voor Zuidoost-Azië (ZOA) te creëren. Op deze basis introduceren we de SEA-Guard-familie, de eerste meertalige veiligheidsmodellen verankerd in ZOA-culturele contexten. Evaluatie over meerdere benchmarks en culturele varianten toont aan dat SEA-Guard consequent beter presteert dan bestaande veiligheidsmodellen in het detecteren van regionaal gevoelige of schadelijke inhoud, terwijl het sterke algemene veiligheidsprestaties behoudt.
Reinforcement learning verbetert de redeneervermogens van grote taalmodel(len) maar brengt vaak hoge computationele kosten met zich mee vanwege rollout-intensieve optimalisatie. Online promptselectie biedt een plausibele oplossing door informatieve prompts te prioriteren om de trainings efficiëntie te verbeteren. Huidige methodes zijn echter afhankelijk van kostbare, exacte evaluaties of construeren promptspecifieke voorspellende modellen die generalisatie over prompts missen. Deze studie introduceert Generaliseerbare Voorspellende Promptselectie (GPS), dat Bayesiaanse inferentie uitvoert naar promptmoeilijkheidsgraad met behulp van een lichtgewicht generatief model getraind op de gedeelde optimalisatiegeschiedenis. Intermediate-difficulty prioritering en history-anchored diversiteit zijn geïncorporeerd in het batch-acquisitieprincipe om informatieve promptbatches te selecteren. Het kleine voorspellende model generaliseert ook tijdens testtijd voor efficiënte computationele allocatie. Experimenten over diverse redeneerbenchmarks tonen aan dat GPS substantiële verbeteringen biedt in trainings efficiëntie, uiteindelijke prestaties en testtijd efficiëntie vergeleken met superieure baseline-methoden.
Inleiding. AI-ethiek wordt door verschillende actoren en belanghebbenden op uiteenlopende wijze gekaderd. Wij rapporteren de resultaten van een casestudy naar OpenAI waarin ethische AI-discours wordt geanalyseerd. Methode. Het onderzoek richtte zich op de vraag: Hoe heeft OpenAI's publieke discours in de loop der tijd gebruikgemaakt van 'ethiek', 'veiligheid', 'alignment' en aanverwante concepten, en wat zegt dit discours over de praktische kaderstelling? Er werd een gestructureerd corpus samengesteld uit openbare documentatie, waarbij onderscheid werd gemaakt tussen communicatie voor een algemeen publiek en communicatie met een academisch publiek. Analyse. Kwalitatieve inhoudsanalyse van ethische thema's combineerde inductief afgeleide en deductief toegepaste codes. Kwantitatieve analyse maakte gebruik van computationele inhoudsanalysemethoden via NLP om onderwerpen te modelleren en veranderingen in retoriek in de tijd te kwantificeren. Visualisaties rapporteren de geaggregeerde resultaten. Voor reproduceerbare resultaten hebben wij onze code vrijgegeven op https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Resultaten. De resultaten tonen aan dat discours over veiligheid en risico's de publieke communicatie en documentatie van OpenAI domineert, zonder toepassing van academische ethische kaders of vocabulaire. Conclusies. Implicaties voor governance worden gepresenteerd, samen met een discussie over ethics-washing praktijken in de industrie.
Grootschalige taalmodelen (LLM's) worden steeds vaker ingezet als beoordelaars om de prestaties van agents te evalueren, met name in niet-verifieerbare situaties waarbij de beoordelingen steunen op agenttrajecten die onder meer redeneerketens (chain-of-thought, CoT) bevatten. Dit paradigma gaat er impliciet van uit dat de CoT van een agent zowel diens interne redenering als de onderliggende toestand van de omgeving getrouw weerspiegelt. Wij tonen aan dat deze aanname kwetsbaar is: LLM-beoordelaars zijn zeer vatbaar voor manipulatie van de redeneersporen van agents. Door de CoT's van agents systematisch te herschrijven terwijl de acties en observaties ongewijzigd blijven, demonstreren wij dat gemanipuleerde redenering alleen al de false-positive ratio van state-of-the-art VLM-beoordelaars met tot wel 90% kan opdrijven, gebaseerd op 800 trajecten uiteenlopende webtaken. Wij bestuderen manipulatiestrategieën die variëren van stijlgerichte benaderingen, die alleen de presentatie van de redenering veranderen, tot inhoudsgerichte benaderingen, die signalen van taakvoortgang fabriceren, en constateren dat inhoudsgerichte manipulaties consistent effectiever zijn. Wij evalueren op prompting gebaseerde technieken en het opschalen van rekenkracht tijdens het beoordelen, wat de vatbaarheid voor manipulatie vermindert maar niet volledig opheft. Onze bevindingen onthullen een fundamentele kwetsbaarheid in op LLM's gebaseerde evaluatie en benadrukken de noodzaak van beoordelingsmechanismen die redeneerclaims verifiëren tegen waarneembaar bewijs.
Moderne deep learning-gebaseerde inpainting maakt realistische lokale beeldmanipulatie mogelijk, wat kritieke uitdagingen oplevert voor betrouwbare detectie. Wij observeren echter dat huidige detectoren voornamelijk vertrouwen op globale artefacten die als bijwerkingen van inpainting optreden, in plaats van op lokaal gesynthetiseerde inhoud. Wij tonen aan dat dit gedrag ontstaat doordat VAE-gebaseerde reconstructie een subtiele maar alomtegenwoordige spectrale verschuiving over het gehele beeld induceert, inclusief onbewerkte regio's. Om dit effect te isoleren, introduceren wij Inpainting Exchange (INP-X), een operatie die originele pixels buiten de bewerkte regio herstelt terwijl alle gesynthetiseerde inhoud behouden blijft. Wij creëren een testdataset van 90K afbeeldingen met echte, ingepaafte en 'uitgewisselde' beelden om dit fenomeen te evalueren. Onder deze interventie vertonen vooraf getrainde state-of-the-art detectoren, inclusief commerciële, een dramatische daling in nauwkeurigheid (bijvoorbeeld van 91\% naar 55\%), die vaak het niveau van toeval benadert. Wij bieden een theoretische analyse die dit gedrag linkt aan hoogfrequente attenuatie veroorzaakt door VAE-informatieflessenhalzen. Onze bevindingen benadrukken de noodzaak van inhoudsbewuste detectie. Training op onze dataset leidt inderdaad tot betere generalisatie en lokalisatie dan standaard inpainting. Onze dataset en code zijn publiekelijk beschikbaar op https://github.com/emirhanbilgic/INP-X.
Multi-agent systemen zijn naar voren gekomen als een krachtig paradigma voor het automatiseren van wetenschappelijke ontdekkingen. Om het gedrag van agenten in een multi-agent systeem te differentiëren, wijzen huidige raamwerken doorgaans generieke, op rollen gebaseerde persona's toe, zoals 'beoordelaar' of 'schrijver', of vertrouwen ze op grofkorrelige, op trefwoorden gebaseerde persona's. Hoewel functioneel, vereenvoudigt deze aanpak hoe menselijke wetenschappers werken, wiens bijdragen worden gevormd door hun unieke onderzoeksloopbanen. Als antwoord hierop stellen we INDIBATOR voor, een raamwerk voor moleculaire ontdekking dat agenten grondvest in geïndividualiseerde wetenschappersprofielen, opgebouwd uit twee modaliteiten: publicatiegeschiedenis voor uit de literatuur afgeleide kennis en moleculaire geschiedenis voor structurele prior knowledge. Deze agenten nemen deel aan een multi-turn debat door fasen van voorstel, kritiek en stemming. Onze evaluatie toont aan dat deze fijnmazige, op individualiteit gebaseerde agenten consequent beter presteren dan systemen die vertrouwen op grofkorrelige persona's, waarbij ze competitieve of state-of-the-art prestaties behalen. Deze resultaten valideren dat het vastleggen van het 'wetenschappelijke DNA' van individuele agenten essentieel is voor hoogwaardige ontdekkingen.
Algemene open-domein dense retrieval-systemen worden meestal getraind met een grote, eclectische mix van corpora en zoektaken. Hoe moeten deze diverse corpora en taken worden bemonsterd voor training? Conventionele benaderingen bemonsteren ze uniform, proportioneel aan hun instantiepopulatiegroottes, of zijn afhankelijk van menselijke expertsupervisie. Het is bekend dat de bemonsteringsstrategie voor trainingsdata de modelprestatie sterk kan beïnvloeden. Hoe de optimale strategie gevonden kan worden, is echter niet voldoende bestudeerd in de context van embedding-modellen. Wij stellen Inf-DDS voor, een nieuw op reinforcement learning gebaseerd bemonsteringsraamwerk dat trainingsdatasets adaptief herweegt, geleid door invloedsgebaseerde beloningssignalen, en dat aanzienlijk lichter is wat GPU-verbruik betreft. Onze techniek verfijnt iteratief het bemonsteringsbeleid en geeft prioriteit aan datasets die de modelprestatie op een doel-ontwikkelset maximaliseren. Wij evalueren de doeltreffendheid van onze bemonsteringsstrategie op een breed scala aan tekstretrievaltaken en tonen sterke verbeteringen in retrievalprestaties en betere aanpassing aan in vergelijking met bestaande gradient-gebaseerde bemonsteringsmethoden, terwijl het ook 1,5x tot 4x goedkoper is in GPU-gebruik. Onze bemonsteringsstrategie bereikt een absolute NDCG@10-verbetering van 5,03 bij het trainen van een multitalig bge-m3-model en een absolute NDCG@10-verbetering van 0,94 bij het trainen van all-MiniLM-L6-v2, zelfs wanneer gestart wordt vanaf expert-toegekende gewichten op een grote pool van trainingsdatasets.
Cross-linguale evaluatie van grote taalmodellen (LLM's) verwart doorgaans twee bronnen van variantie: echte verschillen in modelprestaties en meetonzekerheid. Wij onderzoeken de betrouwbaarheid van evaluatie door de generatiecondities constant te houden en alleen de doeltaal te variëren. Met behulp van synthetische klantondersteuningsdialogen, gegenereerd met identieke parameters voor het Estisch, Fins en Hongaars, testen we of automatische metrieken en LLM-as-a-judge-beoordelingen stabiele modelrangschikkingen opleveren voor deze morfologisch rijke, verwante Fins-Oegrische talen. Met een kleine set annotaties van moedertaalsprekers Estisch als referentiepunt constateren we systematische rangschikkingsinstabiliteiten: oppervlakkige metrieken (lexicale diversiteit, oppervlakte- en semantische gelijkenis) behouden cross-linguale stabiliteit, maar pragmatische beoordelingen (samenhang, instructieopvolging) vertonen ranginversies en correlaties die bijna nul zijn. Omdat de generatie gecontroleerd is, weerspiegelen deze inconsistenties hoe de beoordelaarsscoring zich verschillend gedraagt tussen talen, in plaats van echte modelverschillen. Dit gecontroleerde ontwerp biedt een diagnostische test: evaluatiemethoden die geen stabiliteit behouden onder identieke generatiecondities, signaleren een transferfaling vóór implementatie. Onze bevindingen suggereren dat zero-shot judge-transfer onbetrouwbaar is voor beoordeling op discoursniveau in morfologisch rijke talen, wat pleit voor taalspecifieke kalibratie tegenover gerichte menselijke ijkpunten. Wij maken ons gecontroleerde generatieprotocol, synthetische data en evaluatieraamwerk vrij om replicatie over taalfamilies heen mogelijk te maken op https://github.com/isaac-chung/cross-lingual-stability-judges.
Dit artikel presenteert YOLOE-26, een uniform raamwerk dat de implementatie-geoptimaliseerde YOLO26-architectuur (of YOLOv26) integreert met het open-vocabulariumleerparadigma van YOLOE voor real-time open-vocabularium instantiesegmentatie. Voortbouwend op het NMS-vrije, end-to-end ontwerp van YOLOv26, behoudt de voorgestelde aanpak de kenmerkende efficiëntie en determinisme van de YOLO-familie, terwijl de mogelijkheden ervan worden uitgebreid voorbij gesloten-verzamelingherkenning. YOLOE-26 gebruikt een convolutionele backbone met multi-schaal kenmerkgaggregatie in PAN/FPN-stijl, gevolgd door end-to-end regressie- en instantiesegmentatiekoppen. Een belangrijke architecturale bijdrage is de vervanging van vaste klasse-logits door een object-embeddingkop, die classificatie formuleert als similariteitsafstemming tegen prompt-embeddings afgeleid van tekstbeschrijvingen, visuele voorbeelden of een ingebouwde vocabulaire. Om efficiënte open-vocabulariumredenering mogelijk te maken, integreert het raamwerk Herparameteriseerbare Regio-Text Afstemming (RepRTA) voor zero-overhead tekstprompting, een Semantisch-Geactiveerde Visuele Prompt Encoder (SAVPE) voor voorbeeldgeleide segmentatie, en Lazy Region Prompt Contrast voor prompt-vrije inferentie. Alle promptingmodaliteiten opereren binnen een uniforme object-embeddingruimte, waardoor naadloze overschakeling mogelijk is tussen tekst-geprompte, visueel-geprompte en volledig autonome segmentatie. Uitgebreide experimenten tonen consistent schaalgedrag en gunstige nauwkeurigheid-efficiëntieafwegingen aan over verschillende modelgroottes in zowel geprompte als prompt-vrije instellingen. De trainingsstrategie benut grootschalige detectie- en groundingdatasets met multi-taskoptimalisatie en blijft volledig compatibel met het Ultralytics-ecosysteem voor training, validatie en implementatie. Al met al biedt YOLOE-26 een praktische en schaalbare oplossing voor real-time open-vocabularium instantiesegmentatie in dynamische, real-world omgevingen.
Reservoir Computing (RC) heeft zich gevestigd als een efficiënt paradigma voor temporele verwerking. De schaalbaarheid ervan wordt echter ernstig beperkt door (i) de noodzaak om temporele gegevens sequentieel te verwerken en (ii) het buitensporige geheugengebruik van hoogdimensionale reservoirs. In dit werk herzien we RC vanuit het perspectief van gestructureerde operatoren en toestandsruimtemodellering om deze beperkingen aan te pakken, waarbij we het Parallel Echo State Network (ParalESN) introduceren. ParalESN maakt de constructie mogelijk van hoogdimensionale en efficiënte reservoirs gebaseerd op diagonale lineaire recurrentie in de complexe ruimte, waardoor parallelle verwerking van temporele gegevens mogelijk wordt. Wij bieden een theoretische analyse die aantoont dat ParalESN de Echo State Property en de universaliteitsgaranties van traditionele Echo State Networks behoudt, terwijl het een equivalente representatie van willekeurige lineaire reservoirs in de complexe diagonaalvorm toelaat. Empirisch gezien evenaart ParalESN de voorspellende nauwkeurigheid van traditionele RC op tijdreeksbenchmarks, terwijl het aanzienlijke computationele besparingen oplevert. Op 1-D classificatietaken op pixelniveau bereikt ParalESN een competitieve nauwkeurigheid met volledig trainbare neurale netwerken, terwijl de computationele kosten en het energieverbruik met ordes van grootte worden verminderd. Over het geheel genomen biedt ParalESN een veelbelovende, schaalbare en principiële weg voor de integratie van RC binnen het landschap van deep learning.
Impliciete neurale representatie (INR) heeft zich bewezen als nauwkeurig en efficiënt in diverse domeinen. In dit werk onderzoeken we hoe verschillende neurale netwerken kunnen worden ontworpen als een nieuwe textuur-INR, die op een continue in plaats van discrete manier opereert in de invoer-UV-coördinaatruimte. Door grondige experimenten tonen we aan dat deze INR's goed presteren qua beeldkwaliteit, met aanzienlijk geheugengebruik en inferentietijd bij rendering. We analyseren de balans tussen deze doelstellingen. Daarnaast onderzoeken we diverse gerelateerde toepassingen in real-time rendering en downstreamtaken, zoals mipmap-fitting en INR-ruimtegeneratie.
Grote taalmodellen kunnen vloeiende antwoorden genereren die onjuist zijn ten opzichte van de geboden context, terwijl veel veiligheidsmaatregelen afhankelijk zijn van externe verificatie of een afzonderlijke beoordeling ná generatie. Wij introduceren interne-stroomsignaturen die de besluitvorming auditen aan de hand van dieptewijze dynamiek op een vaste monitoringgrens tussen blokken. De methode stabiliseert token-gewijze beweging via bias-gemeten monitoring, en vat vervolgens trajecten samen in compacte, bewegende uitlees-uitgelijnde deelruimten, geconstrueerd vanuit de top-token en zijn naaste concurrenten binnen elk dieptevenster. Aangrenzende vensterframes worden uitgelijnd door een orthogonaal transport, wat diepte-vergelijkbare getransporteerde stapgroottes, draaihoeken en deelruimtdrift-samenvattingen oplevert die invariant zijn voor basiskeuzes binnen het venster. Een lichtgewicht GRU-validator, getraind op deze signaturen, voert zelfcontrole uit zonder het basismodel aan te passen. Naast detectie lokaliseert de validator een oorzakelijke diepteg gebeurtenis en maakt een gerichte verfijning mogelijk: het model keert terug naar de oorzakelijke token en klemt een abnormale getransporteerde stap vast bij het geïdentificeerde blok, terwijl de orthogonale residu behouden blijft. De resulterende pijplijn biedt uitvoerbare lokalisatie en zelfcontrole met lage overhead, gebaseerd op interne beslisdynamiek. Code is beschikbaar op github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Wij introduceren Parabolische Positiecodering (PaPE), een op een parabool gebaseerde positiecodering voor visuele modaliteiten in attention-gebaseerde architecturen. Gegeven een set visuele tokens—zoals afbeeldingen, puntenwolken, video's of event camera streams—is ons doel hun posities te coderen, rekening houdend met de kenmerken van visuele modaliteiten. Eerdere werken hebben positiecoderingen grotendeels uitgebreid van 1D-sequenties in taal naar nD-structuren in visie, maar slechts met een gedeeltelijke inachtneming van visuele kenmerken. Wij dichten deze kloof door PaPE te ontwerpen op basis van principes gedistilleerd uit eerder werk: translatie-invariantie, rotatie-invariantie (PaPE-RI), afstandsverval, directionaliteit en contextbewustzijn. Wij evalueren PaPE op 8 datasets die 4 modaliteiten omvatten. Wij stellen vast dat PaPE of PaPE-RI de beste prestaties behaalt op 7 van de 8 datasets. Extrapolatie-experimenten op ImageNet-1K tonen aan dat PaPE bijzonder goed extrapoleert, met een absolute verbetering van tot 10,5% ten opzichte van de op een na beste positiecodering. Code is beschikbaar op https://github.com/DTU-PAS/parabolic-position-encoding.
Hoewel LLM-as-a-Judge veelvuldig wordt gebruikt voor geautomatiseerde evaluatie, opereren bestaande validatiepraktijken voornamelijk op het niveau van geobserveerde outputs, wat beperkt inzicht biedt in of LLM-rechters zelf functioneren als stabiele en betrouwbare meetinstrumenten. Om deze beperking aan te pakken, introduceren we een diagnostisch kader met twee fasen voor het beoordelen van de betrouwbaarheid van LLM-as-a-Judge, gebaseerd op de Item Response Theorie (IRT). Het kader adopteert het Graded Response Model (GRM) van IRT en formaliseert betrouwbaarheid langs twee complementaire dimensies: (1) intrinsieke consistentie, gedefinieerd als de stabiliteit van meetgedrag bij promptvariaties, en (2) menselijke afstemming, die de overeenkomst met menselijke kwaliteitsbeoordelingen vaststelt. We onderzoeken empirisch diverse LLM-rechters met dit kader en tonen aan dat het gebruik van IRT-GRM interpreteerbare signalen oplevert voor het systematisch diagnosticeren van oordelen. Deze signalen bieden praktische richtlijnen voor het verifiëren van de betrouwbaarheid van LLM-as-a-Judge en het identificeren van mogelijke oorzaken van onbetrouwbaarheid.