Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is vaak gebaseerd op groepssampling om voordelen te schatten en beleidsupdates te stabiliseren. In de praktijk zijn grote groepsgroottes niet haalbaar vanwege computationele beperkingen, wat het leren bevooroordeelt naar trajecten die al waarschijnlijk zijn. Kleinere groepen missen vaak zeldzame-correcte trajecten, terwijl ze nog steeds gemengde beloningen bevatten, waardoor de waarschijnlijkheid zich concentreert op veelvoorkomende oplossingen. We leiden de waarschijnlijkheid af dat updates zeldzame-correcte modi missen als een functie van de groepsgrootte, waarbij niet-monotoon gedrag wordt aangetoond, en karakteriseren hoe updates massa binnen de correcte set herverdelen, wat aantoont dat niet-bemonsterde-correcte massa kan krimpen zelfs wanneer de totale correcte massa groeit. Gemotiveerd door deze analyse stellen we een moeilijkheidsbewuste schalingscoëfficiënt voor voordelen voor, geïnspireerd door Focal loss, die updates voor prompts met een hoog succescijfer afzwakt. Deze lichtgewicht aanpassing kan direct worden geïntegreerd in elk groep- relatief RLVR-algoritme, zoals GRPO, DAPO en CISPO. Op Qwen2.5-7B over in-domein en out-of-domein benchmarks verbetert onze methode pass@256 van 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) en 73.2 → 76.8 (CISPO), terwijl pass@1 behouden blijft of verbetert, zonder de groepsgrootte of computationele kosten te verhogen.
Sparse Autoencoders (SAE's) zijn krachtige hulpmiddelen voor het interpreteren van neurale representaties, maar hun toepassing in audio blijft onderbelicht. Wij trainen SAE's op alle encoderlagen van Whisper en HuBERT, voorzien van een uitgebreide evaluatie van hun stabiliteit en interpreteerbaarheid, en tonen hun praktische nut aan. Meer dan 50% van de features blijft consistent bij verschillende initialisaties (random seeds), en de reconstructiekwaliteit blijft behouden. SAE-features vangen zowel algemene akoestische en semantische informatie als specifieke gebeurtenissen, zoals omgevingsgeluiden en paralinguïstische geluiden (bijv. gelach, gefluister), en ontwarren deze effectief: voor het wissen van een concept is verwijdering van slechts 19-27% van de features nodig. Feature-sturing reduceert de valse spraakdetecties van Whisper met 70% met een verwaarloosbare toename van de WER, wat de toepasbaarheid in de praktijk aantoont. Ten slotte vinden we dat SAE-features correleren met menselijke EEG-activiteit tijdens spraakperceptie, wat wijst op een afstemming met de menselijke neurale verwerking. De code en checkpoints zijn beschikbaar op https://github.com/audiosae/audiosae_demo.
De snelle vooruitgang van Large Language Models (LLM's) heeft de ontwikkeling gekatalyseerd van autonome agents die in staat zijn om complexe omgevingen te navigeren. Bestaande evaluaties volgen echter voornamelijk een deductief paradigma, waarbij agents taken uitvoeren op basis van expliciet verstrekte regels en statische doelen, vaak binnen beperkte planningshorizons. Cruciaal is dat hierbij de inductieve noodzaak wordt verwaarloosd voor agents om latente transitiewetten autonoom uit ervaring te ontdekken, wat de hoeksteen is voor het mogelijk maken van agent-vooruitziendheid en het handhaven van strategische samenhang. Om deze kloof te overbruggen, introduceren we OdysseyArena, dat de evaluatie van agents hercentreert op lange-termijn, actieve en inductieve interacties. We formaliseren en concretiseren vier primitieven, die abstracte transitiedynamica vertalen naar concrete interactieve omgevingen. Hierop voortbouwend stellen we OdysseyArena-Lite in voor gestandaardiseerde benchmarking, met een set van 120 taken om de inductieve efficiëntie en lange-termijnontdekking van een agent te meten. Verder introduceren we OdysseyArena-Challenge om de stabiliteit van agents stresstesten over extreme interactiehorizons (bijv. > 200 stappen). Uitgebreide experimenten met meer dan 15 toonaangevende LLM's onthullen dat zelfs geavanceerde modellen tekortschieten in inductieve scenario's, wat een kritieke bottleneck identificeert in de zoektocht naar autonome ontdekking in complexe omgevingen. Onze code en gegevens zijn beschikbaar op https://github.com/xufangzhi/Odyssey-Arena.
Wij introduceren Baichuan-M3, een medisch versterkt groot taalmodel dat is ontwikkeld om het paradigma te verschuiven van passieve vraagbeantwoording naar actieve, klinisch-kwalitatieve beslissingsondersteuning. Om de beperkingen van bestaande systemen bij open-einde consultaties aan te pakken, maakt Baichuan-M3 gebruik van een gespecialiseerde trainingspijplijn om de systematische werkwijze van een arts te modelleren. Belangrijke capaciteiten omvatten: (i) proactieve informatieverwerving om ambiguïteit op te lossen; (ii) redenering over lange termijn die verspreide aanwijzingen verenigt tot samenhangende diagnoses; en (iii) adaptieve hallucinatieonderdrukking om feitelijke betrouwbaarheid te waarborgen. Empirische evaluaties tonen aan dat Baichuan-M3 state-of-the-art resultaten behaalt op HealthBench, de nieuw geïntroduceerde HealthBench-Hallu en ScanBench, en daarbij GPT-5.2 significant overtreft in klinisch onderzoek, advies en veiligheid. De modellen zijn openbaar beschikbaar op https://huggingface.co/collections/baichuan-inc/baichuan-m3.
Entropie fungeert als een cruciale maatstaf voor het meten van de diversiteit van uitvoer gegenereerd door grote taalmmodellen (LLM's), wat waardevolle inzichten verschaft in hun verkenningcapaciteiten. Hoewel recente studies zich in toenemende mate richten op het monitoren en aanpassen van entropie om de balans tussen exploratie en exploitatie bij reinforcement fine-tuning (RFT) te verbeteren, moet een principieel begrip van de entropiedynamiek tijdens dit proces nog grondig worden onderzocht. In dit artikel stellen we een theoretisch kader op voor het analyseren van de entropiedynamiek tijdens het RFT-proces, dat start met een discriminantexpressie die entropieverandering onder een enkele logit-update kwantificeert. Deze basis stelt ons in staat een eerste-orde expressie voor entropieverandering af te leiden, die verder kan worden uitgebreid naar de updateformule van Group Relative Policy Optimization (GRPO). De uit theoretische analyse voortvloeiende corollaria en inzichten inspireren het ontwerp van entropiecontrolemethoden en bieden ook een verenigende lens voor het interpreteren van diverse op entropie gebaseerde methoden in bestaande studies. We leveren empirisch bewijs om de belangrijkste conclusies van onze analyse te ondersteunen en demonstreren de effectiviteit van de afgeleide entropie-discriminant clipping-methoden. Deze studie levert nieuwe inzichten op in RFT-trainingsdynamiek, en biedt theoretische ondersteuning en praktische strategieën voor het optimaliseren van de exploratie-exploitatiebalans tijdens het finetunen van LLM's.
Dit werk presenteert "Pisets", een spraak-naar-tekst systeem voor wetenschappers en journalisten, dat gebaseerd is op een driedelige architectuur. Deze architectuur is gericht op het verbeteren van de nauwkeurigheid van spraakherkenning en het minimaliseren van fouten en hallucinaties die geassocieerd worden met het Whisper-model. De architectuur omvat primaire herkenning met Wav2Vec2, filtering van fout-positieven via de Audio Spectrogram Transformer (AST), en uiteindelijke spraakherkenning door Whisper. De implementatie van curriculum learning-methoden en het gebruik van diverse Russischtalige spraakcorpora hebben de effectiviteit van het systeem aanzienlijk verbeterd. Daarnaast werden geavanceerde technieken voor onzekerheidsmodellering geïntroduceerd, wat verder bijdroeg aan verbeteringen in de transcriptiekwaliteit. De voorgestelde aanpakken zorgen voor een robuuste transcriptie van lange audiogegevens onder diverse akoestische omstandigheden in vergelijking met WhisperX en het standaard Whisper-model. De broncode van het "Pisets"-systeem is openbaar beschikbaar op GitHub: https://github.com/bond005/pisets.
Trainingsinstabiliteit blijft een kritieke uitdaging bij het vooraf trainen van grote taalmmodellen (LLM's), en uit zich vaak als plotselinge gradientexplosies die aanzienlijke rekenkundige middelen verspillen. Wij bestuderen trainingsfouten in een 5M-parameter NanoGPT-model geschaald via μP, en identificeren twee sleutelfenomenen die voorafgaan aan een ineenstorting: (1) een snelle daling van de stabiele rang van de gewichtsmatrix (verhouding tussen de gekwadrateerde Frobeniusnorm en de gekwadrateerde spectrale norm), en (2) een toenemende alignering tussen de Jacobiaanmatrices van aangrenzende lagen. Wij bewijzen theoretisch dat deze twee condities gezamenlijk een exponentiële groei van de gradientnorm met de netwerkdiepte veroorzaken. Om dit instabiliteitsmechanisme te doorbreken, stellen wij MSign voor, een nieuwe optimalisatiemethode die periodiek matrix sign-bewerkingen toepast om de stabiele rang te herstellen. Experimenten met modellen van 5M tot 3B parameters tonen aan dat MSign trainingsfouten effectief voorkomt met een rekenkundige overhead van minder dan 7,0%.
Internaal modelleren van de wereld – het voorspellen van overgangen tussen vorige toestanden X en volgende toestanden Y onder acties Z – is essentieel voor redeneren en plannen bij LLM's en VLM's. Het aanleren van dergelijke modellen vereist doorgaans kostbare trajecten met actielabels. Wij stellen SWIRL voor, een zelfverbeteringsraamwerk dat leert uit toestandssequenties zonder acties door acties als een latente variabele te behandelen en af te wisselen tussen Forward World Modelling (FWM) P_θ(Y|X,Z) en een Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL doorloopt iteratief twee fasen: (1) Variational Information Maximisation, die de FWM bijwerkt om volgende toestanden te genereren die de conditionele wederzijdse informatie met latente acties gegeven voorgaande toestanden maximaliseren, wat identificeerbare consistentie bevordert; en (2) ELBO-maximalisatie, die de IDM bijwerkt om waargenomen overgangen te verklaren, wat effectief coördinaatstijging uitvoert. Beide modellen worden getraind met reinforcement learning (specifiek GRPO) waarbij de log-kans van het tegenovergestelde bevroren model als beloningssignaal dient. Wij bieden theoretische leerbaarheidsgaranties voor beide updates en evalueren SWIRL op LLM's en VLM's in meerdere omgevingen: single-turn en multi-turn visuele dynamica in een open wereld, en synthetische tekstuele omgevingen voor fysica, web en tool calling. SWIRL behaalt verbeteringen van 16% op AURORABench, 28% op ByteMorph, 16% op WorldPredictionBench en 14% op StableToolBench.
Het kunnen simuleren van actie-uitkomsten in uiteenlopende omgevingen zal de ontwikkeling van generalistische agents op grote schaal revolutioneren. Het modelleren van deze werelddynamieken vormt echter een aanzienlijke uitdaging, vooral voor behendige robotica-taken, vanwege beperkte datadekking en schaarse actielabels. Als stap in deze richting introduceren we DreamDojo, een fundamenteel wereldmodel dat diverse interacties en behendige besturing leert uit 44.000 uur egocentrische menselijke video's. Onze datamix vertegenwoordigt de grootste videodataset tot nu toe voor wereldmodel-pre-training, met een breed scala aan dagelijkse scenarioën met diverse objecten en vaardigheden. Om het gebrek aan actielabels aan te pakken, introduceren we continue latente acties als uniforme proxy-acties, waardoor kennisoverdracht over interacties uit ongelabelde video's wordt verbeterd. Na nabewerking op kleinschalige doelrobotgegevens toont DreamDojo een sterk begrip van natuurkunde en precieze actiebestuurbaarheid. We ontwikkelden ook een distillatiepijplijn die DreamDojo versnelt naar een real-time snelheid van 10,81 FPS en de contextconsistentie verder verbetert. Ons werk maakt verschillende belangrijke toepassingen mogelijk op basis van generatieve wereldmodellen, waaronder live teleoperatie, beleidsevaluatie en modelgebaseerde planning. Systematische evaluatie op meerdere uitdagende out-of-distribution (OOD) benchmarks bevestigt de betekenis van onze methode voor het simuleren van open-wereld, contactrijke taken, waarmee de weg wordt geëffend voor algemene robotwereldmodellen.
Recente vooruitgang in redeneermodellen suggereert dat het genereren van plausibele pogingen voor onderzoekniveau wiskunde binnen bereik zou kunnen komen, maar verificatie blijft een knelpunt dat schaarse expertentijd vergt. Wij veronderstellen dat een zinvolle oplossing voldoende informatie op methodeniveau moet bevatten, zodat, wanneer deze wordt toegepast op een reeks verwante vragen, dit betere downstream-prestaties zou moeten opleveren dan onjuiste oplossingen. Voortbordurend op dit idee stellen wij Consequence-Based Utility voor, een evaluator zonder orakel die elke kandidaat-oplossing beoordeelt door de waarde ervan te testen als een in-context voorbeeld bij het oplossen van verwante maar verifieerbare vragen. Onze aanpak wordt geëvalueerd op een originele set wiskundeproblemen van onderzoekniveau, elk gekoppeld aan één door een expert geschreven oplossing en negen door een LLM gegenereerde oplossingen. Opmerkelijk is dat Consequence-Based Utility consistent beter presteert dan beloningsmodellen, generatieve beloningsmodellen en LLM-beoordelaars wat betreft rangschikkingskwaliteit. Specifiek, voor GPT-OSS-120B verbetert het Acc@1 van 67.2 naar 76.3 en AUC van 71.4 naar 79.6, met vergelijkbaar grote AUC-winsten op GPT-OSS-20B (69.0 naar 79.2). Verder vertoont het, in vergelijking met LLM-beoordelaars, ook een grotere kloof tussen oplosser en evaluator, waarbij het een sterkere scheiding tussen correct en fout handhaaft, zelfs op gevallen waar de onderliggende oplosser vaak faalt om het probleem op te lossen.
Lange redeneermodellen hebben vaak moeite in meertalige contexten: ze hebben de neiging om in het Engels te redeneren voor niet-Engelse vragen; wanneer ze worden verplicht om in de taal van de vraag te redeneren, dalen de nauwkeurigheidspercentages aanzienlijk. Deze problematiek wordt veroorzaakt door de beperkte capaciteiten voor zowel meertalig vraagbegrip als meertalig redeneren. Om beide problemen aan te pakken, stellen wij TRIT voor (Translation-Reasoning Integrated Training), een zelfverbeterend raamwerk dat de training van vertaling integreert in meertalig redeneren. Zonder externe feedback of aanvullende meertalige gegevens verbetert onze methode gezamenlijk het meertalig vraagbegrip en de responsgeneratie. Op MMATH presteert onze methode gemiddeld 7 procentpunten beter dan meerdere basislijnen, waarbij zowel de antwoordnauwkeurigheid als de taalconsistentie verbeteren. Verdere analyse toont aan dat de integratie van vertaaltraining de cross-linguale vraagalignering met meer dan 10 procentpunten verbetert en de vertaalkwaliteit voor zowel wiskundige vragen als algemeen-domeinteksten verhoogt, met winsten tot 8.4 COMET-punten op FLORES-200.
De schaalvergroting van Large Language Models (LLM's) wekt belangstelling voor matrixgebaseerde optimalisatiemethoden (zoals Shampoo, Muon, SOAP) vanwege hun convergentie-efficiëntie; hun vereiste voor holistische updates botst echter met de tensorfragmentatie in gedistribueerde raamwerken zoals Megatron. Bestaande oplossingen zijn suboptimaal: synchrone benaderingen leiden tot computationele redundantie, terwijl laagsgewijze partitionering dit conflict niet kan oplossen zonder de geometrische beperkingen van efficiënte communicatieprimitieven te schenden. Om deze kloof te overbruggen, stellen we Canzona voor, een uniform, asynchroon en belasting-evenwichtig raamwerk dat de logische toewijzing van de optimalisatiemethode ontkoppelt van de fysieke parameterdistributie. Voor Data Parallelisme introduceren we een alfa-Gebalanceerde Statische Partitioneringsstrategie die atomiciteit respecteert terwijl de belastingsonbalans wordt geneutraliseerd. Voor Tensor Parallelisme ontwerpen we een Asynchrone Verwerkingspijplijn die gebruikmaakt van Micro-Groep Planning om gefragmenteerde updates te batchverwerken en de reconstructie-overhead te verbergen. Uitgebreide evaluaties op de Qwen3-modelfamilie (tot 32B parameters) op 256 GPU's tonen aan dat onze aanpak de efficiëntie van gevestigde parallelle architecturen behoudt, met een 1,57x versnelling in end-to-end iteratietijd en een 5,8x reductie in latentie van de optimalisatiestap vergeleken met de baseline.
De snelle vooruitgang van vision-language-modellen heeft de opkomst van GUI-agenten gekatalyseerd. Deze agenten hebben een enorm potentieel voor het automatiseren van complexe taken, van online winkelen tot het boeken van vluchten, waardoor de last van repetitieve digitale workflows wordt verlicht. Als fundamentele capaciteit wordt GUI-gronding typisch gevestigd als een vereiste voor end-to-end taakuitvoering. Het stelt modellen in staat om interface-elementen, zoals tekst en pictogrammen, precies te lokaliseren om accurate handelingen zoals klikken en typen uit te voeren. In tegenstelling tot eerdere werken die modellen finetunen die al een sterk ruimtelijk bewustzijn hebben (bijv. Qwen3-VL), streven wij ernaar om de volledige technische pijplijn te beheersen door te starten vanaf een basismodel met minimale grondingscapaciteit, zoals POINTS-1.5. Wij introduceren POINTS-GUI-G-8B, dat state-of-the-art prestaties bereikt met scores van 59,9 op ScreenSpot-Pro, 66,0 op OSWorld-G, 95,7 op ScreenSpot-v2 en 49,9 op UI-Vision. Het succes van ons model wordt gedreven door drie sleutelfactoren: (1) Verfijnde Data-engineering, waarbij de formaten van diverse open-source datasets worden gestandaardiseerd naast verfijnde strategieën voor augmentatie, filtering en moeilijkheidsgradatie; (2) Verbeterde Trainingsstrategieën, waaronder continue finetuning van de vision-encoder om de perceptuele nauwkeurigheid te verbeteren en het handhaven van resolutieconsistentie tussen training en inferentie; en (3) Reinforcement Learning (RL) met Verifieerbare Beloningen. Hoewel RL traditioneel wordt gebruikt om redenering te versterken, tonen wij aan dat het de precisie significant verbetert in de perceptie-intensieve GUI-grondingstaak. Bovendien biedt GUI-gronding een natuurlijk voordeel voor RL, omdat beloningen eenvoudig verifieerbaar en zeer nauwkeurig zijn.
Versterkend Leren met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een onmisbaar paradigma voor het verbeteren van redeneervaardigheden in Grote Taalmodellen (LLM's). Echter, standaard beleidsoptimalisatiemethoden, zoals Groep Relatieve Beleidsoptimalisatie (GRPO), convergeren vaak naar beleidsregels met een lage entropie, wat leidt tot ernstige mode-collaps en beperkte outputdiversiteit. Wij analyseren dit probleem vanuit het perspectief van de dynamiek van steekproefkansen, en constateren dat de standaarddoelstelling de paden met de hoogste aannemelijkheid disproportioneel versterkt, waardoor geldige alternatieve redeneerketens worden onderdrukt. Om dit aan te pakken, stellen wij een nieuw Voordeel-Herweging Mechanism (ARM) voor, dat is ontworpen om de betrouwbaarheidsniveaus van alle correcte antwoorden in evenwicht te brengen. Door Prompt Perplexiteit en Antwoordbetrouwbaarheid op te nemen in de voordelschatting, hervormt onze methode dynamisch het beloningssignaal om de gradientupdates van over-betrouwbare redeneerpaden af te zwakken, terwijl de kansmassa wordt herverdeeld naar onderbelichte correcte oplossingen. Empirische resultaten tonen aan dat onze aanpak de generatieve diversiteit en responsentropie aanzienlijk verbetert, terwijl een competitieve nauwkeurigheid behouden blijft, waardoor effectief een superieure balans tussen exploratie en exploitatie in redeneertaken wordt bereikt. Empirische resultaten op Qwen2.5- en DeepSeek-modellen voor wiskundige en codeerbenchmarks laten zien dat ProGRPO entropie-collaps significant vermindert. Specifiek presteert onze methode op Qwen2.5-7B 5,7% beter dan GRPO in Pass@1 en, opmerkelijk, 13,9% beter in Pass@32, wat haar superieure vermogen aantoont om diverse correcte redeneerpaden te genereren.
Grote redeneermodellen behalen sterke prestaties door schaalbare chain-of-thought tijdens inferentie, maar dit paradigma lijdt onder kwadratische kosten, contextlengtebeperkingen en verslechterd redeneren door lost-in-the-middle effecten. Iteratief redeneren verzacht deze problemen door periodiek tussenliggende gedachten samen te vatten, maar bestaande methoden vertrouwen op supervised learning of vaste heuristieken en slagen er niet in te optimaliseren wanneer samengevat moet worden, wat bewaard moet blijven en hoe het redeneren hervat moet worden. Wij stellen InftyThink+ voor, een end-to-end reinforcement learning raamwerk dat de volledige iteratieve redeneertraject optimaliseert, gebaseerd op model-gestuurde iteratiegrenzen en expliciete samenvatting. InftyThink+ hanteert een tweefasen-trainingsschema met supervised cold-start gevolgd door trajectniveau reinforcement learning, waardoor het model strategische samenvattings- en vervolgbeslissingen kan leren. Experimenten op DeepSeek-R1-Distill-Qwen-1.5B tonen aan dat InftyThink+ de nauwkeurigheid met 21% verbetert op AIME24 en conventionele lange chain-of-thought reinforcement learning duidelijk overtreft, terwijl het ook beter generaliseert naar out-of-distribution benchmarks. Bovendien vermindert InftyThink+ de inferentielatentie significant en versnelt het de reinforcement learning training, wat wijst op verbeterde redeneerefficiëntie naast sterkere prestaties.
Huidige benchmarks voor mobiele GUI-agenten slagen er systematisch in om geheugenvaardigheden te evalueren, met slechts 5,2-11,8% geheugengerelateerde taken en geen evaluatie van leren over sessies heen. Wij introduceren MemGUI-Bench, een uitgebreide geheugengerichte benchmark met pass@k en gefaseerde LLM-as-judge-evaluatie. Onze bijdragen omvatten: (1) een systematische geheugentaxonomie die 11 agenten over 5 architecturen analyseert; (2) 128 taken over 26 applicaties waarin 89,8% het geheugen uitdagen door retentie over tijd en ruimte heen; (3) MemGUI-Eval, een geautomatiseerde pijplijn met Progressieve Scrutiny en 7 hiërarchische metrieken; en (4) RQ-gedreven beoordeling van 11 state-of-the-art agenten. Onze experimenten tonen significante geheugentekorten aan bij alle geëvalueerde systemen, identificeren 5 verschillende faalmodi en synthetiseren 5 praktische ontwerpimplicaties. Alle bronnen inclusief code, benchmark en evaluatieresultaten worden \textit{volledig open source gemaakt en continu onderhouden} op https://lgy0404.github.io/MemGUI-Bench/.
Hoewel mensen de wereld waarnemen via diverse modaliteiten die synergetisch samenwerken om een holistisch begrip van hun omgeving mogelijk te maken, kampen bestaande omnivideo-modellen nog steeds met aanzienlijke uitdagingen bij audio-visuele begripstaken. In dit artikel introduceren we OmniVideo-R1, een nieuw versterkt raamwerk dat de mixed-modality redeneervaardigheden verbetert. OmniVideo-R1 stelt modellen in staat om "te denken met omnimodale aanwijzingen" via twee kernstrategieën: (1) query-intensieve grounding gebaseerd op zelfgesuperviseerde leerparadigma's; en (2) modaliteit-attentieve fusie gebouwd op contrastieve leerparadigma's. Uitgebreide experimenten op meerdere benchmarks tonen aan dat OmniVideo-R1 consequent sterke baseline-modellen overtreft, wat de effectiviteit en robuuste generalisatiecapaciteiten ervan onderstreept.
Generatieve Beloningsmodellen (GenRMs) en LLM-als-rechter vertonen misleidende afstemming door correcte oordelen te produceren om de verkeerde redenen, aangezien ze worden getraind en geëvalueerd om Resultaatsnauwkeurigheid te prioriteren, wat hun vermogen om te generaliseren tijdens RLHF ondermijnt. Wij introduceren Redeneerconsistentie, een fijnmazige metric die de afstemming tussen het redeneerproces van het model en het menselijk oordeel kwantificeert. Onze evaluatie van frontier-modellen toont aan dat redeneerconsistentie effectief onderscheid maakt tussen state-of-the-art modellen en misleidende afstemming detecteert, terwijl resultaatsnauwkeurigheid op beide punten tekortschiet. Om deze kloof te dichten, introduceren we een hybride signaal dat redeneerconsistentie combineert met resultaatsnauwkeurigheid voor de training van GenRMs. Onze trainingsmethode behaalt state-of-the-art prestaties op RM-Bench (87,1%) en JudgeBench (82%), en overtreft de uitsluitend-op-resultaat gebaseerde basislijnen met gemiddeld 5%. Bij het gebruik van de RM tijdens RLHF verbetert onze methode effectief de prestaties, zoals aangetoond op Arena Hard v2, met name met een verbetering van 7% bij creatieve schrijftaken. Verdere analyse bevestigt dat onze methode ontsnapt aan de val van misleidende afstemming en de daling in redeneerconsistentie die wordt waargenomen bij uitsluitend-op-resultaat gebaseerde training effectief omkeert.
Het begrijpen van egocentrische video's speelt een cruciale rol voor belichaamde intelligentie. Recente multimodale grote taalmodellen (MLLM's) kunnen zowel visuele als auditieve invoer verwerken. Vanwege de uitdaging om tekstlabels te verkrijgen met coherente gezamenlijke modaliteitsinformatie, blijft echter onderbelicht of MLLM's beide modaliteiten gezamenlijk kunnen begrijpen in egocentrische video's. Om dit probleem aan te pakken, introduceren we EgoAVU, een schaalbare data-engine om automatisch egocentrische audio-visuele beschrijvingen, vragen en antwoorden te genereren. EgoAVU verrijkt menselijke beschrijvingen met multimodale context en genereert audio-visuele beschrijvingen door middel van cross-modale correlatiemodellering. Token-gebaseerde videofiltering en modulaire, op grafen gebaseerde curatie waarborgen zowel datadiversiteit als -kwaliteit. Met behulp van EgoAVU construeren we EgoAVU-Instruct, een grootschalige trainingsdataset van 3M samples, en EgoAVU-Bench, een handmatig geverifieerde evaluatieset die diverse taken dekt. EgoAVU-Bench onthult duidelijk de beperkingen van bestaande MLLM's: ze vertonen een sterke bias naar visuele signalen, waarbij ze vaak auditieve aanwijzingen verwaarlozen of er niet in slagen audio met de visuele bron te correleren. Het finetunen van MLLM's op EgoAVU-Instruct lost dit probleem effectief op, wat een prestatieverbetering tot 113% op EgoAVU-Bench mogelijk maakt. Deze voordelen transfereren ook naar andere benchmarks zoals EgoTempo en EgoIllusion, met een relatieve prestatieverbetering tot 28%. De code zal worden vrijgegeven aan de gemeenschap.
Grote Taalmodellen (LLM's) hebben opmerkelijke redeneervermogens getoond en indrukwekkende resultaten behaald op een breed scala aan taken. Ondanks deze vooruitgang blijven significante redeneerfouten bestaan, die zich zelfs in ogenschijnlijk eenvoudige scenario's voordoen. Om deze tekortkomingen systematisch te begrijpen en aan te pakken, presenteren wij de eerste uitgebreide survey die gewijd is aan redeneerfouten in LLM's. Wij introduceren een nieuw categoriseringsraamwerk dat onderscheid maakt tussen belichaamde en niet-belichaamde redenering, waarbij de laatste verder wordt onderverdeeld in informele (intuïtieve) en formele (logische) redenering. Parallel hieraan classificeren wij redeneerfouten langs een complementaire as in drie types: fundamentele fouten die intrinsiek zijn aan LLM-architecturen en downstreamtaken breed beïnvloeden; toepassingsspecifieke beperkingen die zich voordoen in bepaalde domeinen; en robuustheidsproblemen die worden gekenmerkt door inconsistente prestaties bij kleine variaties. Voor elke redeneerfout geven wij een duidelijke definitie, analyseren bestaande studies, onderzoeken oorzaken en presenteren strategieën om de fouten te mitigeren. Door gefragmenteerde onderzoeksinspanningen te verenigen, biedt onze survey een gestructureerd perspectief op systemische zwaktes in LLM-redenering, wat waardevolle inzichten biedt en toekomstig onderzoek leidt naar het bouwen van sterkere, betrouwbaardere en robuustere redeneervermogens. Wij publiceren bovendien een uitgebreide verzameling onderzoekswerken over LLM-redeneerfouten, als een GitHub-repository op https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, om een eenvoudig toegangspunt tot dit gebied te bieden.
Mixture-of-Experts (MoE)-architecturen evolueren naar fijnere granulariteit om de parameter-efficiëntie te verbeteren. Bestaande MoE-ontwerpen kampen echter met een inherente afweging tussen de granulariteit van expertspecialisatie en de hardware-uitvoeringsefficiëntie. Wij stellen OmniMoE voor, een systeem-algoritme co-ontworpen raamwerk dat de expertgranulariteit naar het logische uiterste doorvoert. OmniMoE introduceert vector-level Atoom Experts, waardoor schaalbare routering en uitvoering binnen een enkele MoE-laag mogelijk wordt, terwijl een gedeelde dense MLP-tak behouden blijft voor algemene verwerking. Hoewel dit atomaire ontwerp de capaciteit maximaliseert, vormt het ernstige uitdagingen voor routeringscomplexiteit en geheugentoegang. Om deze aan te pakken, hanteert OmniMoE een systeem-algoritme co-ontwerp: (i) een Cartesiaanse Product Router die de enorme indexruimte decomposeert om de routeringscomplexiteit van O(N) naar O(√N) te reduceren; en (ii) Expert-Centric Scheduling die de uitvoeringsvolgorde omkeert om verspreide, geheugengebonden opzoekoperaties om te zetten in efficiënte dense matrixbewerkingen. Getoetst op zeven benchmarks behaalt OmniMoE (met 1.7B actieve parameters) een 50.9% zero-shot nauwkeurigheid over zeven benchmarks, en overtreft daarmee coarse-grained (bv. DeepSeekMoE) en fine-grained (bv. PEER) referentiemodellen. Cruciaal is dat OmniMoE de inferentielatentie verlaagt van 73ms naar 6.7ms (een 10.9-voudige versnelling) in vergelijking met PEER, wat aantoont dat grootschalige fijnkorrelige MoE zowel snel als nauwkeurig kan zijn. Onze code is open-source beschikbaar op https://github.com/flash-algo/omni-moe.
Gewichtsgebaseerde kwantisatie is belangrijk voor het comprimeren van grote taalmodel(len) (LLM's). Geïnspireerd door de gedachte achter klassieke magnitude pruning, onderzoeken we of de omvang van gewichtsupdates tijdens reasoning-gestuurde fine-tuning waardevolle signalen kan bieden voor het kwantiseren van grote redeneermodellen (LRM's). Wij veronderstellen dat de kleinste en grootste gewichtsupdates tijdens fine-tuning belangrijker zijn dan updates met een tussenliggende omvang, een fenomeen dat wij "beide uitersten beschermen" noemen. Na hypothesevalidatie introduceren we QuantLRM, wat staat voor gewichtskwantisatie van LRM's via fine-tuning-signalen. We passen eenvoudige beperkte kwadratische functies toe op gewichtsupdates om beide uitersten te beschermen. Door de gemiddelde kwadratische waarden te vermenigvuldigen met het aantal nul-gewichtsupdates per kanaal, berekenen we kanaalbelangrijkheid die effectiever is dan het gebruik van activatie- of tweede-orde-informatie. We voeren QuantLRM uit om diverse gefinetunede modellen (inclusief supervised, direct preference optimization en reinforcement learning fine-tuning) te kwantiseren over vier redeneerbenchmarks (AIME-120, FOLIO, temporele sequenties en GPQA-Diamond) en vinden empirisch dat QuantLRM een consistente verbetering biedt voor LRM-kwantisatie, met een gemiddelde verbetering van 6,55% op een reinforcement learning-gefinetuned model. QuantLRM ondersteunt ook niet-gefinetunede LRM's door effectieve signalen te verzamelen via pseudo-fine-tuning, wat de toepasbaarheid ervan aanzienlijk vergroot.
Open-ended zelfverbeterende agents kunnen autonoom hun eigen structurele ontwerpen aanpassen om hun capaciteiten te vergroten en de beperkingen van vooraf gedefinieerde architecturen te overstijgen, waardoor de afhankelijkheid van menselijk ingrijpen wordt verminderd. Wij introduceren Group-Evolving Agents (GEA), een nieuw paradigma voor open-ended zelfverbetering, dat een groep agents als fundamentele evolutionaire eenheid beschouwt en expliciete ervaringsdeling en -hergebruik binnen de groep gedurende de evolutie mogelijk maakt. In tegenstelling tot bestaande open-ended zelf-evoluerende paradigma's die een boomstructuur-evolutie hanteren, overkomt GEA de beperking van inefficiënt gebruik van explorerende diversiteit veroorzaakt door geïsoleerde evolutionaire takken. Wij evalueren GEA op uitdagende codeerbenchmarks, waar het significant beter presteert dan state-of-the-art zelf-evoluerende methodes (71,0% vs. 56,7% op SWE-bench Verified, 88,3% vs. 68,3% op Polyglot) en evenaart of overtreft top door mensen ontworpen agent-frameworks (respectievelijk 71,8% en 52,0% op twee benchmarks). Analyse toont aan dat GEA explorerende diversiteit in de vroege fase effectiever omzet in aanhoudende, langetermijnvooruitgang, waardoor het sterkere prestaties bereikt bij hetzelfde aantal geëvolueerde agents. Bovendien vertoont GEA consistente transferbaarheid over verschillende coderingsmodellen en grotere robuustheid, waarbij het framework-niveau bugs oplost in gemiddeld 1,4 iteraties, versus 5 bij zelf-evoluerende methodes.
Grote Taalmodellen (GTM's) vertonen vaak verminderde prestaties, culturele afstemming en veiligheidsrobuustheid in niet-Engelse talen, deels omdat Engels zowel de voor-trainingsdata als de datasets voor afstemming op menselijke voorkeuren domineert. Trainingsmethoden zoals Reinforcement Learning from Human Feedback (RLHF) en Direct Preference Optimization (DPO) vereisen gegevens over menselijke voorkeuren, die voor veel talen buiten het Engels schaars blijven en grotendeels niet-openbaar zijn. Om dit gat te dichten, introduceren wij compar:IA, een open-source digitale overheidsdienst ontwikkeld binnen de Franse overheid en ontworpen om grootschalige gegevens over menselijke voorkeuren te verzamelen van een overwegend Franstalig algemeen publiek. Het platform gebruikt een blinde paarsgewijze vergelijkingsinterface om onbeperkte, real-world prompts en gebruikersbeoordelingen over een diverse reeks taalmodelen vast te leggen, met behoud van een lage drempel voor deelname en privacy-beschermende automatische filtering. Per 7 februari 2026 heeft compar:IA meer dan 600.000 vrij-vorm prompts en 250.000 voorkeursstemmen verzameld, waarvan ongeveer 89% van de gegevens in het Frans. Wij geven drie complementaire datasets vrij — gesprekken, stemmen en reacties — onder open licenties, en presenteren eerste analyses, inclusief een Franstalige model-ranglijst en patronen van gebruikersinteractie. Naast de Franse context evolueert compar:IA naar een internationale digitale publieke voorziening, die herbruikbare infrastructuur biedt voor meertalige modeltraining, evaluatie en de studie van mens-AI-interactie.
Efficiënte inzet van grote taalmodellen (LLM's) vereist extreme kwantisering, wat een kritische afweging tussen efficiëntie bij lage bits en prestaties afdwingt. Residuele binarisatie maakt hardwarevriendelijke, matmul-vrije inferentie mogelijk door binaire (±1) lagen te stapelen, maar wordt geteisterd door pathologische feature co-adaptatie. Wij identificeren een cruciale foutmodus, die we *inter-pad-adaptatie* noemen: tijdens *Quantization-Aware Training* (QAT) leren parallelle residuele binaire paden redundante features aan, wat de foutcompensatiestructuur degradeert en de expressieve capaciteit van het model beperkt. Terwijl eerder werk vertrouwt op heuristische oplossingen (zoals pad-bevriezing) die de oplossingsruimte beperken, stellen wij RaBiT voor, een nieuw kwantiseringsraamwerk dat co-adaptatie oplost door algoritmisch een residuele hiërarchie af te dwingen. De kernmechanisme leidt elk binair pad sequentieel af uit een enkele gedeelde gewichtenvector met volledige precisie, wat garandeert dat elk pad de fout van het voorgaande corrigeert. Dit proces wordt gestabiliseerd door een robuuste initialisatie die functioneel behoud prioriteert boven loutere gewichtsbenadering. RaBiT herdefinieert de frontlijn voor nauwkeurigheid-efficiëntie bij 2 bits: het behaalt state-of-the-art prestaties, evenaart zelfs hardware-intensieve *Vector Quantization* (VQ)-methoden, en levert een 4,49× versnelling in inferentie op ten opzichte van modellen met volledige precisie op een RTX 4090.
Meerdraads jailbreaks vertegenwoordigen het werkelijke dreigingsmodel voor veiligheidsafgestemde chatbots, waarbij enkeldraads aanvallen slechts een speciaal geval zijn. Toch falen bestaande benaderingen door exploratiecomplexiteit en intent-drift. Wij stellen SEMA voor, een eenvoudig maar effectief raamwerk dat een meerdraads aanvaller traint zonder te vertrouwen op bestaande strategieën of externe data. SEMA bestaat uit twee fasen. *Prefilling self-tuning* maakt bruikbare rollouts mogelijk door fine-tuning op niet-weigerende, goed gestructureerde, meerdraads adversariële prompts die zelf gegenereerd worden met een minimale prefix, waardoor het daaropvolgende leren wordt gestabiliseerd. *Reinforcement learning* met een *intent-drift-aware* beloning traint de aanvaller om geldige meerdraads adversariële prompts te genereren terwijl hetzelfde schadelijke doel wordt aangehouden. Wij verankeren de schadelijke intentie in meerdraads jailbreaks via een *intent-drift-aware* beloning die intentie-alignering, compliancerisico en detailniveau combineert. Ons *open-loop* aanvalsregime vermijdt afhankelijkheid van slachtofferfeedback, verenigt enkel- en meerdraads instellingen, en reduceert exploratiecomplexiteit. Over meerdere datasets, slachtoffermodellen en jailbreak-beoordelaars behaalt onze methode state-of-the-art (SOTA) aanvalssuccespercentages (ASR), en presteert beter dan alle enkeldraads *baselines*, handmatig gescripte en template-gedreven meerdraads *baselines*, evenals onze SFT (*Supervised Fine-Tuning*) en DPO (*Direct Preference Optimization*) varianten. SEMA behaalt bijvoorbeeld een gemiddelde ASR@1 van 80.1% over drie *closed-source* en *open-source* slachtoffermodellen op AdvBench, 33.9% hoger dan SOTA. De aanpak is compact, reproduceerbaar en transferreert over doelen heen, wat een sterkere en realistischer stresstest biedt voor de veiligheid van grote taalmodellen (LLM) en automatisch *redteaming* mogelijk maakt om faalwijzen bloot te leggen en te lokaliseren. Onze code is beschikbaar op: https://github.com/fmmarkmq/SEMA.
Wij onderzoeken een hardnekkig faalmechanisme bij multi-doel-afstemming van grote taalmodellen (LLM's): training verbetert de prestaties voor slechts een subset van doelstellingen, terwijl andere verslechteren. Wij formaliseren dit fenomeen als cross-objectieve interferentie en voeren de eerste systematische studie uit over klassieke scalarisatie-algoritmen, waaruit blijkt dat interferentie alomtegenwoordig is en sterke modelafhankelijkheid vertoont. Om dit fenomeen te verklaren, leiden we een lokale covariantiewet af die aantoont dat een doelstelling in eerste orde verbetert wanneer de beloning ervan een positieve covariantie vertoont met de gescalariseerde score. We breiden deze analyse uit naar geknipte surrogaatdoelstellingen die in moderne afstemming worden gebruikt, en tonen aan dat de covariantiewet onder milde voorwaarden geldig blijft ondanks het knippen. Op basis van deze analyse stellen wij Covariance Targeted Weight Adaptation (CTWA) voor, een plug-and-play-methode die een positieve covariantie tussen doelbeloningen en het trainingssignaal handhaaft om cross-objectieve interferentie effectief te beperken. Ten slotte vullen we deze lokale verbeteringsvoorwaarden aan met een globale convergentie-analyse onder de Polyak–Łojasiewicz-voorwaarde, waarbij we vaststellen wanneer niet-convexe gescalariseerde optimalisatie globale convergentie bereikt en hoe cross-objectieve interferentie afhangt van specifieke geometrische eigenschappen van het model.
Standaard trainingspijplijnen voor grote taalmodellen (LLM's) zijn typisch unidirectioneel en verlopen van voorafgaande training (pre-training) tot naftraining (post-training). Het potentieel voor een bidirectioneel proces – waarbij inzichten uit de naftraining het vooraf getrainde foundation-model retroactief verbeteren – blijft echter onontgonnen. Wij beogen een zelfversterkende vliegwiel te creëren: een cyclus waarin een via reinforcement learning (RL) afgestemd model het basismodel versterkt, wat op zijn beurt de prestaties in latere naftraining verbetert, zonder dat een speciaal getrainde leraar of referentiemodel nodig is. Om dit te realiseren, analyseren we de trainingsdynamiek en identificeren de middenfase van de training (annealing) als een kritisch keerpunt voor modelcapaciteiten. Deze fase treedt typisch op aan het einde van de voorafgaande training, waarbij hoogwaardige corpora worden gebruikt onder een snel afnemend leertempo. Voortbouwend op dit inzicht introduceren we ReMiT (Reinforcement Learning-Guided Mid-Training). Concreet benut ReMiT de redeneerpriors van RL-afgestemde modellen om tokens dynamisch te herwegen tijdens de middenfase, waarbij prioriteit wordt gegeven aan tokens die cruciaal zijn voor redeneren. Empirisch behaalt ReMiT een gemiddelde verbetering van 3% op 10 benchmarks voor voorafgaande training, verdeeld over wiskunde, code en algemeen redeneren, en behoudt het deze winst met meer dan 2% gedurende de gehele naftrainingspijplijn. Deze resultaten valideren een iteratieve feedbacklus, die een continue en zelfversterkende evolutie van LLM's mogelijk maakt.
Unified multimodal modellen (UMM's) hebben indrukwekkende capaciteiten getoond in het genereren van natuurlijke beelden en het ondersteunen van multimodale redeneertaken. Hun potentieel voor het ondersteunen van computervaardigheidsplanningstaken, die nauw verbonden zijn met ons dagelijks leven, blijft echter onderbelicht. Beeldgeneratie en -bewerking in computervaardigheidstaken vereisen capaciteiten zoals ruimtelijk redeneren en procedureel begrip, en het is nog onbekend of UMM's over deze capaciteiten beschikken om deze taken te voltooien. Daarom stellen wij PlanViz voor, een nieuwe benchmark ontworpen om beeldgeneratie en -bewerking voor computervaardigheidstaken te evalueren. Om het doel van onze evaluatie te bereiken, richten we ons op subtaken die frequent voorkomen in het dagelijks leven en planningstappen vereisen. Concreet worden drie nieuwe subtaken ontworpen: routeplanning, werkdiagrammen en web- & UI-weergave. Wij pakken de uitdagingen op het gebied van data-kwaliteit aan door het samenstellen van door mensen geannoteerde vragen en referentiebeelden, en een kwaliteitscontroleproces. Voor de uitdagingen van een uitgebreide en exacte evaluatie wordt een taakadaptieve score, PlanScore, voorgesteld. Deze score helpt bij het begrijpen van de correctheid, visuele kwaliteit en efficiëntie van gegenereerde beelden. Door middel van experimenten belichten we cruciale beperkingen en kansen voor toekomstig onderzoek op dit gebied.
Versterkend leren (RL) is naar voren gekomen als het dominante paradigma voor het trainen van op grote taalmodel (LLM) gebaseerde AI-agenten. Echter, bestaande backbone RL-algoritmen ontberen geverifieerde convergentiegaranties in agent-scenario's, vooral in multi-turn settings, wat kan leiden tot trainingsinstabiliteit en het falen om te convergeren naar optimale beleidsregels. In dit artikel analyseren we systematisch hoe verschillende combinaties van beleidsupdate-mechanismen en advantage-schattingsmethoden de convergentie-eigenschappen in single/multi-turn scenario's beïnvloeden. We constateren dat REINFORCE met Group Relative Advantage Estimation (GRAE) kan convergeren naar het globale optimum onder niet-verdisconteerde condities, maar dat de combinatie van PPO & GRAE de oorspronkelijke monotone verbeteringseigenschap van PPO doorbreekt. Verder tonen we aan dat mainstream backbone RL-algoritmen niet tegelijkertijd zowel critic-vrije werking als convergentiegaranties kunnen bereiken in multi-turn scenario's. Om dit aan te pakken, stellen we SeeUPO (Sequence-level Sequential Update Policy Optimization) voor, een critic-vrije benadering met convergentiegaranties voor multi-turn interacties. SeeUPO modelleert multi-turn interactie als sequentieel uitgevoerde multi-agent bandit-problemen. Door turn-voor-turn sequentiële beleidsupdates in omgekeerde uitvoeringsvolgorde zorgt het voor monotone verbetering en convergentie naar de globale optimale oplossing via backward inductie. Experimenten op AppWorld en BFCL v4 demonstreren de substantiële verbeteringen van SeeUPO ten opzichte van bestaande backbone-algoritmen: relatieve winsten van 43.3%-54.6% op Qwen3-14B en 24.1%-41.9% op Qwen2.5-14B (gemiddeld over benchmarks), samen met superieure trainingsstabiliteit.
Dichte Transformer-taalmodelle hebben grotendeels vastgehouden aan een consistente architectonische vorm: elke laag bestaat uit een aandachtmodule gevolgd door een feedforward-netwerk (FFN) met een smal-breed-smal MLP, waarbij de meeste parameters worden toegewezen aan de MLP met expansieverhoudingen tussen 2 en 4. Gemotiveerd door recente resultaten die aantonen dat residuele breed-smal-brede (zandloper) MLP's superieure functiebenaderingscapaciteiten bieden, heroverwegen we de lang bestaande conventie van de MLP-vorm in de Transformer, waarbij we de noodzaak van het smal-breed-smal ontwerp in twijfel trekken. Om dit te bestuderen, ontwikkelen we een Transformer-variant die het conventionele FFN vervangt door een dieper zandlopervormig FFN, bestaande uit een stapel zandlopersub-MLP's verbonden door residuele paden. Wij stellen dat een dieper maar lichter zandloper-FFN een competitief alternatief kan zijn voor het conventionele FFN, en dat parameters die worden bespaard door een lichter zandloper-FFN te gebruiken, effectiever kunnen worden benut, bijvoorbeeld door de verborgen dimensies van het model te vergroten binnen vaste budgetten. We bevestigen dit door empirische validaties op verschillende modelschalen: zandloper-FFN's presteren beter dan conventionele FFN's tot 400M parameters en bereiken vergelijkbare prestaties op grotere schalen tot 1B parameters; varianten van zandloper-FFN's met verminderde FFN- en verhoogde aandachtsparameters tonen consistente verbeteringen ten opzichte van conventionele configuraties bij gelijke budgetten. Samen werpen deze bevindingen een nieuw licht op recent werk en zetten aan tot een herbezinning op de smal-breed-smal MLP-conventie en de balans tussen aandacht en FFN, in de richting van efficiënte en expressieve moderne taalmodelle.
Grote taalmodel(len) hebben opmerkelijke capaciteiten getoond in open-domein dialogen. Huidige methoden presteren echter suboptimaal in servicedialogen, omdat ze steunen op rumoerige, laagkwalitatieve menselijke gespreksdata. Deze beperking ontstaat door dataschaarste en de moeilijkheid om authentiek, doelgericht gebruikersgedrag te simuleren. Om deze problemen aan te pakken, stellen wij SEAD voor (Self-Evolving Agent for Service Dialogue), een raamwerk dat agents in staat stelt effectieve strategieën te leren zonder grootschalige menselijke annotaties. SEAD ontkoppelt gebruikersmodellering in twee componenten: een Profielcontroller die diverse gebruikersstatussen genereert om de trainingscurricula te beheren, en een Gebruikersrolspelmodel dat zich richt op realistisch rollenspel. Dit ontwerp zorgt ervoor dat de omgeving adaptieve trainingsscenario's biedt in plaats van als een oneerlijke tegenstander op te treden. Experimenten tonen aan dat SEAD aanzienlijk beter presteert dan open-source basis- en gesloten bron commerciële modellen, waarbij de taakvoltooiingsratio met 17,6% en de dialoogefficiëntie met 11,1% verbetert. Code is beschikbaar op: https://github.com/Da1yuqin/SEAD.
Voorbewerking van whole-slide images (WSI's), doorgaans bestaande uit weefseldetectie gevolgd door patchextractie, vormt de basis van AI-gestuurde rekenpathologie-workflows. Dit blijft een groot computationeel knelpunt, omdat bestaande tools ofwel vertrouwen op onnauwkeurige heuristische thresholding voor weefseldetectie, of AI-gebaseerde benaderingen gebruiken die zijn getraind op data met beperkte diversiteit en opereren op patchniveau, wat aanzienlijke computationele complexiteit met zich meebrengt. Wij presenteren AtlasPatch, een efficiënt en schaalbaar raamwerk voor de voorbewerking van slides voor accurate weefseldetectie en hoogwaardige patchextractie met minimale computationele overhead. AtlasPatch's weefseldetectiemodule is getraind op een heterogene en semi-handmatig geannoteerde dataset van ~30.000 WSI-miniaturen, met behulp van efficiënte fine-tuning van het Segment-Anything-model. De tool extrapoleert weefselmaskers van miniaturen naar slides met volledige resolutie om patchcoördinaten te extraheren bij door de gebruiker gespecificeerde vergrotingen, met opties om patches direct te streamen naar gangbare beeldencoders voor embedding of om patchafbeeldingen op te slaan, allemaal efficiënt geparallelliseerd over CPU's en GPU's. Wij evalueren AtlasPatch op segmentatienauwkeurigheid, computationele complexiteit en downstream multiple-instance learning, waarbij het prestaties bereikt die vergelijkbaar zijn met state-of-the-art, maar tegen een fractie van de computationele kosten. AtlasPatch is open-source en beschikbaar op https://github.com/AtlasAnalyticsLab/AtlasPatch.
De gladheid van de transformer-architectuur is uitgebreid bestudeerd in de context van generalisatie, trainstabiliteit en robuustheid tegen adversarial attacks. De rol ervan bij transfer learning blijft echter slecht begrepen. In dit artikel analyseren we het vermogen van vision transformer-componenten om hun uitvoer aan te passen aan veranderingen in de invoer, of met andere woorden, hun plasticiteit. Gedefinieerd als een gemiddelde veranderingssnelheid, vangt deze de gevoeligheid voor inputverstoringen; in het bijzonder impliceert een hoge plasticiteit een lage gladheid. Wij tonen door middel van theoretische analyse en uitgebreide experimenten aan dat dit perspectief een principeakgeleiding biedt bij het kiezen van de componenten die prioriteit moeten krijgen tijdens adaptatie. Een belangrijke les voor praktijkmensen is dat de hoge plasticiteit van de aandachtmodules en de feedforward-lagen consistent leidt tot betere finetuningprestaties. Onze bevindingen wijken af van de heersende aanname dat gladheid wenselijk is, en bieden een nieuw perspectief op de functionele eigenschappen van transformers. De code is beschikbaar op https://github.com/ambroiseodt/vit-plasticity.
Ondanks recente successen blijft test-time scaling – het dynamisch uitbreiden van het tokenbudget tijdens inferentie naar behoefte – broos voor visie-taalmodellen (VLM's): ongestructureerde chains-of-thought over beelden verstrengelen waarneming en redenering, wat leidt tot lange, ongeorganiseerde contexten waarin kleine perceptiefouten kunnen uitgroeien tot volledig foute antwoorden. Bovendien is dure reinforcement learning met handmatig gemaakte beloningen vereist om goede prestaties te bereiken. Hier introduceren we SPARC (Separating Perception And Reasoning Circuits), een modulair raamwerk dat visuele perceptie expliciet ontkoppelt van redenering. Geïnspireerd door sequentiële sensorisch-cognitieve verwerking in de hersenen, implementeert SPARC een pijplijn in twee fasen waarbij het model eerst een expliciete visuele zoekactie uitvoert om vraagrelevante regio's te lokaliseren, en vervolgens zijn redeneerproces op die regio's baseert om het definitieve antwoord te produceren. Deze scheiding maakt onafhankelijke test-time scaling mogelijk met asymmetrische compute-toewijzing (bijvoorbeeld door prioriteit te geven aan perceptuele verwerking onder distributieverschuiving), ondersteunt selectieve optimalisatie (bijvoorbeeld het alleen verbeteren van de perceptiefase wanneer deze de bottleneck is voor end-to-end prestaties), en biedt ruimte voor gecomprimeerde contexten door globale zoekacties op lagere beeldresoluties uit te voeren en hoogresolutieverwerking alleen toe te wijzen aan geselecteerde regio's, waardoor het totale aantal visuele tokens en de benodigde rekenkracht afnemen. Op uitdagende benchmarks voor visueel redeneren presteert SPARC beter dan monolithische baseline-modellen en sterke visual-grounding-benaderingen. SPARC verbetert bijvoorbeeld de nauwkeurigheid van Qwen3VL-4B op de V^* VQA-benchmark met 6,7 procentpunten, en overtreft "thinking with images" met 4,6 punten op een uitdagende OOD-taak, ondanks een 200 keer lager tokenbudget.
Huidige informatiezoekende (InfoSeeking) agents hebben moeite om focus en samenhang te behouden tijdens verkenning op lange termijn, omdat het bijhouden van zoekstatussen, inclusief planningsprocedures en massale zoekresultaten, binnen één platte-tekstcontext inherent kwetsbaar is. Om dit aan te pakken, introduceren we Table-as-Search (TaS), een gestructureerd planningsraamwerk dat de InfoSeeking-taak herformuleert als een Tabelinvultaak. TaS vertaalt elke zoekopdracht naar een gestructureerd tabelschema dat wordt bijgehouden in een externe database, waarbij rijen zoekkandidaten vertegenwoordigen en kolommen beperkingen of vereiste informatie aanduiden. Deze tabel beheert de zoekstatussen nauwkeurig: ingevulde cellen registreren strikt de geschiedenis en zoekresultaten, terwijl lege cellen dienen als een expliciet zoekplan. Cruciaal is dat TaS drie verschillende InfoSeeking-taken verenigt: Diep Zoeken, Breed Zoeken en de uitdagende DiepBreed-Zoektaak. Uitgebreide experimenten tonen aan dat TaS aanzienlijk beter presteert dan tal van state-of-the-art baseline-systemen op drie soorten benchmarks, inclusief multi-agent raamwerken en commerciële systemen. Verder valideert onze analyse de superieure robuustheid van TaS bij InfoSeeking op lange termijn, naast de efficiëntie, schaalbaarheid en flexibiliteit ervan. Code en datasets zijn openbaar vrijgegeven op https://github.com/AIDC-AI/Marco-Search-Agent.
Echte zelf-evolutie vereist dat agenten fungeren als levenslang lerenden die nieuwe ervaringen internaliseren om toekomstige problemen op te lossen. Het rigoureus meten van deze fundamentele capaciteit wordt echter belemmerd door twee obstakels: de verstrengeling van voorkennis, waarbij "nieuwe" kennis kan voorkomen in pre-trainingsdata, en de verstrengeling van redeneercomplexiteit, waarbij fouten kunnen voortkomen uit probleemcomplexiteit in plaats van het onvermogen om geleerde kennis op te roepen. Wij introduceren SE-Bench, een diagnostische omgeving die de NumPy-bibliotheek en haar API-documentatie omvormt tot een pseudo-nieuw pakket met gerandomiseerde identificatoren. Agenten worden getraind om dit pakket te internaliseren en geëvalueerd op eenvoudige codeertaken zonder toegang tot documentatie, wat een zuivere setting creëert waarin taken triviaal zijn met de nieuwe API-doc maar onmogelijk voor basismodellen zonder deze. Ons onderzoek onthult drie inzichten: (1) de Openboek-paradox, waarbij trainen met referentiedocumentatie retentie belemmert, wat "Geslotenboek-training" vereist om kenniscompressie in gewichten af te dwingen; (2) de RL-kloof, waarbij standaard reinforcement learning er niet in slaagt nieuwe kennis volledig te internaliseren door PPO-clipping en negatieve gradiënten; en (3) de haalbaarheid van zelfspel voor internalisatie, waarbij modellen kunnen leren door zelf gegenereerde, ruizige taken wanneer gecombineerd met SFT, maar niet met RL. Over het geheel genomen biedt SE-Bench een rigoureus diagnostisch platform voor zelf-evolutie met kennisinternalisatie. Onze code en dataset zijn beschikbaar op https://github.com/thunlp/SE-Bench.
Segmentatie op basis van taal is een populair onderwerp geweest in de computer vision. Hoewel recente vooruitgang in multimodale grote taalmmodellen (MLLM's) segmentatiesystemen heeft uitgerust met redeneervermogen, blijven deze inspanningen beperkt door de bevroren interne kennis van MLLM's, wat hun potentieel voor realistische scenario's met actuele informatie of domeinspecifieke concepten beperkt. In dit werk stellen we Seg-ReSearch voor, een nieuw segmentatieparadigma dat de kennisbarrière van bestaande benaderingen overwint. Door het mogelijk maken van verweven redeneren en extern zoeken, stelt Seg-ReSearch segmentatiesystemen in staat om dynamische, open-wereld queries aan te kunnen die verder gaan dan de bevroren kennis van MLLM's. Om deze capaciteit effectief te trainen, introduceren we een hiërarchische beloningsstructuur die initiële begeleiding harmoniseert met progressieve prikkels, waardoor het dilemma tussen uitkomstsignalen en rigide stapsgewijze supervisie wordt verzacht. Voor de evaluatie construeren we OK-VOS, een uitdagende benchmark die expliciet externe kennis vereist voor video-objectsegmentatie. Experimenten op OK-VOS en twee bestaande redeneersegmentatiebenchmarks tonen aan dat onze Seg-ReSearch state-of-the-art benaderingen met een aanzienlijke marge verbetert. Code en data worden vrijgegeven op https://github.com/iSEE-Laboratory/Seg-ReSearch.
Kennisdistillatie is naar voren gekomen als een cruciale techniek voor het overdragen van kennis van sterkere grote taalmmodellen (LLM's) naar kleinere, efficiëntere modellen. Traditionele distillatiebenaderingen kampen echter met uitdagingen op het gebied van kennisconflicten en hoge resourcebehoeften, vooral wanneer gebruik wordt gemaakt van meerdere leraarmodellen. In dit artikel introduceren we het concept van Kenniszuivering, dat de redeneringen van meerdere leraar-LLM's consolideert tot één enkele redenering, waardoor conflicten worden verminderd en de efficiëntie wordt verbeterd. Om de effectiviteit van kenniszuivering te onderzoeken, stellen we verder vijf zuiveringsmethoden voor vanuit verschillende perspectieven. Onze experimenten tonen aan dat deze methoden niet alleen de prestaties van het gedistilleerde model verbeteren, maar ook kennisconflicten effectief verlichten. Bovendien vertonen router-gebaseerde methoden robuuste generalisatiecapaciteiten, wat het potentieel benadrukt van innovatieve zuiveringstechnieken voor het optimaliseren van multi-teacher distillatie en het vergemakkelijken van de praktische implementatie van krachtige maar lichtgewicht modellen.
Bestaande benaderingen voor het analyseren van neurale netwerkactivaties, zoals PCA en sparse auto-encoders, steunen op sterke structurele aannames. Generatieve modellen bieden een alternatief: zij kunnen structuur blootleggen zonder dergelijke aannames en fungeren als priors die de interventiegetrouwheid verbeteren. Wij verkennen deze richting door diffusion-modellen te trainen op één miljard residual stream-activaties, waardoor "meta-modellen" ontstaan die de verdeling van de interne toestanden van een netwerk leren. Wij stellen vast dat de diffusion-loss soepel afneemt met rekencapaciteit en op betrouwbare wijze de downstream-nuttigheid voorspelt. In het bijzonder verbetert het toepassen van de door het meta-model geleerde prior op stuurinterventies de vlotheid, met grotere verbeteringen naarmate de loss afneemt. Bovendien isoleren de neuronen van het meta-model in toenemende mate concepten in individuele eenheden, met sparse probing-scores die schalen naarmate de loss afneemt. Deze resultaten suggereren dat generatieve meta-modellen een schaalbare weg bieden naar interpreteerbaarheid zonder restrictieve structurele aannames. Projectpagina: https://generative-latent-prior.github.io.
Post-training-kwantisering vermindert de rekenkosten van grote taalmodel(len), maar verandert fundamenteel hun sociale vooroordelen op manieren die aggregerende metrieken niet kunnen vastleggen. Wij presenteren de eerste grootschalige studie van 50 gekwantiseerde modellen, geëvalueerd op PostTrainingBiasBench, een uniforme benchmark met 13 bias-datasets voor gesloten en open vragen. Wij identificeren een fenomeen dat wij *kwantisering-geïnduceerde gemaskeerde bias-omkering* noemen, waarbij tot 21% van de antwoorden omslaat tussen bevooroordeelde en onbevooroordeelde toestanden na kwantisering, ondanks dat er geen verandering in de geaggregeerde bias-scores zichtbaar is. Deze omslagen worden sterk gedreven door modelonzekerheid, waarbij antwoorden met een hoge onzekerheid 3-11 keer meer kans hebben om te veranderen dan de zelfverzekerde antwoorden. De kwantiseringssterkte versterkt dit effect, waarbij 4-bits gekwantiseerde modellen 4-6 keer meer gedragsveranderingen vertonen dan 8-bits gekwantiseerde modellen. Cruciaal is dat deze veranderingen asymmetrische effecten creëren across demografische groepen, waarbij de bias voor sommige groepen met tot 18,6% kan verslechteren, terwijl deze voor andere met 14,1% verbetert, wat misleidend neutrale geaggregeerde uitkomsten oplevert. Grotere modellen tonen geen consistent robuustheidsvoordeel, en groepsspecifieke verschuivingen variëren onvoorspelbaar across modelfamilies. Onze bevindingen tonen aan dat compressie bias-patronen fundamenteel verandert, wat cruciale evaluatie en interventies na kwantisering vereist om de betrouwbaarheid in de praktijk te waarborgen.
Differentieerbare matching-lagen en residual connection-paradigma's, vaak geïmplementeerd via entropie-geregulariseerd Optimaal Transport (OT), fungeren als cruciale mechanismen bij structurele voorspelling en architecturale schaling. Het herstellen van discrete permutaties of het handhaven van identiteitsafbeeldingen door ε naar 0 te annealen is echter berucht om zijn instabiliteit. In dit werk identificeren we een fundamenteel mechanisme voor dit falen: Voortijdige Mode-Collaps. Door de niet-normale dynamiek van de Sinkhorn-fixed-point-afbeelding te analyseren, onthullen we een theoretische thermodynamische snelheidslimiet: standaard exponentiële afkoeling overtreft de contractiesnelheid van de inferentie-operator, die afneemt als O(1/ε). Om dit aan te pakken, stellen we Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) voor, een adaptief planningsalgoritme dat de stabiliteit van het inferentieproces bewaakt. We tonen aan dat EPH-ASC essentieel is voor het stabiliseren van Manifold-Constrained Hyper-Connections (mHC) tijdens grootschalige training op de FineWeb-Edu-dataset, door het afdwingen van een lineaire stabiliteitswet effectief laat-fase gradientexplosies voorkomt.
Klimaatrisico's verstoren in toenemende mate het stedelijk vervoer en de hulpverleningsoperaties door schade aan woningvoorraden, aantasting van infrastructuur en verminderde bereikbaarheid van netwerken. Dit artikel presenteert Skjold-DiT, een diffusie-transformer raamwerk dat heterogene ruimte-temporele stedelijke data integreert om klimaatrisico-indicatoren op gebouwniveau te voorspellen, waarbij expliciet de structuur van het vervoersnetwerk en bereikbaarheidssignalen relevant voor intelligente voertuigen worden meegenomen (bijvoorbeeld bereikbaarheid voor hulpdiensten en evacuatieroutebeperkingen). Concreet maakt Skjold-DiT risicogestuurde routebeperkingen mogelijk door gekalibreerde, onzekerheidsbewuste bereikbaarheidslagen te produceren (bereikbaarheid, reistijntoename en routeredundantie) die kunnen worden gebruikt door routingsystemen voor intelligente voertuigen en systemen voor noodcentrales. Skjold-DiT combineert: (1) Fjell-Prompt, een op prompts gebaseerde conditioneringsinterface ontworpen voor overdracht tussen steden; (2) Norrland-Fusion, een cross-modale aandachtmechanisme dat risicokaarten/beelden, gebouwkenmerken, demografie en vervoersinfrastructuur verenigt in een gedeelde latente representatie; en (3) Valkyrie-Forecast, een contrafeitelijke simulator voor het genereren van probabilistische risicotrajecten onder interventieprompts. We introduceren de Baltic-Caspian Urban Resilience (BCUR) dataset met 847.392 observaties op gebouwniveau verspreid over zes steden, inclusief multi-risicoannotaties (bijvoorbeeld overstromings- en hitte-indicatoren) en vervoersbereikbaarheidskenmerken. Experimenten evalueren de voorspellingskwaliteit, generalisatie tussen steden, kalibratie en downstream vervoersrelevante uitkomsten, waaronder bereikbaarheid en risicogestuurde reistijden onder contrafeitelijke interventies.