Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij dromen van een toekomst waarin puntenwolken uit alle domeinen samenkomen om één enkel model te vormen dat iedereen ten goede komt. Als stap naar dit doel presenteren wij Utonia, een eerste aanzet om een enkele zelf-gesuperviseerde punten-transformer-encoder te trainen over diverse domeinen heen, waaronder remote sensing, outdoor LiDAR, indoor RGB-D-sequenties, objectgecentreerde CAD-modellen, en puntenwolken gegenereerd uit uitsluitend RGB-video's. Ondanks hun verschillende meetgeometrieën, dichtheden en a priori kennis, leert Utonia een consistente representatieruimte die overdraagbaar is tussen domeinen. Deze unificatie verbetert de perceptiecapaciteit en onthult tegelijkertijd intrigerend emergent gedrag dat alleen ontstaat wanneer domeinen gezamenlijk worden getraind. Naast perceptie observeren we dat Utonia-representaties ook voordelen kunnen bieden voor embodied en multimodaal redeneren: het conditioneren van visie-taal-actie-policies op Utonia-features verbetert robotmanipulatie, en de integratie ervan in visie-taalmodellen levert winst op bij ruimtelijk redeneren. Wij hopen dat Utonia kan dienen als een stap richting foundation models voor sparse 3D-data, en downstream-toepassingen in AR/VR, robotica en autonoom rijden kan ondersteunen.
Unified multimodale modellen hebben recentelijk sterke generatieve capaciteiten getoond, maar het blijft onduidelijk of en wanneer generatie het begrip verbetert. Bestaande benchmarks ontberen een systematische verkenning van de specifieke taken waarbij generatie het begrip vergemakkelijkt. Daartoe introduceren we UniG2U-Bench, een uitgebreide benchmark die de evaluatie van generatie-naar-begrip (G2U) categoriseert in 7 regimes en 30 subtaken, waarvoor verschillende gradaties van impliciete of expliciete visuele transformaties vereist zijn. Uitgebreide evaluatie van meer dan 30 modellen onthult drie kernbevindingen: 1) Unified modellen presteren over het algemeen slechter dan hun basale Vision-Language Models (VLM's), en Generate-then-Answer (GtA) inferentie leidt typisch tot prestatievermindering in vergelijking met directe inferentie. 2) Consistente verbeteringen doen zich voor bij subtaken voor ruimtelijke intelligentie, visuele illusies of meervoudige redenering, waarbij verbeterde ruimtelijke en vormperceptie, evenals meerstaps tussenliggende beeldtoestanden, voordelig blijken. 3) Taken met vergelijkbare redeneerstructuren en modellen met gedeelde architecturen vertonen gecorreleerd gedrag, wat suggereert dat generatie-begrip-koppeling klasseconsistente inductieve vooroordelen induceert over taken, pretrainingsdata en modelarchitecturen. Deze bevindingen benadrukken de noodzaak van meer diverse trainingsdata en nieuwe paradigma's om de potentie van unified multimodale modellering volledig te ontsluiten.
De visuele wereld biedt een cruciaal aanknopingspunt voor het verbeteren van foundation models voorbij taal. Ondanks groeiende interesse in deze richting blijft de ontwerpruimte voor native multimodale modellen ondoorzichtig. Wij bieden empirische duidelijkheid door gecontroleerde, from-scratch pre-training experimenten, waarbij we de factoren isoleren die multimodale pre-training bepalen zonder interferentie van taalpre-training. We hanteren het Transfusion-framework, dat next-token-predictie voor taal en diffusion voor visie gebruikt, om te trainen op diverse data inclusief tekst, video, beeld-tekst-paren en zelfs actie-gestuurde video. Onze experimenten leveren vier belangrijke inzichten op: (i) Representation Autoencoder (RAE) biedt een optimale, verenigde visuele representatie door uit te blinken in zowel visueel begrip als -generatie; (ii) visuele en taalkundige data zijn complementair en creëren synergie voor downstream-capaciteiten; (iii) verenigde multimodale pre-training leidt van nature tot wereldmodellering, waarbij capaciteiten ontstaan uit algemene training; en (iv) Mixture-of-Experts (MoE) maakt efficiënte en effectieve multimodale schaalvergroting mogelijk en induceert van nature modale specialisatie. Via IsoFLOP-analyse berekenen we schaalwetten voor beide modaliteiten en ontdekken we een schaalasymmetrie: visie is aanzienlijk data-hongeriger dan taal. We tonen aan dat de MoE-architectuur deze schaalasymmetrie harmoniseert door de hoge modelcapaciteit te bieden die taal vereist, terwijl het de data-intensieve aard van visie accommodeert, waardoor de weg wordt geëffend voor werkelijk verenigde multimodale modellen.
Huidige benchmarks voor code-agents richten zich voornamelijk op specifieke, repository-gebonden reparaties, waarbij cruciale real-world uitdagingen over het hoofd worden gezien. Denk hierbij aan redeneren over meerdere repositories, domeinspecifiek probleemoplossen, migratie gestuurd door afhankelijkheden en het genereren van volledige repositories. Om dit gat te dichten, introduceren wij BeyondSWE, een uitgebreide benchmark die de bestaande evaluaties verbredet langs twee assen – resolutiescope en kennisscope – aan de hand van 500 real-world gevallen verdeeld over vier verschillende settings. Experimentele resultaten tonen een significante capaciteitskloof: zelfs de meest geavanceerde modellen stagneren onder een slagingspercentage van 45%, en geen enkel model presteert consistent over alle taaktypen heen. Om de rol van externe kennis systematisch te onderzoeken, ontwikkelden wij SearchSWE, een framework dat diepgaande zoekfunctionaliteit integreert met codeervaardigheden. Onze experimenten tonen aan dat zoekaugmentatie inconsistente verbeteringen oplevert en in sommige gevallen de prestaties zelfs kan verslechteren, wat de moeilijkheid benadrukt van het nabootsen van ontwikkelaarswerkstromen waarbij zoeken en redeneren tijdens codeertaken worden afgewisseld. Dit werk biedt zowel een realistische, uitdagende evaluatiestandaard als een flexibel framework om onderzoek naar capabelere code-agents te bevorderen.
Wij presenteren Qwen3-Coder-Next, een open-weight taalmodel gespecialiseerd voor codeeragentschappen. Qwen3-Coder-Next is een model met 80 miljard parameters waarvan tijdens inferentie slechts 3 miljard parameters geactiveerd worden, wat sterke codeercapaciteit combineert met efficiënte inferentie. In dit onderzoek verkennen we hoe ver geavanceerde trainingsmethoden de capaciteitsgrenzen kunnen verleggen van modellen met een kleine parameterfootprint. Hiertoe voeren we agentgericht training uit door grootschalige synthese van verifieerbare codeertaken gekoppeld aan uitvoerbare omgevingen, waardoor leren direct vanuit omgevingsfeedback mogelijk wordt via mid-training en reinforcement learning. Op agentgerichte benchmarks zoals SWE-Bench en Terminal-Bench bereikt Qwen3-Coder-Next competitieve prestaties in verhouding tot het aantal actieve parameters. Wij publiceren zowel basis- als instructie-afgestemde open-weight versies om onderzoek en praktische ontwikkeling van codeeragentschappen te ondersteunen.
Recente ontwikkelingen in Generatieve Beloningsmodellen (GRM's) hebben aangetoond dat het opschalen van de lengte van Chain-of-Thought (CoT)-redeneringen de betrouwbaarheid van evaluatie aanzienlijk verbetert. Huidige onderzoeken vertrouwen echter voornamelijk op ongestructureerde lengteschaling en negeren de uiteenlopende effectiviteit van verschillende redeneermechanismen: Breedte-CoT (B-CoT, d.w.z. multidimensionale dekking van principes) en Diepte-CoT (D-CoT, d.w.z. deugdelijkheid van substantieve oordelen). Om dit aan te pakken, introduceren we Mix-GRM, een raamwerk dat ruwe redeneringen herstructureert tot gestructureerde B-CoT en D-CoT via een modulaire synthesepijplijn, en vervolgens gebruikmaakt van Supervised Fine-Tuning (SFT) en Reinforcement Learning with Verifiable Rewards (RLVR) om deze mechanismen te internaliseren en optimaliseren. Uitgebreide experimenten tonen aan dat Mix-GRM een nieuwe state-of-the-art vestigt op vijf benchmarks, met een gemiddelde verbetering van 8,2% ten opzichte van toonaangevende open-source GRM's. Onze resultaten onthullen een duidelijke divergentie in redeneren: B-CoT is voordelig voor taken met subjectieve voorkeuren, terwijl D-CoT uitblinkt in taken met objectieve correctheid. Bijgevolg leidt een verkeerde afstemming van het redeneermechanisme op de taak direct tot prestatievermindering. Verder demonstreren we dat RLVR fungeert als een schakelende versterker, die een emergente polarisatie induceert waarbij het model spontaan zijn redeneerstijl toewijst om aan taakeisen te voldoen. De gesynthetiseerde data en modellen zijn vrijgegeven op https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, en de code is vrijgegeven op https://github.com/Don-Joey/Mix-GRM{Github}.
Karakteranimatie heeft als doel levensechte video's te genereren door bewegingsdynamiek uit een besturingsvideo over te dragen naar een referentiebeeld. Recente vooruitgang in generatieve modellen heeft de weg geëffend voor hoogwaardige karakteranimatie. In dit werk presenteren we Kling-MotionControl, een uniform DiT-gebaseerd raamwerk dat specifiek is ontworpen voor robuuste, precieze en expressieve holistische karakteranimatie. Door gebruik te maken van een verdeel-en-heersstrategie binnen een samenhangend systeem, coördineert het model heterogene bewegingsrepresentaties die zijn afgestemd op de distinctieve kenmerken van lichaam, gezicht en handen, waarbij grootschalige structurele stabiliteit effectief wordt verzoend met fijnmazige articulatoire expressiviteit. Om robuuste generalisatie over identiteiten heen te waarborgen, incorporeren we adaptief identiteitsonafhankelijk leren, waardoor natuurlijke motion retargeting wordt gefaciliteerd voor diverse karakters, van realistische mensen tot gestileerde cartoons. Tegelijkertijd garanderen we getrouwe uiterlijkbehoud door zorgvuldige identiteitsinjectie- en fusieontwerpen, verder ondersteund door een subjectbibliotheekmechanisme dat gebruikmaakt van uitgebreide referentiecontexten. Om de praktische bruikbaarheid te waarborgen, implementeren we een geavanceerd versnellingsraamwerk dat gebruikmaakt van meerfasige distillatie, waardoor de inferentiesnelheid met meer dan 10x wordt verhoogd. Kling-MotionControl onderscheidt zich door intelligente semantische bewegingsinterpretatie en precieze tekstresponsiviteit, wat flexibele controle voorbij visuele inputs mogelijk maakt. Evaluaties op basis van menselijke voorkeuren tonen aan dat Kling-MotionControl superieure prestaties levert in vergelijking met toonaangevende commerciële en open-source oplossingen, met uitzonderlijke getrouwheid in holistische bewegingscontrole, generalisatie in open domeinen, en visuele kwaliteit en samenhang. Deze resultaten positioneren Kling-MotionControl als een robuuste oplossing voor hoogwaardige, bestuurbare en levensechte karakteranimatie.
Grote Taalmodellen (GTM's) worden steeds vaker ingezet in sociaal gevoelige domeinen, maar hun onvoorspelbare gedrag – variërend van niet-afgestemde intenties tot inconsistente persoonlijkheid – vormt een aanzienlijk risico. Wij introduceren SteerEval, een hiërarchische benchmark voor het evalueren van de bestuurbaarheid van GTM's op drie domeinen: taalkenmerken, sentiment en persoonlijkheid. Elk domein is gestructureerd in drie specificatieniveaus: L1 (wat uit te drukken), L2 (hoe uit te drukken) en L3 (hoe te concretiseren), waarbij hoogwaardige gedragsintentie wordt verbonden met concrete tekstuele output. Met SteerEval evalueren we systematisch hedendaagse stuurmethoden, waaruit blijkt dat controle vaak afneemt op fijnmazigere niveaus. Onze benchmark biedt een principieel en interpreteerbaar kader voor veilig en bestuurbaar GTM-gedrag, en dient als basis voor toekomstig onderzoek.
DEEPTHINK-methoden verbeteren het redeneervermogen door populaties van kandidaatoplossingen te genereren, te verfijnen en samen te voegen, wat een sterke prestatie op complexe wiskundige en wetenschappelijke taken mogelijk maakt. Bestaande frameworks beschikken tijdens inferentie echter vaak niet over betrouwbare correctheidssignalen, wat een populatieverbeteringsknelpunt creëert waarbij diepere deliberatie fouten versterkt, correcte minderheidsoplossingen onderdrukt en zwakke rendementen op extra rekenkracht oplevert. In dit artikel introduceren we een functionele decompositie van DEEPTHINK-systemen en presenteren we PRISM, een inference-algoritme geleid door een Process Reward Model (PRM) dat stapsgewijze verificatie gebruikt om zowel populatieverfijning als oplossingsaggregatie te sturen. Tijdens de verfijning behandelt PRISM kandidaatoplossingen als deeltjes in een door het PRM gedefinieerd energielandschap en hervormt het de populatie via score-gestuurde hermonstering en stochastische verfijning, waardoor de kansmassa wordt geconcentreerd op redeneringen van hogere kwaliteit terwijl diversiteit behouden blijft. Op wiskundige en wetenschappelijke benchmarks is PRISM concurrerend met of overtreft het bestaande DEEPTHINK-methoden, met prestaties van 90,0%, 75,4% en 71,4% op respectievelijk AIME25, HMMT25 en GPQA Diamond met gpt-oss-20b, terwijl het gelijkwaardig of beter presteert dan gpt-oss-120b. Daarnaast toont onze analyse aan dat PRISM consistente netto-directionele correctie produceert tijdens verfijning, betrouwbaar blijft wanneer de initiële populatie weinig correcte kandidaten bevat, en vaak op de compute-nauwkeurigheid Pareto-grens ligt.
Instructiegestuurd videobewerken heeft een snelle vooruitgang geboekt, maar huidige methoden worstelen vaak met precieze visuele controle, omdat natuurlijke taal inherent beperkt is in het beschrijven van complexe visuele nuances. Hoewel referentiegestuurde bewerking een robuuste oplossing biedt, wordt het potentieel ervan momenteel beperkt door de schaarste aan hoogwaardige gepaarde trainingsdata. Om deze kloof te overbruggen, introduceren we een schaalbare pijplijn voor datageneratie die bestaande videobewerkingsparen omzet in hoogwaardige trainingsquadrupletten, waarbij gebruik wordt gemaakt van beeldgeneratieve modellen om gesynthetiseerde referentiescaffolds te creëren. Met deze pijplijn construeren we RefVIE, een grootschalige dataset toegesneden op instructie-referentie-volgtaken, en stellen we RefVIE-Bench op voor uitgebreide evaluatie. Verder stellen we een uniforme bewerkingsarchitectuur voor, Kiwi-Edit, die leerbare queries en latente visuele kenmerken combineert voor referentiesemantische begeleiding. Ons model behaalt aanzienlijke verbeteringen in het volgen van instructies en referentietrouw via een progressieve meerfasen trainingscurriculum. Uitgebreide experimenten tonen aan dat onze data en architectuur een nieuwe staat-van-de-kunst vestigen in controleerbare videobewerking. Alle datasets, modellen en code zijn vrijgegeven op https://github.com/showlab/Kiwi-Edit.
Het vastleggen van temporele afhankelijkheden is cruciaal voor modelgebaseerde reinforcement learning (MBRL) in gedeeltelijk observeerbare, hoogdimensionale domeinen. Wij introduceren NE-Dreamer, een decoder-vrije MBRL-agent die een temporele transformer gebruikt om volgende-stap encoder-embeddingen te voorspellen uit latente toestandssequenties, waarbij temporele predictieve alignering in de representatieruimte direct wordt geoptimaliseerd. Deze aanpak stelt NE-Dreamer in staat om samenhangende, voorspellende toestandsrepresentaties aan te leren zonder reconstructieverliezen of additionele supervisie. Op de DeepMind Control Suite evenaart of overtreft NE-Dreamer de prestaties van DreamerV3 en toonaangevende decoder-vrije agents. Op een uitdagende subset van DMLab-taken die geheugen en ruimtelijk redeneren vereisen, behaalt NE-Dreamer aanzienlijke verbeteringen. Deze resultaten vestigen volgende-embedding-voorspelling met temporele transformers als een effectief, schaalbaar raamwerk voor MBRL in complexe, gedeeltelijk observeerbare omgevingen.
Naarmate grote taalmodellen (LLM's) hun wiskundige capaciteiten ontwikkelen naar het niveau van de Internationale Wiskunde Olympiade (IMO), is de schaarste aan uitdagende, hoogwaardige problemen voor training en evaluatie een belangrijk knelpunt geworden. Tegelijkertijd hebben recente code-agents geavanceerde vaardigheden getoond in autonoom programmeren en redeneren, wat suggereert dat code-uitvoering kan dienen als een schaalbare omgeving voor wiskundige experimenten. In dit artikel onderzoeken we het potentieel van code-agents om bestaande wiskundeproblemen autonoom te laten evolueren naar complexere varianten. We introduceren een multi-agent raamwerk ontworpen om probleemevolutie uit te voeren, waarbij de oplosbaarheid en toegenomen moeilijkheidsgraad van de gegenereerde problemen wordt gevalideerd. Onze experimenten tonen aan dat code-agents, bij voldoende exploratie tijdens testtijd, nieuwe, oplosbare problemen kunnen synthetiseren die structureel verschillend en uitdagender zijn dan de originele problemen. Dit werk levert empirisch bewijs dat code-gedreven agents kunnen dienen als een levensvatbaar mechanisme voor het synthetiseren van wiskundige redeneerproblemen met een hoge moeilijkheidsgraad binnen schaalbare computationele omgevingen. Onze data is beschikbaar op https://github.com/TarferSoul/Code2Math.
Het verbeteren van de redeneercapaciteiten van Large Language Models (LLM's) via post-training wordt vaak beperkt door de afweging tussen efficiëntie en catastrofaal vergeten. Waar eerder onderzoek de rol van on-policy data benadrukt om vergeten tegen te gaan, ontdekken wij – en valideren zowel theoretisch als empirisch – een over het hoofd gezien maar cruciaal mechanisme: de impliciete regularisatie die inherent is aan de beloningsschatting van Direct Preference Optimization (DPO). Dit motiveert onze Surgical Post-Training (SPoT), een nieuw paradigma ontworpen om redeneren efficiënt te optimaliseren terwijl reeds verworven kennis behouden blijft. SPoT bestaat uit: (1) een datarectificatiepijplijn die een Oracle gebruikt om foutieve stappen chirurgisch te corrigeren via minimale bewerkingen, waardoor data gegenereerd wordt die dicht bij de verdeling van het model ligt; en (2) een op beloning gebaseerd binair cross-entropy doel. In tegenstelling tot de relatieve rangschikking in DPO, behandelt dit doel de redeneernauwkeurigheid als een binaire classificatieprobleem, waarbij ontkoppelde supervisiesignalen worden afgedwongen. Empirisch gezien verbetert SPoT met slechts 4k gecorrigeerde wiskundige dataparen de nauwkeurigheid van Qwen3-8B met gemiddeld 6,2% op zowel in-domein als out-of-distribution (OOD) taken, waarbij slechts 28 minuten training op 8x H800 GPU's nodig is. Code: https://github.com/Visual-AI/SPoT
Menselijk redeneren houdt vaak in dat men werkt met beperkte informatie om tot probabilistische conclusies te komen. In de eenvoudigste vorm gaat dit om het maken van een gevolgtrekking die niet strikt noodzakelijk volgt uit een premisse, maar slechts waarschijnlijk is gegeven die premisse. Hoewel redenerende LLM's sterke prestaties hebben getoond bij logische en wiskundige taken, blijft hun gedrag bij dergelijke open, niet-deterministische gevolgtrekkingen grotendeels ononderzocht. Wij introduceren ProbCOPA, een dataset van 210 handmatig gemaakte probabilistische gevolgtrekkingen in het Engels, elk geannoteerd voor gevolgtrekkingswaarschijnlijkheid door 25–30 menselijke deelnemers. Wij constateren dat menselijke reacties gradueel en gevarieerd zijn, wat probabilistische oordelen over de gevolgtrekkingen in onze dataset onthult. Door deze oordelen te vergelijken met reacties van acht state-of-the-art redenerende LLM's, tonen wij aan dat modellen consistent falen om mensachtige verdelingen te produceren. Ten slotte vinden wij, door de redeneerketens van LLM's te analyseren, aanwijzingen voor een gemeenschappelijk redeneerpatroon dat wordt gebruikt om dergelijke gevolgtrekkingen te evalueren. Onze bevindingen onthullen hardnekkige verschillen tussen mensen en LLM's en benadrukken de noodzaak om redeneren buiten deterministische kaders te evalueren.
Agentische taalmodellen opereren in een fundamenteel ander veiligheidsregime dan chatmodellen: zij moeten plannen, tools aanroepen en acties met een lange tijdshorizon uitvoeren, waarbij een enkele misstap, zoals het openen van bestanden of het invoeren van inloggegevens, onomkeerbare schade kan veroorzaken. Bestaande afstemmingsmethoden, grotendeels geoptimaliseerd voor statische generatie en taakvoltooiing, falen in deze settings door sequentiële besluitvorming, adversariële toolfeedback en overmoedige tussentijdse redenering. Wij introduceren MOSAIC, een post-training raamwerk dat agenten afstemt voor veilig multi-step toolgebruik door veiligheidsbeslissingen expliciet en leerbaar te maken. MOSAIC structureert inferentie als een plan, controleer, handel dan of weiger-lus, met expliciete veiligheidsredenering en weigering als eersteklas acties. Om te trainen zonder labels op trajectniveau gebruiken we op voorkeuren gebaseerde reinforcement learning met gepaarde trajectvergelijkingen, die veiligheidsonderscheidingen vastlegt die vaak worden gemist door scalaire beloningen. Wij evalueren MOSAIC zero-shot over drie modelfamilies, Qwen2.5-7B, Qwen3-4B-Thinking en Phi-4, en over out-of-distribution benchmarks die schadelijke taken, promptinjectie, goedaardig toolgebruik en privacylekken over domeinen heen omvatten. MOSAIC vermindert schadelijk gedrag tot 50%, verhoogt de weigering van schadelijke taken met meer dan 20% bij injectieaanvallen, vermindert privacylekken en behoudt of verbetert de prestaties bij goedaardige taken, wat robuuste generalisatie aantoont over modellen, domeinen en agentische settings heen.
Het schatten van de 3D-trajectorie van elke pixel uit een monovideo is cruciaal en veelbelovend voor een volledig begrip van de 3D-dynamiek in video's. Recente monovisionaire 3D-trackingmethoden tonen indrukwekkende prestaties, maar zijn beperkt tot het volgen van slechts enkele punten in het eerste frame of tot een traag, op optimalisatie gebaseerd framework voor dichte tracking. In dit artikel stellen we een feedforward-model voor, genaamd Track4World, dat een efficiënte, holistische 3D-tracking van elke pixel in een wereldgericht coördinatenstelsel mogelijk maakt. Gebouwd op de globale 3D-scènevoorstelling die wordt gecodeerd door een VGGT-stijl ViT, past Track4World een nieuwe 3D-correlatiemethode toe om gelijktijdig de pixelgewijze 2D- en 3D-dichte stroom tussen willekeurige frameparen te schatten. De geschatte scènestroom, samen met de gereconstrueerde 3D-geometrie, maakt vervolgens efficiënte 3D-tracking van elke pixel in de video mogelijk. Uitgebreide experimenten op meerdere benchmarks tonen aan dat onze aanpak consequent beter presteert dan bestaande methoden voor 2D/3D-stroomschatting en 3D-tracking, wat de robuustheid en schaalbaarheid voor real-world 4D-reconstructietaken benadrukt.
Wij interpreteren de laatste softmax-classificator van een Large Language Model (LLM) opnieuw als een Energy-Based Model (EBM), waarbij we de sequentie-naar-sequentie waarschijnlijkheidsketen tijdens de inferentie ontbinden in meerdere interagerende EBMs. Deze principiële aanpak stelt ons in staat om "energielekkages" tijdens het decoderen te volgen, waarvan we empirisch aantonen dat ze correleren met feitelijke fouten, vooroordelen en mislukkingen. Vergelijkbaar met Orgad et al. (2025) lokaliseert onze methode eerst het exacte antwoordtoken en test vervolgens op hallucinaties. Cruciaal is echter dat wij dit bereiken zonder getrainde probe-classificatoren of activatie-ablaties nodig te hebben. In plaats daarvan introduceren we twee volledig trainingsvrije metrieken die rechtstreeks uit de output-logits worden afgeleid: *gelekte energie*, die de discrepantie vastlegt tussen energiewaarden op opeenvolgende generatiestappen die theoretisch zouden moeten overeenkomen, en *gemarginaliseerde energie*, die meetbaar is in een enkele stap. Geëvalueerd op negen benchmarks met state-of-the-art LLM's (inclusief LLaMA, Mistral en Gemma) en op synthetische algebraïsche bewerkingen (Qwen3), toont onze aanpak robuuste, competitieve hallucinatiedetectie en generalisatie over taken heen. Opmerkelijk is dat deze resultaten standhouden voor zowel vooraf getrainde als instructie-afgestemde varianten, zonder enige trainingsoverhead te introduceren. Code beschikbaar op: github.com/OmnAI-Lab/spilled-energy
Verzoeken van gebruikers in de praktijk aan LLM-agents zijn vaak onvolledig gespecificeerd. Agents moeten interacteren om ontbrekende informatie te verkrijgen en correcte downstream-beslissingen te nemen. Huidige methoden gebaseerd op multi-turn GRPO steunen echter vaak op beloningsberekening op trajectniveau, wat leidt tot credit-assignmentsproblemen en onvoldoende voordelsignalen binnen rollout-groepen. Een haalbare aanpak is het identificeren van waardevolle interactierondes op fijne granulariteit om gerichter leren aan te sturen. Om dit aan te pakken, introduceren we InfoPO (Information-Driven Policy Optimization), dat multi-turn interactie benadert als een proces van actieve onzekerheidsreductie en een informatiewinstbeloning berekent die rondes crediteert waarvan de feedback de daaropvolgende actieverdeling van de agent meetbaar verandert in vergelijking met een tegenfactuele situatie met gemaskeerde feedback. Dit signaal wordt vervolgens gecombineerd met taakresultaten via een adaptieve variantie-afgeschermde fusie om informatie-importantie te identificeren terwijl de taakgerichte doelrichting behouden blijft. In diverse taken, waaronder intentieverduidelijking, collaboratief programmeren en tool-ondersteunde besluitvorming, presteert InfoPO consistent beter dan prompting en multi-turn RL-baselines. Het toont ook robuustheid onder verschuivingen in gebruikerssimulatie en generaliseert effectief naar taken met omgevingsinteractie. Al met al biedt InfoPO een principieel en schaalbaar mechanisme voor het optimaliseren van complexe agent-gebruiker samenwerking. Code is beschikbaar op https://github.com/kfq20/InfoPO.
Tekst-naar-beeldmodellen hebben een snelle vooruitgang geboekt in realisme en bestuurbaarheid, waarbij recente methoden gebruikmaken van lange, gedetailleerde bijschriften om fijnmazige generatie te ondersteunen. Er blijft echter een fundamentele parametrische kloof bestaan: bestaande modellen steunen op beschrijvende taal, terwijl professionele workflows nauwkeurige numerieke controle vereisen over objectlocatie, grootte en kleur. In dit werk introduceren wij BBQ, een grootschalig tekst-naar-beeldmodel dat rechtstreeks conditioneert op numerieke begrenzingskaders en RGB-triplets binnen een uniform gestructureerd tekstraamwerk. Wij verkrijgen precieze ruimtelijke en chromatische controle door training op bijschriften verrijkt met parametrische annotaties, zonder architecturale wijzigingen of optimalisatie tijdens inferentie. Dit maakt ook intuïtieve gebruikersinterfaces mogelijk, zoals objectslepen en kleurkiezers, waarbij dubbelzinnige iteratieve prompting wordt vervangen door precieze, vertrouwde bediening. In uitgebreide evaluaties behaalt BBQ sterke boksuitlijning en verbetert het de RGB-kleurgetrouwheid ten opzichte van state-of-the-art referentiemodellen. In bredere zin ondersteunen onze resultaten een nieuw paradigma waarin gebruikersintentie wordt vertaald naar een intermediaire gestructureerde taal, verwerkt door een op stromen gebaseerde transformer die fungeert als renderer en natuurlijk numerieke parameters incorporeert.
Recente videobewerkingsmodellen hebben indrukwekkende resultaten behaald, maar de meeste vereisen nog steeds grootschalige gepaarde datasets. Het verzamelen van dergelijke van nature uitgelijnde paren op schaal blijft zeer uitdagend en vormt een kritieke bottleneck, vooral voor lokale videobewerkingsdata. Bestaande oplossingen brengen beeldbewerking over naar video via globale bewegingscontrole voor paar-vrije videobewerking, maar dergelijke ontwerpen worstelen met achtergrond- en temporele consistentie. In dit artikel stellen we NOVA voor: Sparse Control & Dense Synthesis, een nieuw raamwerk voor ongepaarde videobewerking. Concreet biedt de sparse tak semantische begeleiding door middel van door de gebruiker bewerkte keyframes die over de video zijn verdeeld, en de dense tak incorporeert continu bewegings- en textuurinformatie uit de originele video om hoge trouw en coherentie te behouden. Bovendien introduceren we een trainingsstrategie met degradatiesimulatie, waardoor het model bewegingreconstructie en temporele consistentie kan leren door te trainen op kunstmatig gedegradeerde video's, waardoor de noodzaak van gepaarde data wordt geëlimineerd. Onze uitgebreide experimenten tonen aan dat NOVA bestaande benaderingen overtreft in bewerkingsgetrouwheid, bewegingbehoud en temporele coherentie.
Classifier-Free Guidance (CFG) is naar voren gekomen als een centrale aanpak voor het verbeteren van semantische uitlijning in op stroming gebaseerde diffusiemodellen. In dit artikel onderzoeken we een uniform kader genaamd CFG-Ctrl, dat CFG herinterpreteert als een regelmechanisme toegepast op de eerstegraads continue-tijd generatieve stroom, waarbij het conditioneel-onvoorwaardelijke verschil wordt gebruikt als een foutsignaal om het snelheidsveld aan te passen. Vanuit dit perspectief vatten we de standaard-CFG samen als een proportionele regelaar (P-regelaar) met vaste versterking, en typische vervolgvarianten ontwikkelen uitgebreide ontwerpen voor regelwetten die hieruit zijn afgeleid. Bestaande methoden zijn echter voornamelijk gebaseerd op lineaire regeling, wat inherent leidt tot instabiliteit, overschrijding en verminderde semantische trouw, vooral bij grote stuurschalen. Om dit aan te pakken, introduceren we Sliding Mode Control CFG (SMC-CFG), dat de generatieve stroom dwingt naar een snel convergerend glijdend variëteit. Specifiek definiëren we een exponentieel glijdendmodusoppervlak over de semantische voorspellingsfout en introduceren we een schakelregelterm om niet-lineaire feedback-gestuurde correctie tot stand te brengen. Bovendien bieden we een Lyapunov-stabiliteitsanalyse om eindtijdconvergentie theoretisch te ondersteunen. Experimenten met tekst-naar-beeld generatiemodellen, waaronder Stable Diffusion 3.5, Flux en Qwen-Image, tonen aan dat SMC-CFG superieur presteert aan standaard-CFG in semantische uitlijning en de robuustheid verbetert over een breed scala aan stuurschalen. Projectpagina: https://hanyang-21.github.io/CFG-Ctrl
Vision-Language-Action (VLA)-modellen vormen een veelbelovende weg naar belichaamde intelligentie, maar ze negeren vaak de voorspellende en temporeel-causale structuur die ten grondslag ligt aan visuele dynamiek. World-model VLA's pakken dit aan door toekomstige frames te voorspellen, maar verspillen capaciteit aan het reconstrueren van redundante achtergronden. Latent-action VLA's coderen frame-na-frame-overgangen compact, maar missen temporeel continue dynamische modellering en wereldkennis. Om deze beperkingen te overwinnen, introduceren we CoWVLA (Chain-of-World VLA), een nieuw "Chain of World"-paradigma dat temporeel redeneren met wereldmodellen verenigt met een ontvlochten latente bewegingsrepresentatie. Ten eerste fungeert een vooraf getrainde video-VAE als een latente bewegingsextractor, die videosegmenten expliciet factoriseert in structuur- en bewegingslatenten. Vervolgens leert de VLA tijdens de voorafgaande training, op basis van een instructie en een initieel frame, om een continue keten van latente bewegingen af te leiden en het eindframe van het segment te voorspellen. Ten slotte wordt tijdens de co-fine-tuning deze latente dynamiek afgestemd op discrete actievoorspelling door gezamenlijke modellering van sparse keyframes en actiesequenties in een uniforme autoregressieve decoder. Dit ontwerp behoudt de voordelen van temporeel redeneren en wereldkennis van wereldmodellen, terwijl de compactheid en interpreteerbaarheid van latente acties behouden blijft, wat efficiënte visuomotore learning mogelijk maakt. Uitgebreide experimenten op robotica-simulatiebenchmarks tonen aan dat CoWVLA bestaande world-model- en latent-action-benaderingen overtreft en een matige computationele efficiëntie bereikt, wat het potentieel ervan als effectiever VLA-voorafgaand-trainingsparadigma benadrukt. De projectwebsite is te vinden op https://fx-hit.github.io/cowvla-io.
De overgang van Large Language Models (LLM's) van verkennende instrumenten naar actieve "siliconen subjecten" in de sociale wetenschappen mist uitgebreide validatie van operationele validiteit. Deze studie introduceert Conditioned Comment Prediction (CCP), een taak waarbij een model voorspelt hoe een gebruiker zou reageren op een gegeven stimulus door gegenereerde output te vergelijken met authentieke digitale sporen. Dit raamwerk maakt een rigoureuze evaluatie mogelijk van de huidige capaciteiten van LLM's met betrekking tot de simulatie van gedrag van sociale media-gebruikers. Wij evalueerden open-weight 8B-modellen (Llama3.1, Qwen3, Ministral) in Engelstalige, Duitstalige en Luxemburgstalige scenario's. Door systematisch promptingstrategieën (expliciet vs. impliciet) en de impact van Supervised Fine-Tuning (SFT) te vergelijken, identificeren we een kritische ontkoppeling van vorm en inhoud in settings met weinig bronnen: waar SFT de oppervlaktestructuur van de tekstoutput (lengte en syntaxis) afstemt, verslechtert het de semantische verankering. Verder tonen we aan dat expliciete conditionering (gegenereerde biografieën) overbodig wordt onder fine-tuning, omdat modellen met succes latente inferentie direct uit gedragsgeschiedenissen uitvoeren. Onze bevindingen dagen de huidige "naïeve prompting"-paradigma's uit en bieden operationele richtlijnen die authentieke gedragssporen prioriteren boven beschrijvende persona's voor hoogwaardige simulatie.
Geautomatiseerde wetenschappelijke ontdekking met grote taalmodellen transformeert de onderzoekslevenscyclus van ideeënvorming tot experimentatie, maar bestaande agents worstelen met het autonoom verwerken van ruwe data die uit wetenschappelijke experimenten worden verzameld. Wij introduceren SciDER, een data-centrisch end-to-end systeem dat de onderzoekslevenscyclus automatiseert. In tegenstelling tot traditionele frameworks, parseren en analyseren onze gespecialiseerde agents op collaboratieve wijze ruwe wetenschappelijke data, genereren ze hypothesen en experimentele ontwerpen die zijn gegrondvest in specifieke data-eigenschappen, en schrijven en executeren ze corresponderende code. Evaluatie op drie benchmarks toont aan dat SciDER uitblinkt in gespecialiseerde data-gedreven wetenschappelijke ontdekking en algemene agents en state-of-the-art modellen overtreft dankzij zijn zelf-evoluerend geheugen en criticus-geleide feedbacklus. Gedistribueerd als een modulair Python-pakket, bieden wij ook gebruiksvriendelijke PyPI-pakketten met een lichtgewicht webinterface om autonoom, data-gedreven onderzoek te versnellen en streven wij ernaar dit toegankelijk te maken voor alle onderzoekers en ontwikkelaars.
Het verenigen van visuele representatieleren en tekst-naar-beeld (T2I) generatie binnen één enkel model blijft een centrale uitdaging in multimodaal leren. Wij introduceren DREAM, een uniform raamwerk dat discriminatieve en generatieve doelstellingen gezamenlijk optimaliseert, terwijl het sterke visuele representaties leert. DREAM is gebouwd op twee kerntechnieken: Tijdens de training begint Masking Warmup, een progressief maskeringsschema, met minimale maskering om de contrastieve uitlijning die nodig is voor representatieleren tot stand te brengen, en gaat vervolgens geleidelijk over naar volledige maskering voor stabiele generatieve training. Tijdens de inferentie gebruikt DREAM Semantically Aligned Decoding om gedeeltelijk gemaskeerde beeldkandidaten uit te lijnen met de doeltekst en de beste te selecteren voor verdere decodering, wat de tekst-beeldtrouw verbetert (+6,3%) zonder externe herrangschikkers. Uitsluitend getraind op CC12M behaalt DREAM een ImageNet lineair-probing nauwkeurigheid van 72,7% (+1,1% ten opzichte van CLIP) en een FID van 4,25 (+6,2% ten opzichte van FLUID), met consistente verbeteringen in few-shot classificatie, semantische segmentatie en diepteschatting. Deze resultaten tonen aan dat discriminatieve en generatieve doelstellingen synergetisch kunnen zijn, waardoor uniforme multimodale modellen mogelijk worden die uitblinken in zowel visueel begrip als generatie.
Nu grote taalmodellen (LLM's) elementaire benchmarks verzadigen, is het onderzoeksfront verschoven van generatie naar de betrouwbaarheid van geautomatiseerde evaluatie. Wij tonen aan dat standaard "LLM-als-rechter"-protocollen lijden onder een systematische *Alignment Gap* wanneer ze worden toegepast op wiskunde van het niveau van eind-bachelor tot begin-master. Om dit te kwantificeren, introduceren we QEDBench, de eerste grootschalige benchmark met een dubuele rubricering om alignment met menselijke experts op universitair niveau systematisch te meten door vakspecifieke rubrics af te zetten tegen expertkennis. Door een dubbele evaluatiematrix (7 beoordelaars x 5 oplossers) in te zetten tegenover meer dan 1.000 uur aan menselijke evaluatie, tonen we aan dat bepaalde vooruitstrevende evaluatoren zoals Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max en Llama 4 Maverick een significante positieve bias vertonen (respectievelijk tot +0.18, +0.20, +0.30, +0.36 gemiddelde scoreinflatie). Verder leggen we een kritieke redeneerkloof bloot in het discrete domein: waar Gemini 3.0 Pro state-of-the-art prestaties levert (0.91 gemiddelde menselijke evaluatiescore), zien we dat de prestaties van andere redeneermodellen zoals GPT-5 Pro en Claude Sonnet 4.5 significant verslechteren in discrete domeinen. Hun gemiddelde menselijke evaluatiescore daalt specifiek naar 0.72 en 0.63 in Discrete Wiskunde, en naar 0.74 en 0.50 in Grafentheorie. Naast deze onderzoeksresultaten, geven we QEDBench ook vrij als een openbare benchmark voor het evalueren en verbeteren van AI-beoordelaars. Onze benchmark is openbaar gepubliceerd op https://github.com/qqliu/Yale-QEDBench.
Grote taalmodellen vertonen geavanceerde capaciteiten, maar het begrijpen van hun interne werking blijft een centrale uitdaging. Een fundamenteel obstakel is dat training selecteert op gedrag, niet op schakelingen, waardoor veel gewichtsconfiguraties dezelfde functie kunnen implementeren. Welke interne structuren weerspiegelen de berekening, en welke zijn toevalligheden van een specifieke trainingsrun? Dit werk extraheert algoritmische kernen: compacte deelruimten die noodzakelijk en voldoende zijn voor taakprestatie. Onafhankelijk getrainde transformers leren verschillende gewichten maar convergeren naar dezelfde kernen. Markov-ketting-transformers embedden 3D-kernen in bijna orthogonale deelruimten, maar herstellen identieke overgangsspectra. Modulaire-opteltransformers ontdekken compacte cyclische operatoren bij 'grokking' die later opzwellen, wat resulteert in een voorspellend model van de overgang van memorisatie naar generalisatie. GPT-2-taalmodellen reguleren subject-werkwoordcongruentie via een enkele as die, wanneer omgekeerd, de grammaticale getal door de hele generatie heen omkeert, onafhankelijk van schaal. Deze resultaten onthullen laagdimensionale invarianten die persistent zijn across trainingsruns en schalen, wat suggereert dat transformerberekeningen zijn georganiseerd rond compacte, gedeelde algoritmische structuren. Mechanistische interpreteerbaarheid zou kunnen profiteren van het richten op dergelijke invarianten – de computationele essentie – in plaats van implementatiespecifieke details.
De overgang van sequentiële naar parallelle computing is essentieel voor moderne high-performance applicaties, maar wordt belemmerd door de steile leercurve van gelijktijdig programmeren. Deze uitdaging wordt vergroot voor onregelmatige datastructuren (zoals sparse grafen, onbalansbomen en niet-uniforme roosters) waar statische planning faalt en data-afhankelijkheden onvoorspelbaar zijn. Huidige Large Language Models (LLM's) falen vaak catastrofaal bij deze taken en genereren code die kampt met subtiele raceconditions, deadlocks en suboptimale schaalbaarheid. Wij overbruggen deze kloof met ParEVO, een framework ontworpen voor het synthetiseren van high-performance parallelle algoritmes voor onregelmatige data. Onze bijdragen omvatten: (1) De Parlay-Instruct Corpus, een gecureerde dataset van 13.820 taken gesynthetiseerd via een "Critic-Refine"-pijplijn die expliciet filtert op empirisch performante algoritmes die effectief gebruikmaken van Work-Span parallelle primitieven; (2) gespecialiseerde DeepSeek-, Qwen- en Gemini-modellen die zijn afgestemd om probabilistische generatie af te stemmen op de rigoureuze semantiek van de ParlayLib-bibliotheek; en (3) een Evolutionaire Codeeragent (ECA) die de "last mile" van correctheid verbetert door code iteratief te repareren met feedback van compilers, dynamische race detectors en performance profilers. Op de ParEval-benchmark behaalt ParEVO een gemiddelde versnelling van 106x (met een maximum van 1103x) over de hele suite, en een robuuste versnelling van 13.6x specifiek op complexe onregelmatige grafproblemen, waarmee het state-of-the-art commerciële modellen overtreft. Bovendien evenaart onze evolutionaire aanpak state-of-the-art expert-menselijke basislijnen, met een versnelling tot 4.1x op specifieke, zeer onregelmatige kernels. Broncode en datasets zijn beschikbaar op https://github.com/WildAlg/ParEVO.
Versterkend Leren met Verifieerbare Beloningen (RLVR) heeft opmerkelijke successen geboekt in het verbeteren van autoregressieve modellen, met name in domeinen waar correctheid essentieel is, zoals wiskundig redeneren en codegeneratie. Het direct toepassen van dergelijke paradigma's op Diffusion Large Language Models (dLLM's) wordt echter fundamenteel belemmerd door de onberekenbaarheid van de exacte waarschijnlijkheid, waardoor bestaande methoden gedwongen zijn te vertrouwen op benaderingen met een hoge variantie. Om deze kloof te overbruggen, stellen we Likelihood-Free Policy Optimization (LFPO) voor, een native framework dat het concept van vectorveld-stromingsafstemming vertaalt naar de discrete tokenruimte. Concreet formuleert LFPO alignment als een geometrische rectificatie van snelheid, waarbij de denoising-logits direct worden geoptimaliseerd via contrastieve updates. Dit ontwerp omzeilt effectief de fouten die inherent zijn aan waarschijnlijkheidsbenadering, wat resulteert in een precieze gradientenschatting. Bovendien handhaaft LFPO consistentie door eindoplossingen te voorspellen uit tussenstappen, waardoor de waarschijnlijkheidsstroom effectief wordt rechtgetrokken om hoogwaardige generatie mogelijk te maken met aanzienlijk minder iteraties. Uitgebreide experimenten tonen aan dat LFPO niet alleen state-of-the-art baseline-methoden overtreft op code- en redeneerbenchmarks, maar ook de inferentie met ongeveer 20% versnelt door gereduceerde diffusiestappen.
Door grote-taalmodellen (LLM) aangedreven multi-agent systemen (MAS) coördineren gespecialiseerde agenten via vooraf gedefinieerde interactietopologieën en hebben hun waarde bewezen voor complexe taken, zoals competitieniveau codegeneratie. Recente studies tonen aan dat zorgvuldig ontworpen multi-agent werkstromen en communicatiegrafen de prestaties van codegeneratie aanzienlijk kunnen verbeteren door gebruik te maken van collaboratieve redenering. Echter, bestaande methoden passen noch de topologiedichtheid aan aan de taakmoeilijkheid, noch verfijnen ze de topologie iteratief binnen een instantie met behulp van uitvoeringsfeedback, wat leidt tot redundante communicatie en prestatieknelpunten. Om deze problemen aan te pakken, stellen wij AgentConductor voor: een door reinforcement learning geoptimaliseerd MAS met een op LLM gebaseerde orchestrator-agent als kern, dat end-to-end feedback-gestuurde, dynamische generatie van interactietopologieën mogelijk maakt. Voor elke query leidt AgentConductor agentrollen en taakmoeilijkheid af, en construeert vervolgens een taakaangepaste, dichtheidsbewuste gelaagde gerichte acyclische graaf (DAG) topologie, ondersteund door twee belangrijke innovaties. Ten eerste ontwerpen we een nieuwe topologische dichtheidsfunctie die communicatiebewuste wiskundige karakteriseringen van multi-agent interacties vastlegt. Ten tweede passen we intervalpartitie op basis van moeilijkheidsgraad toe om overmatige snoei te voorkomen voor precieze meting van de bovengrens van de topologische dichtheid per moeilijkheidsniveau en fijnmazigere controle. Empirisch gezien behaalt AgentConductor state-of-the-art nauwkeurigheid op drie competitieniveau- en twee fundamentele code-datasets, waarbij het de sterkste baseline met tot 14,6% verslaat in pass@1 nauwkeurigheid, 13% in dichtheidsreductie en 68% in tokenkostenreductie.
Wetenschappelijke ontdekkingen moeten duidelijk worden gecommuniceerd om hun volledige potentieel te realiseren. Zonder effectieve communicatie lopen zelfs de meest baanbrekende bevindingen het risico over het hoofd te worden gezien of verkeerd begrepen te worden. De primaire manier waarop wetenschappers hun werk communiceren en feedback ontvangen van de gemeenschap, is via collegiale toetsing (peer review). Het huidige systeem levert echter vaak inconsistente feedback tussen beoordelaars op, wat uiteindelijk de verbetering van een manuscript belemmert en de potentiële impact ervan beperkt. In dit artikel introduceren we een nieuwe methode, APRES, aangedreven door Large Language Models (LLM's), om de tekst van een wetenschappelijk artikel aan te passen op basis van een evaluatierubriek. Onze geautomatiseerde methode ontdekt een rubriek die sterk voorspellend is voor toekomstige citatieaantallen, en integreert deze met APRES in een geautomatiseerd systeem dat artikelen herziet om hun kwaliteit en impact te vergroten. Cruciaal hierbij is dat dit doel bereikt moet worden zonder de kern van de wetenschappelijke inhoud aan te tasten. We tonen het succes van APRES aan, dat de voorspelling van toekomstige citaties met 19,6% verbetert in gemiddelde absolute fout ten opzichte van de op één na beste baseline, en laten zien dat ons artikelrevisieproces leidt tot artikelen die 79% van de tijd de voorkeur genieten boven de originelen door menselijke expertbeoordelaars. Onze bevindingen bieden sterke empirische ondersteuning voor het gebruik van LLM's als hulpmiddel om auteurs te helpen hun manuscripten vóór indiening grondig te testen. Uiteindelijk streeft ons werk ernaar de essentiële rol van menselijke expertbeoordelaars aan te vullen, niet te vervangen, want het moeten mensen zijn die onderscheiden welke ontdekkingen er werkelijk toe doen, en die de wetenschap leiden naar het vergroten van kennis en het verrijken van levens.
Mixture-of-Experts (MoE)-architecturen zijn naar voren gekomen als een krachtig paradigma voor het schalen van neurale netwerken met behoud van rekenkundige efficiëntie. Standaard MoE-implementaties steunen echter op twee rigide ontwerpaannames: (1) vaste Top-K-routering waarbij precies K experts per token worden geactiveerd, en (2) uniforme experttoewijzing over alle lagen. Dit artikel introduceert DynaMoE, een nieuwe MoE-framework die beide beperkingen versoepelt door dynamische token-level expertactivatie en laaggewijze adaptieve capaciteitsallocatie. DynaMoE introduceert een principieel routeringsmechanisme waarbij het aantal actieve experts per token varieert op basis van invoercomplexiteit. Tegelijkertijd implementeert het framework zes verschillende planningsstrategieën voor het verdelen van expertcapaciteit over de netwerkdiepte, waaronder dalende, stijgende, piramide- en golfpatronen. We analyseren theoretisch de expressiviteitswinst van dynamische routering en leiden grenzen af voor de rekenkundige efficiëntie. Door middel van uitgebreide experimenten op MNIST, Fashion-MNIST, CIFAR-10 (beeldclassificatie) en Recycling-the-Web (taalmodelering) over meerdere modelschalen, tonen we aan dat DynaMoE superieure parameter efficiëntie bereikt in vergelijking met statische basislijnen. Onze belangrijkste bevinding is dat optimale expertschema's taak- en schaalafhankelijk zijn: dalende schema's (die capaciteit concentreren in vroege lagen) presteren beter dan uniforme basislijnen bij beeldclassificatie. Voor taalmodelering variëren optimale schema's per modelgrootte: dalend voor Tiny, stijgend voor Small en uniform voor Medium. Bovendien vermindert dynamische routering de variantie van de gradient tijdens de training, wat leidt tot verbeterde convergentiestabiliteit. DynaMoE vestigt een nieuw kader voor adaptieve berekening in neurale netwerken en biedt principiële richtlijnen voor MoE-architectuurontwerp.
Ondanks hun indrukwekkende capaciteiten blijven huidige Text-to-Image (T2I) modellen gevoelig voor het genereren van onveilige en giftige inhoud. Hoewel activeringssturing een veelbelovende interventie tijdens inferentie biedt, merken we op dat lineaire activeringssturing vaak de beeldkwaliteit aantast wanneer toegepast op goedaardige prompts. Om dit afwegingsprobleem aan te pakken, construeren we eerst SafeSteerDataset, een contrastieve dataset met 2300 paren van veilige en onveilige prompts met een hoge cosinusgelijkenis. Gebruikmakend van deze data stellen we Conditioned Activation Transport (CAT) voor, een raamwerk dat een op geometrie gebaseerd conditioneringsmechanisme en niet-lineaire transportafbeeldingen gebruikt. Door transportafbeeldingen zo te conditioneren dat ze alleen binnen onveilige activeringsregio's geactiveerd worden, minimaliseren we interferentie met goedaardige queries. We valideren onze aanpak op twee state-of-the-art architecturen: Z-Image en Infinity. Experimenten tonen aan dat CAT effectief generaliseert over deze backbones, de Attack Success Rate significant verlaagt en tegelijkertijd de beeldkwaliteit behoudt in vergelijking met niet-gestuurde gegenereerde beelden. Waarschuwing: Dit artikel bevat mogelijk aanstootgevende tekst en afbeeldingen.
Ruimtelijk variante dynamische convolutie biedt een principiële benadering om ruimtelijke adaptiviteit in diepe neurale netwerken te integreren. Hoofdstroomontwerpen in medische segmentatie genereren dynamische kernels echter vaak via gemiddelde pooling, wat hoogfrequente ruimtelijke details impliciet samenvouwt tot een grove, ruimtelijk gecomprimeerde representatie. Dit leidt tot over-uitgevlakte voorspellingen die de fideliteit van fijnmazige klinische structuren aantasten. Om deze beperking aan te pakken, stellen we een nieuwe Structure-Guided Dynamic Convolution (SGDC)-mechanisme voor, dat een expliciet gesuperviseerde structuurextractietak gebruikt om de generatie van dynamische kernels en gating-signalen te sturen voor structuurbewuste featuremodulatie. Concreet wordt de hoogfideliteitsgrensinformatie van deze hulptak gefuseerd met semantieke features om ruimtelijk precieze featuremodulatie mogelijk te maken. Door contextaggregatie te vervangen door pixelgewijze structurele begeleiding, voorkomt het voorgestelde ontwerp effectief het informatieverlies veroorzaakt door gemiddelde pooling. Experimentele resultaten tonen aan dat SGDC state-of-the-art prestaties behaalt op de ISIC 2016, PH2, ISIC 2018 en CoNIC datasets, met superieure grensfideliteit door de Hausdorff-afstand (HD95) met 2,05 te verminderen en consistente IoU-winsten van 0,99%-1,49% ten opzichte van op pooling gebaseerde basislijnen. Bovendien vertoont het mechanisme een sterk potentieel voor uitbreiding naar andere fijnmazige, structuurgevoelige visietaken, zoals detectie van kleine objecten, en biedt het een principiële oplossing voor het behoud van structurele integriteit in medische beeldanalyse. Om reproduceerbaarheid te vergemakkelijken en verder onderzoek aan te moedigen, is de implementatiecode van zowel onze SGE- als SGDC-modules openbaar vrijgegeven op https://github.com/solstice0621/SGDC.
Recente vooruitgang in grote taalmmodellen (LLM's) heeft steeds capabelere chatbots mogelijk gemaakt. De meeste bestaande systemen richten zich echter op settings met één gebruiker en generaliseren niet goed naar groepsgesprekken met meerdere gebruikers, waar agenten proactievere en nauwkeurigere interventie vereisen in complexe, evoluerende contexten. Bestaande benaderingen vertrouwen doorgaans op LLM's voor zowel redenering als generatie, wat leidt tot hoog tokenverbruik, beperkte schaalbaarheid en potentiële privacyrisico's. Om deze uitdagingen aan te pakken, stellen we GroupGPT voor, een token-efficiënt en privacybeschermend agentframework voor multi-user chatassistenten. GroupGPT hanteert een collaboratieve architectuur van kleine en grote modellen om de timing van interventie te ontkoppelen van responsgeneratie, wat efficiënte en accurate besluitvorming mogelijk maakt. Het framework ondersteunt tevens multimodale inputs, waaronder memes, afbeeldingen, video's en spraakberichten. We introduceren verder MUIR, een benchmarkdataset voor interventieredenering bij multi-user chatassistenten. MUIR bevat 2.500 geannoteerde groepsgespreksegmenten met interventielabels en onderliggende redeneringen, ter ondersteuning van de evaluatie van timingnauwkeurigheid en responskwaliteit. We evalueren een reeks modellen op MUIR, van grote taalmmodellen tot kleinere tegenhangers. Uitgebreide experimenten tonen aan dat GroupGPT accurate en goed getimede reacties produceert, met een gemiddelde score van 4.72/5.0 in LLM-gebaseerde evaluatie, en dat het goed wordt ontvangen door gebruikers in diverse groepsgespreksscenario's. Bovendien reduceert GroupGPT het tokenverbruik tot wel 3 keer vergeleken met baseline-methoden, terwijl het privacy-sanitisering van gebruikersberichten biedt vóór cloudtransmissie. Code is beschikbaar op: https://github.com/Eliot-Shen/GroupGPT.
Machine unlearning, dat een model in staat stelt specifieke data te vergeten, is cruciaal voor het waarborgen van gegevensprivacy en modelbetrouwbaarheid. De effectiviteit ervan kan echter ernstig worden ondermijnd in realistische scenario's waarin modellen onbedoelde vooroordelen leren uit spurious correlaties in de data. Dit artikel onderzoekt de unieke uitdagingen van het verwijderen van kennis uit dergelijke bevooroordeelde modellen. Wij identificeren een nieuw fenomeen dat we "shortcut unlearning" noemen, waarbij modellen een "makkelijk aan te leren, maar moeilijk te vergeten" tendens vertonen. Specifiek worstelen modellen met het vergeten van makkelijk aan te leren, bias-conforme voorbeelden; in plaats van het klasse-attribuut te vergeten, vergeten ze het bias-attribuut, wat paradoxaal genoeg de nauwkeurigheid op de te vergeten klasse kan verbeteren. Om dit aan te pakken, stellen we CUPID voor, een nieuw unlearning-raamwerk geïnspireerd door de observatie dat voorbeelden met verschillende biases een onderscheidende scherpte van het loss-landschap vertonen. Onze methode deelt eerst de te vergeten set op in causaal- en bias-geapproxeerde subsets op basis van sample-scherpte, ontwart vervolgens modelparameters in causale en bias-paden, en voert ten slotte een gerichte update uit door verfijnde causale en bias-gradiënten naar hun respectievelijke paden te routeren. Uitgebreide experimenten op bevooroordeelde datasets, waaronder Waterbirds, BAR en Biased NICO++, tonen aan dat onze methode state-of-the-art prestaties bereikt bij het vergeten en het shortcut unlearning-probleem effectief vermindert.
Wij introduceren Whisper-RIR-Mega, een benchmarkdataset van gepaarde schone en nagalmende spraak voor het evalueren van de robuustheid van automatische spraakherkenning (ASR) tegen ruimtelijke akoestiek. Elk sample koppelt een schone LibriSpeech-uitspraak aan dezelfde uitspraak die geconvolueerd is met een echte impulsrespons van een ruimte uit de RIR-Mega-corpus, met gestratificeerde splitsingen op basis van nagalmtijd (RT60) en direct-reverberantieverhouding (DRR). Wij evalueren vijf Whisper-modellen (van tiny tot large-v3) op 1600 testsamples en rapporteren de woordfoutenfrequentie (WER) en tekenfoutenfrequentie (CER) onder schone en nagalmende condities. Nagalming leidt consequent tot prestatievermindering bij alle modelgroottes; de WER-straf voor nagalming varieert van 0,12 tot 1,07 procentpunt, afhankelijk van het model. Wij publiceren de dataset, evaluatiecode en basislijresultaten om reproduceerbaar onderzoek naar robuuste ASR te ondersteunen.
Test-time policy-aanpassing voor multi-turn interacties (T2PAM) is essentieel om Large Language Models (LLM's) af te stemmen op dynamische gebruikersbehoeften tijdens de inferentiefase. Bestaande paradigma's behandelen test-time-aanpassing echter vaak als een enkelvoudig probleem, waarbij ze puur instructies verfijnen (Prompt Engineering) of alleen gewichten aanpassen (Test-Time Training), en negeren dat interactiefouten voortkomen uit een gekoppelde mix van ambiguïteit en onvermogen. Wij beargumenteren dat deze twee optimalisatiepaden niet slechts additief zijn, maar synergetisch: semantische duidelijkheid fungeert als een voorconditionerder voor effectieve parameterupdates. Daarom stellen we ROSA2 voor, een framework dat interactie herformuleert als een gezamenlijk optimalisatieprobleem over de heterogene ruimte van Woorden en Gewichten. Door het foutsignaal wiskundig te decomponeren, benut ROSA2 tekstuele gradienten om intentie-ambiguïteit te rectificeren en parameterupdates om capaciteitshiaten te overbruggen. Theoretisch bewijzen we dat deze co-adaptatie de benodigde parametershift voor convergentie strikt vermindert. Empirisch presteert ROSA2 30% beter dan state-of-the-art baseline-methoden op MATH, terwijl het aantal interactiebeurten met 40% wordt gereduceerd, wat aantoont dat het verfijnen van de context het ware potentieel van parameterupdates ontsluit.
Video Large Language Models (VLLM's) vertonen een sterk begrip van video, maar lijden onder inefficiëntie door redundante visuele tokens. Bestaande pruningmethoden richten zich voornamelijk op intra-frame ruimtelijke redundantie of werken binnen het LLM met overhead in ondiepe lagen, wat resulteert in een suboptimale spatiotemporele reductie en een onderbenutting van de compressiemogelijkheden van lange contexten. Bovendien worden subtiele maar informatieve contexten vaak verworpen bij het samenvoegen of verwijderen van tokens. In dit artikel introduceren we een nieuw perspectief dat token-ankers binnen en tussen frames uitwerkt om informatieve contexten uitgebreid te aggregeren via lokaal-globaal Optimal Transport (AOT). Concreet stellen we eerst lokaal en globaal bewuste token-ankers vast binnen elk frame onder leiding van attention, die vervolgens via optimal transport informatieve contexten van verwijderde tokens aggregeren, waardoor intra-frame token-ankers worden geconstrueerd. Vervolgens worden, gebaseerd op temporele frameclips, de eerste frames binnen elke clip beschouwd als keyframe-ankers om vergelijkbare informatie uit opeenvolgende frames samen te voegen via optimal transport, terwijl onderscheidende tokens behouden blijven om temporele dynamiek te representeren. Dit leidt tot efficiënte tokenreductie zonder training. Uitgebreide evaluaties tonen aan dat onze voorgestelde AOT competitieve prestaties behaalt op diverse kort- en langvideo-benchmarks voor toonaangevende video-LLM's, met aanzienlijke rekeneficiëntie en behoud van temporele en visuele nauwkeurigheid. Projectwebpagina: https://tyroneli.github.io/AOT{AOT}.
Subtiele en indirecte haatspraak vormt een onderbelichte uitdaging in onderzoek naar online veiligheid, met name wanneer schadelijke intentie verweven is in misleidende of manipulerende narratieven. Bestaande datasets voor haatspraak richten zich voornamelijk op openlijke toxiciteit en vertegenwoordigen onvoldoende de genuanceerde manieren waarop desinformatie haat kan aanwakkeren of normaliseren. Om deze lacune aan te pakken, presenteren we HateMirage, een nieuwe dataset van Faux Hate-commentaren die is ontworpen om onderzoek naar redenering en verklaarbaarheid van haat die voortkomt uit valse of verdraaide narratieven te bevorderen. De dataset werd samengesteld door wijdverspreide en weerlegde desinformatieclaims van factcheckingsbronnen te identificeren en gerelateerde YouTube-discussies op te sporen, wat resulteerde in 4.530 gebruikerscommentaren. Elk commentaar is geannoteerd langs drie interpreteerbare dimensies: Doelwit (wie wordt getroffen), Intentie (de onderliggende motivatie of doel achter het commentaar) en Implicatie (de potentiële maatschappelijke impact). In tegenstelling tot eerdere verklaarbaarheidsdatasets zoals HateXplain en HARE, die token-level of eendimensionale redenering bieden, introduceert HateMirage een multidimensionaal verklaringskader dat de wisselwerking tussen desinformatie, schade en maatschappelijke gevolgen vastlegt. We testen meerdere open-source taalmodellen op HateMirage met behulp van ROUGE-L F1 en Sentence-BERT-gelijkheidscores om de samenhang van verklaringen te evalueren. Resultaten suggereren dat de kwaliteit van verklaringen mogelijk meer afhangt van de diversiteit tijdens de voorafgaande training en reasoning-gerichte data dan van de schaal van het model alleen. Door redenering over desinformatie te koppelen aan het toeschrijven van schade, vestigt HateMirage een nieuwe benchmark voor interpreteerbare haatdetectie en verantwoord AI-onderzoek.
Er wordt een open-source C++-framework gepresenteerd voor het ontdekken van snelle matrixvermenigvuldigingsschema's met behulp van de flip-grafiekbenadering. Het framework ondersteunt meerdere coëfficiëntenringen – binair (Z_2), modulair ternair (Z_3) en integer ternair (Z_T = {-1,0,1}) – en implementeert zowel zoekoperatoren voor vaste dimensies als meta-dimensionele zoekoperatoren. Door efficiënte bitgecodeerde representatie van coëfficiëntenvectoren en OpenMP-parallelisme maken de tools grootschalige exploratie op consumentenhardware mogelijk. De studie omvat 680 schema's, variërend van (2×2×2) tot (16×16×16), waarvan 276 schema's nu in Z_T-coëfficiënten en 117 in integercoëfficiënten. Met dit framework wordt de multiplicatieve complexiteit (rang) verbeterd voor 79 matrixvermenigvuldigingsschema's. Opmerkelijk is de ontdekking van een nieuw 4×4×10-schema dat slechts 115 vermenigvuldigingen vereist, wat resulteert in ω ≈ 2.80478 en daarmee Strassens exponent voor dit specifieke formaat overtreft. Bovendien worden 93 schema's herontdekt in ternaire coëfficiënten die voorheen alleen over rationale getallen of gehele getallen bekend waren, en 68 schema's in integercoëfficiënten die voorheen breuken vereisten. Alle tools en ontdekte schema's zijn publiekelijk beschikbaar gesteld om reproduceerbaar onderzoek mogelijk te maken.
Raytracing is uitgegroeid tot een standaardmethode voor nauwkeurige radiogolfvoortplantingsmodellering, maar lijdt onder exponentiële computationele complexiteit, omdat het aantal kandidaatpaden schaalt met het aantal objecten tot de macht van de interactieorde. Dit knelpunt beperkt het gebruik ervan in grootschalige of realtime toepassingen, waardoor traditionele tools zijn aangewezen op heuristieken om het aantal kandidaatpaden te reduceren ten koste van mogelijk verminderde nauwkeurigheid. Om deze beperking te overwinnen, stellen we een uitgebreid raamwerk voor dat wordt ondersteund door machine learning en dat uitputtende padzoekopdrachten vervangt door intelligente steekproefname via Generative Flow Networks. De toepassing van dergelijke generatieve modellen in dit domein brengt aanzienlijke uitdagingen met zich mee, met name sporadische beloningen door de zeldzaamheid van geldige paden, wat kan leiden tot convergentiefouten en triviale oplossingen bij het evalueren van interacties van hoge orde in complexe omgevingen. Om robuust leren en efficiënte exploratie te garanderen, omvat ons raamwerk drie essentiële architectuurcomponenten. Ten eerste implementeren we een experience replay-buffer om zeldzame geldige paden vast te leggen en te behouden. Ten tweede hanteren we een uniform exploratiebeleid om de generalisatie te verbeteren en te voorkomen dat het model overfit op eenvoudige geometrieën. Ten derde passen we een op fysica gebaseerde actiemaskeringsstrategie toe die fysisch onmogelijke paden filtert voordat het model deze überhaupt overweegt. Zoals aangetoond in onze experimentele validatie, behaalt het voorgestelde model aanzienlijke snelheidswinsten ten opzichte van uitputtend zoeken – tot 10 keer sneller op GPU en 1000 keer sneller op CPU – met behoud van hoge dekkingnauwkeurigheid en succesvolle ontdekking van complexe voortplantingspaden. De volledige broncode, tests en tutorial zijn beschikbaar op https://github.com/jeertmans/sampling-paths.
Multi-domein grafische voorafgaande training integreert kennis uit diverse domeinen om de prestaties in de doeldomeinen te verbeteren, wat cruciaal is voor het bouwen van grafische foundation-modellen. Ondanks aanvankelijk succes slagen bestaande oplossingen er vaak niet in een fundamentele vraag te beantwoorden: hoe wordt kennis geïntegreerd of overgedragen tussen domeinen? Deze theoretische beperking motiveert ons om de consistentie en overdraagbaarheid tussen modelvoortraining en domeinaanpassing opnieuw te overdenken. In dit artikel stellen we een nieuw Riemann-meetkundig perspectief voor, waarvan de kernidee is om elke grafische dataset te versmelten tot een verenigde, gladde Riemann-variëteit, wat een systematisch begrip van kennisintegratie en -overdracht mogelijk maakt. Om dit te bereiken is onze belangrijkste bijdrage de theoretische vaststelling van neural manifold gluing, dat eerst de lokale meetkunde karakteriseert met behulp van een adaptief orthogonaal frame en vervolgens de lokale stukken "aan elkaar lijmt" tot een coherent geheel. Op basis van deze theorie presenteren we het GraphGlue-framework, dat gebatchte voorafgaande training met EMA-prototyping ondersteunt en een overdraagbaarheidsmaatstaf biedt op basis van geometrische consistentie. Uitgebreide experimenten tonen de superieure prestaties aan in diverse grafische domeinen. Bovendien hebben we empirisch de geometrische schaalwet van GraphGlue gevalideerd, waaruit blijkt dat grotere hoeveelheden datasets de overdraagbaarheid van het model verbeteren door een gladdere variëteit te produceren. Code is beschikbaar op https://github.com/RiemannGraph/GraphGlue.