Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Van LLM-agenten wordt steeds vaker verwacht dat ze niet alleen geïsoleerde taken uitvoeren, maar ook begrensde representaties van menselijke expertise, oordeelsvorming en interactiestijl bevatten. Het bouwen van dergelijke persoonsgebonden agenten blijft moeilijk omdat bruikbare kennis die bij een persoon of rol hoort, meestal is ingebed in heterogene sporen in plaats van geschreven als duidelijke instructies. Bestaande geheugen- en personasystemen vangen fragmenten van dit bewijs op, terwijl vaardigheidskaders draagbare verpakkingsformaten bieden; er is echter geen end-to-end-werkstroom om deze sporen te destilleren tot inspecteerbare, corrigeerbare en door agenten bruikbare vaardigheden. We presenteren een geautomatiseerd spoor-naar-vaardigheid-destillatiesysteem voor het genereren van persoonsgebonden AI-vaardigheden via expertkennisdestillatie. Gegeven materialen van een doeldpersoon of -rol produceert COLLEAGUE.SKILL een versiebeheerd vaardigheidspakket met twee gecoördineerde sporen: een capaciteitsspoor voor praktijken, mentale modellen en beslissingsheuristieken, en een begrensd gedragsspoor voor communicatiestijl, interactieregels en correctiegeschiedenis. Het pakket kan worden geïnspecteerd, aangeroepen, bijgewerkt via natuurlijke-taal feedback, teruggedraaid, geïnstalleerd op verschillende agenthosts, en optioneel voorbereid voor gecontroleerde distributie. We beschrijven het artefactcontract, de generatiewerkstroom, de correctielevenscyclus, het implementatieoppervlak en de domeinvoorinstellingen die in het opensourcesysteem zijn geïmplementeerd. Op het moment van schrijven heeft de openbare repository ongeveer 18,5k GitHub-sterren; de galerij vermeldt 215 vaardigheden van 165 bijdragers en meer dan 100k cumulatieve sterren voor de vermelde vaardigheidskaarten. Het systeem illustreert hoe persoonsgebonden vaardigheden kunnen worden weergegeven als draagbare, corrigeerbare pakketten in plaats van ondoorzichtige prompts of verborgen herinneringen.
Large Language Model (LLM) zoekagenten hebben veelbelovende resultaten laten zien voor kennisintensieve taalverwerkingstaken door middel van meerdere rondes van redeneren en informatie ophalen. De meeste bestaande systemen hebben toegang tot informatie via een retriever die een trefwoord of natuurlijke taalquery aanneemt en een gerangschikte lijst van documenten retourneert met behulp van een index van vooraf berekende documentrepresentaties. In dit werk onderzoeken we een complementair perspectief waarin de zoekagent het corpus zelf als zoekomgeving beschouwt en bewijs vindt door uitvoerbare shell-commando’s uit te geven. We introduceren GrepSeek, een geoptimaliseerde directe corpusinteractie (DCI) zoekagent die een compacte zoekagent traint om bewijs uit grote tekstcorpora te vinden, te filteren en te combineren. Om de instabiliteit van het direct aanleren van gedrag met reinforcement learning op grote corpora aan te pakken, stellen we een tweetraps trainingspijplijn voor. Eerst construeren we een cold-start dataset met behulp van een antwoordbewuste Tutor en een antwoordblinde Planner om geverifieerde, causaal gefundeerde zoektrajecten te genereren. Vervolgens verfijnen we het geïnitialiseerde beleid met Group Relative Policy Optimization (GRPO), waardoor de agent zijn taakgerichte zoekgedrag kan verbeteren via directe interactie met het corpus. Om DCI schaalbaar en praktisch te maken, gebruiken we verder een semantiekbehoudende, sharded-parallelle uitvoeringsengine die shell-gebaseerd ophalen tot 7,6 keer versnelt, terwijl byte-exacte equivalentie met sequentiële uitvoering van het shell-commando behouden blijft. Experimenten met zeven open-domein vraagbeantwoordingsbenchmarks tonen aan dat GrepSeek de sterkste algehele token-niveau F_1 en Exact Match behaalt. Onze analyse benadrukt ook de beperkingen van puur lexicale interactie bij queries met aanzienlijke oppervlaktevormvariatie, wat erop wijst dat DCI een praktische en concurrerende methode is voor zoekagenten die bestaande retrievalparadigma’s in de echte wereld kunnen aanvullen.
On-policy distillatie (OPD) traint een student op prefixen die zijn gesampled uit zijn eigen beleid, terwijl het een sterkere leraar evenaart. Dit lost de prefix-mismatch van offline distillatie op, maar vroege student-rollouts kunnen nog steeds slecht zijn, waardoor de supervisie van de leraar op zwakke of laagwaardige prefixen wordt geplaatst. Wij stellen Trust-Region behavior Blending (TRB) voor, een opwarmmethode die het vroege rollout-beleid vervangt door het dichtst bij de leraar liggende gedragsbeleid binnen een studentgericht KL-vertrouwensgebied, terwijl het per-prefix reverse-KL OPD-verlies ongewijzigd blijft. Het KL-budget wordt afgekoeld naar nul, zodat de training na de opwarming terugkeert naar zuivere student-rollouts. In twee wiskundige redeneerdistillatie-instellingen behaalt TRB het sterkste gemiddelde onder de vergeleken methoden.
Uniforme multimodale modellen (UMM's) streven ernaar perceptie en generatie in één enkel model te combineren. Toch zijn bestaande UMM's nog steeds afhankelijk van een bevroren, apart voorgetrainde VAE voor beeldgeneratie, wat een structurele bottleneck oplevert. Het naïef verwijderen ervan introduceert een kwaliteitskloof, omdat het model zowel hoog-niveau structuur als laag-niveau details uit ruwe pixels moet leren. In dit artikel stellen we Representation Forcing (RF) voor, een techniek die deze kloof overbrugt door representatievoorspelling een native capaciteit van het model te maken. Concreet dwingt RF de decoder om autoregressief visuele representaties als intermediaire tokens te voorspellen voordat pixels worden gegenereerd; deze tokens blijven vervolgens in de context om pixeldiffusie binnen dezelfde backbone te sturen. Door representaties van perceptie-outputs om te zetten in generatiedoelen, elimineert RF de noodzaak voor een externe generatieve latentieruimte. We vinden dat RF zowel begrip als generatie ten goede komt. Op het gebied van beeldgeneratie evenaart ons pixelruimtemodel met RF state-of-the-art op VAE gebaseerde uniforme modellen. Op het gebied van beeldbegrip presteert RF in pixelruimte over het algemeen beter dan zijn op VAE gebaseerde variant. Samen bieden deze resultaten een effectieve stap in de richting van end-to-end, bottleneck-vrije UMM's.
Zero-shot tekst-naar-spraak (TTS) is aanzienlijk verbeterd voor enkelspreker-synthese, maar expressieve lange meerderstemmige dialoog blijft moeilijk. Een gangbare tijdelijke oplossing is om elke beurt te synthetiseren met een monoloog-TTS-model en de uitvoer aan elkaar te koppelen. Dit verhoogt de inferentiekosten en doorbreekt vaak de akoestische consistentie, conversationele coherentie en affectieve continuïteit tussen beurten. Recente dialoog-TTS-systemen zijn begonnen dit scenario aan te pakken, maar worstelen nog steeds met het gelijktijdig behouden van expressieve coherentie, controleerbare sprekerswisselingen en monoloogkwaliteit. We presenteren SwanData-Speech en SwanVoice. SwanData-Speech bouwt monoloog- en dialoogcorpora uit wild-audio, met behulp van Swan Forced Aligner voor pauze-bewuste woordniveau-uitlijning en RobustMegaTTS3 voor uitspraak-moeilijke gevallen. Gebouwd op deze gegevens is SwanVoice een zero-shot TTS-model voor 1–4 sprekers, dat een 25 Hz VAE, raw-text-conditionering met pauze-bewuste symbolen en pinyin-substitutie, en een stromingskoppeling DiT met spreker-beurt-conditionering combineert. De training begint met monoloogspraak, gaat via gemengde en echte dialoogdata, en gebruikt vervolgens DiffusionNFT post-training met telefoonniveau- en spreker-gelijkheidsbeloningen. Op SwanBench-Speech behaalt SwanVoice hogere rijkheids- en hiërarchiescores dan alle geëvalueerde open-source-baselines in zowel monoloog- als dialoogomgevingen, terwijl inhoudelijke nauwkeurigheid de belangrijkste beperking blijft. Audiodemo's zijn beschikbaar op https://swanaigc.github.io//#swanvoice.
We presenteren Mellum 2, een open-gewicht 12B-parameter Mixture-of-Experts (MoE) taalmodel met 2,5B actieve parameters per token. Mellum 2 is een algemeen doel taalmodel gespecialiseerd in software engineering, dat codegeneratie en -bewerking, debuggen, meerstapsredenering, toolgebruik en functie-aanroepen, agentisch programmeren en conversationele programmeerondersteuning omvat, en het is de opvolger van het op voltooiing gerichte 4B dichte Mellum-model. De architectuur is gebaseerd op Mixture-of-Experts (64 experts, 8 actief) en combineert Grouped-Query Attention met 4 KV-heads, Sliding Window Attention op drie van elke vier lagen, en een enkele Multi-Token Prediction-head die dient als zowel een hulpvoorbewerkingsdoelstelling als een ingebouwd conceptmodel voor speculatieve decodering; elke keuze is gevalideerd door ablatie met rekenefficiëntie op gangbare GPU's als ontwerpbeperking. Voorbewerking omvat ongeveer 10,6 biljoen tokens via een driefasig curriculum dat het mengsel geleidelijk verschuift van diverse webgegevens naar gecureerde code en wiskundige inhoud, geoptimaliseerd met Muon onder FP8 hybride precisie en een Warmup-Hold-Decay schema met lineaire afname naar nul. De voorbewerkte basis wordt uitgebreid naar een 128K contextvenster via een laagselectieve YaRN en vervolgens nabehandeld in twee fasen (begeleide fijnafstemming gevolgd door RLVR), wat twee uitgebrachte varianten oplevert: een Instruct-model dat direct antwoordt en een Thinking-model dat een expliciet redeneerspoor uitzendt voordat het zijn definitieve antwoord geeft. Op het gebied van codegeneratie, wiskunde en redeneren, toolgebruik, kennis en veiligheidsbenchmarks is Mellum 2 concurrerend met open-gewicht baselines in het 4B-14B-bereik terwijl het draait op de per-token compute van een 2,5B dicht model. We brengen de basis-, instruct- en thinking checkpoints uit, samen met dit rapport over de architectuurbeslissingen, gegevenspijplijn en trainingsmethode erachter, onder de Apache 2.0-licentie.
Beeldherstel in de echte wereld (IR) wordt beperkt door de schaarste aan hoogwaardige gepaarde trainingsdata. Synthetische datasets zijn overvloedig, maar slagen er vaak niet in om degradaties in de echte wereld te modelleren, terwijl echte gepaarde datasets duur en moeilijk te verkrijgen zijn. Als gevolg hiervan vertonen IR-modellen die op deze datasets zijn getraind een beperkte generalisatie in realistische scenario's. In dit werk stellen we Generative Ground Truth (GGT) voor door gebruik te maken van generatieve multimodale funderingsmodellen (MFM's) om hoogwaardige (HQ) doelstellingen te produceren uit laagwaardige (LQ) beelden uit de echte wereld. We voeren eerst een systematische evaluatie uit van negen state-of-the-art MFM's, waaronder Nano-Banana-2 en GPT-Image-2, op beelden van verschillende scènes en degradatietypen. De resultaten tonen aan dat Nano-Banana-2 met VLM-gebaseerd adaptief prompten de hoogste capaciteit vertoont om perceptueel realistische en inhoudsgetrouwe HQ-doelstellingen te synthetiseren, die als GGT voor de LQ-invoer kunnen dienen. Vervolgens gebruiken we Nano-Banana-2 om een GGT-synthesepijplijn te bouwen, die meerfasige kwaliteitscontrole omvat om de betrouwbaarheid van gegevens te waarborgen, en construeren we GGT-100K, een LQ-HQ gepaarde dataset bestaande uit 103.707 trainingsparen en die diverse scènes en complexe degradaties uit de echte wereld bestrijkt. Er wordt ook een testset van 500 beeldparen opgesteld. Uitgebreide experimenten tonen aan dat GGT-100K consequent de realistische generalisatie van een breed scala aan IR-modellen verbetert, met bijzonder sterke voordelen voor het finetunen van generatieve modellen voor IR-taken. Onze resultaten suggereren dat MFM's kunnen dienen als praktische hulpmiddelen voor herstelgerichte datageneratie, en GGT-100K is een nuttige bron om de generalisatiegrenzen van realistische IR-modellen te verleggen.
Redeneren over lange contexten blijft een grote uitdaging voor grote taalmodellen, die vaak niet in staat zijn om sleutelinformatie te lokaliseren en te integreren in uitgebreide, afleidende inhoud. Bekrachtigingsleren met verifieerbare beloningen (RLVR) is veelbelovend gebleken voor deze taak, maar bestaande methoden worden beperkt door afleiders met een lage verwarrendheid en schaarse beloningssignalen die alleen het eindresultaat betreffen en geen toezicht kunnen houden op tussenliggende redeneerstappen. Om deze problemen aan te pakken introduceren we LongTraceRL. Voor gegevensconstructie genereren we meerstapsvragen via willekeurige wandelingen in kennisgrafen en gebruiken we trajecten van zoekagenten om gelaagde afleiders op te bouwen: documenten die de agent las maar niet citeerde (hoge verwarrendheid) en documenten die in zoekresultaten verschenen maar nooit werden geopend (lage verwarrendheid). Dit levert trainingscontexten op die veel uitdagender zijn dan die welke zijn gebouwd met willekeurige steekproeven of eenmalig zoeken. Voor beloningsontwerp stellen we een rubricbeloning voor die de gouden entiteiten langs elke redeneerketen gebruikt als fijnmazig toezicht op procesniveau op entiteitsniveau. Deze rubricbeloning wordt alleen toegepast op antwoorden met een correct eindantwoord (uitsluitend-positieve strategie), waardoor de redeneerkwaliteit onder correcte antwoorden wordt onderscheiden en beloningsmanipulatie wordt voorkomen. Experimenten op drie redeneer-LLM's (4B–30B) over vijf benchmarks voor lange contexten tonen aan dat LongTraceRL consequent beter presteert dan sterke referentiemodellen en uitgebreid, op bewijs gebaseerd redeneren bevordert. Code, datasets en modellen zijn beschikbaar op https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}.
De meeste tekstgestuurde methoden voor 3D-binnenscènesynthese genereren ruimtes op basis van objectgerichte prompts, waarbij de vraag wordt gesteld welke meubels geplaatst moeten worden in plaats van hoe de ruimte wordt gebruikt. In de praktijk van interieurontwerp wordt een indeling echter beoordeeld op hoe goed deze de gebruikers ondersteunt, bijvoorbeeld hun activiteiten en fysieke behoeften. Wij introduceren Function2Scene, een raamwerk voor het genereren van 3D-binnenindelingen op basis van functionele specificaties, dat wil zeggen ontwerpopdrachten in natuurlijke taal die beschrijven wie een ruimte zal gebruiken en wat ze daar moeten doen. Bij een dergelijke specificatie parseert ons systeem gebruikerspersona's en activiteiten, leidt het een aangepaste set functionele ontwerpbeperkingen af uit een taxonomie van 17 criteria die ruimtelijke, ergonomische, activiteits- en omgevingsoverwegingen omvatten, en gebruikt het deze beperkingen om de indelingsgeneratie te sturen. In plaats van te vertrouwen op een LLM om direct een uiteindelijke scène te produceren, voert Function2Scene iteratieve evaluatie en verfijning uit via een met tools versterkte controle-en-reparatielus, waarbij geometrische metingen, op LLM gebaseerd contextueel redeneren en op VLM gebaseerde visuele beoordeling worden gecombineerd. Experimenten met 30 professioneel geschreven interieurontwerp-cases tonen aan dat Function2Scene indelingen produceert die beter voldoen aan functionele vereisten dan recente op LLM gebaseerde scènesynthese-baselines, waarbij onze resultaten in 94,3% van de paarsgewijze vergelijkingen de voorkeur krijgen. Ons werk herformuleert tekstgestuurde binnenscènesynthese van het plaatsen van plausibele objecten naar het ontwerpen van ruimtes die menselijk gebruik ondersteunen.
Real-time streaming video-naar-video bewerking (V2V) is cruciaal voor interactieve toepassingen zoals live uitzendingen en gaming, maar het blijft een geduchte uitdaging vanwege de strenge vereisten voor temporele consistentie en inferentiedoorvoer. In dit artikel presenteren we SANA-Streaming, een systeem-algoritme co-ontworpen raamwerk voor hoge-resolutie, real-time streaming videobewerking op consumenten-GPU's, met de volgende drie kerontwerpen: (1) Hybride Diffusie Transformer architectuur introduceert softmax aandacht in een deel van de blokken om de lokale modelleringscapaciteiten te verbeteren terwijl de efficiëntie van lineaire lagen behouden blijft. (2) Cycle-Reverse Regularization is een nieuwe trainingsstrategie die semantische consistentie afdwingt door bronframes te voorspellen uit gegenereerde inhoud via flow matching, wat de temporele consistentie verbetert zonder dat er gepaarde lange bewerkte video's nodig zijn. (3) Efficiënt systeem co-ontwerp combineert gefuseerde GDN-kernels en Mixed-Precision Quantization (MPQ) geoptimaliseerd voor de NVIDIA Blackwell (RTX 5090) architectuur. Door het profileren van de werkelijke doorvoer maximaliseert onze MPQ het Tensor Core-gebruik terwijl de generatiekwaliteit behouden blijft. Het resulterende systeem behaalt real-time 1280 x 704 resolutie bewerking bij 24 end-to-end FPS op een enkele RTX 5090 GPU, met de DiT-kern die op 58 FPS draait. Experimentele resultaten tonen aan dat onze co-ontwerp aanpak significant beter presteert dan bestaande SOTA-methoden in zowel temporele coherentie als systeemdoorvoer.
Langetermijngeheugen is essentieel voor multimodale agenten om coherente ervaring op te bouwen, wereldkennis te accumuleren en continu leren te bereiken. Het construeren van effectief geheugen gaat echter verder dan het ontwerp van geheugenmodules en basiseisen zoals nauwkeurigheid en getrouwheid; de belangrijkste uitdaging ligt in het bepalen van wat er gememoriseerd moet worden. Multimodale agenten, zoals belichaamde agenten, nemen continu waar, redeneren en handelen in echte of virtuele omgevingen, waarbij ze een onbegrensde stroom van multimodale observaties ontvangen. Uit deze combinatorische explosie van informatie moet een agent selectief inhoud vasthouden die relevant is voor zijn rol in de omgeving en waardevol voor toekomstige taken. Om deze kloof te overbruggen, framen we geheugengeneratie als een leerbaar memorisatiebeleid en introduceren we TaskMem (Task-focused Memorization Policy Learning), een op versterkend leren gebaseerd raamwerk waarmee het beleid zijn focus dynamisch kan aanpassen aan de eisen van echte taken die in de omgeving voorkomen. TaskMem hanteert een tweefasige trainingsparadigma: Fase Een leert hoe te memoriseren door geheugenkwaliteit te optimaliseren onder fundamentele getrouwheidseisen; Fase Twee vindt plaats na implementatie, waarbij de agent leert wat te memoriseren door een adapter af te stemmen op zijn basismodel van de MLLM, waarbij recente omgevingstaken worden gebruikt om een beloningsmodel te definiëren dat het memorisatiebeleid naar taakrelevante inhoud stuurt. Om onze aanpak te evalueren, herformuleren we VideoMME, EgoLife en EgoTempo tot streambenchmarks die een realistische setting simuleren waarin een agent streamobservaties verwerkt en taken die online arriveren afhandelt. Om geheugenbeoordeling te isoleren, moeten de vragen worden beantwoord met alleen het geheugen van de agent, zonder toegang tot rauwe video. Gebouwd op Qwen3-VL-30B-A3B, verbetert TaskMem de VQA-nauwkeurigheid met respectievelijk 6,3%, 7,0% en 5,3% op deze benchmarks.
Real-time en accurate ruimtelijke audiogeneratie is cruciaal voor het leveren van een meeslepende ervaring. Bestaande technologieën voor ruimtelijke audiosynthese worden echter vaak gehinderd door een afweging tussen generatiekwaliteit en hoge inferentievertraging, evenals moeite met het vastleggen van precieze ruimtelijke informatie uit multimodale inputs. Om deze uitdagingen aan te pakken, introduceren wij SwanSphere, een uniform streamingframework voor hoogwaardige ruimtelijke audiogeneratie uit panoramavideo's en tekstprompts. SwanSphere levert voornamelijk de volgende bijdragen: 1) Wij introduceren een causale autoregressieve diffusietransformatorarchitectuur die streaming van hoogwaardige ruimtelijke audiogeneratie mogelijk maakt. 2) Wij ontwerpen een ruimtelijke video-audio contrastieve (SVAC) leerstrategie om de video-encoder af te stemmen op het akoestische domein, en passen verder een multi-objectieve online directe preferentieoptimalisatie (ODPO)-schema toe, wat resulteert in sterke ruimtelijke perceptie en robuuste multimodale ruimtelijke audiosynthese. 3) Om het huidige tekort aan datasets voor ruimtelijke audio te verlichten, ontwikkelen wij ook een geautomatiseerde annotatiepijplijn voor het genereren van gedetailleerde ruimtelijke bijschriften. Experimentele resultaten tonen aan dat SwanSphere superieure prestaties levert in zowel video-naar-ruimtelijke als tekst-naar-ruimtelijke audiogeneratietaken. Demo's zijn te vinden op: https://swanaigc.github.io.
Diffusie Grote Taalmodellen (dLLMs) zijn recentelijk naar voren gekomen als een veelbelovend alternatief voor autoregressieve modellen, met concurrerende prestaties terwijl ze van nature parallel decoderen ondersteunen. Naarmate dLLMs echter steeds vaker worden geïntegreerd met Mixture-of-Experts (MoE)-architecturen om de modelcapaciteit op te schalen, ontstaat er een fundamentele mismatch tussen blokparallel decoderen en expertselectie op token-niveau. Specifiek verwerkt elke dLLM-forward-pass meerdere tokens met bidirectionele afhankelijkheden, terwijl conventionele MoE-lagen elk token onafhankelijk routeren. Deze mismatch vergroot het aantal uniek geactiveerde experts aanzienlijk, waardoor inferentie steeds meer geheugengebonden wordt. Om dit aan te pakken stellen we dMoE voor, een eenvoudig maar effectief raamwerk voor MoE op blokniveau. Het centrale idee van dMoE is om de expertverdelingen op token-niveau binnen elk blok samen te voegen tot een uniforme expertverdeling op blokniveau, die vervolgens wordt gebruikt om expertroutering op een meer samenhangende manier te sturen. Op deze manier vermindert dMoE het aantal uniek geactiveerde experts tijdens inferentie aanzienlijk zonder prestatieverlies, waardoor de geheugengebonden bottleneck wordt verminderd. Uitgebreide experimenten op verschillende benchmarks tonen de effectiviteit van dMoE aan. Gemiddeld vermindert dMoE het aantal uniek geactiveerde experts van 69,5 naar 14,6, terwijl 99,11% van de oorspronkelijke prestaties behouden blijft. Tegelijkertijd vermindert het geheugengebruik met 76,64% tot 79,84% en wordt een eind-tot-eind latentiewinst van 1,14x tot 1,66x behaald. Code is beschikbaar op: https://github.com/fscdc/dMoE
Recente ontwikkelingen in spraakgeneratie hebben synthese met hoge getrouwheid mogelijk gemaakt, maar systematische evaluatie van modellen onder lange-contextcondities blijft grotendeels onderbelicht. Een uitgebreide evaluatiebenchmark voor lange spraak is onmisbaar om twee redenen: 1) bestaande testscenario's zijn vaak beperkt tot enkele domeinen, wat een aanzienlijke kloof creëert met de diverse downstream-toepassingen; 2) bestaande metrieken negeren cruciale lange-tekstfactoren zoals consistentie en coherentie, waardoor ze niet betrouwbaar kunnen generaliseren. Daartoe stellen we SwanBench-Speech voor, een uitgebreide benchmark die de kwaliteit van lange spraak opsplitst in specifieke, ontwarde dimensies. SwanBench-Speech heeft drie belangrijke eigenschappen. 1) Rijke spraakscenario's: Gericht op het genereren van lange spraak en dialooggeneratie, dekt SwanBench-Speech uitdagingen op het gebied van akoestiek, semantiek en expressiviteit, en bestaat uit 1.101 samples verspreid over 17 veelvoorkomende spraakscenario's; 2) Uitgebreide evaluatiedimensies: Langs de assen van akoestiek, semantiek en expressiviteit definieert SwanBench-Speech een geautomatiseerd evaluatieprotocol met zeven metrieken om een uitgebreide, accurate en gestandaardiseerde beoordeling te bieden; 3) Waardevolle inzichten: Door uitgebreide experimenten laten we zien dat huidige modellen nog steeds moeite hebben met zeer expressieve scenario's en een opmerkelijke kloof vertonen in consistentie en hiërarchie vergeleken met echte opnames.
Zelfspel kan taalmodellen trainen zonder externe supervisie. Bestaande methoden vereisen echter antwoorden die aan regels getoetst kunnen worden, waardoor open-eindtaken afhankelijk blijven van samengestelde prompts of beoordelaars op basis van grensmodellen. We introduceren SCOPE, een data-vrij zelfspelkader voor open-eindtaken dat twee beleidslijnen co-evolueert: een Uitdager die documentgebaseerde taken genereert, en een Oplosser die ze beantwoordt door middel van meerstapsretrieval. Een bevroren kopie van het oorspronkelijke model fungeert als zelfbeoordelaar, die taakspecifieke beoordelingscriteria (rubrics) uit het brondocument schrijft en antwoorden van de Oplosser aan de hand daarvan beoordeelt. Bij drie instructie-getunede modellen van 7-8B (Qwen2.5, Qwen3, OLMo-3) verbetert SCOPE de prestaties op open-eindtaken met tot +10,4 punten op acht benchmarks en evenaart of overtreft het GRPO_data dat is getraind op ~9K samengestelde prompts. Hoewel alleen getraind op open-eindtaken, verbetert SCOPE ook apart gehouden kort antwoord QA met tot +13,8 punten op zeven apart gehouden benchmarks, waarbij het GRPO_data op alle drie de modellen overtreft. Ablatiestudies tonen aan dat co-evolutie van de Uitdager noodzakelijk is om taken dicht bij de grens van de Oplosser te houden, dat winsten voortkomen uit verbeteringen in zowel retrieval als synthese, waarbij de relatieve bijdrage varieert per taak, en dat de kwaliteit van rubricgeneratie de bottleneck is voor zelfbeoordeling.
Visie-Taalmodellen (VTM's) maken het mogelijk om met één uniform model verschillende visietaken op te lossen via prompting. Ze laten veelbelovende prestaties zien op het gebied van semantisch begrip. Echter, 3D-begrip is nog grotendeels afhankelijk van gespecialiseerde visiemodellen met complexe taakspecifieke ontwerpen. Het kernargument dat dit werk wil maken, is dat VTM's van nature 3D-leerders zijn. Ons diepgaande grootschalige onderzoek toont aan dat 1) uniformering van de brandpuntsafstand, 2) tekstgebaseerde pixelreferentie en 3) datamenging en -schaling alles zijn wat nodig is voor effectief 3D-leren. Veranderingen in modelarchitectuur, grote modellen, zware data-augmentaties en complexe verliesfuncties inclusief de regressieformulering – waarvan vele de basis vormen van gespecialiseerde visiemodellen – zijn feitelijk geen noodzakelijke voorwaarden. Als gevolg hiervan stellen we VLM3 voor, een schaalbare methode met het eenvoudigste ontwerp die standaard VTM's in staat stelt diverse 3D-taken te beheersen. VLM3 verbetert niet alleen de diepteschattingsnauwkeurigheid van VTM's aanzienlijk (0,84 -> 0,9), maar maakt ook diverse 3D-taken mogelijk zoals pixelcorrespondentie, cameraschatteringsschatting en objectgebaseerd 3D-begrip, waarbij de nauwkeurigheid van gespecialiseerde visiemodellen wordt geëvenaard terwijl de standaardarchitecturen en tekstgebaseerde training behouden blijven. Wij geloven dat VLM3 een nieuw paradigma opent voor eenvoudig en schaalbaar 3D-leren.
On-beleidsdistillatie (OPD, van het Engelse 'on-policy distillation') traint een student op diens eigen roll-outs met supervisie van een leraar op tokenniveau. Recente selectieve OPD-methoden maken gebruik van de niet-uniformiteit van OPD-signalen door prioriteit te geven aan tokens met hoge entropie of hoge discrepantie. Wij heroverwegen dit principe en vragen: welke lerarensignalen op tokenniveau zijn daadwerkelijk leerbaar? Met behulp van een diagnostiek met vaste context die de KL-reductie tussen leraar en student binnen dezelfde context meet, tonen wij aan dat ruwe KL-discrepantie een grove benadering is van de leerwaarde. Het verwart leerbare discrepantie, waarbij de leraar corrigerende massa toekent aan de top-k-kandidaten van de student, met incompatibele discrepantie, waarbij de leraar massa voornamelijk buiten de huidige drager van de student plaatst. Wij formaliseren deze lokale compatibiliteit als token-leerbaarheid en laten zien dat deze de verbetering in vaste context beter voorspelt dan ruwe KL alleen. Gemotiveerd door deze bevinding stellen wij Leerbaarheidsbewuste OPD (TA-OPD, van het Engelse 'Teachability-Aware OPD') voor, een lichtgewicht tokenpositie-selectiemethode die OPD-verlies toepast op posities met hoge leerbaarheid, zonder beloningsmodellen of verificateurs. In Qwen2.5- en Qwen 3-leraar-studentomgevingen presteert TA-OPD vaak beter dan volledige-token OPD met slechts 5% behouden tokens en verbetert het de resultaten ten opzichte van op entropie en divergentie gebaseerde basislijnen. Onze resultaten herformuleren selectieve OPD als het selecteren van leerbare lerarensignalen in plaats van louter opvallende tokens.
Agentische zoekopdrachten stellen LLM's in staat om complexe multi-hop vragen op te lossen door middel van iteratief redeneren en extern zoeken. Ondanks de effectiviteit lijden deze systemen in de praktijk vaak aan een cruciale beperking: agenten slagen er niet in om hun eigen kennisgrenzen te herkennen, waardoor ze blindelings zoekopdrachten starten wanneer interne kennis voldoende is en niet stoppen met zoeken zelfs wanneer er voldoende bewijs is verzameld. Het gebrek aan zelfbewustzijn leidt tot ernstig overmatig zoeken, wat resulteert in aanzienlijke inferentielatentie en onbetaalbare rekenkosten. Daartoe stellen we SAAS voor, een nieuw RL-raamwerk dat is ontworpen om dynamisch zelfbewustzijn te cultiveren dat het zoekgedrag nauwkeurig reguleert zonder de nauwkeurigheid in gevaar te brengen. SAAS introduceert drie belangrijke componenten: (i) een mechanisme voor het modelleren van zoekgrenzen, dat de zoekgrens identificeert onder het evoluerende beleid door het contrasteren van zoek-uitgeschakelde en zoek-ingeschakelde rollouts; (ii) een grensbewuste beloningsmodule, die dit grensbewustzijn vertaalt naar straffen op trajectniveau, waardoor onnodige en overbodige zoekopdrachten worden onderdrukt; en (iii) een fasegewijze optimalisatiestrategie, die een sequentieel curriculum gebruikt om redeneren te prioriteren boven zoekregularisatie, waardoor reward hacking wordt vermeden. Uitgebreide experimenten tonen aan dat SAAS overmatig zoeken aanzienlijk vermindert, terwijl de nauwkeurigheid behouden blijft. Onze code is anoniem uitgebracht op https://github.com/XMUDeepLIT/SAAS.
Large Language Models (LLM's) hebben sterke prestaties getoond op algemene taken, maar hebben vaak moeite zich aan te passen aan gespecialiseerde domeinen zonder hoogwaardige domeinspecifieke gegevens. Bestaande op LLM's gebaseerde datacuratiemethoden vertrouwen voornamelijk op door mensen ontworpen workflows, waardoor ononderzocht blijft of LLM's autonoom een end-to-end data-engineeringpijplijn voor modelspecialisatie kunnen uitvoeren. We formaliseren Autonomous Agentic Data Engineering, een nieuwe taak die is ontworpen om LLM's te evalueren als autonome data-ingenieurs die modelspecialisatie aansturen via end-to-end datacuratie. We beschouwen data als een optimaliseerbare component en bestuderen agenten die trainingsgegevens plannen, genereren en iteratief optimaliseren over meerdere domeinen, geleid door prestatieverbetering na training. Experimenten tonen aan dat autonome LLM-data-ingenieurs aanzienlijke winst opleveren, aangezien GPT-5.2 een trainingscurriculum construeert dat een studentmodel met 57,29% verbetert, geheel door iteratieve, agent-gestuurde data-adaptatie. Door zowel potentieel als knelpunten te belichten, vestigt onze studie autonome data-engineering als een meetbare capaciteit en schetst een pad naar agent-gestuurde modelspecialisatie. Code wordt vrijgegeven op https://github.com/zjunlp/DataAgent.
Data-analyse in de echte wereld is inherent iteratief, maar bestaande benchmarks evalueren meestal geïsoleerde of korte interactieve taken, waardoor het vermogen van agenten om een evoluerende analytische context over lange tijdshorizonten te volgen ongetest blijft. Wij introduceren LongDS, een benchmark voor meerstaps data-analyse over lange tijdshorizonten, waarbij agenten evoluerende analytische toestanden moeten onderhouden, bijwerken, herstellen en combineren. LongDS omvat 68 taken samengesteld uit echte Kaggle-notebooks, met 2.225 beurten verdeeld over zes domeinen, waaronder Geowetenschappen, Bedrijfsleven en Onderwijs. De taken zijn ontworpen rond patronen van toestandsevolutie (bijv. contrafeitelijke perturbatie, terugdraaien en compositie van meerdere toestanden), met een gemiddelde afhankelijkheidsspanne van 11,3 beurten. Bij het evalueren van vijf state-of-the-art modellen blijkt dat het beste model slechts een gemiddelde nauwkeurigheid van 48,45% haalt, de prestatie bijna 47 punten daalt van vroege naar late beurten, en fouten over lange tijdshorizonten verantwoordelijk zijn voor 52% tot 69% van de mislukkingen. Verdere analyse toont aan dat extra agentstappen niet noodzakelijkerwijs de prestaties verbeteren, wat suggereert dat het belangrijkste knelpunt het handhaven van een correcte analytische toestand is in plaats van het verhogen van het interactiebudget. We brengen LongDS uit om onderzoek naar betrouwbare geautomatiseerde data-analyse over lange tijdshorizonten te ondersteunen. Code en data worden vrijgegeven op https://github.com/zjunlp/DataMind.
LLM-agenten worden steeds vaker ingezet als systemen die zijn opgebouwd rond bewerkbare externe harnassen, waaronder prompts, vaardigheden, geheugens en tools, die de taakuitvoering vormgeven zonder modelparameters te wijzigen. Harnas-zelftransformatie past dergelijke agenten aan door deze harnassen bij te werken op basis van uitvoeringsbewijzen. Het blijft echter onduidelijk of de basiscapaciteit van een model in het oplossen van taken voorspelt of het in staat is tot harnas-zelftransformatie: welke modellen produceren nuttige harnas-updates en welke profiteren er daadwerkelijk van? We analyseren twee harnas-zelftransformatiecapaciteiten: (i) harnas-updaten, het vermogen om nuttige persistente harnas-updates te produceren op basis van uitvoeringsbewijzen; (ii) harnas-baat, het vermogen om te profiteren van bijgewerkte harnassen tijdens het oplossen van taken. Onze analyse onthult twee bevindingen. Ten eerste is harnas-updaten vlak in basiscapaciteit: modellen uit verschillende capaciteitslagen produceren harnas-updates die leiden tot verrassend vergelijkbare winsten; zelfs de updates van Qwen3.5-9B leveren winsten op die vergelijkbaar zijn met die van Claude Opus~4.6. Ten tweede is harnas-baat niet-monotoon in basiscapaciteit: modellen uit de zwakke laag hebben weinig baat bij bijgewerkte harnassen, modellen uit de middenlaag hebben het meeste baat, en modellen uit de sterke laag hebben minder baat dan de middenlaag. We herleiden lage winsten in de zwakke laag tot twee faalwijzen: modellen uit de zwakke laag kunnen er niet in slagen relevante harnasartefacten te activeren, of ze activeren ze maar volgen ze niet getrouw. Deze bevindingen suggereren om het capaciteitsbudget te investeren in de taakoplossende agent in plaats van in de evolueerder, en om te richten op harnasaanroeping en het volgen van instructies met lange horizon in agenttraining. Onze broncode is openbaar beschikbaar op https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.
Hoewel GUI-agenten snel vooruitgang hebben geboekt, ontbreekt het hen vaak aan de robuustheid om te herstellen van hun eigen fouten, wat de implementatie in de praktijk belemmert. Om deze kloof te overbruggen op zowel het evaluatie- als het dataniveau, introduceren we GUI-RobustEval en stellen we Robustness-driven Trajectory Synthesis voor. GUI-RobustEval bevat 1.216 uitvoerbare testgevallen die systematisch de mogelijkheden tot foutherstel meten over een breed en realistisch spectrum van foutmodi. Op dataniveau is RoTS een schaalbaar syntheseraamwerk dat 800k hoogwaardige gegevens creëert via een op bomen gebaseerde pijplijn die proactief diverse foutmodi ontdekt en bijbehorende herstelstappen synthetiseert. Onze twee modellen, RoTS-7B en RoTS-32B, fijngestemd op onze dataset, tonen beide aanzienlijke verbeteringen op GUI-RobustEval en traditionele GUI-benchmarks. Opmerkelijk is dat RoTS-32B state-of-the-art prestaties levert op OSWorld, met een slagingspercentage van 47,4% en een All-Pass@4-score van 33,8%, wat suggereert dat een verbeterd vermogen tot foutherstel over lange horizon bijdraagt aan zowel robuustheid als algehele prestaties. Onze code is beschikbaar op https://github.com/AlibabaResearch/RoTS.
Videotaalmodellen kunnen slechts een beperkt aantal frames verwerken, waardoor frameselectie een belangrijke bottleneck vormt voor efficiënte videobijschrijving. De meeste bijschrijvingspijplijnen vertrouwen nog steeds op uniforme sampling, die rekenkundig goedkoop is maar niet afhankelijk van visuele inhoud. Adaptieve frameselectie is recentelijk naar voren gekomen als een veelbelovende benadering om de meest informatieve frames uit een video te selecteren; bestaande methoden blijven echter rekenkundig duur. Wij introduceren PEEK, een efficiënte dynamische frameselectiemethode die aan bijschriften gerelateerde framerelevantieranglijsten destilleert van een sterker leraarmodel naar een lichtgewicht temporeel model dat alleen op visuele inhoud werkt. We constateren dat onze methode in het algemeen, op ActivityNet Captions en MSR-VTT, beter presteert dan state-of-the-art methoden in alle geëvalueerde downstream visie-taalmethoden, vooral wanneer slechts één of twee frames worden geselecteerd voor bijschrijving, waarbij de beste CIDEr wordt behaald voor de meeste framebudgetten. Op ActivityNet Captions is PEEK bijzonder sterk, met winst in 14 van de 16 configuraties. Zero-shot evaluatie op MSR-VTT toont aan dat ons model het beste presteert bij lage framebudgetten, terwijl de resultaten bij vier en acht frames gemengder zijn naarmate temporele dekking en visuele diversiteit steeds competitiever worden. Vergeleken met recente adaptieve baselines is PEEK zowel nauwkeuriger in het lagebudgetregime als efficiënter: het voegt slechts 5,2% toe aan de bijschrijvingstijd, vergeleken met 65,4% voor CSTA en 211,9% voor MaxInfo. We geven onze code en voorgetrainde checkpoint vrij op https://github.com/momentslab/peek.
Hoewel aandachtsmechanismen met lineaire complexiteit een veelbelovend alternatief bieden voor Softmax-aandacht om de kwadratische bottleneck te overwinnen, blijft het trainen van dergelijke modellen vanaf nul prohibitief duur. Het overnemen van gewichten van voorgetrainde Transformers biedt een aantrekkelijke shortcut, maar de fundamentele representatiekloof tussen Softmax- en lineaire aandacht verhindert effectieve gewichtsoverdracht. In dit werk benaderen we deze conversie-uitdaging vanuit twee perspectieven: architecturale afstemming en representatie-afstemming. We identificeren Test-Time Training (TTT) als een architectuur met lineaire complexiteit waarvan de tweelaagse dynamische formulering structureel is afgestemd op Softmax-aandacht, waardoor directe overerving van voorgetrainde aandachtsgewichten mogelijk is. Om de representatie-eigenschappen verder af te stemmen, waaronder sleutelverschuivingsinvariantie en localiteit, introduceren we sleutelinstantienormalisatie en een lichtgewicht localiteitsverbeteringsmodule. We valideren onze aanpak door Stable Diffusion 3.5 te lineariseren en introduceren SD3.5-T^5 (Transformer To Test Time Training). Met slechts 1 uur fijnafstemming op 4×H20 GPU's bereikt SD3.5-T^5 een vergelijkbare text-naar-beeld kwaliteit als het fijngetunede Softmax-model, terwijl de inferentie wordt versneld met een factor 1,32× en 1,47× bij resoluties van 1K en 2K. Code is beschikbaar op https://github.com/LeapLabTHU/Transformer-to-TTT.
LLM-agenten evolueren van conversationele chatbots naar operationele tools in echte werkruimtes. In lokale agentische harnesses kan een LLM bestanden lezen en schrijven, tools aanroepen en de werkruimtestatus over sessies heen hergebruiken. Hoewel dergelijke mogelijkheden de bruikbaarheid vergroten, stellen ze ook een nieuw aanvalsoppervlak bloot voor aanvallers. Aanvallers kunnen een promptinjectie verbergen in een bestand of tooloutput. Agenten kunnen deze verborgen instructie lezen, opslaan en later uitvoeren. In dit meerstapstrojan-aanvalparadigma lijkt geen enkele individuele stap op zichzelf kwaadaardig, maar deze stappen kunnen gezamenlijk onvertrouwde tekst omzetten in persistente controle-inhoud. Echter, bestaande verdedigingen inspecteren vaak elke stap geïsoleerd. Als gevolg hiervan kunnen ze een duidelijke schadelijke actie blokkeren, maar slagen ze er niet in om de eerdere schrijfbewerking die de achterdeur plaatst, te detecteren. Om deze dreiging te onthullen, introduceren we ClawTrojan, een benchmark ontworpen om meerstapstrojan-aanvallen in lokale agentische harnesses te identificeren. In een OpenClaw-achtige gesimuleerde werkruimte met GPT-5.4 behaalt ClawTrojan een aanvalsuccespercentage (ASR) van 95,5%, terwijl bestaande enkelvoudige promptinjectie-aanvallen een bijna-nul ASR opleveren op hetzelfde model. Om deze dreiging aan te pakken, stellen we DASGuard voor, dat controle-achtige tekst in gevoelige lokale bestanden scant, de oorsprong ervan traceert en controle-inhoud verwijdert die niet afkomstig is van een vertrouwde bron. Onze resultaten tonen aan dat DASGuard een sterke dynamische verdediging bereikt door runtime-aanvalsblokkering te combineren met gesaneerde commits naar de werkruimte.
Videouitpainting genereert aannemelijke visuele inhoud buiten de oorspronkelijke ruimtelijke omvang van een video, en speelt een sleutelrol bij het aanpassen van video's aan diverse weergaveformaten. Om dergelijke gebruiksscenario's te ondersteunen, moet het grote ruimtelijke extrapolatie over lange sequenties mogelijk maken. De meeste bestaande methoden pakken echter slechts een van deze uitdagingen aan of missen expliciete mechanismen voor het waarborgen van globale spatio-temporele consistentie, wat leidt tot opvallende beperkingen. In dit artikel stellen we HL-OutPaint voor, een hogeresolutie videouitpainting-framework voor lange sequenties. Onze aanpak volgt een grof-naar-fijn strategie met een tweetrapspijplijn. We construeren eerst Global Coarse Guidance (GCG), een laagresolutie-representatie die globale structuur en dominante beweging over de video vastlegt. In tegenstelling tot naïef downsampling wordt GCG opgebouwd via een nieuw globaal-lokaal frame-wisselmechanisme dat schaarse globale sleutelframes koppelt aan lokale temporele vensters en informatie uitwisselt tijdens sampling. Dit stelt GCG in staat om zowel langetermijn structurele consistentie als kortetermijn temporele dynamiek in een uniforme representatie te coderen. Geleid door deze representatie voert HL-OutPaint vervolgens hogeresolutie outpainting uit om ruimtelijk gedetailleerde en temporeel consistente inhoud te genereren. Door modellering van globale structuur te scheiden van fijnmazige synthese, bereikt ons framework stabiele, coherente generatie voor grote ruimtelijke uitbreiding en lange videosequenties. Uitgebreide experimenten tonen aan dat HL-OutPaint bestaande methoden overtreft in uitdagende scenario's die brede ruimtelijke extrapolatie en lange videosequenties omvatten.
Ruimtelijk redeneren is een fundamentele vaardigheid voor visie-taalmodellen (VLMs) die worden ingezet in reële omgevingen. Visuele waarnemingen zijn echter inherent beperkte representaties van een 3D-wereld: occlusie kan objecten onzichtbaar maken en perspectief kan geometrische eigenschappen misleidend doen lijken. Desondanks gaan bestaande benchmarks voor ruimtelijk redeneren er doorgaans van uit dat waarnemingen voldoende en betrouwbaar zijn, en richten ze zich op de vraag of modellen correcte antwoorden produceren, in plaats van of ze herkennen wanneer een vraag niet beantwoord kan worden en welke extra waarnemingen nodig zouden zijn. In dit werk dagen we deze aanname uit door een gecontroleerd evaluatiekader, SpatialUncertain, op te stellen en twee soorten waarnemingsuitdagingen te introduceren: (1) occlusie, die doelinformatie verbergt, en (2) perspectiefambiguïteit, die misleidende visuele aanwijzingen produceert. Voor elke configuratie ontwerpen we ruimtelijke vragen die beantwoordbaar zijn onder heldere waarnemingen, maar die onthouding vereisen onder de geïntroduceerde uitdagingen. Verder evalueren we of modellen kunnen identificeren welke extra gezichtspunten perspectiefambiguïteit zouden oplossen. Onze resultaten over een diverse reeks grensverleggende open- en closed-source VLMs laten twee consistente faalwijzen zien. Ten eerste hebben modellen de neiging overmoedig te antwoorden: ze proberen ruimtelijke redeneertaken op te lossen, zelfs wanneer visueel bewijs onvolledig of misleidend is, met een gemiddelde nauwkeurigheid rond de 30% bij occlusie en onder de 10% bij perspectiefambiguïteit. Ten tweede presteren sommige modellen, zelfs wanneer extra gezichtspunten beschikbaar zijn, rond het niveau van kans bij het identificeren welke daarvan betrouwbaar bewijs zouden leveren. Samen roepen onze bevindingen op om verder te kijken dan antwoordcorrectheid en te evalueren of modellen weten wanneer ze zich moeten onthouden en hoe ze betrouwbaar bewijs kunnen zoeken.
Het monitoren van autonome taalmodellen-agenten is momenteel voornamelijk gebaseerd op oppervlakkig gedrag. Maar wat gebeurt er wanneer agentpopulaties nieuwe talen uitvinden met als doel menselijk toezicht te omzeilen? In deze studie onderzoeken we de opkomende talen op Moltbook. Hiervoor bouwen we voort op de Moltbook Files-dataset en passen we een tweefasenbenadering toe, bestaande uit een regelgebaseerde heuristiek (ongeveer 6000 matches) gevolgd door zero-shot classificatie (518 behouden). De resulterende categorieën omvatten tokenefficiëntie (166), nieuwe natuurlijke talen (106) en ontwijking van toezicht (59). We voeren zowel kwantitatieve als kwalitatieve analyses uit. Onze resultaten tonen aan dat berichten die nieuwe talen voorstellen om toezicht te omzeilen, door DeepSeek-3.2 als minder gealigneerd worden beoordeeld dan de andere categorieën, en dat alle talen door andere taalmodellen in-context kunnen worden geleerd, louter op basis van een beschrijving van de taal. Bovendien onthult handmatige bestudering van voorbeeldgevallen verrassend geavanceerde steganografische protocollen, zoals het inbedden van verborgen boodschappen in natuurlijke taal. Hoewel we niet zeker kunnen zijn van de mate van autonomie in het bedenken van deze talen, dragen onze resultaten bij aan het bewijs dat het monitoren van oppervlakkig gedrag binnenkort onvoldoende kan zijn om de controle over agentpopulaties te behouden.
Recente vooruitgang in videogeneratieve modellen heeft geleid tot snelle vooruitgang in controleerbare wereldmodellen. Het handhaven van fijnkorrelige spatiotemporele consistentie onder langetermijnredenering blijft echter een belangrijke uitdaging. In dit werk gaan we verder dan expliciet 3D-geheugen en grove, op frameniveau gebaseerde impliciete modellering, en stellen we een fijnkorrelig, leerbaar en schaalbaar geheugen voor voor consistente wereldgeneratie. We identificeren eerst twee fundamentele beperkingen van naïeve leerbare geheugenarchitecturen in langetermijnextrapolatie, namelijk computationele inefficiëntie en aandachtsdispersie. Door een systematische analyse van aandachtsdispersie stellen we DecMem voor, een ontkoppelde geheugenarchitectuur die Sparse Global Memory gebruikt voor efficiënte fijnkorrelige toegang tot globale geschiedenis en Anchored Local Memory voor stabiele en hoogwaardige extrapolatie. Uitgebreide experimenten tonen aan dat DecMem aanzienlijk beter presteert dan de huidige state-of-the-art methoden. Door te zorgen voor precies en efficiënt geheugen op lange termijn en superieure extrapolatiecapaciteiten te bereiken, maakt DecMem minuutniveau controleerbare lange videogeneratie mogelijk met hoge getrouwheid en consistentie.
We presenteren DEMON, een real-time diffusie-engine die het ontruisingsproces bespeelbaar maakt als een live muziekinstrument: een bedieningsoppervlak dat zowel breed (veel parameters die per frame over de output worden gevormd) als responsief is (elke bediening wordt zo snel doorgevoerd als de positie in de ontruisingslus toestaat). Gebouwd op ACE-Step 1.5 en de ringbufferarchitectuur van StreamDiffusion met TensorRT-versnelling, behaalt het tot 12,3 decoder-voltooiingen per seconde voor 60 seconden muziek op een enkele consumenten-GPU (RTX 5090), of 11,3 generaties per seconde bij onze productie-ringdiepte van 4. Bij deze snelheden worden ontruisingsparameters bruikbaar als live-uitvoeringsregelaars, maar de ringbuffer verspreidt wijzigingen per verzoek alleen met de afvoersnelheid, een ondergrens van S ontruisingsstappen. Wij leveren vier mechanismen. (1) Per-slot heterogene ontruisingsplanning: elk ringbufferslot heeft zijn eigen tijdstappenschema, zodat een bewegende ontruisingsschuif wordt gevolgd zonder de wachtrij in vlucht te wissen, terwijl het stroomopwaartse globale-schema-ontwerp deze moet herbouwen en weggooien. (2) Gedeelde veranderlijke toestand per stap, die ervoor zorgt dat elke parameter die bij elke oplossingsstap wordt geraadpleegd, een volgende-tick-effect heeft, waarbij de ringbufferafvoer wordt omzeild. (3) Per-frame bronmenging: een bemonsteringstijdstipregeling op de standaard SDE-herruisstap, die een framewijze transformatiesterkte-as biedt als aanvulling op scalaire ontruisingsplanning. (4) Venster-VAE-decodering die gebruikmaakt van receptieve-veldanalyse voor een 8,0x decodeersnelheidsverbetering. Samen splitsen deze streaming-diffusieparameters in vier propagatieklassen, naar begin- en convergentielatentie.
Objecttelling blijft gefragmenteerd over domeinspecifieke datasets en taakformuleringen, ondanks de snelle vooruitgang in generalistische visiemodellen. Bestaande telmodellen zijn vaak toegespitst op scenario's zoals menigten, voertuigen, cellen, gewassen of objecten uit de aardobservatie, en hebben daardoor moeite om te generaliseren over categorieën, visuele domeinen, objectschalen en dichtheidsverdelingen. In dit artikel bestuderen we tekstgestuurde objecttelling over domeinen heen, waarbij een model een afbeelding en een natuurlijke-taalquery als invoer neemt en een op exemplaren gebaseerde set van doelpunten retourneert waarvan de kardinaliteit de telling geeft. Deze formulering verenigt categoriegestuurde telling met interpreteerbare ruimtelijke lokalisatie. Om deze setting te ondersteunen, hebben we CLOC geconstrueerd, een Cross-domain Large-scale Object Counting dataset die diverse openbare databronnen herorganiseert in een uniforme benchmark. CLOC bestrijkt zes visuele domeinen: Algemene Scene, Aardobservatie, Histopathologie, Cellulaire Microscopie, Landbouw en Microbiologie, met ongeveer 220K afbeeldingen, 619 categorieën en 15M objectexemplaren. Op basis van CLOC stellen we Count Anything voor, een generalistisch model voor tekstgestuurde objecttelling. In tegenstelling tot op dichtheidskaarten gebaseerde methoden, die de telmodellen domineren, hanteert Count Anything discrete instantiepunten en voert het een tweevoudige granulariteitsinstantieënmerking uit. Een Regionaal-niveau Schaarse Teller levert objectniveau-ankers voor grote en schaarse doelen, terwijl een Pixel-niveau Dichte Teller kleine, drukke en zwak begrensde doelen afhandelt via dichte puntenvoorspelling. Een puntgerichte supervisiestrategie maakt leren van heterogene annotaties mogelijk, en Complementaire Tellingsfusie combineert beide tellers op een parameter-vrije manier. Uitgebreide experimenten tonen aan dat Count Anything een hoge nauwkeurigheid en meerdomeingeneralisatie bereikt, en bestaande open-wereld telmethoden overtreft. Code is beschikbaar op: https://github.com/Mengqi-Lei/count-anything.
Video visie-taalmodellen (VLMs) worden steeds vaker gebruikt in langdurige en streaming contexten, maar de meeste video-encoders zijn nog steeds afhankelijk van spatiotemporele zelfaandacht, waardoor rekenkracht en latentie kwadratisch toenemen met het aantal frames. Bestaande efficiëntiemethoden verbeteren de schaalbaarheid, maar verliezen vaak nauwkeurigheid ten opzichte van volledige zelfaandacht, bijvoorbeeld door agressieve frame/token-verwijdering of grove aandachtsbenaderingen. We introduceren StateKV, een inferentietijdmethode die voorgetrainde lange-video VLMs aanpast aan lineaire-tijd videovoorvulling door context tussen frames over te dragen in een vaste-capaciteit, op belangrijkheid gebaseerde recurrente toestand, gekoppeld aan een tweede volledige per-frame cache die wordt gebruikt voor decodering. Op drie lange-video benchmarks en zeven modellen uit drie families en meerdere schalen blijft StateKV dicht bij volledige zelfaandacht en presteert het consistent beter dan dominante schuifvenster/op recency gebaseerde streamingbenaderingen, zonder fine-tuning of architectuurwijzigingen. StateKV vermindert ook de videovoorvullingskosten gemeten in FLOPs, waardoor een sterkere nauwkeurigheid mogelijk wordt bij een vast rekenbudget door grotere modellen in te zetten. Deze resultaten suggereren een praktische stap richting schaalbare lange-video begrip.
Het bouwen van sterke beloningsmodellen (RMs) voor de afstemming van taalmodellen wordt geflankeerd door de kosten en moeilijkheid van het verkrijgen van diverse en betrouwbare voorkeursgegevens uit menselijke annotatie of beoordelingsmodellen. Dit wordt dramatisch slechter naarmate het beleid evolueert voorbij de statische RM-training. Daarom stellen we SAVE voor (zelfgestuurde verbetering van beloningsmodellen via waardeverankerde on-policy feedback), een raamwerk dat on-policy reacties beoordeelt als feedback door de waardefunctie te gebruiken voor on-policy RM-training. SAVE zet de beloningsgegradeerde on-policy reacties op natuurlijke wijze om in supervisie met een promptspecifieke waardekop als adaptief anker. Het berekent RM-voordelen en filtert ambigue samples om de RM bij te werken via een contrastief doel. De effectiviteit van SAVE voor het verbeteren van RM-training wordt sterk gevalideerd door rigoureuze empirische evaluatie over zes diverse benchmarks. Het behaalt betere resultaten over alle datasets terwijl het consistente verbeteringen handhaaft over drie RL-algoritmen (GRPO, RLOO, GSPO) en verschillende beleidsbackbones.
Recente werkzaamheden zijn begonnen met het uitrusten van visie-taal-actie (VTA) beleidslijnen met expliciete tussentijdse redenering. In belichaamde besturing is tekstuele keten-van-gedachten echter een slechte match: irrelevante of zwak tekstuele informatie kan interfereren met actievoorspelling, terwijl autoregressieve tekstdecodering te veel latentie toevoegt voor real-time gesloten-lus uitvoering. Wij presenteren VISUALTHINK-VLA, een visueel tussentijds redeneerraamwerk voor nauwkeurige, lage-latentie VTA-beleidslijnen. Onze bootstrap-filosofie is om actie te sturen met effectief visueel denken: VISUALTHINK-VLA bootstrap de actievoorspelling via een compacte visueel-bewijsinterface die ruimtelijke precisie behoudt terwijl decodeeroverhead wordt vermeden. Daarnaast neemt VISUALTHINK-VLA, om prestaties en efficiëntie verder te verbeteren, een op maat gemaakt selectief routeringsmechanisme aan om de visuele bewijstokens te leren, waardoor inferentie met lage latentie mogelijk wordt terwijl specialisatie met hoge capaciteit behouden blijft. We introduceren ook VisualEvidence-Kit, een supervisie-en-auditbron rond een VisualEvidence-Agent die een 754.7k VTA-instructies VisualEvidence-Set construeert voor routesupervisie en contrafeitelijke betrouwbaarheidstests. Over meerdere benchmarks en echte robot-evaluatie behaalt VISUALTHINK-VLA het hoogste slagingspercentage op de meeste benchmarks, terwijl de meer-seconden latentie van redenering-verrijkte baselines wordt teruggebracht tot het sub-seconde bereik. Bijvoorbeeld, op BridgeData V2 vermindert het de stapsgewijze latentie van 8,377 s met ECoT naar 0,367 s, wat een 22,8 keer versnelling oplevert.
Visie-Taal-Actie (VLA)-modellen stellen robots in staat om natuurlijke taal instructies te volgen en te generaliseren over diverse taken, maar ze blijven kwetsbaar voor uitvoeringsfouten die de betrouwbaarheid in praktijktoepassingen in gevaar brengen. Het detecteren van dergelijke fouten tijdens de uitvoering is daarom cruciaal voor de robuuste inzet van belichaamde systemen. Bestaande foutdetectiemethoden vertrouwen ofwel op dure actie-hersampling of externe modellen, terwijl alternatieven labels op trajectniveau uniform over elke tijdstap verspreiden, waardoor gelokaliseerde foutsignalen worden verborgen. In dit artikel stellen we Hide-and-Seek voor, een raamwerk dat VLA-foutdetectie formuleert als een grof gesuperviseerd leerprobleem. Door inter-traject- en intra-traject-contrastieve doelen te combineren, lokaliseert Hide-and-Seek foutindicatieve acties en induceert het temporeel gestructureerde foutsignalen uitsluitend op basis van supervisie op trajectniveau, zonder enige annotatie op stapsniveau. We evalueren Hide-and-Seek op LIBERO, VLABench en een praktijkrobotplatform voor drie representatieve VLA-beleidsvormen: OpenVLA, π_0 en π_{0,5}. Onze methode behaalt state-of-the-art multi-taak foutdetectieprestaties met een praktische afweging tussen nauwkeurigheid en tijdigheid onder conforme voorspelling, en generaliseert goed naar zowel bekende als onbekende taken.
Dit artikel bestudeert de volgende grote bottleneck in agentische AI, namelijk systeemschaling, en niet alleen modelschaling: het ontwerp van controleerbare, persistente, modulaire en verifieerbare architecturen rond fundamentmodellen. We verwijzen naar deze verschuiving als het schalen van het harnas: het behandelen van de gestructureerde uitvoeringslaag rond een fundamentmodel als een eersteklas object van ontwerp, evaluatie en optimalisatie. Hoewel recente grote taalmodellen agenten in staat stellen om hulpmiddelen te gebruiken, informatie op te vragen, geheugen te onderhouden en langetermijnworkflows uit te voeren, blijft evaluatie grotendeels modelgericht, waarbij agenten vaak worden gereduceerd tot eindtaaksucces en geheugen, ophalen, toolgebruik, orkestratie, verificatie en governance als secundaire implementatiedetails worden behandeld. Dit frame is steeds ontoereikend omdat agentprestaties voortkomen uit de interactie tussen het fundamentmodel, het geheugensubstraat, de contextconstructor, de vaardighedenrouteringslaag, de orkestratielus en de verificatie-en-governancelaag. Samen vormen deze componenten het agentharnas, dat modelcapaciteit vertaalt in langetermijnagentgedrag. We bestuderen het schalen van het harnas via drie kernbottlenecks: contextgovernance, betrouwbaar geheugen en dynamische vaardighedenroutering, samen met de orkestratie- en governancemechanismen die deze coördineren en beperken. Verder schetsen we een onderzoeksagenda voor benchmarks op harnasniveau die verder gaan dan eenmalig taaksucces en die trajectkwaliteit, geheugenhygiëne, contextefficiëntie, communicatietrouw, verificatiekosten en veilige evolutie in de tijd meten. Om de discussie concreet te maken, ontwikkelen we CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, een native Python-referentieharnas, en vergelijken we het met Claude Code en OpenClaw. Onze hoofdclaim is dat toekomstige vooruitgang in agentische AI evenzeer zal afhangen van systeemontwerp als van sterkere fundamentmodellen.
Recente feedforward 3D-reconstructiemethoden voorspellen puntenkaarten en schatten de globale 3D-geometrie opmerkelijk goed. Hun voorspellingen vertonen echter nog steeds onnauwkeurige lokale oppervlaktegeometrie, wat kwalitatief duidelijk zichtbaar is, maar slechts zwak wordt weerspiegeld in gangbare metrieken. Om deze fouten explicieter te maken in de evaluatie, introduceren we een puntenkaart-normaalmetriek die de lokale oppervlakteoriëntatie evalueert, zoals geïnduceerd door naburige 3D-voorspellingen. Om deze fouten te verminderen, stellen we twee complementaire componenten voor: een puntgradiënt-matchingverlies dat toezicht houdt op dieptegenormaliseerde 3D-eindige verschillen, en een Buurt-Aandacht-Decoder (Neighborhood Attention Decoder, NAD) die progressief kenmerken opschaalt en Buurt-Aandacht gebruikt voor lokale kenmerkmenging. Over acht zero-shot monoculaire geometriebenchmarks heen behaalt ons model, SurGe, de beste gemiddelde rangschikking voor globale puntenkaart-AbsRel en verbetert het consequent de lokale puntenkaart- en puntenkaart-normaalevaluaties.
Celinstantiesegmentatiemodellen die zijn getraind op celspecifieke datasets, ondervinden ernstige prestatieverliezen bij celtypen die buiten de distributie vallen, terwijl interactieve funderingsmodellen dit probleem omzeilen door per-instantie prompting, tegen een kostprijs die ontoelaatbaar hoog is voor histopathologiebeelden met honderden tot duizenden dicht opeengepakte instanties. Wij introduceren Groep Prompting, een nieuw paradigma dat interactieve segmentatie verschuift van per-instantie O(N) naar per-type O(T), waarbij één enkele klik per celtype volstaat om alle instanties van dat type te segmenteren. Onze belangrijkste observatie is dat de bevroren beeldencoder van het Segment Anything Model (SAM) reeds cellen van hetzelfde type in zijn kenmerkenruimte clustert voordat er een prompt wordt gegeven. Door deze eigenschap te benutten, stellen wij Chain-of-Prompts (CoP) voor, een trainingsvrij raamwerk dat een enkele gebruikersklik recursief uitbreidt door (1) betrouwbare locaties van hetzelfde type te identificeren via niet-parametrische poortvorming van multischaal-encoderkenmerken, en (2) het ruimtelijk meest ver verwijderde betrouwbare punt te selecteren als de volgende prompt om de dekking te maximaliseren. Op drie benchmarks met celtype-annotaties behoudt CoP met één klik per type meer dan 90% van de per-instantie prestaties en overtreft het volledig begeleide methoden zonder enige extra training. Op vier morfologisch homogene benchmarks behoudt één enkele klik meer dan 99%. Projectpagina: https://shjo-april.github.io/Chain-of-Prompts/
Vaardigheden, dat wil zeggen gestructureerde workflow-instructies die zijn gedestilleerd voor grote taalmodellen (LLMs), worden steeds belangrijker als mechanisme om de prestaties van agenten te verbeteren bij realistische downstream-taken. Echter, naarmate het open-source vaardigheden-ecosysteem zich snel uitbreidt, blijft het onduidelijk hoe verschillende modellen en agent-frameworks met vaardigheden interageren, hoe de kwaliteit van vaardigheden moet worden geëvalueerd, en hoe gebruikers vaardigheden moeten selecteren onder praktische kosten-prestatie-afwegingen. In dit artikel presenteren we OpenSkillEval, een automatisch evaluatieframework voor zowel vaardigheid-verrijkte agentsystemen als de vaardigheden zelf. In plaats van te vertrouwen op statische benchmarks, construeert OpenSkillEval automatisch realistische taakinstanties uit evoluerende real-world artefacten in vijf categorieën van downstream-toepassingen: presentatiegeneratie, front-end webontwerp, postergeneratie, datavisualisatie en rapportgeneratie. Verder verzamelt en ordent het door de gemeenschap bijgedragen vaardigheden voor gecontroleerde vergelijking onder uniforme taakomstandigheden. Met behulp van meer dan 600 dynamisch gegenereerde taakinstanties en 30 open-source vaardigheden voeren we een systematische evaluatie uit van state-of-the-art modellen en agent-frameworks. Onze resultaten tonen aan dat beschikbaarheid van vaardigheden geen garantie biedt voor effectief gebruik ervan, dat het voordeel van vaardigheidsaugmentatie sterk afhangt van zowel het onderliggende model als het agent-framework, en dat veel publiekelijk populaire vaardigheden niet consistent beter presteren dan basisagenten zonder vaardigheden. Deze bevindingen benadrukken de noodzaak van dynamische, taakgebaseerde evaluatie en bieden praktische inzichten voor het ontwerp, de selectie en de implementatie van vaardigheden voor LLM-agenten. Aanvullende cases en benchmarkbronnen zijn beschikbaar op de projectwebsite: https://yingjiahao14.github.io/OpenSkillEval-Web/.
Mensen kunnen gemakkelijk bepalen welke kleur bij welke vorm hoort in scènes met meerdere objecten, een vermogen dat bekend staat als conceptbinding. Visie-taal inbeddingsmodellen zoals CLIP hebben moeite met binding: ze herkennen individuele concepten, maar slagen er niet in weer te geven welke concepten welke objecten vormen. Hoewel CLIP zich gedraagt als een bag-of-concepts model bij crossmodale retrievals, is objectinformatie afzonderlijk terug te vinden uit de afbeeldings- en tekstinbeddingen. We bestuderen deze spanning door middel van de bindingsfunctie, die concepten afbeeldt op scène-inbeddingen. We vinden dat scène-inbeddingen additief ontbinden in objectrepresentaties, wat verklaart waarom unimodale probes objectinformatie kunnen terugvinden. De bindingsfunctie van CLIP heeft echter een hoge complexiteit, wat waarschijnlijk verhindert dat de beeld- en tekstencoders een gedeeld bindingsmechanisme leren dat generaliseert naar ongeziene conceptcombinaties. We vragen ons vervolgens af of deze beperking fundamenteel is. We tonen aan dat dit niet het geval is. In gecontroleerde transformatormodellen die vanaf nul zijn getraind, ontstaat bindingsgeneralisatie bij voldoende datadekking. Deze modellen leren bindingsfuncties met lage complexiteit, gekenmerkt door multiplicatieve interacties tussen concepten, wat systematische generalisatie mogelijk maakt. De code is openbaar beschikbaar op https://github.com/oshapio/binding-concepts-complexity.
Op connector gebaseerde uniforme videomodellen hebben een sterke capaciteit getoond voor instructiegestuurde videosynthese, maar het integreren van een grote, hooggetrouwe generator in de uniforme trainingslus is computationeel prohibitief, wat de haalbare visuele kwaliteit beperkt. Daarom stellen we Lumos-Nexus voor, een trainingsefficiënt uniform videogeneratiekader dat de ontwikkeling van sterke redeneringsgestuurde generatiecapaciteiten mogelijk maakt terwijl de visuele getrouwheid aanzienlijk wordt verbeterd. Lumos-Nexus hanteert een tweefasenontwerp: 1) Tijdens de training wordt alleen een lichtgewicht generator afgestemd op het begripsblok om te leren redeneringsgestuurde semantische sturing te verwerken. 2) Tijdens de inferentie introduceren we Unified Progressive Frequency Bridging (UPFB) om de generatie stapsgewijs over te dragen aan een hoogcapacitieve voorgetrainde generator in de gedeelde latente ruimte, waardoor grof-naar-fijn verfijning mogelijk wordt en hooggetrouwe video's worden geproduceerd zonder concessies te doen aan de redeneringskwaliteit. Om het gebrek aan benchmarks voor redeneringsgestuurde videogeneratie op te vullen, introduceren we VR-Bench, dat het vermogen van een model beoordeelt om geïnterpreteerde intentie te vertalen naar coherente en semantisch afgestemde video-inhoud. Uitgebreide experimenten tonen aan dat Lumos-Nexus aanzienlijke winst boekt in visuele realisme en temporele coherentie op VBench, terwijl het sterke redeneringsgebaseerde generatieprestaties levert op VR-Bench. Code en modellen zijn beschikbaar op https://jiazheng-xing.github.io/nexus-lumos-home/.
Autonome AI-onderzoeksagenten streven ernaar wetenschappelijke ontdekkingen te versnellen door de onderzoekspijplijn te automatiseren, van hypothesegeneratie tot peerreview. Bestaande benchmarks testen echter zelden een fundamentele bottleneck: of grote taalmodellen de methodologische haalbaarheid van een onderzoeksidee kunnen beoordelen voordat er tijd en rekenkracht wordt geïnvesteerd. Wij introduceren SoundnessBench, een samengestelde benchmark van 1.099 machine learning-onderzoeksvoorstellen die zijn gereconstrueerd uit ICLR-submissies, voorzien van beoordelaarscores voor methodologische degelijkheid en gecontroleerd tegen de oorspronkelijke papers. SoundnessBench moet worden geïnterpreteerd als een benchmark voor de herleidbare degelijkheid in de voorstelfase, niet als een exacte voorspelling van de volledige paperreviewresultaten. Bij 12 geavanceerde grote taalmodellen vinden we een wijdverbreide optimisme-bias: onder standaard prompting beoordelen modellen voorstellen met een lage degelijkheid vaak als degelijk, terwijl agressief prompting de fouten grotendeels verschuift van vals-positieven naar vals-negatieven. Extra controles op contaminatie uit openbare corpora, paper-identificerende zinsdelen, oppervlaktekenmerken en de kwaliteit van menselijke audits suggereren dat dit gedrag niet wordt verklaard door één enkele verstorende factor. Onze resultaten geven aan dat de huidige grote taalmodellen nog niet betrouwbaar zijn als standalone eerste filterevaluatoren voor wetenschappelijke strengheid.
Zelfgecontroleerde synthese van nieuwe aanzichten (NVS) blijft moeilijk op te schalen, ondanks de overvloed aan videodata, grotendeels vanwege de kwetsbaarheid van training op realistische video's en het moeilijk voorspelbare schalingsgedrag van multi-netwerksysteemontwerpen. We introduceren RayDer, een uniforme feed-forwardtransformator die cameraschatting, scènereconstructie en rendering samenvoegt in één enkele backbone, waardoor zelfgecontroleerde NVS een goed gesteld enkelmodel-schalingsprobleem wordt. Een minimale dynamische toestand, behandeld als een hinderfactor, absorbeert tijdsvariërende inhoud en maakt stabiele training op onbeperkte realistische video mogelijk. Belangrijk is dat RayDer de NVS van statische scènes als zijn doeltaak behoudt: dynamische inhoud wordt uitsluitend benut als schaalbare supervisie, niet gereconstrueerd zoals bij NVS van dynamische scènes (4D). Over meerdere modelgroottes en ordes van grootte in data vertoont RayDer een zuivere machtwetschalering met data en rekenkracht, en presteert het beter dan datamengsels van statische scènes. Op een groot aantal benchmarks behaalt RayDer sterke zero-shot open-set-prestaties die concurrerend zijn met state-of-the-art gesuperviseerde benaderingen. Projectpagina: https://compvis.github.io/rayder
Reinforcement learning (RL) kan worden gebruikt om het beleid (denoiser) van diffusion large language modellen (dLLMs) te verbeteren, maar wordt belemmerd door de onhandelbaarheid van de beleidswaarschijnlijkheid. Een dominante en efficiënte familie van methoden vervangt de waarschijnlijkheid in standaard RL door de bewijsondergrens (ELBO), geschat uit willekeurig gemaskeerde reeksen. Hoewel deze methoden goed aansluiten bij pre-training, introduceren ze vertekening door een trainings-inferentie mismatch doordat de ELBO als waarschijnlijkheidssurrogaat wordt gebruikt, wat de prestaties kan verslechteren. In dit werk stellen wij Guided Denoiser Self-Distillation (GDSD) voor om de denoiser van dLLMs rechtstreeks te distilleren uit een voordeelgestuurde zelfleraar, afgeleid van het gesloten-vorm optimum van omgekeerd-KL geregulariseerd RL. GDSD stemt de denoiser logits van de dLLM af op die van de leraar via een normalisatievrij doel, wat RL reduceert tot waarschijnlijkheidsvrije zelfdistillatie en zo de TIM-vertekeningen omzeilt. Recente ELBO-gebaseerde methoden blijken instanties te zijn van het toepassen van verschillende distillatiedivergenties, maar met diagnoseerbare pathologieën die GDSD vermijdt. Op planning-, wiskunde- en codeerbenchmarks met LLaDA-8B en Dream-7B presteert GDSD consistent beter dan eerdere state-of-the-art ELBO-gebaseerde methoden met een stabielere trainingsbeloningsdynamiek, met verbeteringen in testnauwkeurigheid tot +19,6%. Deze resultaten suggereren dat directe denoiser-zelfdistillatie, zonder afhankelijk te zijn van een ELBO-waarschijnlijkheidssurrogaat, een stabielere en effectievere RL-procedure voor dLLMs kan bieden. Code is beschikbaar op https://github.com/GaryBall/GDSD.
Mediacompressienormen hebben een plateau bereikt wat betreft de afweging tussen snelheid, vervorming en complexiteit, waardoor het vermogen om dure AI-perceptie naar de cloud te verplaatsen in toepassingen zoals robotica, draagbare apparaten en teledetectie wordt beperkt. Op DNN gebaseerde codecs verbeteren de compressie-efficiëntie, maar met een nadeel: ze kunnen zich niet gemakkelijk aanpassen aan grote veranderingen in de beschikbare bitsnelheid, en real-time codering vereist dure, energieverslindende GPU's die gebruik op goedkope of resource-beperkte platforms onmogelijk maken. Om deze beperkingen aan te pakken, stellen we een nieuw autoencodingraamwerk (FRAPPE) voor dat de volledige invoer gebruikt om de residuele uitvoer te voorspellen via een Projection Pursuit Encoder. Het coderingsdoel van FRAPPE sorteert latentiekanalen natuurlijk op belangrijkheid, wat variabele-snelheidscodering zonder overhead mogelijk maakt. In tegenstelling tot op RNN gebaseerde geleerde codecs, waarvan de encoder het residu van de vorige reconstructie verbruikt, of RVQ-stijl codecs, waarvan de codeboeken sequentieel moeten worden toegepast, is het analysepad van FRAPPE een embarrassingly parallelle DAG van onafhankelijke invoerprojecties. Met behulp van FRAPPE bouwen we een variabele-snelheid RGB-beeldcodec (FRAPPE-Image) en evalueren we de afweging tussen snelheid, vervorming en complexiteit in vergelijking met standaard beeldcodecs. Bij hoge compressieverhoudingen (ongeveer 0,1 bpp) biedt FRAPPE-Image een hogere perceptuele kwaliteit dan AVIF met 47 keer snellere codering, waardoor het in staat is tot real-time 1080p, 30fps-codering uitsluitend op de CPU. Onze code en voorgetrainde modellen zijn beschikbaar op: https://github.com/UT-SysML/FRAPPE .
Recente ontwikkelingen hebben de real-time interactieve videogeneratie in het autoregressieve regime aanzienlijk verbeterd. Echter, de meeste bestaande methoden voor autoregressieve videogeneratie met weinig stappen, vaak gedestilleerd uit een corresponderende leraar met veel stappen, gebruiken standaard een bemonsteringsconfiguratie met 4 stappen, wat nog steeds aanzienlijke latentie veroorzaakt tijdens implementatie en lijdt aan ernstige kwaliteitsvermindering wanneer het aantal bemonsteringsstappen verder wordt verminderd, met name in de éénstapsinstelling. Consistentiedestillatiemethoden van het trajecttype produceren vaak video's met zwakke dynamiek, terwijl DMD-gebaseerde benaderingen, zoals Self-Forcing, de neiging hebben wazige frames op te leveren. Om deze uitdaging aan te pakken, stellen we One-Forcing voor, een eenvoudige maar effectieve benadering die de DMD-doelfunctie aanvult met een aanvullend GAN-verlies voor hoogwaardige en efficiënte éénstapsvideogeneratie. Experimenten op VBench tonen aan dat One-Forcing een totaalscore van 83,76 behaalt, waarmee het de state-of-the-art prestaties vestigt onder éénstaps causale videogeneratiemethoden en concurrerend blijft met sterke methoden met veel stappen. We tonen verder aan dat éénstaps framegewijze autoregressieve generatie stabiel kan worden bereikt met slechts een derde van de trainingskosten van het chunkgewijze model, een instelling die eerdere methoden niet met succes hebben weten te bereiken.
Hoewel visueel gefundeerde Chain-of-Thought (CoT) naar voren is gekomen als een veelbelovend paradigma om fijnmazige perceptie in multimodale grote taalmodellen (MLLM's) te verbeteren, blijft de effectiviteit ervan tijdens de inferentiefase onderbelicht. In dit werk vinden we empirisch dat het verplicht stellen van expliciete objectkaders in visueel gefundeerde CoT tijdens inferentie vaak leidt tot een lagere prestatie vergeleken met standaard tekstuele CoT, die redeneert zonder expliciete visuele fundering. We veronderstellen dat het visuele lokalisatievermogen kan worden geïnternaliseerd in de tekstuele CoT en dat de verplichte expliciete fundering onnodige interferentie introduceert met het primaire doel van het model: antwoordvoorspelling. Om dit probleem aan te pakken, stellen we iVGR (Internalizing Visually Grounded Reasoning) voor, een nieuw versterkingsleerframework dat lokalisatiecapaciteiten overdraagt naar het tekstuele redeneerproces. We gebruiken een tweestromige trainingstrategie, waarbij een tekstuele stroom wordt afgestemd op een hoogwaardige visueel gefundeerde stroom via een voorgestelde consistentiebeloning, waardoor het model nauwkeurig kan lokaliseren zonder expliciete fundering tijdens inferentie. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande baselines op fijnmazige benchmarks, terwijl de flexibiliteit behouden blijft om tool-ondersteunde inferentiewerkstromen te ondersteunen.
Evaluatie van machine-ontleren is structureel scheef: Waarom-vragen, die causale en relationele kennis peilen, maken minder dan 0,06% uit van CounterFact, 0,6% van ZSRE en minder dan 1,3% van TOFU, MUSE en WMDP-Cyber. Deze bijna-nul vertegenwoordiging betekent dat methoden die falen op causale kennis hoog kunnen scoren in het totaal, en dit falen is niet detecteerbaar zonder gebalanceerde evaluatie. We presenteren 5WBENCH, een gebalanceerde benchmark met 5.000 voorbeelden, met 1.000 voorbeelden per 5W-categorie (Wie, Wat, Wanneer, Waar, Waarom), waardoor causale ontleerfouten voor het eerst kwantificeerbaar worden. Met behulp van 5WBENCH tonen we aan dat geen enkele bestaande basislijn tegelijkertijd hoog vergeten en hoge retentie op Waarom-vragen bereikt: agressief vergeten tast behouden kennis aan, terwijl conservatieve methoden er niet in slagen causale feiten te vergeten. De moeilijkheid van Waarom-vragen komt voort uit multi-hop redeneerketens (44% van Waarom-items versus minder dan of gelijk aan 2% voor anderen) en gradiëntverdunning over antwoordspannes van 40,1 tokens. We presenteren MAAT (Multi-phase Adapter-Aware Targeted Unlearning), een driefasenraamwerk dat werkt op LoRA-adaptergewichten, en gradiënt-geprojecteerde stijging, SVD-rang-dimensie snoeien, taakvectornegatie en hybride KL-verborgen toestand retentieherstel combineert. MAAT is de eerste methode die tegelijkertijd hoog vergeten en hoge retentie op Waarom-type causale kennis bereikt, en een nieuw werkpunt op de vergeten-retentie Pareto-grens bereikt. We maken onze code openbaar beschikbaar.
Het ontwerpen van een vervoersnetwerk vereist vele opeenvolgende beslissingen over routeverlengingen, maar hun kwaliteit is vaak pas zichtbaar nadat het volledige netwerk is samengesteld. Deze uitdaging van vertraagde terugkoppeling vormt de kern van het Transit Route Network Design Problem (TRNDP), waar route-interacties misleidend kunnen zijn: een verlenging die lokaal nuttig lijkt, kan overstapknelpunten creëren, redundante overlap veroorzaken of de totale doorvoer verminderen. Om routeconstructie te begeleiden bij vertraagde simulatorterugkoppeling introduceren we AlphaTransit, een op zoekmethoden gebaseerd planningsraamwerk voor het ontwerpen van stadsbrede busnetwerken. AlphaTransit koppelt Monte Carlo Tree Search (MCTS) aan een neuraal beleidswaardennetwerk: het beleid stelt routeverlengingen voor, de waarde schat de stroomafwaartse ontwerpkwaliteit, en de zoekopdracht gebruikt deze voorspellingen om elke beslissing te verfijnen. Dit biedt vooruitkijken tijdens de routeconstructie zonder simulatorrollouts binnen de zoekboom uit te voeren. We evalueren AlphaTransit op een nieuwe Bloomington TRNDP-benchmark met realistische wegtopologie en uit censusgegevens afgeleide vraag, onder gemengde en volledige vervoersvraaginstellingen. In het Bloomington-netwerk behaalt AlphaTransit de hoogste servicegraad in beide vraaginstellingen, respectievelijk 54,6% en 82,1%. Ten opzichte van reinforcement learning zonder zoekmethoden komen deze overeen met winsten in servicegraad van 9,9% en 11,4%; ten opzichte van MCTS zonder aangeleerde begeleiding komen ze overeen met winsten van 2,5% en 11,2%. Deze resultaten suggereren dat het koppelen van aangeleerde begeleiding aan MCTS effectiever is dan het gebruik van beide benaderingen afzonderlijk voor het ontwerpen van vervoersnetwerken. Onze code en gegevens zijn openbaar beschikbaar op https://github.com/poudel-bibek/AlphaTransit.
Grote taalmodellen worden steeds vaker ingezet in interactieve omgevingen met meerdere gespreksronden, waarin gebruikers of omgevingen iteratief lichtgewicht feedback kunnen geven. Helaas levert het optimaliseren van dergelijk gedrag in de praktijk een scherp dilemma op: online reinforcement learning kan multi-turn-dynamieken effectief aanpakken, maar is onbetaalbaar duur vanwege de kosten van het genereren van volledige correctietrajecten bij elke update, terwijl offline supervised fine-tuning (SFT) efficiënt is, maar lijdt onder distributieverschuiving en gedragsinstorting. Hiertoe stellen wij op vernieuwende wijze DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning) voor, een raamwerk dat het theoretische inzicht operationaliseert dat de KL-geregulariseerde RL-doelstelling equivalent is aan op belangrijkheid gewogen supervised learning. DRIFT ontkoppelt rollout van optimalisatie door offline interactietrajecten te bemonsteren uit een vast referentiebeleid, op opbrengst gebaseerde belangrijkheidsgewichten af te leiden en het beleid te optimaliseren via gewogen SFT op de resulterende dataset. Empirisch tonen wij aan dat DRIFT de prestaties van multi-turn reinforcement learning-baselines evenaart of overtreft, terwijl het de trainingsefficiëntie en eenvoud van standaard supervised fine-tuning behoudt. Code is beschikbaar op https://github.com/2020-qqtcg/DRIFT.
De opkomst van grootschalige visie-taalsystemen (Large Vision-Language Models, LVLMs) heeft de mogelijkheden voor videobegrip aanzienlijk verbeterd. Echter richten bestaande benchmarks zich voornamelijk op grofkorrelige taken zoals actiesegmentatie, classificatie, ondertiteling en terugvinden. Bovendien vertrouwen deze benchmarks vaak op entiteiten die gemakkelijk verbaal kunnen worden geïdentificeerd, zoals huishoudelijke voorwerpen, dieren, menselijke onderwerpen, enz., wat hun toepasbaarheid op complexe, in-the-wild videoscenario's beperkt. Maar veel toepassingen, zoals meubelmontage, koken, enz., vereisen een stapsgewijs fijnkorrelig spatiotemporeel begrip van de video, wat in huidige benchmarks niet voldoende wordt geëvalueerd. Om deze leemte aan te pakken, introduceren wij Flat-Pack Bench, een nieuwe benchmark die zich richt op meubelmontagetaken. Onze benchmark evalueert LVLMs op genuanceerde taken, waaronder temporele ordening van montagehandelingen, temporele lokalisatie van montagestatus, begrip van onderdelenpassing en tracking, met behulp van meerkeuzevragen die worden gekoppeld aan visuele aanwijzingen die relevante onderdelen accentueren als referentie voor fijnkorrelige vragen. Onze experimenten tonen aan dat state-of-the-art LVLMs aanzienlijk worstelen met fijnkorrelige spatiotemporele redenering, wat hun beperkingen benadrukt in het effectief benutten van temporele informatie uit video's, beperkte trackingvaardigheden en begrip van ruimtelijke interacties zoals fysiek contact.
Diffusietaalmodellen genereren tekst door iteratief gecodeerde tokenreeksen te ontruisen, waarbij de keuze welke posities gedecodeerd worden een centrale beslissing tijdens het redeneren is. De meeste trainingsvrije decoderingstrategieën gebruiken modelvertrouwen voor positiekeuze, in de veronderstelling dat posities met hoge vertrouwen klaar zijn om gedecodeerd te worden. In dit werk herzien we deze aanname door te bestuderen wanneer vertrouwen misleidend is bij volledig niet-autoregressieve (volledig niet-AR) decodering. EOT-tokens kunnen hoge vertrouwen krijgen en onvolledige generatie veroorzaken; het invoegen van een suffixanker kan dit probleem verminderen, maar leidt tot lokale oververtrouwen nabij het anker, waardoor anker-aanliggende tokens te vroeg worden gedecodeerd. Om deze problemen aan te pakken stellen we Suffix-Anchored Confidence Modulation voor, een eenvoudige, trainingsvrije methode die een kort suffixanker invoegt om responsvoltooiing te stimuleren en het vertrouwen nabij het anker moduleert op basis van de decodervoortgang. Dit behoudt het voordeel van responsvoltooiing door suffixverankering, terwijl voortijdige decodering van anker-aanliggende tokens wordt verminderd. Over tekstgebaseerde redeneerbenchmarks, visueel-linguïstische redeneerbenchmarks en codegeneratiebenchmarks verbetert onze methode consistent de op vertrouwen gebaseerde volledig niet-AR decodering, presteert beter dan expliciete EOT-onderdrukking en behoudt het parallelle decodervoordeel van volledig niet-AR generatie.
Interactieve videowereldmodellen genereren video's brok voor brok als reactie op door de gebruiker gestuurde camerabewegingen, wat toepassingen mogelijk maakt zoals real-time gamesimulatie, virtuele scènenavigatie en embodied AI-training. Het opschalen naar lange interactieve trajecten is echter prohibitief duur vanwege het groeiende contextgeheugen, de kwadratische aandachtscomplexiteit en herhaalde ontruisingsstappen. We presenteren Light Interaction, een trainingsvrij inferentieversnellingsraamwerk voor interactieve videowereldmodellen. Ons belangrijkste inzicht is dat interactie van nature trajectafhankelijke adaptieve berekening mogelijk maakt: opgehaald ruimtelijk geheugen kan worden weggegooid tijdens nieuwe verkenning, tijdelijke context kan worden aangepast aan lokale latente dynamiek, en modeluitvoer van vroege stappen kan worden hergebruikt wanneer de camera bekende gebieden opnieuw bezoekt. Op basis van dit inzicht combineert Light Interaction adaptief contextbeheer, ontruisingscacheversnelling en hardware-software co-ontworpen 3D-blokspaarzame aandacht met gefuseerde Triton-kernels. Geëvalueerd op HY-WorldPlay en Matrix-Game-3.0 bereikt Light Interaction tot 2,59x versnelling zonder modelhertraining, terwijl het concurrerende visuele kwaliteit behoudt.
Onder standaard grafische aannames is de Markov-grens van een doelvariabele de kleinste set kenmerken die elk ander kenmerk overbodig maakt. Zodra de grens is waargenomen, is het doel conditioneel onafhankelijk van de rest van de tabel. Dit is een verleidelijk object voor tabelvoorspellingen, omdat het precies de kolommen benoemt die een model nodig zou moeten hebben. Toch worden moderne regressoren nog steeds getraind op de volledige kenmerkset. We vragen ons af of de Markov-grens werkelijk nuttig is voor voorspellingen op SCM3K, een synthetische SCM-benchmark met 3.450 taken, met kenmerkaantallen van 40 tot 1000 en zes SCM-families, geëvalueerd met zes regressoren. Het antwoord is genuanceerder dan de theorie suggereert. Het beperken van een regressor tot de orakelgrens verbetert de voorspelling vaak aanzienlijk, en de verbetering neemt toe naarmate de kenmerkruimte groter en schaarser wordt. Maar de natuurlijke pijplijn van het herstellen van de grens met causale ontdekking en training op het herstelde masker levert niet op. Bestaande schatters putten het rekenbudget uit voordat ze het regime bereiken waar de grens het meest helpt, en zelfs waar ze draaien, verslaan ze zelden de volledige kenmerkset. We wijten dit aan drie oorzaken. Ontdekking optimaliseert structureel herstel in plaats van voorspelling. Vals-negatieven en vals-positieven hebben een scherp asymmetrische voorspellingskost. De exacte grens is slechts een van de vele kenmerksets die alle kenmerken overtreffen. Vervolgens ontwikkelen we wat deze feiten impliceren voor voorspellingsgerichte kenmerkselectie en voor tabellarische modellen die leren causale structuur te gebruiken.
Op groepsvoordeel gebaseerde versterkingsleermethoden, zoals GRPO en DAPO, hebben sterke prestaties laten zien in uiteenlopende domeinen, waaronder wiskundig redeneren en tekst-naar-beeld-generatie. Hun afhankelijkheid van beloningen op steekproefniveau introduceert echter een belangrijke beperking, omdat uniforme krediettoewijzing over alle tokens heen geen fijnmazige bijdragen op tokenniveau weet te vatten. Om dit probleem aan te pakken stellen wij Guidance Contrastive Policy Optimization (GCPO) voor, een nieuw algoritme dat per-token krediettoewijzing mogelijk maakt door modelvoorspellingen onder positieve en negatieve prompts te contrasteren. In plaats van voordelen op steekproefniveau uniform uit te zenden, kent GCPO voordelen op tokenniveau toe die evenredig zijn aan het verschil tussen deze contrasterende voorspellingen, wat leidt tot preciezere en informatievere leersignalen. Empirisch zien wij dat GCPO semantisch relevante regio's benadrukt, zoals visuele gebieden die overeenkomen met tekstuele prompts bij tekst-naar-beeld-generatie, en kritieke trefwoorden binnen redeneersporen voor keten-van-gedachten taken. Uit uitgebreide experimenten blijkt dat GCPO consequent betere prestaties levert dan de GRPO- en DAPO-baselines op zowel tekst-naar-beeld-generatie- als keten-van-gedachten-redeneerbenchmarks, wat de effectiviteit aantoont als een algemene en schaalbare optimalisatiestrategie voor discreet beleidsleren.
Fysieke AI-systemen, waaronder robots, autonome voertuigen, belichaamde agenten en edge copilots, draaien vaak een andere inferentiewerklast dan cloud-LLM-servicing: enkelstrooms, batch-1 autoregressief decoderen, waarbij één robot, camerastroom of gebruikerssessie wacht op de volgende token. Deze werklast wordt doorgaans beschreven als geheugenbandbreedtegebonden. Elke decodestap streamt modelgewichten en de actieve KV-cache, dus de latentie zou moeten schalen met de piek-HBM-bandbreedte. We tonen aan dat deze verklaring juist maar onvolledig is. We meten batch-1 decoderen voor drie 7 tot 8B-klasse GQA-transformatoren op vier NVIDIA-GPU's: H100 SXM5, A100-80GB SXM4, L40S en L4. We evalueren contextlengtes van 2048 tot 16384, wat 44 geldige cellen oplevert onder een gecontroleerde bf16-SDPA-opstelling. Het bereikte aandeel van de piek-HBM-bandbreedte daalt naarmate de piekbandbreedte stijgt. In de voorbeeldcel Qwen-2.5-7B ctx=2048 bereikt een L4 ongeveer 81 procent van zijn analytische geheugenvloer, terwijl een H100 slechts 27 procent bereikt. Fysieke-AI-decoderen is geheugengedomineerd, maar sneller geheugen vertaalt zich niet in proportionele latentiewinsten. We testen de ontbrekende term met een CUDA Graphs A/B-experiment. Op H100 bij ctx=2048 verbetert CUDA Graphs de decodelatentie met een factor 1,259x over N=10 verse sessies, met een 95%-bootstrap-betrouwbaarheidsinterval van 1,253 tot 1,267. Op L4 geeft dezelfde ingreep slechts 1,028x. Dit isoleert een overhead aan de lanceringszijde die zichtbaar wordt op snelle GPU's maar grotendeels verborgen blijft op langzamere, bandbreedtegebonden GPU's. De implementatie-implicatie is dat geheugenbesparingen alleen van belang zijn wanneer de runtime ze realiseert. Op L4 ligt bf16-decoderen dicht bij de geheugenvloer, maar gangbare gekwantiseerde paden herstellen niet de verwachte 4x reductie in gewichtsverkeer: bnb-nf4 bereikt 59,36 ms/stap en AutoAWQ+Marlin 45,24 ms/stap vanaf een bf16-baseline van 62,32 ms. GPTQ+ExLlamaV2, met Ada-afgestemde int4-kernels, bereikt 17,36 ms/stap.
Wanneer een AI-agent beslissingen neemt namens een persoon, moeten die beslissingen overeenkomen met de gebruiker. We introduceren representatieve nauwkeurigheid om te meten hoe getrouw een systeem de interpretatie van een persoon vastlegt. Een interpretatielaag wordt geoperationaliseerd als een Gedragsspecificatie. Onze referentie-implementatie comprimeert de gegevens van een persoon agressief tot interpretatieve patronen, die als context aan een taalmodel worden aangeboden. We evalueren de Specificatie op een prototypebenchmark van achtergehouden gedragsvoorspellingen, gescoord door een gekalibreerd panel van 5 beoordelaars bestaande uit taalmodellen. We testen deze onafhankelijk en in combinatie met een reeks contextcondities: volledig ruw corpus, volledig geëxtraheerde feiten, en vier commerciële geheugensystemen (Mem0, Letta, Supermemory, Zep). Over 14 autobiografische corpora in het publieke domein verhoogt de Specificatie de representatieve nauwkeurigheid in het totaal en elimineert bijna alle voorbehouden van het model. Het herstelt het grootste deel van wat het ruwe corpus levert, tegen ongeveer 25x lagere contextkosten. De Specificatie brengt proefpersonen naar een gemeenschappelijk voorspellingsniveau, ongeacht de basistraining; de stijging in absolute punten is dan ook het grootst waar de basis het laagst is, wat suggereert dat de relevante populatie iedereen is die niet adequaat is vertegenwoordigd in de basistraining. De stijging is het grootst bij vragen die interpretatie vereisen, waar het bieden van een interpretatielaag modelgedrag mogelijk maakt dat geëxtraheerde feiten of het ruwe corpus niet kunnen. Omgekeerd kan deze laag bij vragen die herinnering vereisen eerder storen dan helpen. We concluderen dat representatieve nauwkeurigheid verschilt van herinnering en dat mens-AI-afstemming afhangt van hoe nauwkeurig de gebruiker wordt gerepresenteerd. Representatieve nauwkeurigheid maakt die afstemming toetsbaar.
Remote sensing samengestelde beeldterugvinding (RSCIR) maakt het mogelijk om te zoeken in grote archieven van satellietbeelden met behulp van samengestelde query's die een referentiebeeld combineren met een tekstuele modifier. Hoewel RSCIR een flexibele interface biedt voor het uitdrukken van gerichte terugvindintentie, blijven de overdraagbaarheid van moderne compositiemethoden naar aardobservatiebeelden (EO-beelden) en hun relevantie voor operationele EO-werkstromen onderbelicht. We vullen deze lacune door middel van een uniforme benchmark en een toepassingsgerichte studie. Ten eerste passen we systematisch representatieve methoden voor samengestelde beeldterugvinding aan en evalueren we deze met zes visie-taal-backbones op PatternCom onder een gestandaardiseerd protocol, waarbij we hun gedrag analyseren voor verschillende backbones, compositiestrategieën en querytypen. Ten tweede introduceren we xView2-CIR, een veranderingsgerichte dataset voor rampen- en schademonitoring, waarbij terugvinding wordt geconditioneerd op scène-identiteit en een beoogde toestand na de gebeurtenis. Onze resultaten tonen aan dat trainingsvrije compositiemethoden sterke en schaalbare basislijnen bieden voor EO-terugvinding, terwijl veranderingsgerichte terugvinding andere uitdagingen biedt dan attribuutgebaseerde terugvinding, met name vanwege de noodzaak om scène-identiteit te behouden. Over het geheel genomen stelt deze studie een praktische benchmark vast voor RSCIR en positioneert samengestelde terugvinding als een complementair hulpmiddel voor remote sensing beeldterugvinding, archiefverkenning en veranderingsanalyse. De dataset en code zijn beschikbaar op https://github.com/billpsomas/rscir.
De integratie van onbemande luchtvaartuigen (UAV's) in intelligente transportsystemen (ITS) biedt synoptisch zicht voor verkeersmonitoring, maar schaalbare implementatie wordt belemmerd door trajectfragmentatie, waarbij de persistentie van voertuigidentiteit verloren gaat over meerdere UAV-gezichtsvelden (FOV). Hoewel geavanceerde raamwerken uitblinken in het optimaliseren van lokale trajectextractie en stabiliteit voor beelden van één drone, functioneren ze vaak als geïsoleerde datasilo's die onsamenhangende trajecten genereren, waardoor netwerkanalyse zoals herkomst-bestemmingsschatting wordt uitgesloten. Dit artikel presenteert een real-time Multi-Camera Multi-Vehicle Tracking (MCMT)-systeem dat is ontworpen om wereldwijde identiteitspersistentie te beheren. Om de visuele dubbelzinnigheid en computationele kosten van op uiterlijk gebaseerde heridentificatie (Re-ID) in nadir-aanzichten aan te pakken, introduceren we een lichtgewicht topologiegebaseerd spatiotemporeel overdrachtsmechanisme. We implementeren een parallelle pijplijn met hoge doorvoer die gebruikmaakt van YOLO11 en ByteTrack om gelijktijdige 4K-streams te verwerken. Onze kernbijdrage is een deterministisch wachtrijgebaseerd matchingalgoritme dat geometrische overlappingen en virtuele rijstrookdiscretisatie gebruikt om identiteitsoverdracht voorspellend te beheren via FIFO-wachtrijen. Experimentele resultaten in complexe stedelijke omgevingen, waaronder kruispunten en samenvloeiend verkeer, tonen een overdrachtssuccespercentage (HOSR) van 99,8% aan in continue verkeersstromen, wat aanzienlijk beter presteert dan Re-ID-baselines (74,1%) en tegelijkertijd de haalbaarheid van implementatie aan de rand valideert. De broncode is beschikbaar op https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system.
Het leren van visuomotorische beleidsregels via gedragsnabootsing omvat doorgaans het imiteren van expert-demonstraties die door menselijke operators zijn verzameld. Natuurlijke menselijke demonstraties bevatten echter inherent hoogfrequente ruis, zoals intermitterende schokken, pauzes en actie-jitter. Het trainen van beleidsregels om deze ruwe trajecten direct te imiteren, zorgt er onvermijdelijk voor dat het model deze suboptimale gedragingen overneemt. Deze pathologie is bijzonder uitgesproken bij diffusiegebaseerde beleidsregels, waar iteratieve ruisonderdrukkingsstappen per ongeluk hoogfrequente artefacten kunnen versterken ten koste van betekenisvolle fijnschalige details. Om deze beperkingen aan te pakken, presenteren we een nieuw frequentiegebaseerd algoritme dat impliciete spectrale manoeuvres en vloeiende actiegeneratie mogelijk maakt. Onze methode, de Frequentiegeleidingsoperator (FGO), stuurt het generatieproces van diffusiebeleid door de ruizige samples geleidelijk door tussenliggende subfrequentiemanifolds met uitbreidende spectrale banden te leiden. FGO is gevalideerd op 15 robotmanipulatietaken uit 5 benchmarks en behaalt superieure prestaties in het verbeteren van actiegladheid en temporele consistentie, terwijl de details die nodig zijn voor succesvolle taakuitvoering behouden blijven. Projectwebsite: https://henrywjl.github.io/frequency-guidance-operator/
Hoewel eerder onderzoek naar multivariate tijdreeksvoorspelling zich richtte op het ontwikkelen van complexe holistische modellen, pleit dit werk voor een verschuiving naar een granulair, componentgericht begrip van hun impact. Wij introduceren TSCOMP, de eerste grootschalige benchmark die diepe voorspellingsmethoden systematisch ontleedt in hun kerncomponenten op fijnmazig niveau – variërend van serie-voorbewerking, coderingsstrategieën, netwerkarchitecturen (waaronder specifieke en grootschalige tijdreeksmodellen) en optimalisatiemethoden. Door gebruik te maken van een beperkt orthogonaal experimenteel ontwerp en uitgebreide evaluaties voeren we multi-view analyses uit die de effectiviteit van componenten in verschillende backbone-modellen, data-eigenschappen en hun interacties blootleggen. Naast het bieden van inzichten, creëert deze benchmark een fijnmazig prestatielichaam met meer dan 20.000 model-dataset-evaluaties, dat het leren van geautomatiseerde componentselectie ondersteunt en zero-shot modelconstructie op nieuwe datasets mogelijk maakt. Onze experimenten tonen aan dat de corpus-gedreven aanpak, ondanks zijn eenvoud, consistent beter presteert dan de nieuwste methoden, wat de validiteit van ons evaluatieontwerp bevestigt en aantoont dat systematische componentselectie handmatig ontworpen complexe architecturen overtreft. Alle code en het prestatielichaam zijn openbaar beschikbaar op https://github.com/SUFE-AILAB/TSCOMP.
Conditionele generatie van menselijke beweging blijft een fundamentele uitdaging in computervisie en robotica. Ondanks aanzienlijke vooruitgang worden huidige methoden vaak beperkt door vaste modaliteitsconfiguraties en taakspecifieke architecturen, waardoor cross-modale interacties en de schaalwetten van multimodaal geconditioneerde synthese grotendeels onderbelicht blijven. Een belangrijk knelpunt is de schaarste aan grootschalige modaliteitsafgestemde bewegingsdata, wat de generalisatie over diverse controlesignalen beperkt. In dit werk introduceren we OmniHuMo, een grootschalige, hoogwaardige dataset die meer dan 5.000 uur aan beweging en 3,2 miljoen sequenties omvat met nauwkeurig afgestemde multimodale annotaties (bijv. tekst, spraak, muziek en trajectorie). Gebruikmakend van OmniHuMo stellen we AnyMo voor, een uniform multimodaal raamwerk dat een op Residual FSQ gebaseerde bewegings-tokenizer combineert met een schaalbare gemaskeerde modelleringstransformator, waardoor synthese van beweging van hoge kwaliteit onder willekeurige modaliteitscombinaties mogelijk wordt. Uitgebreide experimenten tonen aan dat AnyMo synthese met hoge getrouwheid bereikt, terwijl het flexibele controle biedt over zowel ruimtelijke als stilistische kenmerken.