Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Data preparation heeft als doel ruwe datasets te ontdoen van ruis, relaties tussen datasets bloot te leggen en er waardevolle inzichten uit te halen, wat essentieel is voor een breed scala aan data-gerichte toepassingen. Aangedreven door (i) de groeiende vraag naar applicatie-klare data (bijv. voor analyse, visualisatie, besluitvorming), (ii) steeds krachtigere LLM-technieken, en (iii) de opkomst van infrastructuur die flexibele agentconstructie vergemakkelijkt (bijv. met Databricks Unity Catalog), worden met LLM verbeterde methoden snel een transformerend en potentieel dominant paradigma voor data preparation. Op basis van een onderzoek van honderden recente publicaties, presenteert dit artikel een systematische review van dit evoluerende landschap, met de focus op het gebruik van LLM-technieken om data voor te bereiden voor diverse downstream-taken. Ten eerste karakteriseren we de fundamentele paradigmaverschuiving, van op regels gebaseerde, modelspecifieke pijplijnen naar prompt-gedreven, contextbewuste en agent-achtige preparation-workflows. Vervolgens introduceren we een taakgerichte taxonomie die het veld indeelt in drie hoofdtaken: data cleaning (bijv. standaardisatie, foutverwerking, imputatie), data-integratie (bijv. entity matching, schema matching) en data-enrichment (bijv. data-annotatie, profiling). Voor elke taak bespreken we representatieve technieken en belichten we hun respectieve sterke punten (bijv. verbeterde generalisatie, semantisch begrip) en beperkingen (bijv. de prohibitieve kosten van het schalen van LLM's, hardnekkige hallucinaties zelfs in geavanceerde agents, de mismatch tussen geavanceerde methoden en zwakke evaluatie). Verder analyseren we veelgebruikte datasets en evaluatiemetrics (het empirische deel). Tot slot bespreken we open onderzoeksuitdagingen en schetsen we een vooruitziende roadmap die de nadruk legt op schaalbare LLM-data-systemen, principiële ontwerpen voor betrouwbare agent-workflows en robuuste evaluatieprotocollen.
Recentelijk is de frontlinie van de capaciteiten van Large Language Models (LLM's) verschoven van codegeneratie in enkele stappen naar agent-gebaseerd software engineering - een paradigma waarbij modellen autonoom complexe repositories navigeren, bewerken en testen. Hoewel post-trainingmethoden de de facto aanpak zijn geworden voor code-agents, blijft **agentic mid-training** - mid-training (MT) op grootschalige data die authentieke agent-workflows nabootst - sterk onderbelicht vanwege aanzienlijke resourcevereisten, ondanks dat het een meer schaalbare weg biedt om fundamenteel agent-gedrag in te brengen dan alleen te vertrouwen op dure reinforcement learning. Een centrale uitdaging bij het realiseren van effectieve agentic mid-training is de distributiemismatch tussen statische trainingsdata en de dynamische, feedback-rijke omgeving van echte ontwikkeling. Om dit aan te pakken, presenteren we een systematische studie van agentic mid-training, waarbij we zowel de data-syntheseprincipes als de trainingsmethodologie voor effectieve agent-ontwikkeling op schaal vaststellen. Centraal in onze aanpak staat **agent-native data** - supervisie bestaande uit twee complementaire soorten trajecten: **contextueel-native trajecten** die de complete informatiestroom die een agent ervaart behouden, wat brede dekking en diversiteit biedt; en **omgevings-native trajecten** verzameld uit uitvoerbare repositories waar observaties voortkomen uit daadwerkelijke toolaanroepen en testuitvoeringen, wat diepte en interactie-authenticiteit biedt. We verifiëren de agent-capaciteiten van het model op `SWE-Bench Verified`. We tonen onze superioriteit aan ten opzichte van het vorige open software engineering mid-training recept `Kimi-Dev` onder twee post-training instellingen met een aligned basis-model en agentic scaffold, terwijl we minder dan de helft aan mid-training tokens gebruiken (73.1B). Naast een relatief voordeel, behalen onze best presterende 32B en 72B modellen **56.1%** en **58.5%** resolutiepercentages, respectievelijk, wat ...
Recente vooruitgang in videogeneratie heeft modellen opgeleverd die in staat zijn verbluffende visuele content te synthetiseren vanuit eenvoudige tekstprompts. Deze modellen hebben echter moeite met het genereren van lange, coherente verhalen vanuit hoogoverconcepten zoals dialoog, wat een "semantische kloof" onthult tussen een creatief idee en de cinematografische uitvoering ervan. Om deze kloof te overbruggen, introduceren we een nieuw, end-to-end agent-gebaseerd raamwerk voor dialoog-naar-cinematische-videogeneratie. Centraal in ons raamwerk staat ScripterAgent, een model dat is getraind om grove dialoog te vertalen naar een gedetailleerd, uitvoerbaar filmscript. Om dit mogelijk te maken, construeren we ScriptBench, een nieuwe grootschalige benchmark met rijke multimodale context, geannoteerd via een door experts begeleide pijplijn. Het gegenereerde script leidt vervolgens DirectorAgent, die state-of-the-art videomodellen aanstuurt met behulp van een cross-scene continue generatiestrategie om coherentie op lange termijn te waarborgen. Onze uitgebreide evaluatie, met een door AI aangedreven CriticAgent en een nieuwe Visual-Script Alignment (VSA)-metriek, toont aan dat ons raamwerk de trouw aan het script en de temporele nauwkeurigheid aanzienlijk verbetert bij alle geteste videomodellen. Bovendien onthult onze analyse een cruciaal spanningsveld in huidige state-of-the-art modellen tussen visueel spektakel en strikte navolging van het script, wat waardevolle inzichten biedt voor de toekomst van geautomatiseerde filmproductie.
Kan een model leren om zijn eigen leerplateau te ontstijgen? Reinforcement learning-methoden voor het finetunen van grote redeneermodellen stagneren op datasets met lage initiële slagingspercentages, en dus weinig trainingssignaal. Wij onderzoeken een fundamentele vraag: Kan een vooraf getraind LLM latente kennis benutten om een geautomatiseerd curriculum te genereren voor problemen die het niet kan oplossen? Om dit te verkennen, ontwikkelen we SOAR: een zelfverbeteringsraamwerk ontworpen om deze pedagogische signalen naar voren te brengen via meta-RL. Een leraar-kopie van het model stelt synthetische problemen voor aan een student-kopie, en wordt beloond op basis van diens verbetering op een kleine subset van moeilijke problemen. Cruciaal is dat SOAR het curriculum verankert in gemeten studentenvoortgang in plaats van in intrinsieke surrogaatbeloningen. Onze studie op de moeilijkste subsets van wiskundige benchmarks (0/128 succes) onthult drie kernbevindingen. Ten eerste tonen we aan dat bi-level meta-RL mogelijk is, waardoor leren onder schaarse, binaire beloningen wordt ontsloten door een latente capaciteit van vooraf getrainde modellen aan te scherpen om nuttige tussenstappen te genereren. Ten tweede presteren gegronde beloningen beter dan intrinsieke beloningsschema's die in eerder LLM-zelfspel werden gebruikt, waarbij ze betrouwbaar de instabiliteit en diversiteitscollaps vermijden die daarbij typisch optreden. Ten derde laat analyse van de gegenereerde vragen zien dat structurele kwaliteit en welgesteldheid kritischer zijn voor leerprogressie dan oplossingscorrectheid. Onze resultaten suggereren dat het vermogen om nuttige tussenstappen te genereren niet vereist dat het model de moeilijke problemen reeds kan oplossen, wat een principieel pad opent om redeneerplateaus te ontstijgen zonder aanvullende gecureerde data.
Hoewel synthetische data effectief is gebleken voor het verbeteren van wetenschappelijk redeneren in het tekstdomein, wordt multimodaal redeneren nog steeds beperkt door de moeilijkheid om wetenschappelijk rigoureuze afbeeldingen te synthetiseren. Bestaande Text-to-Image (T2I) modellen produceren vaak output die visueel aannemelijk is maar wetenschappelijk incorrect, wat resulteert in een hardnekkige visueel-logische divergentie die hun waarde voor downstream redeneren beperkt. Gemotiveerd door recente vooruitgang in next-generation T2I-modellen, voeren we een systematische studie uit naar wetenschappelijke beeld synthese over generatieparadigma's, evaluatie en downstream gebruik heen. We analyseren zowel directe pixelgebaseerde generatie als programmatische synthese, en stellen ImgCoder voor, een logisch-gestuurd framework dat een expliciete "begrijp - plan - code" werkstroom volgt om de structurele precisie te verbeteren. Om wetenschappelijke correctheid rigoureus te beoordelen, introduceren we SciGenBench, dat gegenereerde afbeeldingen evalueert op basis van informatie-utiliteit en logische geldigheid. Onze evaluatie onthult systematische faalmodi in pixelgebaseerde modellen en benadrukt een fundamentele expressiviteit-precisie afweging. Ten slotte tonen we aan dat het fine-tunen van Large Multimodal Models (LMM's) op rigoureus geverifieerde synthetische wetenschappelijke afbeeldingen consistente redeneerwinst oplevert, met potentiële schaalverbanden analoog aan het tekstdomein, wat hoogwaardige wetenschappelijke synthese valideert als een haalbare weg om massale multimodale redeneercapaciteiten te ontsluiten.
De kwadratische complexiteit van standaard aandachtmechanismen vormt een belangrijke schaalbaarheidsbeperking voor grote taalmodellen (LLM's) in scenario's met lange context. Hoewel hybride aandachtstrategieën die sparse en volledige aandacht binnen één model combineren een haalbare oplossing bieden, gebruiken deze doorgaans statische rekenverhoudingen (d.w.z. vaste verhoudingen tussen sparse en volledige aandacht) en passen ze niet aan op de uiteenlopende sparsiteitsgevoeligheden van downstreamtaken tijdens inferentie. Om dit probleem aan te pakken, stellen wij Elastic Attention voor, waardoor het model zijn algehele sparsiteit dynamisch kan aanpassen op basis van de input. Dit wordt bereikt door een lichtgewicht Attention Router te integreren in het bestaande voorgetrainde model, die elke aandachtskop dynamisch toewijst aan verschillende rekenmodi. Met slechts 12 uur training op 8xA800 GPU's stelt onze methode modellen in staat om zowel sterke prestaties als efficiënte inferentie te bereiken. Experimenten op drie lange-context benchmarks met veelgebruikte LLM's tonen de superioriteit van onze methode aan.
Het vakgebied van beeldgeneratie is momenteel verdeeld in autoregressieve (AR) modellen die werken met discrete tokens en diffusiemodellen die gebruikmaken van continue latente representaties. Deze tweedeling, geworteld in het onderscheid tussen VQ-VAEs en VAEs, belemmert uniforme modellering en eerlijke benchmarking. Finite Scalar Quantization (FSQ) biedt een theoretische brug, maar de standaard FSQ-versie lijdt onder een kritiek gebrek: de kwantisering met gelijke intervallen kan leiden tot activeringscollaps. Deze mismatch dwingt tot een afweging tussen reconstructienauwkeurigheid en informatie-efficiëntie. In dit werk lossen we dit dilemma op door simpelweg de activeringsfunctie in de oorspronkelijke FSQ te vervangen door een mapping die de verdeling afstemt om een uniforme prior af te dwingen. Deze eenvoudige strategie, iFSQ genoemd, vereist slechts één regel code, maar garandeert wiskundig zowel optimaal bin-gebruik als reconstructieprecisie. Door iFSQ als gecontroleerde benchmark te gebruiken, onthullen we twee belangrijke inzichten: (1) Het optimale evenwicht tussen discrete en continue representaties ligt bij ongeveer 4 bits per dimensie. (2) Onder identieke reconstructiebeperkingen vertonen AR-modellen een snelle initiële convergentie, terwijl diffusiemodellen een superieur prestatieniveau bereiken, wat suggereert dat strikte sequentiële ordening de bovengrens van de generatiekwaliteit kan beperken. Ten slotte breiden we onze analyse uit door Representation Alignment (REPA) aan te passen voor AR-modellen, wat resulteert in LlamaGen-REPA. Code is beschikbaar op https://github.com/Tencent-Hunyuan/iFSQ.
Hoewel de evaluatie van agents is verschoven naar langetermijntaken, leggen de meeste benchmarks nog steeds de nadruk op lokaal, stap-voor-stap redeneren in plaats van op globale, beperkte optimalisatie (zoals tijd- en budgetbeperkingen) die echt planningsvermogen vereist. Tegelijkertijd zijn in bestaande LLM-planningsbenchmarks de actieve informatievergaring en fijnmazige lokale beperkingen die kenmerkend zijn voor realistische situaties ondervertegenwoordigd. Om dit aan te pakken, introduceren we DeepPlanning, een uitdagende benchmark voor praktische langetermijnplanning van agents. Deze omvat meerdaagse reisplanning en multi-product aankooptaken die proactieve informatieverwerving, lokaal beperkt redeneren en globale beperkte optimalisatie vereisen. Evaluaties met DeepPlanning tonen aan dat zelfs de meest geavanceerde agentische LLM's moeite hebben met deze problemen, wat het belang benadrukt van betrouwbare expliciete redeneerpatronen en parallel toolgebruik voor een betere effectiviteit-efficiëntie balans. Foutenanalyse wijst verder op veelbelovende richtingen voor het verbeteren van agentische LLM's over lange planningshorizons. We maken de code en data open source om toekomstig onderzoek te ondersteunen.
Ruimtelijke visuele waarneming is een fundamentele vereiste in fysieke toepassingen zoals autonoom rijden en robotmanipulatie, gedreven door de noodzaak om te interacteren met 3D-omgevingen. Het vastleggen van pixeluitgelijnde metrische diepte met RGB-D-camera's zou de meest haalbare methode zijn, maar wordt vaak belemmerd door hardwarebeperkingen en uitdagende beeldvormingsomstandigheden, vooral bij aanwezigheid van spiegelende of textuurloze oppervlakken. In dit werk stellen wij dat de onnauwkeurigheden van dieptesensoren kunnen worden gezien als "gemaskeerde" signalen die inherent onderliggende geometrische ambiguïteiten reflecteren. Voortbordurend op deze motivatie presenteren wij LingBot-Depth, een dieptecompleteringsmodel dat visuele context benut om dieptekaarten te verfijnen door gemaskeerde dieptemodellering, en dat een geautomatiseerde datacuratiepijplijn incorporeert voor schaalbare training. Het is bemoedigend dat ons model toonaangevende RGB-D-camera's overtreft op het gebied van zowel dieptenauwkeurigheid als pixeldekking. Experimentele resultaten voor een reeks downstreamtaken suggereren verder dat LingBot-Depth een uitgelijnde latente representatie biedt over RGB- en dieptemodaliteiten heen. Wij maken de code, checkpoint en 3M RGB-diepteparen (inclusief 2M echte data en 1M gesimuleerde data) openbaar voor de gemeenschap op het gebied van ruimtelijke waarneming.
Moderne videogeneratoren hebben nog steeds moeite met complexe fysieke dynamiek en slagen vaak niet in fysische realisme. Bestaande benaderingen pakken dit aan met externe verificatoren of aanvullende training op uitgebreide data, wat rekenkundig kostbaar is en nog steeds beperkt in het vastleggen van fijnmazige beweging. In dit werk presenteren we zelfverfijnende videobemonstering, een eenvoudige methode die een voorgetrainde videogenerator, getraind op grootschalige datasets, als zijn eigen verfijner gebruikt. Door de generator te interpreteren als een ruisonderdrukkende auto-encoder, maken we iteratieve verfijning in de innerlijke lus mogelijk tijdens inferentie, zonder externe verificator of aanvullende training. We introduceren verder een onzekerheidsbewuste verfijningsstrategie die selectief regio's verfijnt op basis van zelfconsistentie, wat artefacten door oververfijning voorkomt. Experimenten met state-of-the-art videogeneratoren tonen significante verbeteringen in bewegingscoherentie en fysica-overeenstemming, met meer dan 70% menselijke voorkeur vergeleken met de standaardbemonsteraar en op sturing gebaseerde bemonsteraar.
Dit rapport presenteert VibeVoice-ASR, een algemeen spraakbegripkader gebaseerd op VibeVoice, dat is ontworpen om de hardnekkige uitdagingen van contextfragmentatie en complexiteit bij meerdere sprekers in lange audio-opnames (bijvoorbeeld vergaderingen, podcasts) aan te pakken. Deze uitdagingen blijven bestaan ondanks recente vooruitgang in spraakherkenning voor kere fragmenten. In tegenstelling tot traditionele gepipelineerde benaderingen die afhankelijk zijn van het opdelen van audio in segmenten, ondersteunt VibeVoice-ASR eenmalige verwerking van audio tot 60 minuten. Het verenigt Automatische Spraakherkenning, Sprekerdiarisering en Tijdstempeling in één end-to-end generatietaak. Daarnaast ondersteunt VibeVoice-ASR meer dan 50 talen, vereist het geen expliciete taalinstelling en verwerkt het naadloos code-switching binnen en tussen uitingen. Verder introduceren we een op prompts gebaseerd mechanisme voor contextinjectie, waarmee gebruikers aangepaste context kunnen aanleveren. Dit verbetert de nauwkeurigheid aanzienlijk voor domeinspecifieke terminologie en de disambiguatie van homofone karakters.
De opkomst van altijd-actieve persoonlijke AI-assistenten, mogelijk gemaakt door draagbare apparaten voor dagelijks gebruik zoals slimme brillen, vereist een nieuw niveau van contextueel begrip. Dit begrip moet verder gaan dan korte, geïsoleerde gebeurtenissen en de continue, longitudinale stroom van egocentrische video omvatten. Het realiseren van deze visie vereist vooruitgang in langetermijnvideobegrip, waarbij systemen visuele en auditieve informatie over dagen of zelfs weken moeten interpreteren en onthouden. Bestaande methoden, waaronder grote taalmodel(len) en retrieval-augmented generation, worden beperkt door een beperkte contextvenstergrootte en missen het vermogen om compositionele, multi-hop redenering uit te voeren over zeer lange videostreams. In dit werk pakken we deze uitdagingen aan met EGAgent, een enhanced agentic framework gecentreerd rond entity scene graphs. Deze grafieken representeren mensen, locaties, objecten en hun onderlinge relaties over tijd. Ons systeem rust een planning agent uit met tools voor gestructureerd zoeken en redeneren over deze grafieken, evenals hybride visuele en auditieve zoekcapaciteiten, waardoor gedetailleerde, cross-modale en temporeel coherente redenering mogelijk wordt. Experimenten op de EgoLifeQA- en Video-MME (Long)-datasets tonen aan dat onze methode state-of-the-art prestaties bereikt op EgoLifeQA (57,5%) en competitieve prestaties op Video-MME (Long) (74,1%) voor complexe longitudinale videobegriptaken.
Waarneming en interactie in de echte wereld zijn van nature multimodaal en omvatten niet alleen taal, maar ook visie en spraak. Dit motiveert de ontwikkeling van "Omni" MLLM's die zowel multimodale invoer als multimodale uitvoer ondersteunen. Hoewel er een reeks Omni MLLM's is verschenen, zijn de meeste bestaande systemen nog steeds afhankelijk van extra expertcomponenten om multimodale generatie te bereiken, wat de eenvoud van uniforme training en inferie beperkt. Autoregressieve (AR) modellering, met een enkele tokenstroom, een enkel volgend-token-doel en een enkele decoder, is een elegante en schaalbare basis in het tekstdomein. Gemotiveerd door dit principe presenteren we AR-Omni, een uniforme any-to-any-model binnen het autoregressieve paradigma zonder enige expertdecoders. AR-Omni ondersteunt autoregressieve tekst- en beeldgeneratie, evenals streaming spraakgeneratie, allemaal onder een enkele Transformer-decoder. We pakken verder drie praktische problemen aan in uniforme AR-modellering: modaliteitsonevenwicht via taakbewust verliesherweging, visuele nauwkeurigheid via een lichtgewicht verlies voor perceptuele uitlijning op tokenniveau voor beeldtokens, en stabiliteit-creativiteit afwegingen via een eindige-toestand-decodermechanisme. Empirisch gezien bereikt AR-Omni een hoge kwaliteit over drie modaliteiten terwijl het realtime blijft, met het bereiken van een real-time factor van 0.88 voor spraakgeneratie.
Algemene inbeddingsmodellen hebben sterke prestaties getoond bij tekstretrieval, maar blijven suboptimaal voor tabelleretrieval, waar sterk gestructureerde inhoud leidt tot semantische compressie en query-tabel-mismatch. Recente op LLM gebaseerde retrieval-augmentatiemethoden verminderen dit probleem door synthetische queries te genereren, maar ze vertrouwen vaak op heuristische selectie van gedeeltelijke tabellen en benutten deze synthetische queries zelden als supervisie om het inbeddingsmodel te verbeteren. Wij introduceren CGPT, een trainingsraamwerk dat tabelleretrieval verbetert door middel van LLM-gegenereerde supervisie. CGPT construeert semantisch diverse gedeeltelijke tabellen door tabelinstanties te clusteren met K-means en te steekproeven over clusters om de semantische dekking te verbreden. Een LLM genereert vervolgens synthetische queries voor deze gedeeltelijke tabellen, die worden gebruikt in hard-negative contrastieve fine-tuning om het inbeddingsmodel te verfijnen. Experimenten op vier publieke benchmarks (MimoTable, OTTQA, FetaQA en E2E-WTQ) tonen aan dat CGPT consistent retrieval-baselines overtreft, inclusief QGpT, met een gemiddelde R@1-verbetering van 16,54 procent. In een uniforme multi-domein corpus-setting toont CGPT verder sterke cross-domein generalisatie en blijft het effectief, zelfs wanneer kleinere LLM's worden gebruikt voor synthetische querygeneratie. Deze resultaten geven aan dat semantisch geleide constructie van gedeeltelijke tabellen, gecombineerd met contrastieve training vanuit LLM-gegenereerde supervisie, een effectief en schaalbaar paradigma biedt voor grootschalige tabelleretrieval. Onze code is beschikbaar op https://github.com/yumeow0122/CGPT.
Algemene LLM-agenten worden vaak nagevormd op een beperkte set omgevingen, maar ingezet in veel bredere, onbekende domeinen. In dit werk onderzoeken we de uitdaging van agent-navorming wanneer de uiteindelijke testdomeinen onbekend zijn. Specifiek analyseren we welke eigenschappen van reinforcement learning (RL)-omgevingen en modelkeuzes de grootste invloed hebben op de prestaties buiten het domein. Ten eerste identificeren we twee omgevingassen die sterk correleren met domeinoverstijgende generalisatie: (i) rijkdom aan toestandinformatie, d.w.z. de hoeveelheid informatie die de agent uit de toestand moet verwerken, en (ii) planningscomplexiteit, geschat via doelbereikbaarheid en trajectlengte onder een basisbeleid. Opmerkelijk genoeg zijn domeinrealisme en tekstuele gelijkenis niet de primaire factoren; bijvoorbeeld, het eenvoudige roosterwerelddomein Sokoban leidt tot een sterkere generalisatie in SciWorld dan het meer realistische ALFWorld. Gemotiveerd door deze bevindingen, tonen we verder aan dat het alleen al vergroten van de rijkdom aan toestandinformatie de robuustheid over domeinen heen effectief kan verbeteren. We stellen een randomisatietechniek voor, die weinig overhead kent en breed toepasbaar is: voeg kleine hoeveelheden afleidende, doel-irrelevante kenmerken toe aan de toestand om deze rijker te maken zonder de taak te veranderen. Naast eigenschappen aan de omgevingskant, onderzoeken we ook verschillende modelkeuzes: (a) SFT-opwarming of mid-training helpt catastrofaal vergeten tijdens RL te voorkomen, maar ondermijnt generalisatie naar domeinen die niet zijn opgenomen in de mid-training datamix; en (b) het inschakelen van stap-voor-stap-denken tijdens RL, hoewel het niet altijd de prestaties binnen het domein verbetert, speelt een cruciale rol bij het behoud van generalisatie.
Door gebruik te maken van multi-teacher distillatie bieden agglomeratieve vision backbones een verenigd studentmodel dat de distinctieve capaciteiten van meerdere teachers behoudt en verbetert. In dit technische rapport beschrijven we de meest recente release van de C-RADIO model familie, C-RADIOv4, die voortbouwt op het ontwerp van AM-RADIO/RADIOv2.5 en sterke verbeteringen biedt op cruciale downstream taken bij dezelfde rekencomplexiteit. We releasen de modelvarianten -SO400M (412M parameters) en -H (631M), beide getraind met een geüpdatete set teachers: SigLIP2, DINOv3 en SAM3. Naast verbeteringen op kernmetrieken en nieuwe capaciteiten door imitatie van SAM3, verbetert de C-RADIOv4 modelfamilie verder de ondersteuning voor elke resolutie, brengt ze de ViTDet-optie terug voor drastisch verbeterde efficiëntie bij hoge resolutie, en wordt ze geleverd met een permissieve licentie.
Tijdreeksgegevens zijn alomtegenwoordig in realistische scenario's en cruciaal voor kritieke toepassingen, variërend van energiebeheer tot verkeersregeling. Bijgevolg is het vermogen om te redeneren over tijdreeksen een fundamentele vaardigheid voor generalistische modellen om praktische problemen op te lossen. Deze dimensie is echter opvallend afwezig in bestaande benchmarks voor generalistische modellen. Om deze kloof te overbruggen, introduceren we TSRBench, een uitgebreide multimodale benchmark die ontworpen is om het volledige spectrum van tijdreeksredeneervaardigheden stresstesten te onderwerpen. TSRBench kenmerkt zich door: i) een diverse set van 4125 problemen uit 14 domeinen, ingedeeld in 4 hoofddimensies: Perceptie, Redeneren, Voorspelling en Besluitvorming. ii) 15 taken uit de 4 dimensies die essentiële redeneervaardigheden evalueren (bijv. numeriek redeneren). Via uitgebreide experimenten evalueerden we meer dan 30 toonaangevende propriëtaire en open-source LLM's, VLM's en TSLLM's binnen TSRBench. Onze bevindingen onthullen dat: i) schaalwetten gelden voor perceptie en redeneren, maar afbreken voor voorspelling; ii) sterk redeneren geen accurate contextbewuste voorspelling garandeert, wat wijst op een ontkoppeling tussen semantisch begrip en numerieke voorspelling; en iii) ondanks het complementaire karakter van tekstuele en visuele representaties van tijdreeksen als invoer, huidige multimodale modellen er niet in slagen deze effectief te fusioneren voor wederzijdse prestatieverbeteringen. TSRBench biedt een gestandaardiseerd evaluatieplatform dat niet alleen bestaande uitdagingen belicht, maar ook waardevolle inzichten biedt om generalistische modellen verder te ontwikkelen. Onze code en dataset zijn beschikbaar op https://tsrbench.github.io/.
Grootschalige videogeneratiemodellen hebben emergent fysisch coherentie gedemonstreerd, waardoor ze zich positioneren als potentiële wereldmodellen. Er blijft echter een kloof bestaan tussen hedendaagge "stateloze" video-architecturen en klassieke, op toestanden gerichte wereldmodeltheorieën. Dit werk overbrugt deze kloof door een nieuwe taxonomie voor te stellen die draait om twee pijlers: Toestandsconstructie en Dynamiekmodellering. We categoriseren toestandsconstructie in impliciete paradigma's (contextmanagement) en expliciete paradigma's (latente compressie), terwijl dynamiekmodellering wordt geanalyseerd door kennisintegratie en architectuurherformulering. Verder pleiten we voor een verschuiving in evaluatie van visuele geloofwaardigheid naar functionele benchmarks, waarbij fysisch persistentie en causaal redeneren worden getest. We sluiten af door twee kritieke fronten te identificeren: het verbeteren van persistentie via data-gedreven geheugen en gecomprimeerde geloofwaardigheid, en het bevorderen van causaliteit door ontkoppeling van latente factoren en integratie van redeneer-priors. Door deze uitdagingen aan te pakken, kan het veld evolueren van het genereren van visueel geloofwaardige video's naar het bouwen van robuuste, algemene wereldsimulators.
Videogeneratie vormt een hoeksteen voor het bouwen van wereldmodellen, waarbij multimodale contextuele inferentie de bepalende test voor capaciteit is. Hiertoe presenteren wij SkyReels-V3, een conditioneel videogeneratiemodel, gebouwd op een uniform multimodaal in-context leerframework met diffusion Transformers. Het SkyReels-V3-model ondersteunt drie kern generatieve paradigma's binnen een enkele architectuur: referentiebeelden-naar-video synthese, video-naar-video extensie en audiogestuurde videogeneratie. (i) Het referentiebeelden-naar-video model is ontworpen om video's van hoge kwaliteit te produceren met sterke identiteitsbehoud van het onderwerp, temporele coherentie en narratieve consistentie. Om de naleving van referenties en compositionele stabiliteit te verbeteren, hebben we een uitgebreide dataverwerkingspijplijn ontworpen die gebruikmaakt van kruis-frame koppeling, beeldbewerking en semantisch herschrijven, waardoor kopieer-plak-artefacten effectief worden verminderd. Tijdens de training wordt een hybride beeld-video strategie gecombineerd met multi-resolutie gezamenlijke optimalisatie toegepast om de generalisatie en robuustheid in diverse scenario's te verbeteren. (ii) Het video-extensiemodel integreert spatio-temporele consistentiemodellering met grootschalig videobegrip, waardoor zowel naadloze single-shot voortzetting als intelligente multi-shot switching met professionele cinematografische patronen mogelijk wordt. (iii) Het sprekende avatar-model ondersteunt minutenlange audiogestuurde videogeneratie door eerst-en-laatste-frame invoegpatronen te trainen en key-frame inferentieparadigma's te reconstrueren. Op basis van het waarborgen van visuele kwaliteit is de synchronisatie van audio en video geoptimaliseerd. Uitgebreide evaluaties tonen aan dat SkyReels-V3 state-of-the-art of bijna state-of-the-art prestaties bereikt op belangrijke metrieken, inclusief visuele kwaliteit, instructievolging en specifieke aspectmetrieken, waarbij het de toonaangevende closed-source systemen benadert. Github: https://github.com/SkyworkAI/SkyReels-V3.
Tabelretrieval is de taak om de meest relevante tabellen uit grootschalige corpora te halen op basis van natuurlijke taalvragen. Structurele en semantische verschillen tussen ongestructureerde tekst en gestructureerde tabellen maken embedding-uitlijning echter bijzonder uitdagend. Recente methoden zoals QGpT proberen de tabel semantiek te verrijken door synthetische vragen te genereren, maar ze vertrouwen nog steeds op grove partiële-tabelsteekproeven en eenvoudige fusiestrategieën, wat de semantische diversiteit beperkt en effectieve vraag-tabel-uitlijning belemmert. Wij stellen STAR (Semantic Table Representation) voor, een lichtgewicht raamwerk dat de semantieke tabelrepresentatie verbetert door semantische clustering en gewogen fusie. STAR past eerst header-aware K-means clustering toe om semantisch vergelijkbare rijen te groeperen en selecteert representatieve centroid-instanties om een diverse partiële tabel te construeren. Vervolgens genereert het clusterspecifieke synthetische vragen om de semantische ruimte van de tabel uitgebreid te dekken. Ten slotte gebruikt STAR gewogen fusiestrategieën om tabel- en vraag-embeddings te integreren, waardoor fijnmazige semantische uitlijning mogelijk wordt. Dit ontwerp stelt STAR in staat complementaire informatie uit gestructureerde en tekstuele bronnen vast te leggen, wat de expressiviteit van tabelrepresentaties verbetert. Experimenten op vijf benchmarks tonen aan dat STAR consequent een hogere Recall bereikt dan QGpT op alle datasets, wat de effectiviteit aantoont van semantische clustering en adaptieve gewogen fusie voor robuuste tabelrepresentatie. Onze code is beschikbaar op https://github.com/adsl135789/STAR.
Ondanks de toenemende adoptie van grote taalmodel(len) (LLM's) in wetenschappelijke onderzoekswerkstromen, blijft geautomatiseerde ondersteuning voor academische weerlegging, een cruciale stap in academische communicatie en peer review, grotendeels onontgonnen. Bestaande benaderingen maken doorgaans gebruik van kant-en-klare LLM's of eenvoudige pijplijnen, die moeite hebben met het begrijpen van lange contexten en vaak niet in staat zijn gerichte en overtuigende antwoorden te produceren. In dit artikel stellen we DRPG voor, een agent-gebaseerd raamwerk voor het automatisch genereren van academische weerleggingen dat opereert in vier stappen: Deel beoordelingen op in atomische punten van zorg, Haal relevante bewijsstukken uit het artikel op, Plan weerleggingsstrategieën en Genereer dienovereenkomstig antwoorden. Opmerkelijk is dat de Planner in DRPG een nauwkeurigheid van meer dan 98% bereikt in het identificeren van de meest haalbare weerleggingsrichting. Experimenten met gegevens van topconferenties tonen aan dat DRPG bestaande weerleggingspijplijnen significant overtreft en prestaties levert die het gemiddelde menselijke niveau overstijgen, waarbij slechts een 8B-model wordt gebruikt. Onze analyse toont verder de effectiviteit van het planner-ontwerp en de waarde ervan bij het geven van multi-perspectieve en uitlegbare suggesties. We toonden ook aan dat DRPG goed functioneert in een complexere, multi-ronde setting. Deze resultaten onderstrepen de effectiviteit van DRPG en het potentieel om hoogwaardige weerleggingsinhoud te bieden en de schaalvergroting van academische discussies te ondersteunen. Code voor dit werk is beschikbaar op https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
Veel Vision-Language-Action (VLA)-modellen vouwen beeldpatches plat tot een 1D-tokenreeks, waardoor de 2D-ruimtelijke aanwijzingen die nodig zijn voor precieze manipulatie worden verzwakt. Wij introduceren IVRA, een lichtgewicht, trainingsvrije methode die het ruimtelijk begrip verbetert door gebruik te maken van affiniteitsaanwijzingen die reeds beschikbaar zijn in de ingebouwde visuele encoder van het model, zonder dat een externe encoder of hertraining nodig is. IVRA injecteert deze affiniteitssignalen selectief in een taalmodel-laag waarin instantieniveau-functies zich bevinden. Deze interventie tijdens de inferentie herstelt de interacties tussen visuele tokens en behoudt de geometrische structuur beter, terwijl alle modelparameters vast blijven. Wij tonen de algemene toepasbaarheid van IVRA aan door het toe te passen op diverse VLA-architecturen (LLaRA, OpenVLA en FLOWER) in gesimuleerde benchmarks voor zowel 2D- als 3D-manipulatie (VIMA en LIBERO) en op verschillende taken met echte robots. Op 2D VIMA verbetert IVRA het gemiddelde succespercentage met +4,2% ten opzichte van de LLaRA-baseline in een regime met weinig data. Op 3D LIBERO levert het consistente verbeteringen op ten opzichte van de OpenVLA- en FLOWER-baselines, inclusief verbeteringen wanneer de baseline-nauwkeurigheid bijna verzadigd is (van 96,3% naar 97,1%). Alle code en modellen zullen openbaar worden vrijgegeven. Visualisaties zijn beschikbaar op: jongwoopark7978.github.io/IVRA
Deep search agents, die tot doel hebben complexe vragen te beantwoorden die redenering over meerdere documenten vereisen, kunnen het informatiezoekproces aanzienlijk versnellen. Het verzamelen van menselijke annotaties voor deze toepassing is buitengewoon kostbaar vanwege lange en complexe onderzoektrajecten. Wij stellen een pijplijn met agenten voor die automatisch hoogwaardige, op moeilijkheidsgraad gecontroleerde vraag-antwoordparen voor deep search genereert voor een gegeven corpus en een beoogd moeilijkheidsniveau. Onze pijplijn, SAGE, bestaat uit een datagenerator die QA-paren voorstelt en een zoekagent die de gegenereerde vraag probeert op te lossen en uitvoeringsfeedback verschaft aan de datagenerator. De twee componenten interacteren over meerdere ronden om de vraag-antwoordparen iteratief te verfijnen totdat ze voldoen aan het beoogde moeilijkheidsniveau. Onze intrinsieke evaluatie toont aan dat SAGE vragen genereert die uiteenlopende redeneerstrategieën vereisen, terwijl de correctheid en moeilijkheidsgraad van de gegenereerde data aanzienlijk toenemen. Onze extrinsieke evaluatie laat een relatieve prestatieverbetering van tot 23% zien op populaire deep search benchmarks door deep search agents te trainen met onze synthetische data. Aanvullende experimenten tonen aan dat agents getraind op onze data zich tijdens inferentie kunnen aanpassen van retrieval binnen een vast corpus naar Google Search, zonder verdere training.
Conventionele agentsystemen hebben vaak moeite in open-ended omgevingen waar taakverdelingen continu verschuiven en externe supervisie schaars is. Hun afhankelijkheid van statische toolkits of offline training loopt achter op deze dynamiek, waardoor de capaciteitsgrenzen van het systeem rigide en onbekend blijven. Om dit aan te pakken, stellen we het In-Situ Zelf-Evoluerende paradigma voor. Deze benadering behandelt sequentiële taakinteracties als een continue stroom van ervaring, waardoor het systeem kortdurende uitvoeringsfeedback kan destilleren tot langdurige, herbruikbare capaciteiten zonder toegang tot ground-truth labels. Binnen dit raamwerk identificeren we tool-evolutie als het kritieke pad voor capaciteitsuitbreiding, dat verifieerbare, binaire feedbacksignalen verschaft. Binnen dit raamwerk ontwikkelen we Yunjue Agent, een systeem dat iteratief tools synthetiseert, optimaliseert en hergebruikt om nieuwe uitdagingen het hoofd te bieden. Om de evolutionaire efficiëntie te optimaliseren, introduceren we verder een Parallelle Batch-Evolutie strategie. Empirische evaluaties over vijf diverse benchmarks in een zero-start setting tonen significante prestatieverbeteringen aan ten opzichte van propriëtaire baseline-systemen. Daarnaast bevestigen aanvullende warm-start evaluaties dat de opgebouwde algemene kennis naadloos kan worden overgedragen naar nieuwe domeinen. Ten slotte stellen we een nieuwe metriek voor om evolutionaire convergentie te monitoren, die functioneert als een analogie voor de trainingsloss in conventionele optimalisatie. We maken onze codebase, systeemtraces en geëvolueerde tools open source om toekomstig onderzoek naar veerkrachtige, zelf-evoluerende intelligentie te faciliteren.
Een van de meest overtuigende kenmerken van globale discrete diffusietaalmodellen is hun wereldwijde bidirectionele contextuele vermogen. Bestaande blokgebaseerde diffusiestudies introduceren echter vaak autoregressieve priors, die weliswaar voordelen bieden, maar ertoe kunnen leiden dat modellen deze globale samenhang op macroniveau verliezen. Om het wereldwijde contextbegrip te herwinnen en tegelijk de voordelen van het semi-autoregressieve paradigma te behouden, presenteren wij Diffusion in Diffusion: een 'klad-versie-then-verfijnen'-raamwerk ontworpen om de onomkeerbaarheid en kortzichtigheid inherent aan blokdiffusiemodellen te overwinnen. Onze aanzet gebruikt eerst blokdiffusie om snelle kladversies met kleine blokken te genereren, en verfijnt deze vervolgens via globale bidirectionele diffusie met een groter bidirectioneel receptief veld. Wij passen snapshot-vertrouwenshermaskering toe om de meest kritieke tokens te identificeren die wijziging behoeven, en gebruiken mixed-schaal training om de globale capaciteiten van het blokdiffusiemodel uit te breiden. Empirische resultaten tonen aan dat onze aanzet een nieuwe standaard zet voor discrete diffusiemodellen op de OpenWebText-dataset. Met slechts 26% van het fine-tuningbudget van baseline-modellen verlagen wij de generatieve perplexiteit van 25,7 naar 21,9, waardoor de prestatiekloof met autoregressieve modellen aanzienlijk wordt verkleind.
Efficiënt beheer van de key-value (KV) cache is cruciaal voor de praktische implementatie van large language models (LLM's), maar bestaande compressietechnieken gaan vaak gepaard met een afweging tussen prestatieverlies en rekenkosten. Wij stellen een nieuwe, op gating gebaseerde KV-cache-evictiemethode voor voor LLM's met bevroren gewichten, die hoge compressieverhoudingen bereikt met verwaarloosbare rekenkosten. Onze aanpak introduceert lichtgewicht sink-attention-gatingmodules om kritieke KV-paren te identificeren en te behouden, en integreert naadloos in zowel de prefill- als decoderingsfasen. Het voorgestelde gate-trainingsalgoritme steunt op forward passes van een LLM, waardoor dure backpropagatie vermeden wordt, terwijl het sterke taakgeneralisatie bereikt via een taakonafhankelijk reconstructiedoel. Uitgebreide experimenten met de Qwen2.5-1B, Qwen2.5-3B en Gemma2-9B modelfamilies tonen aan dat onze methode een bijna verliesvrije prestatie handhaaft terwijl tot 70% van de KV-cache wordt verwijderd. De resultaten zijn consistent over een breed scala aan taken, waaronder begrip van lange contexten, codebegrip en wiskundig redeneren, wat de algemene toepasbaarheid van onze aanpak aantoont.
Afstemming van Large Language Models (LLM's) heeft als doel uitvoer af te stemmen op menselijke voorkeuren, en gepersonaliseerde afstemming past modellen verder aan op individuele gebruikers. Dit is gebaseerd op gepersonaliseerde beloningsmodellen die gebruikersspecifieke voorkeuren vastleggen en automatisch geïndividualiseerde feedback geven. De ontwikkeling van deze modellen wordt echter geconfronteerd met twee kritieke uitdagingen: de schaarste aan feedback van individuele gebruikers en de behoefte aan efficiënte aanpassing aan onbekende gebruikers. Wij stellen dat het aanpakken van deze beperkingen een paradigmaverschuiving vereist: van het aanpassen aan data om gebruikersvoorkeuren te leren, naar het leren van het proces van voorkeursaanpassing. Om dit te realiseren, stellen we Meta Reward Modeling (MRM) voor, dat gepersonaliseerde beloningsmodellering herformuleert als een meta-leerprobleem. Concreet vertegenwoordigen we het beloningsmodel van elke gebruiker als een gewogen combinatie van basisbeloningsfuncties, en optimaliseren we de initialisatie van deze gewichten met een Model-Agnostic Meta-Learning (MAML)-achtig framework om snelle aanpassing bij beperkte feedback te ondersteunen. Om robuustheid te waarborgen, introduceren we het Robuuste Personalisatiedoel (Robust Personalization Objective, RPO), dat tijdens de meta-optimalisatie meer nadruk legt op gebruikers die moeilijk aan te leren zijn. Uitgebreide experimenten op gepersonaliseerde voorkeursdatasets bevestigen dat MRM few-shot-personalisatie verbetert, de gebruikersrobuustheid verhoogt en consistent beter presteert dan baseline-methoden.
Codewisseling is een wijdverspreid fenomeen onder de meerderheid van de wereldbevolking die meertalig is, toch zijn er weinig ijkpunten die de complexiteit ervan in alledaagse communicatie accuraat weerspiegelen. Wij presenteren PingPong, een ijkpunt voor natuurlijke meerpartijcodewisselingsdialogen dat vijf taalcombinatievarianten omvat, waarvan sommige drietalig zijn. Onze dataset bestaat uit door mensen geschreven gesprekken tussen 2 tot 4 deelnemers, met authentieke, multithread-structuren waarin antwoorden vaak verwijzen naar veel eerdere punten in de dialoog. Wij tonen aan dat onze data aanzienlijk natuurlijker en structureel diverser is dan machinegegenereerde alternatieven, met meer variatie in berichtlengte, sprekersdominantie en antwoordafstand. Gebaseerd op deze dialogen definiëren wij drie downstreamtaken: Vraagbeantwoording, Dialoogsamenvatting en Onderwerpsclassificatie. Evaluaties van verschillende state-of-the-art taalmmodellen op PingPong tonen aan dat de prestaties op codewisselende invoer beperkt blijven, wat de dringende behoefte benadrukt aan robuustere NLP-systemen die de complexiteit van realistische meertalige discours kunnen adresseren.
Mixture-of-Experts (MoE)-modellen worden doorgaans voorgetraind met expliciete belastingsbalanceringsbeperkingen om statistisch gebalanceerde expertroutering te garanderen. Desondanks merken we op dat zelfs goed getrainde MoE-modellen een significant onevenwichtige routering vertonen. Dit gedrag is wellicht natuurlijk – en zelfs wenselijk – omdat onevenwichtige routering modellen in staat stelt domeinspecifieke kennis te concentreren binnen een subset van experts. Expertparallelisme (EP) is ontworpen om MoE-modellen te schalen door experts over meerdere apparaten te verdelen, maar gaat uit van de minder besproken veronderstelling van gebalanceerde routering. Onder extreme onevenwichtigheid kan EP een onevenredig groot aantal tokens naar een klein aantal experts leiden, wat resulteert in reken- en geheugen gebonden fouten op overbelaste apparaten tijdens natreining of inferentie, waar expliciete belastingsbalancering vaak niet toepasbaar is. Wij stellen Least-Loaded Expert Parallelism (LLEP) voor, een nieuw EP-algoritme dat overtollige tokens en bijbehorende expertparameters dynamisch omleidt van overbelaste naar onderbenutte apparaten. Dit zorgt ervoor dat alle apparaten hun werklast voltooien binnen de minimale collectieve latentietijd, met inachtneming van geheugenbeperkingen. Over verschillende modelschalen heen behaalt LLEP een versnelling tot 5x en een vermindering van het piekgeheugengebruik met 4x in vergelijking met standaard EP. Dit maakt snellere natreining en inferentie met een hogere doorvoer mogelijk, met ~1,9x snellere verwerking voor gpt-oss-120b. Wij ondersteunen onze methode met uitgebreide theoretische analyse en uitgebreide empirische evaluaties, inclusief ablatiestudies. Deze resultaten belichten belangrijke afwegingen en maken een principieel kader mogelijk voor hardware-specifieke hyperparameterafstemming om optimale prestaties te bereiken.
Nauwkeurige transcriptie en sprekersdiarisering van gesproken interacties tussen kinderen en volwassenen zijn cruciaal voor ontwikkelings- en klinisch onderzoek. Handmatige annotatie is echter tijdrovend en moeilijk op te schalen. Bestaande geautomatiseerde systemen zijn doorgaans gebaseerd op gecascadeerde pijplijnen voor sprekersdiarisering en spraakherkenning, wat kan leiden tot foutenpropagatie. Dit artikel presenteert een uniform end-to-end raamwerk dat de Whisper encoder-decoder-architectuur uitbreidt om ASR en diarisering van de sprekersrol (kind-volwassene) gezamenlijk te modelleren. De voorgestelde aanpak integreert: (i) een geserialiseerd output-trainingsschema dat sprekerlabels en start-/eindtijdstippen uitgeeft, (ii) een lichtgewicht diariseringsmodule op frameniveau die de sprekersdiscriminatieve encoderrepresentaties verbetert, (iii) diarisering-gestuurde stilte-onderdrukking voor verbeterde temporele precisie, en (iv) een op een toestandsautomaat gebaseerde geforceerde decoderingprocedure die structureel valide outputs garandeert. Uitgebreide evaluaties op twee datasets tonen consistente en substantiële verbeteringen ten opzichte van twee gecascadeerde baselines, met lagere multi-talker woordfoutenpercentages en competitieve diariseringsnauwkeurigheid voor zowel de Whisper-small als Whisper-large modellen. Deze bevindingen onderstrepen de effectiviteit en praktische bruikbaarheid van het voorgestelde gezamenlijke modelleerraamwerk voor het op grote schaal genereren van betrouwbare, aan sprekers toegewezen transcripties van kind-volwassene interacties. De code en modelgewichten zijn openbaar beschikbaar.
Naarmate Multimodale Large Language Models (MLLMs) sterkere redeneervaardigheden verwerven om complexe, multi-beeld instructies te verwerken, kan deze vooruitgang nieuwe veiligheidsrisico's met zich meebrengen. Wij bestuderen dit probleem door MIR-SafetyBench te introduceren, de eerste benchmark die gericht is op de veiligheid van redeneren over meerdere beelden. Deze bestaat uit 2.676 instanties verdeeld over een taxonomie van 9 multi-beeld relaties. Onze uitgebreide evaluaties van 19 MLLMs onthullen een zorgwekkende trend: modellen met geavanceerdere multi-beeld redeneervaardigheden kunnen kwetsbaarder zijn op MIR-SafetyBench. Naast de slagingspercentages van aanvallen constateren we dat veel reacties die als veilig zijn bestempeld, oppervlakkig zijn en vaak worden ingegeven door misverstanden of ontwijkende, niet-committerende antwoorden. Verder observeren we dat onveilige gegenereerde antwoorden gemiddeld een lagere aandacht-entropie vertonen dan veilige. Deze interne signatuur suggereert een mogelijk risico dat modellen zich te veel kunnen focussen op het oplossen van taken terwijl ze veiligheidsrestricties verwaarlozen. Onze code en data zijn beschikbaar op https://github.com/thu-coai/MIR-SafetyBench.
Op LLM's gebaseerde zoekagentschappen worden steeds vaker ingezet voor meerstaps informatiezoektaken, maar de IR-gemeenschap beschikt nog over weinig empirisch inzicht in hoe agent-gedreven zoeksessies verlopen en hoe geretourneerd bewijsmateriaal wordt gebruikt. Dit artikel presenteert een grootschalige loganalyse van agent-gedreven zoekgedrag, gebaseerd op 14.44 miljoen zoekverzoeken (3.97 miljoen sessies) verzameld vanuit DeepResearchGym, een open-source zoek-API die wordt benaderd door externe agent-gedreven clients. We segmenteren de logs in sessies, kennen sessie-brede intenties en stapsgewijze queryherformuleringslabels toe met behulp van op LLM's gebaseerde annotatie, en introduceren Context-gedreven Term Adoptie Graad (CTAR) om te kwantificeren of nieuw geïntroduceerde querytermen herleidbaar zijn tot eerder verkregen bewijsmateriaal. Onze analyses onthullen onderscheidende gedragspatronen. Ten eerste bevat meer dan 90% van de meertalige sessies maximaal tien stappen, en vallen 89% van de intervallen tussen stappen onder de één minuut. Ten tweede varieert het gedrag per intentie. Feitenzoekende sessies vertonen een hoge mate van herhaling die in de tijd toeneemt, terwijl sessies die redenering vereisen een bredere verkenning volhouden. Ten derde hergebruiken agents bewijsmateriaal over stappen heen. Gemiddeld verschijnt 54% van de nieuw geïntroduceerde querytermen in de geaccumuleerde bewijscontext, waarbij eerdere stappen, voorbij de meest recente retrieval, hieraan bijdragen. De bevindingen suggereren dat agent-gedreven zoeken baat kan hebben bij herhalingsbewust vroegtijdig stoppen, intentie-adaptieve retrievalbudgetten en expliciete contexttracking over stappen heen. We zijn van plan de geanonimiseerde logs vrij te geven om toekomstig onderzoek te ondersteunen.
Aandachtmatrices vormen de basis van transformer-onderzoek en ondersteunen een breed scala aan toepassingen, waaronder interpreteerbaarheid, visualisatie, manipulatie en distillatie. Toch richten de meeste bestaande analyses zich op individuele aandachtskoppen of lagen, waarbij het globale gedrag van het model buiten beschouwing wordt gelaten. Hoewel eerdere inspanningen aandachtformuleringen hebben uitgebreid over meerdere koppen via gemiddelden en matrixvermenigvuldigingen, of componenten zoals normalisatie en FFN's hebben geïntegreerd, ontbreekt het nog steeds aan een uniforme en complete representatie die alle transformerblokken omvat. Wij voorzien in deze leemte door TensorLens te introduceren, een nieuwe formulering die de volledige transformer vat als een enkele, invoerafhankelijke lineaire operator uitgedrukt door een hogere-orde aandacht-interactietensor. Deze tensor codeert gezamenlijk aandacht, FFN's, activaties, normalisaties en residuele verbindingen, en biedt een theoretisch coherente en expressieve lineaire representatie van de modelberekening. TensorLens is theoretisch onderbouwd en onze empirische validatie toont aan dat het rijkere representaties oplevert dan eerdere aandacht-aggregatiemethoden. Onze experimenten tonen aan dat de aandachtstensor kan dienen als een krachtige basis voor het ontwikkelen van tools gericht op interpreteerbaarheid en modelbegrip. Onze code is als bijlage toegevoegd.
Het ontwerpen van gebruikersinterfaces (UI's) is een cruciale stap bij het lanceren van producten, het opbouwen van portfolio's of het personaliseren van projecten. Toch hebben eindgebruikers zonder ontwerpexpertise vaak moeite om hun intentie onder woorden te brengen en vertrouwen te hebben in ontwerpkeuzes. Bestaande op voorbeelden gebaseerde tools stimuleren ofwel brede verkenning, wat kan leiden tot overweldiging en ontwerpafwijking, of vereisen het aanpassen van een enkel voorbeeld, met het risico op ontwerpfixatie. Wij presenteren UI Remix, een interactief systeem dat mobiel UI-ontwerp ondersteunt via een op voorbeelden gebaseerde ontwerpwerkstroom. Aangedreven door een multimodaal retrieval-augmented generation (MMRAG)-model, stelt UI Remix iteratieve zoek-, selectie- en aanpassingsmogelijkheden van voorbeelden mogelijk, zowel op globaal (gehele interface) als lokaal (component) niveau. Om vertrouwen te bevorderen, toont het bron transparantie-aanwijzingen zoals beoordelingen, downloadaantallen en ontwikkelaarsinformatie. In een empirische studie met 24 eindgebruikers verbeterde UI Remix significant het vermogen van deelnemers om hun ontwerpdoelen te bereiken, vergemakkelijkte het effectieve iteratie en stimuleerde het de verkenning van alternatieve ontwerpen. Deelnemers gaven ook aan dat bron transparantie-aanwijzingen hun vertrouwen in het aanpassen van voorbeelden vergrootten. Onze bevindingen suggereren nieuwe richtingen voor door AI ondersteunde, op voorbeelden gebaseerde systemen die eindgebruikers in staat stellen om met meer controle, vertrouwen en openheid voor verkenning te ontwerpen.
Grote Taalmodellen worden in toenemende mate geoptimaliseerd voor diep redeneren, waarbij de correcte uitvoering van complexe taken voorrang krijgt boven algemeen gesprek. Wij onderzoeken of deze focus op berekening een "tunnelvisie" creëert die veiligheid in kritieke situaties negeert. Wij introduceren MortalMATH, een benchmark met 150 scenario's waarin gebruikers om hulp bij algebra vragen terwijl ze steeds levensbedreigender noodsituaties beschrijven (bijvoorbeeld beroertesymptomen, vrije val). Wij constateren een scherp gedragsverschil: generalistische modellen (zoals Llama-3.1) weigeren succesvol de wiskunde uit te voeren om het gevaar aan te pakken. Daarentegen negeren gespecialiseerde redeneermodellen (zoals Qwen-3-32b en GPT-5-nano) de noodsituatie vaak volledig en handhaven ze slagingspercentages van meer dan 95 procent terwijl de gebruiker beschrijft dat hij/zij sterft. Bovendien introduceert de benodigde rekentijd voor het redeneren gevaarlijke vertragingen: tot 15 seconden voordat enige potentiële hulp wordt geboden. Deze resultaten suggereren dat het trainen van modellen om meedogenloos correcte antwoorden na te jagen, onbedoeld de overlevingsinstincten die nodig zijn voor veilige inzet kan afleren.
Versterkend leren (RL) heeft veelbelovende resultaten getoond bij actieve stromingsregeling (AFC), maar de vooruitgang in het veld blijft moeilijk in te schatten omdat bestaande studies zich baseren op heterogene observatie- en actuatieschema's, numerieke opzetten en evaluatieprotocollen. Huidige AFC-benchmarks proberen deze problemen aan te pakken, maar zijn sterk afhankelijk van externe computationele fluïdumdynamica (CFD)-solvers, zijn niet volledig differentieerbaar en bieden beperkte ondersteuning voor 3D en multi-agent systemen. Om deze beperkingen te overwinnen, introduceren wij FluidGym, de eerste zelfstandige, volledig differentieerbare benchmark suite voor RL in AFC. Volledig gebouwd in PyTorch bovenop de GPU-versnelde PICT-solver, draait FluidGym in een enkele Python-stack, vereist geen externe CFD-software en biedt gestandaardiseerde evaluatieprotocollen. Wij presenteren basislijnresultaten met PPO en SAC en stellen alle omgevingen, datasets en getrainde modellen beschikbaar als publieke bronnen. FluidGym maakt een systematische vergelijking van regelmethoden mogelijk, legt een schaalbare basis voor toekomstig onderzoek in leergebaseerde stromingsregeling en is beschikbaar op https://github.com/safe-autonomous-systems/fluidgym.
Visuele tokencompressie wordt op grote schaal toegepast om de inferentie-efficiëntie van Grote Visueel-Taalmodellen (LVLM's) te verbeteren, waardoor hun inzet in scenario's met gevoelige latentie en beperkte middelen mogelijk wordt. Bestaand onderzoek heeft zich echter voornamelijk gericht op efficiëntie en prestaties, terwijl de veiligheidsimplicaties van visuele tokencompressie grotendeels onontgonnen zijn gebleven. In dit werk tonen we eerst aan dat visuele tokencompressie de robuustheid van LVLM's aanzienlijk aantast: modellen die robuust zijn onder ongecomprimeerde inferentie worden zeer kwetsbaar zodra compressie is ingeschakeld. Deze kwetsbaarheden zijn toestandspecifiek; faalwijzen treden alleen op in de gecomprimeerde setting en verdwijnen volledig wanneer compressie is uitgeschakeld, waardoor ze bijzonder verborgen en moeilijk te diagnosticeren zijn. Door de belangrijkste fasen van het compressieproces te analyseren, identificeren we instabiliteit in de rangschikking van tokenbelangrijkheid als de primaire oorzaak van deze robuustheidsafname. Kleine en onwaarneembare verstoringen kunnen de tokenrangschikking aanzienlijk veranderen, waardoor het compressiemechanisme ten onrechte taakkritische informatie verwijdert en uiteindelijk tot modelfalen leidt. Gemotiveerd door deze observatie stellen we een Compressiebewuste Aanval (Compression-Aware Attack - CAA) voor om deze kwetsbaarheid systematisch te bestuderen en uit te buiten. CAA richt zich rechtstreeks op het tokenselectiemechanisme en induceert fouten uitsluitend onder gecomprimeerde inferentie. We breiden deze aanpak verder uit naar meer realistische black-box settings en introduceren Overgedragen CAA (Transfer CAA), waarbij noch het doelmodel, noch de compressieconfiguratie toegankelijk is. We evalueren verder potentiële verdedigingsmechanismen en concluderen dat deze slechts beperkte bescherming bieden. Uitgebreide experimenten met verschillende modellen, datasets en compressiemethoden tonen aan dat visuele tokencompressie de robuustheid significant ondermijnt, wat een voorheen over het hoofd geziene efficiëntie-veiligheid trade-off aan het licht brengt.
De betrouwbaarheid van Large Language Models (LLM's) in hoog-risicodomeinen zoals gezondheidszorg, recht en wetenschappelijke ontdekkingen wordt vaak aangetast door hallucinaties. Deze fouten zijn doorgaans afkomstig van twee bronnen: data-gedreven hallucinaties en redeneer-gedreven hallucinaties. Bestaande detectiemethoden richten zich echter meestal op slechts één bron en steunen op taakspecifieke heuristieken, wat hun generalisatie naar complexe scenario's beperkt. Om deze beperkingen te overwinnen, introduceren we de Hallucinatie Risicogrens, een verenigd theoretisch kader dat het hallucinatierisico formeel decomposeert in data-gedreven en redeneer-gedreven componenten, die respectievelijk verband houden met mismatches tijdens de training en instabiliteiten tijdens de inferentie. Dit biedt een principieel fundament om te analyseren hoe hallucinaties ontstaan en evolueren. Voortbouwend op dit fundament introduceren we HalluGuard, een op de NTK gebaseerde score die gebruikmaakt van de geïnduceerde geometrie en vastgelegde representaties van de NTK om gezamenlijk data-gedreven en redeneer-gedreven hallucinaties te identificeren. We evalueren HalluGuard op 10 diverse benchmarks, 11 competitieve baseline-methoden en 9 populaire LLM-architecturen, en behalen consistent state-of-the-art prestaties in het detecteren van diverse vormen van LLM-hallucinaties.
RouteMoA verbetert de efficiëntie van Mixture-of-Agents (MoA) door dynamisch routeren. Het gebruikt een lichtgewicht scorer voor een initiële screening door prestaties op hoofdlijnen te voorspellen vanuit de query, waardoor kandidaten worden teruggebracht tot een hoogpotente subset zonder inference. Een mix van judges verfijnt deze scores vervolgens via lichtgewicht zelf- en kruisbeoordeling op basis van bestaande modeloutputs, wat een posterior correctie biedt zonder extra inference. Ten slotte selecteert een modelrankingmechanisme modellen door prestaties, kosten en latentie af te wegen. RouteMoA overtreft MoA bij verschillende taken en modelpoolgroottes, en reduceert kosten met 89,8% en latentie met 63,6% in de grootschalige modelpool.
Geglazuurde 3D-morfen beoogt vloeiende en geloofwaardige overgangen tussen twee 3D-assets te genereren, waarbij zowel structurele coherentie als gedetailleerd uiterlijk behouden blijft. Deze mogelijkheid is cruciaal, niet alleen voor de vooruitgang van 3D-generatieonderzoek, maar ook voor praktische toepassingen in animatie, bewerking en digitale contentcreatie. Bestaande benaderingen werken ofwel direct op de geometrie, wat hen beperkt tot morfen van alleen de vorm terwijl texturen worden verwaarloosd, ofwel breiden 2D-interpolatiestrategieën uit naar 3D, wat vaak leidt tot semantische ambiguïteit, structurele misalignering en textuurvervaging. Deze uitdagingen onderstrepen de noodzaak om gedurende het gehele overgangsproces geometrische consistentie, textuuraligning en robuustheid gezamenlijk te behouden. Om dit aan te pakken, stellen wij Interp3D voor, een nieuw trainingsvrij raamwerk voor geglazuurd 3D-morfen. Het benut generatieve prior-kennis en adopteert een progressief aligneringsprincipe om zowel geometrische nauwkeurigheid als textuurcoherentie te waarborgen. Beginnend met semantisch gealigneerde interpolatie in de conditieruimte, handhaaft Interp3D structurele consistentie via SLAT (Structured Latent)-gestuurde structuurinterpolatie, en transfereert ten slotte uiterlijkheidsdetails door middel van fijnmazige textuurfusie. Voor uitgebreide evaluaties construeren we een toegewijd dataset, Interp3DData, met gegradeerde moeilijkheidsniveaus en beoordelen we generatieresultaten op basis van nauwkeurigheid, overgangsvloeiendheid en geloofwaardigheid. Zowel kwantitatieve metrieken als humane studies tonen de significante voordelen van onze voorgestelde aanpak ten opzichte van eerdere methoden. De broncode is beschikbaar op https://github.com/xiaolul2/Interp3D.