Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Data-centrisch traineren is naar voren gekomen als een veelbelovende richting voor het verbeteren van grote taalmmodellen (LLM's) door niet alleen modelparameters te optimaliseren, maar ook de selectie, samenstelling en weging van trainingsgegevens tijdens het optimalisatieproces. Bestaande benaderingen voor gegevensselectie, optimalisatie van gegevensmengsels en herweging van gegevens worden echter vaak ontwikkeld in geïsoleerde codebibliotheken met inconsistente interfaces, wat reproduceerbaarheid, eerlijke vergelijking en praktische integratie belemmert. In dit artikel presenteren we DataFlex, een uniform data-centrisch dynamisch trainingsframework gebouwd op LLaMA-Factory. DataFlex ondersteunt drie belangrijke paradigma's van dynamische gegevensoptimalisatie: voorbeeldselectie, aanpassing van domeinmengsels en herweging van voorbeelden, terwijl het volledig compatibel blijft met de oorspronkelijke trainingsworkflow. Het biedt uitbreidbare trainerabstracties en modulaire componenten, waardoor het een directe vervanging vormt voor standaard LLM-training, en het verenigt cruciale modelafhankelijke operaties zoals embedding-extractie, inferentie en gradientberekening, met ondersteuning voor grootschalige settings inclusief DeepSpeed ZeRO-3. We voeren uitgebreide experimenten uit met meerdere data-centrische methoden. Dynamische gegevensselectie presteert consistent beter dan statische training met volledige gegevens op MMLU voor zowel Mistral-7B als Llama-3.2-3B. Voor gegevensmengsels verbeteren DoReMi en ODM zowel de MMLU-nauwkeurigheid als de perplexiteit op corpusniveau ten opzichte van standaardverhoudingen bij het vooraf trainen van Qwen2.5-1.5B op SlimPajama op schalen van 6B en 30B tokens. DataFlex behaalt ook consistente verbeteringen in looptijd ten opzichte van originele implementaties. Deze resultaten tonen aan dat DataFlex een effectieve, efficiënte en reproduceerbare infrastructuur biedt voor data-centrische dynamische training van LLM's.
De latente ruimte ontwikkelt zich snel als een natuurlijk substraat voor op taal gebaseerde modellen. Hoewel moderne systemen nog vaak worden begrepen via expliciete token-gebaseerde generatie, toont een groeiend aantal onderzoeken aan dat veel kritieke interne processen natuurlijker plaatsvinden in de continue latente ruimte dan in menselijk leesbare verbale sporen. Deze verschuiving wordt gedreven door de structurele beperkingen van expliciete-ruimteberekeningen, waaronder linguïstische redundantie, discretisatieknelpunten, sequentiële inefficiëntie en semantisch verlies. Dit overzicht heeft tot doel een verenigd en actueel landschap te bieden van de latente ruimte in op taal gebaseerde modellen. We organiseren het overzicht in vijf opeenvolgende perspectieven: Fundament, Evolutie, Mechanisme, Vermogen en Vooruitblik. We beginnen met het afbakenen van het domein van de latente ruimte, waarbij we deze onderscheiden van expliciete of verbale ruimtes en van de latente ruimtes die vaak worden bestudeerd in generatieve visuele modellen. Vervolgens volgen we de evolutie van het vakgebied van vroege verkennende inspanningen tot de huidige grootschalige expansie. Om het technische landschap te structureren, onderzoeken we bestaand werk door de complementaire lenzen van mechanisme en vermogen. Vanuit het perspectief van Mechanisme identificeren we vier belangrijke ontwikkellijnen: Architectuur, Representatie, Berekenen en Optimalisatie. Vanuit het perspectief van Vermogen tonen we aan hoe de latente ruimte een breed scala aan capaciteiten ondersteunt, waaronder Redeneren, Plannen, Modelleren, Perceptie, Geheugen, Samenwerking en Belichaming. Naast consolidatie bespreken we de belangrijkste open uitdagingen en schetsen we veelbelovende richtingen voor toekomstig onderzoek. We hopen dat dit overzicht niet alleen dient als referentie voor bestaand werk, maar ook als fundament voor het begrijpen van de latente ruimte als een algemeen computationeel en systeemparadigma voor next-generation intelligentie.
Het opschalen van generatieve inverse en forward rendering naar realistische scenario's wordt belemmerd door de beperkte realiteitsgetrouwheid en temporele coherentie van bestaande synthetische datasets. Om deze hardnekkige domeinkloof te overbruggen, introduceren we een grootschalige, dynamische dataset samengesteld uit visueel complexe AAA-games. Met behulp van een nieuwe opname methode met dubbele schermen hebben we 4 miljoen continue frames (720p/30 FPS) geëxtraheerd van gesynchroniseerde RGB- en vijf G-bufferkanalen, afkomstig uit diverse scènes, visuele effecten en omgevingen, inclusief varianten met extreem weer en bewegingsonscherpte. Deze dataset bevordert bidirectioneel renderen op unieke wijze: het maakt robuuste geometrie- en materiaaldecompositie in de praktijk mogelijk en vergemakkelijkt hoogwaardige G-buffer-gestuurde videogeneratie. Verder stellen we, om de prestaties van inverse rendering in de praktijk te evalueren zonder grondwaarheid, een nieuw op VLM gebaseerd beoordelingsprotocol voor dat semantische, ruimtelijke en temporele consistentie meet. Experimenten tonen aan dat inverse renderers die zijn afgestemd op onze data superieure cross-dataset generalisatie en controleerbare generatie bereiken, terwijl onze VLM-evaluatie sterk correleert met menselijke beoordeling. In combinatie met onze toolkit stelt onze forward renderer gebruikers in staat om stijlen van AAA-games te bewerken vanuit G-buffers met behulp van tekstprompts.
Agentvaardigheden, gestructureerde pakketten van procedurele kennis en uitvoerbare hulpbronnen die agents dynamisch laden tijdens inferentie, zijn een betrouwbaar mechanisme geworden voor het uitbreiden van LLM-agents. Toch kent inference-time vaardigheidsuitbreiding fundamentele beperkingen: retrievalruis introduceert irrelevante richtlijnen, geïnjecteerde vaardigheidsinhoud legt een aanzienlijke token-overhead op, en het model verwerft de kennis die het slechts volgt nooit echt. Wij vragen ons af of vaardigheden instead kunnen worden geïnternaliseerd in modelparameters, waardoor zero-shot autonoom gedrag mogelijk wordt zonder enige runtime-vaardigheidsretrieval. Wij introduceren SKILL0, een in-context reinforcement learning-raamwerk ontworpen voor vaardigheidsinternalisatie. SKILL0 introduceert een curriculum tijdens de training dat begint met volledige vaardigheidscontext en deze geleidelijk afbouwt. Vaardigheden worden offline gegroepeerd per categorie en samen met interactiegeschiedenis weergegeven in een compacte visuele context, waardoor het model toolaanroeping en multiturn-taakvoltooiing leert. Een Dynamisch Curriculum evalueert vervolgens de on-policy nuttigheid van elk vaardigheidsbestand, waarbij alleen die worden behouden waarvan het huidige beleid nog profiteert binnen een lineair afnemende budgettering, totdat de agent opereert in een volledig zero-shot setting. Uitgebreide agent-experimenten tonen aan dat SKILL0 substantiële verbeteringen bereikt ten opzichte van de standaard RL-baseline (+9,7% voor ALFWorld en +6,6% voor Search-QA), waarbij een zeer efficiënte context van minder dan 0,5k tokens per stap wordt aangehouden. Onze code is beschikbaar op https://github.com/ZJU-REAL/SkillZero.
Wij introduceren EgoSim, een gesloten-lus egocentrische wereldsimulator die ruimtelijk consistente interactievideo's genereert en de onderliggende 3D-scènetoestand voortdurend bijwerkt voor continue simulatie. Bestaande egocentrische simulators missen ofwel expliciete 3D-verankering, wat structurele drift bij viewpointveranderingen veroorzaakt, of behandelen de scène als statisch, waardoor wereldtoestanden niet worden bijgewerkt tijdens meerstapsinteracties. EgoSim lost beide beperkingen op door 3D-scènes te modelleren als bijwerkbare wereldtoestanden. Wij genereren belichamingsinteracties via een Geometry-action-aware Observation Simulation-model, met ruimtelijke consistentie afkomstig van een Interaction-aware State Updating-module. Om het kritieke dataknelpunt op te lossen dat wordt veroorzaakt door de moeilijkheid om dicht uitgelijnde scène-interactietrainingsparen te verkrijgen, ontwerpen we een schaalbare pijplijn die statische puntenwolken, cameratrajecten en belichamingsacties extraheert uit in-the-wild grootschalige monocular egocentrische video's. We introduceren verder EgoCap, een capturesysteem dat low-cost datacollectie in de echte wereld mogelijk maakt met ongekalibreerde smartphones. Uitgebreide experimenten tonen aan dat EgoSim bestaande methoden significant overtreft op het gebied van visuele kwaliteit, ruimtelijke consistentie en generalisatie naar complexe scènes en in-the-wild behendige interacties, terwijl het cross-embodiment transfer naar robotmanipulatie ondersteunt. Code en datasets worden binnenkort openbaar gemaakt. De projectpagina staat op egosimulator.github.io.
Voorgetrainde Vision Transformers (ViT's) zoals DINOv2 en MAE bieden generieke beeldkenmerken die kunnen worden toegepast op diverse downstreamtaken zoals retrieval, classificatie en segmentatie. Dergelijke representaties hebben echter de neiging zich te richten op de meest opvallende visuele aanwijzingen in de afbeelding, zonder mogelijkheid om ze te sturen naar minder prominente concepten van interesse. Multimodale LLM's daarentegen kunnen met tekstuele prompts worden gestuurd, maar de resulterende representaties zijn vaak taalkundig centrisch en verliezen hun effectiviteit voor generieke visuele taken. Om dit aan te pakken, introduceren we Stuurbare Visuele Representaties, een nieuwe klasse van visuele representaties waarvan de globale en lokale kenmerken kunnen worden gestuurd met natuurlijke taal. Terwijl de meeste vision-languagemodellen (bijvoorbeeld CLIP) tekst samensmelten met visuele kenmerken na de codering (late fusie), injecteren wij tekst direct in de lagen van de visuele encoder (vroege fusie) via lichtgewicht cross-attention. We introduceren benchmarks voor het meten van representatie-stuurbaarheid en tonen aan dat onze stuurbare visuele kenmerken zich kunnen richten op elk gewenst object in een afbeelding, waarbij de onderliggende representatiekwaliteit behouden blijft. Onze methode evenaart of overtreft ook gespecialiseerde benaderingen op het gebied van anomaliedetectie en gepersonaliseerde objectdiscriminatie, en vertoont zero-shotgeneralizatie naar out-of-distributiontaken.
Bij de evaluatie van identiteitsgerichte taken zoals gepersonaliseerde generatie en beeldbewerking, vertonen bestaande vision-encoders een verstrengeling van objectidentiteit met achtergrondcontext, wat leidt tot onbetrouwbare representaties en metrieken. Wij introduceren het eerste principiële framework om deze kwetsbaarheid aan te pakken met behulp van Near-identity (NearID) distractors, waarbij semantisch vergelijkbare maar distinctieve instanties op exact dezelfde achtergrond worden geplaatst als een referentiebeeld. Dit elimineert contextuele shortcuts en isoleert identiteit als enige discriminerende signaal. Gebaseerd op dit principe presenteren we de NearID-dataset (19K identiteiten, 316K matched-context distractors) samen met een strikt margin-gebaseerd evaluatieprotocol. In deze setting presteren voorgetrainde encoders slecht, met Sample Success Rates (SSR) – een strikte margin-gebaseerde identiteitsdiscriminatiemetriek – die slechts 30.7% bedragen, waarbij distractors vaak hoger worden gerangschikt dan echte cross-view matches. Wij lossen dit op door identiteitsbewuste representaties aan te leren op een bevroren backbone met een tweelaags contrastief doel dat de hiërarchie afdwingt:zelfde identiteit > NearID-distractor > willekeurige negatieve. Dit verbetert de SSR tot 99.2%, verhoogt part-level discriminatie met 28.0%, en resulteert in een sterkere afstemming met menselijke oordelen op DreamBench++, een menselijk afgestelde benchmark voor personalisatie. Projectpagina: https://gorluxor.github.io/NearID/
Unificatiemodellen (UM's) zijn veelbelovend vanwege hun vermogen om inhoud over heterogene modaliteiten heen te begrijpen en te genereren. In vergelijking met het louter genereren van visuele inhoud is het gebruik van UM's voor door elkaar heen gewoven cross-modale redenering veelbelovender en waardevoller, bijvoorbeeld voor het oplossen van begripsproblemen die intensief visueel denken vereisen, het verbeteren van visuele generatie door zelfreflectie, of het modelleren van visuele dynamiek in de fysieke wereld geleid door stapsgewijze actie-interventies. Bestaande UM's vereisen echter pixeldecodering als brug vanwege hun gescheiden visuele representaties voor begrip en generatie, wat zowel inefficiënt als ondoeltreffend is. In dit artikel introduceren we LatentUM, een nieuw unificatiemodel dat alle modaliteiten representeert binnen een gedeelde semantische latente ruimte, waardoor bemiddeling via de pixelruimte tussen visueel begrip en generatie overbodig wordt. Dit ontwerp maakt op natuurlijke wijze flexibele, door elkaar heen gewoven cross-modale redenering en generatie mogelijk. Naast verbeterde computationele efficiëntie verlicht de gedeelde representatie codec-bias aanzienlijk en versterkt het de cross-modale afstemming, waardoor LatentUM state-of-the-art prestaties kan bereiken op de Visual Spatial Planning-benchmark, de grenzen van visuele generatie kan verleggen door zelfreflectie, en wereldmodellering kan ondersteunen door toekomstige visuele toestanden binnen de gedeelde semantische latente ruimte te voorspellen.
AI-agenten opereren steeds vaker over langere tijdshorizons, maar hun vermogen om multimodale ervaringen vast te houden, te organiseren en op te roepen blijft een kritieke bottleneck. Het opbouwen van effectief levenslang geheugen vereist navigatie door een uitgebreide ontwerpruimte die architectuur, retrievestrategieën, prompt engineering en datapijplijnen omspant; deze ruimte is te groot en onderling verbonden voor handmatige exploratie of traditionele AutoML om effectief te verkennen. Wij zetten een autonoom onderzoekspijplijn in om Omni-SimpleMem te ontdekken, een uniform multimodaal geheugenkader voor levenslange AI-agenten. Uitgaande van een naïeve baseline (F1=0.117 op LoCoMo) voert de pijplijn autonoom ~50 experimenten uit over twee benchmarks, diagnosticeert faalmodi, stelt architectuurwijzigingen voor en repareert bugs in datapijplijnen, allemaal zonder menselijk ingrijpen in de binnenlus. Het resulterende systeem behaalt state-of-the-art op beide benchmarks, met een F1-verbetering van +411% op LoCoMo (0.117 naar 0.598) en +214% op Mem-Gallery (0.254 naar 0.797) ten opzichte van de initiële configuraties. Cruciaal is dat de meest impactvolle ontdekkingen geen hyperparameteraanpassingen zijn: bugfixes (+175%), architectuurwijzigingen (+44%) en prompt engineering (+188% op specifieke categorieën) overstijgen elk afzonderlijk de cumulatieve bijdrage van alle hyperparameterafstemming, wat vermogens demonstreert die fundamenteel buiten het bereik van traditionele AutoML vallen. Wij presenteren een taxonomie van zes ontdekkingstypen en identificeren vier eigenschappen die multimodaal geheugen bijzonder geschikt maken voor autonoom onderzoek, en bieden zo richtlijnen voor het toepassen van autonome onderzoekspijplijnen op andere AI-systeemdomeinen. Code is beschikbaar op https://github.com/aiming-lab/SimpleMem.
Bestaande methoden voor het verwijderen van objecten uit video's blinken uit in het inpainten van inhoud "achter" het object en het corrigeren van artefacten op verschijningsniveau, zoals schaduwen en reflecties. Wanneer het verwijderde object echter significantere interacties heeft, zoals botsingen met andere objecten, slagen huidige modellen er niet in deze te corrigeren en produceren ze ongeloofwaardige resultaten. Wij presenteren VOID, een raamwerk voor het verwijderen van objecten uit video's dat ontworpen is om fysisch plausibele inpainting uit te voeren in dergelijke complexe scenario's. Om het model te trainen, genereren we een nieuwe gepaarde dataset van contrafeitelijke objectverwijderingen met behulp van Kubric en HUMOTO, waarbij het verwijderen van een object vereist dat downstream fysische interacties worden aangepast. Tijdens inferentie identificeert een vision-language model de delen van de scène die beïnvloed zijn door het verwijderde object. Deze regio's worden vervolgens gebruikt om een videodiffusiemodel aan te sturen dat fysisch consistente contrafeitelijke uitkomsten genereert. Experimenten op zowel synthetische als echte data tonen aan dat onze aanpak de consistente scènedynamiek na objectverwijdering beter behoudt in vergelijking met eerdere methoden. Wij hopen dat dit raamwerk inzicht biedt in hoe videobewerkingsmodellen betere simulators van de wereld kunnen worden door hoogwaardige causaal redeneren.
Wij onderzoeken de vraag: wanneer een groot taalmodel een keuze maakt, dacht het eerst en besloot het daarna, of besloot het eerst en dacht het daarna? In dit artikel presenteren we bewijs dat detecteerbare, vroeg gecodeerde beslissingen de gedachtegang (chain-of-thought) in redeneermodellen vormgeven. Concreet tonen we aan dat een eenvoudige lineaire probe beslissingen voor tool-aanroeping met zeer hoge betrouwbaarheid kan decoderen uit activaties vóór de generatie, en in sommige gevallen zelfs voordat een enkele redeneertoken wordt geproduceerd. Activatiesturing ondersteunt dit causaal: het verstoren van de beslissingsrichting leidt tot opgeblazen beraadslaging en keert het gedrag in veel voorbeelden om (tussen 7 - 79%, afhankelijk van model en benchmark). Gedragsanalyse toont verder aan dat, wanneer sturing de beslissing verandert, de gedachtegang vaak de omslag rationaliseert in plaats van ertegen te weerstaan. Gezamenlijk suggereren deze resultaten dat redeneermodellen actiekeuzes kunnen coderen voordat ze tekstueel gaan delibereren.
Vision-Language-Action (VLA)-modellen zijn recentelijk opgekomen in het domein van autonoom rijden, met de belofte om rijke wereldkennis te benutten om de cognitieve capaciteiten van rijsystemen te verbeteren. Het aanpassen van dergelijke modellen voor rijtaken wordt echter geconfronteerd met een cruciaal dilemma tussen ruimtelijke perceptie en semantisch redeneren. Als gevolg daarvan worden bestaande VLA-systemen gedwongen tot suboptimale compromissen: het direct overnemen van 2D Vision-Language Models levert beperkte ruimtelijke perceptie op, terwijl het versterken ervan met 3D-ruimtelijke representaties vaak de inherente redeneercapaciteit van VLMs aantast. Wij stellen dat dit dilemma grotendeels voortkomt uit de gekoppelde optimalisatie van ruimtelijke perceptie en semantisch redeneren binnen gedeelde modelparameters. Om dit te overwinnen, stellen we UniDriveVLA voor, een Unified Driving Vision-Language-Action model gebaseerd op Mixture-of-Transformers, dat het perceptie-redeneerconflict aanpakt via expert-ontkoppeling. Concreet bestaat het uit drie experts voor rijbegrip, scèneperceptie en actieplanning, die worden gecoördineerd door middel van gemaskeerde joint attention. Daarnaast combineren we een sparse perception-paradigma met een driestaps progressieve trainingsstrategie om de ruimtelijke perceptie te verbeteren terwijl de semantische redeneercapaciteit behouden blijft. Uitgebreide experimenten tonen aan dat UniDriveVLA state-of-the-art prestaties bereikt in open-loop evaluatie op nuScenes en closed-loop evaluatie op Bench2Drive. Bovendien laat het sterke prestaties zien over een breed scala aan perceptie-, voorspellings- en begripstaken, waaronder 3D-detectie, online mapping, motion forecasting en rij-gerichte VQA, wat de brede toepasbaarheid ervan als een unified model voor autonoom rijden benadrukt. Code en model zijn vrijgegeven op https://github.com/xiaomi-research/unidrivevla.
Kan AI de ontwikkeling van AI zelf versnellen? Hoewel recente agent-systemen sterke prestaties hebben getoond bij goed afgebakende taken met snelle feedback, is het nog onduidelijk of zij de kostbare, langetermijn- en zwak begeleide onderzoekscycli aankunnen die echte AI-vooruitgang aandrijven. Wij presenteren ASI-Evolve, een agent-raamwerk voor AI-voor-AI-onderzoek dat deze cyclus sluit via een leer-ontwerp-experimenteer-analyseer-proces. ASI-Evolve versterkt standaard evolutionaire agenten met twee cruciale componenten: een cognitiebasis die opgebouwde menselijke aannames injecteert in elke ronde van exploratie, en een speciale analyzer die complexe experimentele uitkomsten destilleert tot herbruikbare inzichten voor toekomstige iteraties. Voor zover wij weten is ASI-Evolve het eerste verenigde raamwerk dat AI-gedreven ontdekking aantoont over drie centrale componenten van AI-ontwikkeling: data, architecturen en leeralgorithmen. Bij het ontwerpen van neurale architecturen ontdekte het 105 state-of-the-art lineaire aandacht-architecturen, waarbij het beste ontdekte model DeltaNet overtrof met +0,97 punten – bijna 3x de winst van recente door mensen ontworpen verbeteringen. Bij het cureren van pretrainingsdata verbetert de geëvolueerde pijplijn de gemiddelde benchmarkprestatie met +3,96 punten, met winsten boven de 18 punten op MMLU. Bij het ontwerpen van reinforcement learning-algorithmen presteren de ontdekte algoritmen tot +12,5 punten beter dan GRPO op AMC32, +11,67 punten op AIME24 en +5,04 punten op OlympiadBench. Wij leveren verder eerste bewijzen dat dit AI-voor-AI-paradigma kan worden overgedragen buiten de AI-stack via experimenten in wiskunde en biomedische wetenschappen. Gezamenlijk suggereren deze resultaten dat ASI-Evolve een veelbelovende stap vertegenwoordigt naar AI die AI kan versnellen over de fundamentele ontwikkelingsfasen heen, en bieden ze vroeg bewijs voor de haalbaarheid van gesloten-lus AI-onderzoek.
De opkomst van grote taalmodellen voor code heeft de softwareontwikkeling hervormd. Autonome coderingsagenten, die in staat zijn om branches aan te maken, pull requests te openen en codebeoordelingen uit te voeren, dragen nu actief bij aan projecten in de praktijk. Hun groeiende rol biedt een unieke en tijdige mogelijkheid om AI-gedreven bijdragen en hun effecten op codekwaliteit, teamdynamiek en softwareonderhoudbaarheid te onderzoeken. In dit werk construeren we een nieuwe dataset van ongeveer 110.000 open-source pull requests, inclusief bijbehorende commits, opmerkingen, reviews, issues en bestandswijzigingen, die gezamenlijk miljoenen regels broncode vertegenwoordigen. We vergelijken vijf populaire coderingsagenten, waaronder OpenAI Codex, Claude Code, GitHub Copilot, Google Jules en Devin, en onderzoeken hoe hun gebruik verschilt in diverse ontwikkelingsaspecten zoals mergefrequentie, bewerkte bestandstypen en signalen van ontwikkelaarsinteractie, inclusief opmerkingen en reviews. Verder benadrukken we dat het schrijven en reviewen van code slechts een klein onderdeel is van het bredere software-engineeringproces, aangezien de resulterende code ook in de tijd onderhouden en geüpdatet moet worden. Daarom bieden we verschillende longitudinale schattingen van overlevings- en verlooppercentages voor door agenten gegenereerde code versus door mensen geschreven code. Uiteindelijk tonen onze bevindingen een toenemende agentactiviteit in open-sourceprojecten aan, hoewel hun bijdragen in vergelijking met door mensen geschreven code over tijd gepaard gaan met meer verloop.
Evolutionaire aanpak op basis van grote taalmodel(len) (LLM's) is een veelbelovende methode voor open-ended discovery, waarbij vooruitgang blijvende zoektochten en kennisaccumulatie vereist. Bestaande methoden vertrouwen echter nog sterk op vaste heuristieken en hardgecodeerde verkenningregels, wat de autonomie van LLM-agenten beperkt. Wij presenteren CORAL, het eerste raamwerk voor autonome multi-agent evolutie bij open-ended problemen. CORAL vervangt rigide controle door langlopende agenten die verkennen, reflecteren en samenwerken via gedeeld persistent geheugen, asynchrone multi-agent uitvoering en interventies op basis van hartslagen. Het biedt ook praktische veiligheidsmaatregelen, waaronder geïsoleerde werkruimten, scheiding van evaluatoren, resourcebeheer, en beheer van agentsessies en -gezondheid. Bij evaluatie op uiteenlopende wiskundige, algoritmische en systeemoptimalisatietaken behaalt CORAL nieuwe state-of-the-art resultaten op 10 taken, met 3-10 keer hogere verbeteringspercentages en aanzienlijk minder evaluaties dan vaste evolutionaire zoekbaselines. Op de kernel engineering-taak van Anthropic verbeterden vier co-evoluerende agenten de beste bekende score van 1363 naar 1103 cycli. Mechanistische analyses tonen verder aan hoe deze winsten voortkomen uit hergebruik van kennis en multi-agent verkenning en communicatie. Gezamenlijk suggereren deze resultaten dat grotere agentautonomie en multi-agent evolutie open-ended discovery aanzienlijk kunnen verbeteren. Code is beschikbaar op https://github.com/Human-Agent-Society/CORAL.
GUI-procesautomatisering (GPA) is een lichtgewicht maar algemene, op visie gebaseerde robotprocesautomatisering (RPA), waarmee processen snel en stabiel kunnen worden afgespeeld met slechts een enkele demonstratie. Om de kwetsbaarheid van traditionele RPA en de niet-deterministische risico's van huidige op visie-taalmodellen gebaseerde GUI-agents aan te pakken, introduceert GPA drie kernvoordelen: (1) Robuustheid via op Sequentiële Monte Carlo gebaseerde lokalisatie om herschaling en detectieonzekerheid te hanteren; (2) Determinisme en Betrouwbaarheid gewaarborgd door gereedheidskalibratie; en (3) Privacy door snelle, volledig lokale uitvoering. Deze aanpak biedt de aanpasbaarheid, robuustheid en beveiliging die nodig zijn voor enterprise-workflows. Het kan ook worden gebruikt als een MCP/CLI-tool door andere agents met codeercapaciteiten, zodat de agent alleen redeneert en orchestreert terwijl GPA de GUI-uitvoering afhandelt. We voerden een proefexperiment uit om GPA te vergelijken met Gemini 3 Pro (met CUA-tools) en ontdekten dat GPA een hoger slagingspercentage bereikt met een 10 keer snellere uitvoeringssnelheid bij het voltooien van GUI-taken met een lange tijdshorizon.
Vision-language-action (VLA)-modellen tonen sterke prestaties bij robotmanipulatie, maar hun robuustheid tegen fysiek realiseerbare adversariële aanvallen is nog onvoldoende onderzocht. Bestaande onderzoeken onthullen kwetsbaarheden via taalkundige perturbaties en 2D-visuele aanvallen, maar deze aanvalsoppervlakken zijn minder representatief voor echte inzet of beperkt in fysieke realistischheid. Daarentegen vormen adversariële 3D-textures een fysiek plausibelere en schadelijkere dreiging, omdat ze van nature aan gemanipuleerde objecten zijn bevestigd en eenvoudiger in fysieke omgevingen kunnen worden ingezet. Het toepassen van adversariële 3D-textures op VLA-systemen is echter niet triviaal. Een centrale hindernis is dat standaard 3D-simulators geen differentieerbaar optimalisatiepad bieden van de VLA-doelfunctie terug naar het objectuiterlijk, wat end-to-end optimalisatie bemoeilijkt. Om dit op te lossen introduceren we Foreground-Background Decoupling (FBD), dat differentieerbare textuuroptimalisatie mogelijk maakt door dual-renderer-alignment, terwijl de oorspronkelijke simulatieomgeving behouden blijft. Om verder te garanderen dat de aanval effectief blijft over lange tijdsperioden en diverse gezichtspunten in de fysieke wereld, stellen we Trajectory-Aware Adversarial Optimization (TAAO) voor, die gedragskritieke frames prioriteert en de optimalisatie stabiliseert met een op hoekpunten gebaseerde parameterisatie. Gebaseerd op deze ontwerpen presenteren we Tex3D, het eerste raamwerk voor end-to-end optimalisatie van 3D-adversariële textures rechtstreeks in de VLA-simulatieomgeving. Experimenten in zowel simulatie- als echte robotomgevingen tonen aan dat Tex3D de VLA-prestaties bij meerdere manipulatietaken significant verslechtert, met taakfoutpercentages tot 96,7%. Onze empirische resultaten leggen kritieke kwetsbaarheden van VLA-systemen voor fysiek verankerde 3D-adversariële aanvallen bloot en benadrukken de noodzaak van robuustheidsbewuste training.
Videodiffusiemodellen vertonen opkomende redeneervaardigheden, zoals het oplossen van doolhoven en puzzels, maar er is weinig bekend over hoe ze redeneren tijdens de generatie. Wij zetten een eerste stap om dit te begrijpen en bestuderen de interne planningsdynamiek van videomodellen met behulp van 2D-doolhofoplossing als gecontroleerde testomgeving. Ons onderzoek levert twee bevindingen op. Onze eerste bevinding is *vroege planningsvastlegging*: videodiffusiemodellen leggen een hoogwaardig bewegingsplan vast binnen de eerste paar denoiseringsstappen, waarna verdere denoisering visuele details wijzigt maar niet de onderliggende trajectorie. Onze tweede bevinding is dat *padlengte*, niet obstakeldichtheid, de dominante voorspeller is van doolhofmoeilijkheid, met een scherpe faaldrempel bij 12 stappen. Dit betekent dat videomodellen alleen over lange doolhoven kunnen redeneren door meerdere opeenvolgende generaties aan elkaar te ketenen. Om de praktische voordelen van onze bevindingen aan te tonen, introduceren wij *Chaining with Early Planning*, ofwel ChEaP, dat alleen rekentijd besteedt aan startsituaties met veelbelovende vroege plannen en deze aaneenketent om complexe doolhoven aan te pakken. Dit verbetert de nauwkeurigheid van 7% naar 67% voor doolhoven met een lange horizon en met 2,5x algemeen voor moeilijke taken in Frozen Lake en VR-Bench bij Wan2.2-14B en HunyuanVideo-1.5. Onze analyse laat zien dat huidige videomodellen diepere redeneervaardigheden bezitten dan voorheen erkend, welke betrouwbaarder naar voren kunnen worden gebracht met betere schaalvergroting tijdens inferentie.
Hoewel beeldgeneratie diverse toepassingen heeft gestimuleerd door zijn snelle evolutie, is het nog grotendeels ononderzoek of de state-of-the-art modellen in staat zijn direct bruikbare academische illustraties voor artikelen te produceren. Het direct vergelijken of evalueren van de illustratie met een VLM is intuïtief, maar vereist een orakelachtig multimodaal begripsvermogen, wat onbetrouwbaar is voor lange en complexe teksten en illustraties. Om dit aan te pakken, stellen we AIBench voor, de eerste benchmark die VQA gebruikt om de logische correctheid van academische illustraties te evalueren en VLMs om de esthetiek te beoordelen. Concreet hebben we vier niveaus van vragen ontworpen, gebaseerd op een logisch diagram samengesteld uit de methodesectie van het artikel, die nagaan of de gegenereerde illustratie op verschillende schalen overeenkomt met het artikel. Onze VQA-gebaseerde aanpak leidt tot nauwkeurigere en gedetailleerdere evaluaties van visueel-logische consistentie, terwijl deze minder afhankelijk is van het beoordelingsvermogen van de VLM. Met onze hoogwaardige AIBench voeren we uitgebreide experimenten uit en concluderen we dat de prestatiekloof tussen modellen voor deze taak aanzienlijk groter is dan voor algemene taken, wat hun uiteenlopende vermogen tot complex redeneren en hoogwaardige dichtheidsgeneratie weerspiegelt. Bovendien zijn logica en esthetiek moeilijk gelijktijdig te optimaliseren, zoals ook bij handgemaakte illustraties het geval is. Aanvullende experimenten tonen verder aan dat test-time scaling van beide vermogens de prestaties voor deze taak aanzienlijk verbetert.
Recente multimodale grote taalmodellen voor video behalen indrukwekkende resultaten op diverse benchmarks. Huidige evaluaties kampen echter met twee kritieke beperkingen: (1) opgeblazen scores kunnen tekortkomingen in fijnmazig visueel begrip en redeneren maskeren, en (2) de correctheid van antwoorden wordt vaak gemeten zonder te verifiëren of modellen het precieze spatio-temporele bewijs dat hun voorspellingen ondersteunt, identificeren. Om dit aan te pakken, presenteren we VideoZeroBench, een hiërarchische benchmark ontworpen voor uitdagende vraag-antwoordtaken op lange video's die spatio-temporeel bewijs rigoureus verifieert. De benchmark omvat 500 handmatig geannoteerde vragen uit 13 domeinen, gekoppeld aan temporele intervallen en ruimtelijke begrenzingskaders als bewijs. Om antwoordgeneratie, temporele lokalisatie en ruimtelijke lokalisatie te ontwarren, introduceren we een vijfdelig evaluatieprotocol dat de bewijseisen progressief aanscherpt. Experimenten tonen aan dat zelfs Gemini-3-Pro minder dan 17% van de vragen correct beantwoordt onder de standaard end-to-end QA-instelling (Niveau-3). Wanneer lokalisatie-eisen worden opgelegd, daalt de prestaties sterk: geen enkel model haalt meer dan 1% nauwkeurigheid wanneer zowel correct antwoorden als accurate spatio-temporele lokalisatie vereist zijn (Niveau-5), waarbij de meeste modellen erin falen ook maar één correct gelokaliseerde voorspelling te doen. Deze resultaten leggen een significante kloof bloot tussen oppervlakkige antwoordcorrectheid en daadwerkelijk op bewijs gebaseerd redeneren, en onthullen dat gegrond videobegrip een bottleneck blijft voor QA op lange video's. We analyseren verder de prestaties op minimale bewijsspannen, atomaire vaardigheden en inferentieparadigma's, wat inzichten biedt voor toekomstig onderzoek in gegrond videoredeneren. De benchmark en code zullen openbaar beschikbaar worden gesteld.
Membership Inference Attacks (MIA's) vormen een fundamenteel auditinstrument voor het evalueren van lekken van trainingsgegevens in machine learning-modellen. Bestaande methodologieën zijn echter voornamelijk gebaseerd op statische, handmatig gemaakte heuristieken die aanpasbaarheid missen, wat vaak leidt tot suboptimale prestaties bij overdracht tussen verschillende grote modellen. In dit werk stellen we AutoMIA voor, een agent-gebaseerd raamwerk dat membership inference herformuleert als een geautomatiseerd proces van zelfexploratie en strategie-evolutie. Op basis van hoogwaardige scenariospecificaties verkent AutoMIA zelf de aanvalsruimte door uitvoerbare logits-niveau strategieën te genereren en deze progressief te verfijnen via gesloten-lus evaluatiefeedback. Door abstracte strategieredenering te ontkoppelen van laagwaardige uitvoering, stelt ons raamwerk een systematische, model-agnostische verkenning van de zoekruimte voor aanvallen in staat. Uitgebreide experimenten tonen aan dat AutoMIA consistent even goed presteert of beter presteert dan state-of-the-art referentiemethoden, terwijl de noodzaak voor handmatige feature engineering wordt geëlimineerd.
Het aanpassen van voorgetrainde taalmodel(len) (TM's) naar visueel-taalmodel(len) (VTM's) kan hun oorspronkelijke linguïstische vermogen aantasten als gevolg van representatieverschuiving en cross-modale interferentie die tijdens multimodale adaptatie wordt geïntroduceerd. Dit verlies is moeilijk te herstellen, zelfs met gerichte taakspecifieke fine-tuning met standaarddoelstellingen. Bestaande herstelmethode(n) introduceren typisch extra modules die fungeren als intermediare alignatielagen om modalitiespecifieke deelruimtes te behouden of isoleren, wat de architecturale complexiteit verhoogt, parameters toevoegt tijdens inferentie en de flexibiliteit tussen modellen en instellingen beperkt. Wij stellen LinguDistill voor, een adapter-vrije distillatiemethode die linguïstisch vermogen herstelt door het oorspronkelijke bevroren TM als teacher te gebruiken. Wij overwinnen de kernuitdaging van vision-gestuurde teacher-supervisie door de introductie van gelaagsgewijze KV-cache-deling, waardoor de teacher wordt blootgesteld aan de multimodale representaties van de student zonder de architectuur van een van beide modellen aan te passen. Vervolgens distilleren we selectief het sterke linguïstische signaal van de teacher op taalintensieve data om taalvermogen te herstellen, terwijl de visuele verankering van de student op multimodale taken behouden blijft. Hierdoor herstelt LinguDistill ongeveer 10% van het verloren prestatieniveau op taal- en kennisbenchmarks, met behoud van vergelijkbare prestaties op visueel zware taken. Onze bevindingen tonen aan dat linguïstisch vermogen kan worden hersteld zonder extra modules, wat een efficiënte en praktische oplossing biedt voor modalitiespecifieke degradatie in multimodale modellen.
Het anticiperen op verstoringen in de toeleveringsketen voordat deze zich voordoen, is een centrale uitdaging voor bedrijven en beleidsmakers. Een belangrijke moeilijkheid is het leren van betrouwbare redeneringen over zeldzame, hoogimpactvolle gebeurtenissen op basis van ruisvolle en ongestructureerde invoer - een context waarin algemene modellen moeite hebben zonder taakspecifieke aanpassing. Wij introduceren een end-to-end raamwerk dat grote taalmodellen traint om gekalibreerde probabilistische voorspellingen te produceren met gerealiseerde verstoringsuitkomsten als supervisie. Het resulterende model presteert aanzienlijk beter dan sterke baseline-modellen - inclusief GPT-5 - op nauwkeurigheid, kalibratie en precisie. Wij tonen ook aan dat training leidt tot meer gestructureerd en betrouwbaar probabilistisch redeneren zonder expliciete prompting. Deze resultaten suggereren een algemene route voor het trainen van domeinspecifieke voorspellingsmodellen die besluit-klare signalen produceren. Ter ondersteuning van transparantie maken wij de evaluatiedataset die in deze studie is gebruikt openbaar. Dataset: https://huggingface.co/datasets/LightningRodLabs/supply-chain-predictions
Wij introduceren de Multilingual Document Parsing Benchmark (MDPBench), de eerste benchmark voor meertalige parsing van zowel digitale als gefotografeerde documenten. Documentparsing heeft opmerkelijke vooruitgang geboekt, maar vindt vrijwel uitsluitend plaats op schone, digitale, goed opgemaakte pagina's in een handvol dominante talen. Er bestaat geen systematische benchmark om te evalueren hoe modellen presteren op digitale en gefotografeerde documenten in diverse schriften en talen met weinig bronnen. MDPBench omvat 3.400 documentafbeeldingen verspreid over 17 talen, diverse schriften en uiteenlopende fotografische omstandigheden, met hoogwaardige annotaties die zijn geproduceerd via een rigoureus proces van expertmodel-labeling, handmatige correctie en menselijke verificatie. Om een eerlijke vergelijking te garanderen en datalekken te voorkomen, hanteren we gescheiden openbare en privé-evaluatiesets. Onze uitgebreide evaluatie van zowel open-source als closed-source modellen onthult een opvallende bevinding: hoewel closed-source modellen (met name Gemini3-Pro) relatief robuust blijken, lijden open-source alternatieven onder een dramatische prestatie-inval, vooral voor niet-Latijnse schriften en in het wild gefotografeerde documenten, met een gemiddelde daling van 17,8% op gefotografeerde documenten en 14,0% op niet-Latijnse schriften. Deze resultaten onthullen aanzienlijke prestatieonevenwichtigheden tussen talen en condities, en wijzen concrete richtingen aan voor het bouwen van meer inclusieve, implementatiegerechte parsingsystemen. Bron beschikbaar op https://github.com/Yuliang-Liu/MultimodalOCR.
Het trainen van algemene redeneermodellen met reinforcement learning met verifieerbare beloningen (RLVR) over diverse domeinen wordt veel toegepast door toonaangevende open-weight modellen. Hun trainingsrecepten en domeinmengsels worden echter vaak niet openbaar gemaakt. Gezamenlijke optimalisatie over meerdere domeinen brengt aanzienlijke uitdagingen met zich mee: domeinen verschillen sterk in rollout-lengte, probleemcomplexiteit en sample-efficiëntie. Bovendien verhogen modellen met lange chain-of-thought-traces de inferentiekosten en latentie, waardoor efficiëntie cruciaal is voor praktische inzet. Wij presenteren Apriel-Reasoner, getraind met een volledig reproduceerbaar multi-domein RL-post-trainingrecept op Apriel-Base, een open-weight LLM met 15B parameters, over vijf domeinen met publieke datasets: wiskunde, codegeneratie, instructieopvolging, logische puzzels en functie-aanroeping. Wij introduceren een adaptief domeinbemonsteringsmechanisme dat de doelverhoudingen tussen domeinen handhaaft ondanks heterogene rollout-dynamiek, en een moeilijkheidsgraadbewuste extensie van de standaard lengtestraf die, zonder extra trainingsoverhead, langer redeneren aanmoedigt voor moeilijke problemen en kortere traces voor eenvoudige. Getraind met een strikt uitvoerbudget van 16K tokens, generaliseert Apriel-Reasoner naar 32K tokens tijdens inferentie en presteert beter dan Apriel-Base op AIME 2025, GPQA, MMLU-Pro en LiveCodeBench, terwijl het 30-50% kortere redeneertraces produceert. Het evenaart sterke open-weight modellen van vergelijkbare grootte tegen lagere tokenkosten, en verschuift daarmee de Pareto-grens van nauwkeurigheid versus tokenbudget.
Continueel beeldbewerken heeft als doel een schuifregelaarachtige controle over de bewerkingssterkte te bieden, terwijl de bronbeeldgetrouwheid behouden blijft en een consistente bewerkingsrichting wordt aangehouden. Bestaande op leren gebaseerde schuifregelaarmethoden vertrouwen doorgaans op hulpmodules die zijn getraind met synthetische of indirecte supervisie. Dit introduceert extra trainingsbelasting en koppelt het gedrag van de schuifregelaar aan de trainingsverdeling, wat de betrouwbaarheid kan verminderen bij verschuivingen in de verdeling van bewerkingen of domeinen. Wij stellen FlowSlider voor, een trainingsvrije methode voor continue beeldbewerking in Rectified Flow die geen nabehandeling vereist. FlowSlider ontbindt de update van FlowEdit in (i) een getrouwheidsterm, die fungeert als een bron-geconditioneerde stabilisator die identiteit en structuur behoudt, en (ii) een stuurterm die de semantische overgang naar de doelbewerking aandrijft. Geometrische analyse en empirische metingen tonen aan dat deze termen bijna orthogonaal zijn, wat stabiele sterkteregeling mogelijk maakt door alleen de stuurterm te schalen terwijl de getrouwheidsterm ongewijzigd blijft. Hierdoor biedt FlowSlider soepele en betrouwbare controle zonder nabehandeling, wat de kwaliteit van continue beeldbewerking verbetert voor diverse taken.
Autoregressieve neurale codec-taalmodellen hebben een sterke zero-shot stemklonering getoond, maar decoder-only architecturen behandelen invoertekst als een voorvoegsel dat concurreert met de groeiende audiosequentie voor positionele capaciteit, wat de tekstconditionering bij lange uitingen verzwakt. Wij presenteren T5Gemma-TTS, een encoder-decoder codec-taalmodel dat persistente tekstconditionering behoudt door bidirectionele tekstrepresentaties via cross-attention naar elke decoderlaag te routeren. Gebouwd op de T5Gemma vooraf getrainde encoder-decoder-backbone (2B encoder + 2B decoder; 4B parameters), erft het rijke linguïstische kennis over zonder foneemconversie en verwerkt tekst direct op subwoordniveau. Om de duurcontrole te verbeteren, introduceren we Progress-Monitoring Rotary Position Embedding (PM-RoPE) in alle 26 cross-attention lagen, waarbij genormaliseerde voortgangssignalen worden geïnjecteerd die de decoder helpen de doelspraaklengte bij te houden. Getraind op 170.000 uur meertalige spraak in Engels, Chinees en Japans, behaalt T5Gemma-TTS een statistisch significante spreker-gelijkeniswinst voor Japans ten opzichte van XTTSv2 (0,677 vs. 0,622; niet-overlappende 95% betrouwbaarheidsintervallen) en de hoogste numerieke Koreaanse spreker-gelijkenis (0,747) ondanks dat Koreaans niet in de training was opgenomen, hoewel deze marge ten opzichte van XTTSv2 (0,741) niet statistisch conclusief is. Het behaalt ook de laagste numerieke Japanse karakterfoutratio onder vijf baseline-modellen (0,126), hoewel deze rangschikking voorzichtig geïnterpreteerd moet worden vanwege gedeeltelijke overlap van betrouwbaarheidsintervallen met Kokoro. Engelse resultaten op LibriSpeech moeten worden gezien als een bovengrens schatting omdat LibriHeavy een superset van LibriSpeech is. Met dezelfde checkpoint veroorzaakt het uitschakelen van PM-RoPE tijdens inferentie een bijna volledige synthesefout: CER verslechtert van 0,129 naar 0,982 en de duurnauwkeurigheid daalt van 79% naar 46%. Code en gewichten zijn beschikbaar op https://github.com/Aratako/T5Gemma-TTS.
Ondanks recente vooruitgang worstelen videodiffusiemodellen nog steeds met het synthetiseren van realistische video's die hoogdynamische bewegingen bevatten of fijnmazige bewegingsbestuurbaarheid vereisen. Een centrale beperking ligt in de schaarste van dergelijke voorbeelden in veelgebruikte trainingsdatasets. Om dit aan te pakken, introduceren we DynaVid, een videosynthese-framework dat gebruikmaakt van synthetische bewegingsdata tijdens de training, welke wordt gerepresenteerd als optische stroming en gerenderd met behulp van computer graphics-pipelines. Deze aanpak biedt twee belangrijke voordelen. Ten eerste biedt synthetische beweging diverse bewegingspatronen en precieze controle-signalen die moeilijk uit echte data te verkrijgen zijn. Ten tweede, in tegenstelling tot gerenderde video's met kunstmatige aanzichten, codeert gerenderde optische stroming alleen beweging en is deze ontkoppeld van het aanzicht, waardoor wordt voorkomen dat modellen het onnatuurlijke uiterlijk van synthetische video's reproduceren. Voortbouwend op dit idee hanteert DynaVid een tweestaps-generatieframework: een bewegingsgenerator synthetiseert eerst de beweging, waarna een beweging-gestuurde videogenerator videoframes produceert geconditioneerd op die beweging. Deze ontkoppelde formulering stelt het model in staat om dynamische bewegingspatronen aan te leren van synthetische data, terwijl de visuele realiteit van real-world video's behouden blijft. We valideren ons framework op twee uitdagende scenario's: krachtige menselijke bewegingsgeneratie en extreme camerabewegingscontrole, waar bestaande datasets bijzonder beperkt zijn. Uitgebreide experimenten tonen aan dat DynaVid de realiteit en bestuurbaarheid verbetert bij dynamische bewegingsgeneratie en camerabewegingscontrole.
Recente multimodale grote taalmodellen hebben sterke prestaties bereikt in geünificeerde tekst- en beeldbegrip en -generatie, maar het uitbreiden van deze native capaciteit naar 3D blijft een uitdaging vanwege beperkte data. In vergelijking met overvloedige 2D-beelden zijn hoogwaardige 3D-assets schaars, waardoor 3D-synthese onderbepaald is. Bestaande methodes vertrouwen vaak op indirecte pijplijnen die in 2D bewerken en resultaten via optimalisatie naar 3D tillen, wat ten koste gaat van geometrische consistentie. Wij presenteren Omni123, een 3D-native foundation-model dat tekst-naar-2D- en tekst-naar-3D-generatie verenigt binnen een enkel autoregressief raamwerk. Onze belangrijkste inzicht is dat cross-modale consistentie tussen beelden en 3D kan dienen als een impliciete structurele beperking. Door tekst, beelden en 3D voor te stellen als discrete tokens in een gedeelde sequentieruimte, benut het model overvloedige 2D-data als een geometrische prior om 3D-representaties te verbeteren. Wij introduceren een interleaved X-to-X trainingsparadigma dat diverse cross-modale taken coördineert over heterogene gepaarde datasets zonder volledig uitgelijnde tekst-beeld-3D-triplets te vereisen. Door semantisch-visueel-geometrische cycli (bijvoorbeeld tekst naar beeld naar 3D naar beeld) af te leggen binnen autoregressieve sequenties, handhaaft het model gezamenlijk semantische uitlijning, uiterlijke getrouwheid en multi-view geometrische consistentie. Experimenten tonen aan dat Omni123 tekstgestuurde 3D-generatie en -bewerking aanzienlijk verbetert, wat een schaalbare weg naar multimodale 3D-wereldmodellen demonstreert.
Traditionele wetenschappelijke ontdekking berust op een iteratieve hypothese-experiment-verfijn cyclus die de vooruitgang eeuwenlang heeft aangedreven. De intuïtieve, ad-hoc implementatie ervan leidt echter vaak tot verspilling van middelen, inefficiënte ontwerpen en het missen van cruciale inzichten. Deze tutorial presenteert Bayesiaanse Optimalisatie (BO), een principieel, op waarschijnlijkheid gebaseerd raamwerk dat deze kernwetenschappelijke cyclus formaliseert en automatiseert. BO gebruikt surrogaatmodellen (zoals Gaussische processen) om empirische observaties te modelleren als evoluerende hypothesen, en acquisitiefuncties om de experimentselectie te sturen. Dit alles om het benutten van bekende kennis en het verkennen van onbekende domeinen in evenwicht te brengen, waardoor gegok en handmatig trial-and-error worden geëlimineerd. We plaatsen eerst wetenschappelijke ontdekking in een optimalisatiekader, waarna we de kerncomponenten van BO, end-to-end werkstromen en de effectiviteit in de praktijk ontleden aan de hand van casestudies in katalyse, materiaalwetenschappen, organische synthese en molecuulontdekking. We behandelen ook cruciale technische uitbreidingen voor wetenschappelijke toepassingen, zoals batch-experimenten, heteroscedasticiteit, contextuele optimalisatie en integratie van de mens-in-de-lus. Deze tutorial, afgestemd op een breed publiek, overbrugt de kloof tussen AI-ontwikkelingen in BO en praktische toepassingen in de natuurwetenschappen. Door de inhoud in lagen aan te bieden, stelt het onderzoekers uit verschillende disciplines in staat om efficiëntere experimenten te ontwerpen en principiële wetenschappelijke ontdekking te versnellen.
Recente vooruitgang in diffusiegebaseerde, stuurbare visuele generatie heeft geleid tot opmerkelijke verbeteringen in beeldkwaliteit. Deze krachtige modellen worden echter doorgaans op cloudservers geïmplementeerd vanwege hun grote rekenbehoefte, wat ernstige zorgen over de privacy van gebruikersgegevens met zich meebrengt. Om veilige en efficiënte generatie op het apparaat zelf mogelijk te maken, onderzoeken we in dit artikel stuurbare diffusiemodellen die zijn gebouwd op lineaire aandacht-architecturen. Deze bieden superieure schaalbaarheid en efficiëntie, zelfs op edge-apparaten. Onze experimenten tonen echter aan dat bestaande frameworks voor stuurbare generatie, zoals ControlNet en OminiControl, ofwel de flexibiliteit missen om meerdere heterogene conditietypen te ondersteunen, of te kampen hebben met een trage convergentie op dergelijke lineaire-aandacht-modellen. Om deze beperkingen aan te pakken, stellen we een nieuw kader voor stuurbare diffusie voor, afgestemd op lineaire aandacht-backbones zoals SANA. De kern van onze methode ligt in een uniforme, gegate conditioneringmodule die werkt in een dual-path pijplijn. Deze integreert effectief meerdere typen conditionele invoer, zoals ruimtelijk uitgelijnde en niet-uitgelijnde signalen. Uitgebreide experimenten op meerdere taken en benchmarks tonen aan dat onze aanzet state-of-the-art prestaties levert voor stuurbare generatie op basis van lineaire-aandacht-modellen, en daarbij bestaande methoden overtreft op het gebied van nauwkeurigheid en stuurbaarheid.
Hoewel Late Interaction-modellen sterke retrievalprestaties vertonen, blijven veel van hun onderliggende dynamieken onderbelicht, wat mogelijk prestatieknelpunten verbergt. In dit werk richten we ons op twee aspecten van Late Interaction-retrieval: een lengtebias die ontstaat bij het gebruik van multi-vector scoring, en de gelijkenisverdeling voorbij de beste scores die door de MaxSim-operator worden gepoold. We analyseren dit gedrag voor state-of-the-art modellen op de NanoBEIR-benchmark. Resultaten tonen aan dat hoewel de theoretische lengtebias van causale Late Interaction-modellen in de praktijk standhoudt, bidirectionele modellen er in extreme gevallen eveneens onder kunnen lijden. We merken ook op dat er geen significante gelijkenistrend bestaat voorbij het top-1 documenttoken, wat valideert dat de MaxSim-operator de token-level gelijkenisscores efficiënt benut.
Vision-Language Models (VLMs) produceren vaak inconsistente beschrijvingen van hetzelfde object vanuit verschillende gezichtspunten, wat het vermogen van belichaamde agents belemmert om consistente semantische representaties in de tijd op te bouwen. Eerdere methoden losten inconsistenties op door offline multi-view aggregatie of meerfasige pijplijnen die verkenning, data-associatie en caption-learning ontkoppelen, maar met een beperkt vermogen om te redeneren over eerder waargenomen objecten. In dit artikel introduceren we een uniforme, met geheugen versterkte Vision-Language agent die gelijktijdig data-associatie, objectbeschrijving en verkenning-beleid aanpakt binnen een enkel autoregressief raamwerk. Het model verwerkt de huidige RGB-waarneming, een verkende top-down kaart en een episodisch geheugen op objectniveau dat geserialiseerd is in tokens op objectniveau, waardoor persistente objectidentiteit en semantische consistentie over langere sequenties worden gewaarborgd. Om het model op een zelfgesuperviseerde manier te trainen, verzamelen we een dataset in fotorealistische 3D-omgevingen met behulp van een op onenigheid gebaseerd beleid en een pseudo-captioning model dat consistentie afdwingt over multi-view caption-geschiedenissen. Uitgebreide evaluatie op een handmatig geannoteerde testset op objectniveau toont verbeteringen aan van tot +11,86% in standaard captioning-scores en +7,39% in caption-zelfsimilariteit ten opzichte van baseline-modellen, terwijl schaalbare prestaties mogelijk worden gemaakt door een compacte scène-representatie. Code, modelgewichten en data zijn beschikbaar op https://hsp-iit.github.io/epos-vlm/.
Sparse-view 3D-modellering belichaamt een fundamentele spanning tussen reconstructietrouw en generatieve geloofwaardigheid. Hoewel voorwaartse reconstructie uitblinkt in efficiëntie en inputovereenstemming, ontbreekt het vaak aan de globale prior kennis die nodig is voor structurele volledigheid. Omgekeerd biedt diffusiegebaseerde generatie rijke geometrische details, maar worstelt het met multi-view consistentie. Wij presenteren UniRecGen, een unified framework dat deze twee paradigma's integreert in een enkel coöperatief systeem. Om inherente conflicten in coördinaatruimten, 3D-representaties en trainingsdoelen te overwinnen, aligneren we beide modellen binnen een gedeelde canonieke ruimte. Wij passen ontvlochten coöperatief leren toe, wat een stabiele training handhaaft terwijl het naadloze samenwerking tijdens inferentie mogelijk maakt. Specifiek is de reconstructiemodule aangepast om canonieke geometrische ankers te bieden, terwijl de diffusiegenerator gebruikmaakt van latent-augmented conditioning om de geometrische structuur te verfijnen en te voltooien. Experimentele resultaten tonen aan dat UniRecGen superieure trouw en robuustheid bereikt, en daarmee bestaande methoden overtreft in het creëren van complete en consistente 3D-modellen uit schaarse observaties.
Huidige op LLM gebaseerde codeeragenten volgen een paradigma van seriële uitvoering: het model genereert eerst de volledige code, waarna het een interpreter aanroept om deze uit te voeren. Deze opeenvolgende werkstroom laat de uitvoerder inactief tijdens de generatie en de generator inactief tijdens de uitvoering, wat resulteert in onnodige end-to-end latentie. Wij observeren dat, in tegenstelling tot menselijke ontwikkelaars, LLMs codetokens sequentieel produceren zonder revisie, waardoor het mogelijk is om code uit te voeren terwijl deze wordt gegenereerd. Wij formaliseren dit parallelle uitvoeringsparadigma door het te modelleren als een drietraps pijplijn van generatie, detectie en uitvoering, en leiden gesloten latentiegrenzen af die de snelheidspotentie en werkingsgebieden karakteriseren. Vervolgens presenteren we Eager, een concrete implementatie met AST-gebaseerd chunking, dynamische batchverwerking met 'gated execution' en vroege foutonderbreking. Wij evalueren Eager over vier benchmarks, zeven LLMs en drie uitvoeringsomgevingen. Resultaten tonen aan dat Eager de niet-overlappende uitvoeringslatentie met tot 99,9% vermindert en de end-to-end latentie met tot 55% over zeven LLMs en vier benchmarks.
De audiogemeenschap vertrouwt op open generatieve modellen als fundamentele instrumenten voor het ontwikkelen van nieuwe aanpakken en het vaststellen van ijkpunten. In dit rapport presenteren we Woosh, Sony AI's openbaar vrijgegeven foundation-model voor geluidseffecten, waarbij we de architectuur, het trainingsproces en een evaluatie in vergelijking met andere populaire open modellen gedetailleerd beschrijven. Geoptimaliseerd voor geluidseffecten, bieden we (1) een encoder/decoder-model voor hoogwaardige audio en (2) een tekst-audio-aligneringsmodel voor conditionering, samen met (3) tekst-naar-audio en (4) video-naar-audio generatieve modellen. Gedistilleerde tekst-naar-audio en video-naar-audio modellen zijn eveneens opgenomen in de release, wat gebruik met beperkte middelen en snelle inferentie mogelijk maakt. Onze evaluatie op zowel publieke als private data toont competitieve of betere prestaties voor elke module in vergelijking met bestaande open alternatieven zoals StableAudio-Open en TangoFlux. Inferentiecode en modelgewichten zijn beschikbaar op https://github.com/SonyResearch/Woosh. Demosamples zijn te vinden op https://sonyresearch.github.io/Woosh/.
Recente vooruitgang in videodiffusie heeft de ontwikkeling mogelijk gemaakt van "wereldmodellen" die interactieve omgevingen kunnen simuleren. Deze modellen zijn echter grotendeels beperkt tot settings met één agent, waarbij het niet lukt om meerdere agenten gelijktijdig in een scène aan te sturen. In dit werk pakken we een fundamenteel probleem aan van actie-binding in bestaande videodiffusiemodellen, die moeite hebben om specifieke acties aan hun bijbehorende subjecten te koppelen. Hiertoe stellen we ActionParty voor, een actiebestuurbaar wereldmodel voor meerdere subjecten voor generatieve videospellen. Het introduceert subject-toestandstokens, latente variabelen die de toestand van elk subject in de scène persistent vastleggen. Door staatstokens en videolatenten gezamenlijk te modelleren met een ruimtelijk bias-mechanisme, ontwarren we het globaal renderen van videoframes van individuele, actiegestuurde subjectupdates. We evalueren ActionParty op de Melting Pot-benchmark en tonen het eerste videowereldmodel aan dat tot zeven spelers gelijktijdig kan aansturen in 46 diverse omgevingen. Onze resultaten tonen significante verbeteringen in actie-opvolgingsnauwkeurigheid en identiteitsconsistentie, terwijl robuuste autoregressieve tracking van subjecten door complexe interacties mogelijk wordt.
Naarmate Large Language Model (LLM)-agenten steeds vaker worden ingezet in open domeinen zoals software-engineering, krijgen zij regelmatig te maken met onvolledige instructies die essentiële context missen. Terwijl menselijke ontwikkelaars onvolledigheid vanzelfsprekend oplossen door verhelderende vragen te stellen, zijn huidige agenten grotendeels geoptimaliseerd voor autonome uitvoering. In dit werk evalueren we systematisch de vraagstellende vermogens van LLM-agenten op een onvolledige variant van SWE-bench Verified. Wij stellen een onzekerheidsbewust multi-agent raamwerk voor dat het detecteren van onvolledigheid expliciet ontkoppelt van code-uitvoering. Onze resultaten tonen aan dat dit multi-agent systeem, gebruikmakend van OpenHands + Claude Sonnet 4.5, een taakoplossingspercentage van 69,40% bereikt, wat aanzienlijk beter is dan een standaard single-agent opzet (61,20%) en de prestatiekloof verkleint met agenten die werken met volledig gespecificeerde instructies. Verder constateren we dat het multi-agent systeem goed gekalibreerde onzekerheid vertoont: het spaart vragen uit op eenvoudige taken, maar zoekt proactief naar informatie bij complexere problemen. Deze bevindingen geven aan dat huidige modellen kunnen worden omgevormd tot proactieve collaborateurs, waarbij agenten zelfstandig herkennen wanneer zij vragen moeten stellen om ontbrekende informatie op te halen in real-world, onvolledig gespecificeerde taken.
Agentapplicaties op basis van grote taalmodellen maken steeds vaker gebruik van meerstaps interactielussen met planning, actie-uitvoering en omgevingsfeedback. Hoewel dergelijke systemen inmiddels op grote schaal worden ingezet, blijft het verbeteren ervan na implementatie een uitdaging. Agenttrajecten zijn omvangrijk en niet-deterministisch, en het beoordelen van elk traject – via menselijke beoordeling of ondersteunende LLM's – is traag en kostentechnisch onhaalbaar. Wij stellen een lichtgewicht, signaalgebaseerd raamwerk voor voor de triage van agentinteractietrajecten. Onze aanpak berekent goedkope, breed toepasbare signalen uit live interacties en koppelt deze als gestructureerde attributen voor trajecttriage, waarbij interacties worden geïdentificeerd die waarschijnlijk informatief zijn zonder het online gedrag van de agent te beïnvloeden. We ordenen signalen in een grofkorrelige taxonomie die zich uitstrekt over interactie (misalignering, stagnatie, disengagement, tevredenheid), uitvoering (falen, looping) en omgeving (uitputting), ontworpen voor berekening zonder modelaanroepen. In een gecontroleerde annotatiestudie op τ-bench, een veelgebruikte benchmark voor de evaluatie van tool-augmented agents, tonen we aan dat signaalgebaseerde steekproefname een informatiefheidspercentage van 82% bereikt, vergeleken met 74% voor heuristische filtering en 54% voor aselecte steekproefname, met een efficiëntiewinst van 1,52x per informatief traject. Het voordeel is robuust over verschillende beloningsniveaus en taakdomeinen, wat bevestigt dat signalen echte per-traject informatiefheidswinsten opleveren in plaats van alleen duidelijke mislukkingen te overrepresenteren. Deze resultaten tonen aan dat lichtgewicht signalen kunnen dienen als praktische steekproefinfrastructuur voor agentsystemen, en wijzen een pad naar voorkeursdataconstructie en optimalisatie na implementatie.
Taalmodellen kunnen veel feitelijke vragen over entiteiten beantwoorden, maar het blijft onduidelijk welke interne mechanismen bij dit proces betrokken zijn. Wij bestuderen deze vraag bij meerdere taalmodellen. We lokaliseren entiteit-selectieve MLP-neuronen met behulp van getemplateerde prompts voor elke entiteit, en valideren ze vervolgens met causale interventies op PopQA-gebaseerde vraag-antwoordvoorbeelden. Op een gecureerde set van 200 entiteiten uit PopQA concentreren gelokaliseerde neuronen zich in de vroege lagen. Negatieve ablatie veroorzaakt entiteit-specifieke amnesie, terwijl gecontroleerde injectie bij een placeholder-token de antwoordretrieval verbetert ten opzichte van gemiddelde-entiteit- en verkeerde-cel-controles. Voor veel entiteiten is het activeren van één gelokaliseerd neuron voldoende om entiteit-consistente voorspellingen te herstellen zodra de context is geïnitialiseerd, in overeenstemming met compacte entiteitretrieval in plaats van puur geleidelijke verrijking over de diepte heen. Robuustheid tegen aliassen, acroniemen, spelfouten en meertalige vormen ondersteunt een canonicalisatie-interpretatie. Het effect is sterk maar niet universeel: niet elke entiteit laat een betrouwbaar enkel-neuron-handvat toe, en de dekking is hoger voor populaire entiteiten. Over het algemeen identificeren deze resultaten schaarse, causaal inzetbare toegangspunten voor het analyseren en moduleren van entiteit-geconditioneerd feitelijk gedrag.
Morfologische kenmerken zijn fysieke eigenschappen van biologische organismen die cruciale aanwijzingen geven over hoe organismen interageren met hun omgeving. Het extraheren van deze kenmerken blijft echter een traag, door experts gedreven proces, wat hun toepassing in grootschalige ecologische studies beperkt. Een belangrijke bottleneck is het ontbreken van hoogwaardige datasets die biologische afbeeldingen koppelen aan annotaties op kenmerkniveau. In dit werk tonen we aan dat sparse auto-encoders, getraind op kenmerken van foundation-modellen, monosemantische, ruimtelijk gelokaliseerde neuronen opleveren die consistent activeren bij betekenisvolle morfologische onderdelen. Gebruikmakend van deze eigenschap introduceren we een pijplijn voor kenmerkannotatie die salientie regio's lokaliseert en vision-language prompting gebruikt om interpreteerbare kenmerkbeschrijvingen te genereren. Met deze aanleggen construeren we Bioscan-Traits, een dataset van 80.000 kenmerkannotaties verspreid over 19.000 insectenafbeeldingen uit BIOSCAN-5M. Menselijke evaluatie bevestigt de biologische plausibiliteit van de gegenereerde morfologische beschrijvingen. We beoordelen de ontwerpgevoeligheid via een uitgebreide ablatiestudie, waarbij we systematisch belangrijke ontwerpkeuzes variëren en hun impact op de kwaliteit van de resulterende kenmerkbeschrijvingen meten. Door kenmerken te annoteren met een modulaire pijplijn in plaats van met prohibitief dure handmatige inspanningen, bieden we een schaalbare manier om biologisch betekenisvolle supervisie in foundation-modellen te injecteren, grootschalige morfologische analyses mogelijk te maken, en de kloof te overbruggen tussen ecologische relevantie en machinelearning-praktijk.
Wij presenteren Brainstacks, een modulaire architectuur voor continue multi-domein fine-tuning van grote taalmodellen, die domeinexpertise verpakt als bevroren adapterstapels die tijdens de inferentie additief worden samengesteld op een gedeelde, bevroren basis. Vijf in elkaar grijpende componenten: (1) MoE-LoRA met Shazeer-stijl noisy top-2 routing over alle zeven transformer-projecties onder QLoRA 4-bit kwantisatie met rsLoRA-schaling; (2) een innerlijke lus die residual boosting uitvoert door getrainde stapels te bevriezen en nieuwe toe te voegen; (3) een outer loop die sequentiële domeinspecifieke stapels traint met curriculum-geordende afhankelijkheden; (4) null-ruimteprojectie via gerandomiseerde SVD, die nieuwe stapels beperkt tot deelruimten orthogonaal aan eerdere richtingen, waardoor in isolatie nul vergeten wordt bereikt; (5) een op uitkomsten gebaseerde sigmoïde meta-router, getraind op empirisch ontdekte domeincombinatiedoelen, die stapels selectief gewicht geeft en kruis-domeincompositie mogelijk maakt. Twee grensexperimenten: (6) PSN-pre-training op een willekeurig geïnitialiseerd model; (7) per-domein RL (DPO/GRPO) die de compatibiliteit met post-SFT-afstemming valideert. Geverifieerd op TinyLlama-1.1B (4 domeinen, 9 stapels) en Gemma 3 12B IT (5 domeinen, 10 stapels): MoE-LoRA bereikt 2,5x snellere convergentie dan een parameter-gematchte enkele LoRA, residual boosting doorbreekt het plafond van een enkele stapel, en het gerouteerde systeem herstelt de generatiekwaliteit die vernietigd werd door ongegate stapelaccumulatie. De centrale bevinding: de op uitkomsten gebaseerde router ontdekt dat domeinstapels overdraagbare cognitieve primitieven coderen (instructievolgzaamheid, numeriek redeneren, procedurele logica, chain-of-thought-structuur) in plaats van domeinspecifieke kennis, waarbij medische prompts in 97% van de gevallen doorgeleid worden naar chat- en rekenstapels, ondanks de afwezigheid van medische data in die stapels.
Videowereldmodellen hebben een enorm potentieel getoond voor interactieve simulatie en entertainment, maar huidige systemen worstelen nog steeds met twee belangrijke aspecten van interactiviteit: gebruikerscontrole over de omgeving voor reproduceerbare, bewerkbare ervaringen, en gedeelde inferentie waarbij spelers invloed uitoefenen op een gemeenschappelijke wereld. Om deze beperkingen aan te pakken, introduceren we een expliciet extern geheugen in het systeem, een persistente toestand die onafhankelijk opereert van de contextvenster van het model, en die continu wordt bijgewerkt door gebruikersacties en wordt geraadpleegd gedurende de generatieroll-out. In tegenstelling tot conventionele diffusie-game-engines die functioneren als volgende-frame-voorspellers, ontleedt onze aanpak de generatie in Geheugen-, Observatie- en Dynamiekmodules. Dit ontwerp geeft gebruikers directe, bewerkbare controle over de omgevingsstructuur via een bewerkbare geheugenrepresentatie, en het breidt zich natuurlijk uit naar real-time multiplayer roll-outs met coherente gezichtspunten en consistente kruis-spelerinteracties.
Fonemherkenning (PR) is een cruciale aanjager voor meertalige en data-arme spraakverwerkingstaken, maar robuuste prestaties blijven moeilijk te bereiken. Hoogpresterende modellen die op Engels zijn gericht, generaliseren niet over talen heen, terwijl meertalige modellen vooraf getrainde representaties onvoldoende benutten. Ook is het nog onduidelijk hoe de schaal van data, architectuur en trainingsdoel bijdragen aan meertalige PR. Wij presenteren PhoneticXEUS – getraind op grootschalige meertalige data en met state-of-the-art prestaties op zowel meertalige (17,7% PFER) als Engels met een accent (10,6% PFER). Via gecontroleerde ablatiestudies met evaluaties in meer dan 100 talen onder een uniform schema, leggen we ons trainingsrecept empirisch vast en kwantificeren we de impact van SSL-representaties, dataschaal en verliesfuncties. Daarnaast analyseren we foutpatronen per taalfamilie, bij spraak met een accent, en aan de hand van articulatorische kenmerken. Alle data en code worden openbaar vrijgegeven.