Dagelijks geselecteerde AI onderzoekspapers met vertalingen
LLM-agenten opereren steeds vaker in grote tool-ecosystemen, waar taken uit de echte wereld het nodig maken om relevante tools te ontdekken, impliciete subdoelen af te leiden en zich aan te passen aan dynamische omgevingen over lange horizonnen. Bestaande benchmarks evalueren echter zelden planning onder retrieval-beperkte toolzichtbaarheid. Om deze leemte aan te vullen introduceren we PlanBench-XL, een interactieve benchmark van 327 retailtaken over 1.665 tools, die test of agenten iteratief bruikbare tools kunnen ophalen, deze kunnen aanroepen om tussentijds bewijs te achterhalen voor volgende aanroepen richting het uiteindelijke doel. PlanBench-XL heeft bovendien een optioneel blokkeringsmechanisme dat de onvoorspelbaarheid van de echte wereld simuleert via ontbrekende, falende of afleidende toolfuncties, waardoor agenten worden gedwongen om verstoorde paden te detecteren en zich tijdens runtime aan te passen. Experimenten met tien toonaangevende LLM's tonen aan dat planning met een groot aantal tools uitdagend blijft: hoewel GPT-5.4 een nauwkeurigheid van 51,90% haalt in blokkeervrije instellingen, zakt deze naar 11,36% onder de zwaarste blokkeringsconditie. Verdere analyse laat zien dat agenten bijzonder kwetsbaar zijn wanneer fouten ontbreken van duidelijke foutsignalen of wanneer herstel langere alternatieve toolgebruikspaden vereist. Deze resultaten vestigen PlanBench-XL als een testbed voor het diagnosticeren van agentische planningsfalen en benadrukken de noodzaak van robuuste adaptieve planning in taken met lange horizon en grote, imperfecte toolomgevingen.
Moderne agentsystemen hebben vaak te lijden onder gefragmenteerde runtime-status: transcripten, tool-effecten, geheugengebeurtenissen, werkruimteplaatsing, takherkomst en replay-bewijs worden afzonderlijk opgeslagen en worden moeilijk te inspecteren of te reproduceren. OpenRath pakt dit probleem aan met een PyTorch-achtig programmeermodel voor multi-agent-, multi-sessiesystemen. De analogie betreft de rol van een centrale eerste-klas runtime-abstractie, niet tensorberekening. De kernabstractie is Session, de runtime-waarde die tussen agenten en workflows wordt doorgegeven. Een Session is vertakkbaar, inspecteerbaar, herhaalbaar, backend-bewust en samenstelbaar. Het registreert gespreksbrokken, sandbox-plaatsing, afstammingsmetadata, tokenverbruik, hangend werk en tool-bewijs, terwijl het definieert waar geheugeninteracties in de runtime-registratie terechtkomen. Omdat deze status wordt gedragen door dezelfde waarde die in programma-uitvoering wordt gebruikt, worden fork, merge en replay expliciete runtime-operaties in plaats van toestanden die uit externe sporen worden gereconstrueerd. OpenRath definieert verder Sandbox, Tool, Agent, Memory, Workflow en Selector, waarbij Selector de controlestroom omzet in runtime-gerouteerde beslissingen. Dit rapport presenteert het programmeermodel, de architectuur, geauditeerde mijlpalen en het bewijsprotocol. De claims zijn beperkt tot gecontroleerde runtime-eigenschappen, terwijl brede kwantitatieve vergelijkingen, live-providerkwaliteit, beschikbaarheid van optionele backend en geheugenkwaliteit worden overgelaten aan een vervolgevaluatie. De centrale stelling is dat Session agentsystemen voorziet van een eerste-klas runtime-waarde voor auditeerbare compositie.
Massieve ongestructureerde multimodale stromen kampen met een hoge 'data-entropie', wat zowel efficiënte menselijke kennisverwerving als hoogwaardige AI-natraining belemmert. Bestaande passieve annotatieparadigma's, die sterk afhankelijk zijn van heuristische regels of algemene VLM's, zijn duur, eentonig en slagen er niet in de diepe procedurele logica te ontsluiten die in ruwe data besloten ligt. Wij verheffen gegevensverwerking tot een leerbare capaciteit en stellen een paradigmaverschuiving voor richting Agentische Data Tailoring, die gegevens actief verfijnt en structureert om af te stemmen op diverse gebruikers- en downstream-intenties. Om de schaarste aan gegevens te overwinnen die het trainen van dergelijke hoogwaardige vaardigheden belemmert, ontwerpen we een tweetrapspijplijn die generatieve semantische synthese verankert in deterministische Feitelijke Ankers, wat leidt tot een grootschalige dataset die vijf kerngebieden in de fysieke en digitale wereld omvat. Hierop voortbouwend combineert het DataClaw_0-9B-model Supervised Fine-Tuning (SFT) met Group Relative Policy Optimization (GRPO), wat een robuuste afstemming op complexe verfijnings- en tailing-intenties bewerkstelligt. Om deze capaciteit systematisch te kwantificeren, construeren we DataClaw_0-val, de eerste benchmark die specifiek gericht is op gegevensverfijning. Cruciaal is dat we downstream-natraining hanteren als de ultieme validatietoets. Evaluaties op videogeneratie, real-world VQA en GUI-navigatie bevestigen dat DataClaw_0 hoog-informatiedichte getailorde data levert, wat efficiënte modelaanpassing aan nieuwe taken mogelijk maakt onder regimes met beperkte trainingsdata. Projectpagina: https://czjdsg.github.io/MakeAnyData
Ondernemingsagenten opereren steeds vaker binnen werkruimtes: ze lezen heterogene bestanden, roepen hulpmiddelen aan en leveren zakelijke artefacten. Wij introduceren EnterpriseClawBench, een benchmark voor ondernemingsagenten die is opgebouwd uit propriëtaire, realistische agentsessies. Vertrekkend vanuit een groot archief van werkpleksessies genereert EnterpriseClawBench 852 reproduceerbare taken, elk voorzien van herstelde fixtures, herschreven prompts, rolklassen, vaardigheidssubklassen, harde regels en semantische rubrieken. Omdat de sessies interne bedrijfsinhoud bevatten, geven wij de benchmarkgegevens niet vrij; in plaats daarvan is onze herbruikbare bijdrage het constructie- en evaluatieprotocol. Op EnterpriseClawBench bereikt de beste configuratie slechts 0,663 (Codex met GPT-5.5). Deze resultaten tonen aan dat evaluatie van ondernemingsagenten combinaties van testopstelling en model, levering van artefacten, visuele kwaliteit, kosten, looptijd en vaardigheidsoverdrachtgedrag moet rapporteren, in plaats van prestaties terug te brengen tot één enkele score. Code: https://github.com/FrontisAI/EnterpriseClawBench
Zelf-attentie staat centraal in de prestaties van Transformers en is vaak het duurste onderdeel van de Transformer bij lange contextlengtes, omdat de paarsgewijze tokeninteracties kwadratisch schalen met de sequentielengte. Standaard dichte aandacht past ook dezelfde set aandachtskoppen toe op elk token, ongeacht de tokenmoeilijkheid of informatie-inhoud. Deze uniforme activatie kan rekenkracht verspillen, vooral naarmate sequenties langer worden en de attentiekosten snel toenemen. We stellen Groepsgewijze Query Experts (GQE) voor, een mixture-of-experts-laag bovenop groepsgewijze query-aandacht (GQA). Binnen elke GQA-groep selecteert een router k query-kop-experts per token, terwijl alle sleutel-waarde (KV) koppen dicht en onveranderd blijven. Dus behoudt GQE de KV-cache-voordelen van GQA en vermindert het alleen de actieve query-kop-berekening. Bij een vast tokenbudget van 30B op de parameterschaal van 250M evenaart GQE de volledig actieve GQA-baseline in downstream-nauwkeurigheid, terwijl het de helft van de query-koppen per token activeert.
Naarmate retrieveringssystemen schalen, wordt hoogwaardige herordening steeds belangrijker. De meeste bestaande herordenaars, zowel op encoder als decoder gebaseerd, coderen echter de query en passage gezamenlijk, waardoor hun berekening nauw gekoppeld wordt en de implementatie-efficiëntie en flexibiliteit worden beperkt. We presenteren KaLM-Reranker-V1, een snelle maar niet-late-interactie (FBNL) herordenaar die de berekening van query en passage ontkoppelt terwijl expressieve relevantiemodellering behouden blijft. Gebouwd op een encoder-decoder architectuur gebruikt KaLM-Reranker-V1 de encoder om passages voor te coderen met Matryoshka-embedding pooling, terwijl de decoder de systeeminstructie, gebruikersinstructie en query-intentie modelleert; cross-attentie legt vervolgens de relevantie vast tussen de querycontext en de passage-representaties. Dit ontwerp maakt KaLM-Reranker-V1 efficiënt door ontkoppelde passagecodering, maar niet late interactie, door rijke relevantiemodellering te behouden via cross-attentie. We instantiatiëren KaLM-Reranker-V1 in drie formaten, Nano, Small en Large, met respectievelijk 0,27B, 1B en 4B geactiveerde parameters. Uitgebreide experimenten op BEIR, MIRACL en LMEB tonen aan dat KaLM-Reranker-V1 sterke herordeningsprestaties levert met superieure efficiëntie. Op BEIR behaalt KaLM-Reranker-V1 state-of-the-art prestaties, vergelijkbaar met sterke industriële modellen zoals de Qwen3-Reranker-serie; op MIRACL, hoewel niet uitgebreid getraind op meertalige gegevens, vertoont KaLM-Reranker-V1 nog steeds uitstekende herordeningsprestaties. Bovendien tonen herordeningsmodellen op LMEB een duidelijk voordeel, waarbij zelfs het 0,27B Nano-model competitief blijft met 7-12B inbeddingsmodellen.
World Action Models (WAM's) zijn belichaamde voorspellende-actiemodellen die een voorspelling van de toekomst beschikbaar maken voor actie. Recente WAM's hergebruiken grote videogeneratiemodellen, en een parallelle lijn vertrouwt op taal- of visie-taal-backbones zonder een videogeneratiekern. Deze snelle expansie heeft de grens vervaagd tussen brede wereldmodellen, videogeneratiemodellen, actie-grond videowereldmodellen, Visie-Taal-Actie-beleid en WAM's. Dit overzicht geeft het vakgebied een gemeenschappelijke beschrijving. Het verduidelijkt eerst deze grenzen, en organiseert vervolgens bestaande werken via twee complementaire perspectieven. Het eerste perspectief vraagt wat elke methode moet genereren, variërend van gerenderde toekomsten, latente toekomsten, en videogeneratievrije actieredenering. Het tweede perspectief ontleedt elke methode op basis van voorspellend substraat, backbone, actiekoppeling en implementatieregime. Deze anatomie ondersteunt een uniforme discussie over interacteerbaarheid, causaliteit, persistentie, fysieke plausibiliteit en generalisatie, gevolgd door data, evaluatie en open uitdagingen. Over deze assen heen ontstaat een consistent ontwerppatroon: WAM's zijn niet simpelweg videogeneratoren met actiekoppen, maar voorspellende-actiemethoden waarvan de ontwerpkeuzes representatierijkdom afwegen tegen rekenkracht, geheugen, latentie en actie-labels kost. Het vakgebied beweegt zich richting methoden die minder van de toekomst genereren, terwijl ze behouden wat controle vereist. De startpagina van het overzicht is beschikbaar op https://world-action-models.github.io/.
Hoewel recente op LLM gebaseerde terminalagenten veelbelovende capaciteiten hebben getoond, blijft de schaarste aan hoogwaardige, uitvoerbare trainingsdata een kritieke bottleneck. Bestaande synthesipijplijnen schalen doorgaans door oppervlakkige artefacten in taken te hergebruiken, wat vaak leidt tot dubbelzinnige instructies, ondiepe uitvoeringspaden en breekbare tests die zwakke leersignalen opleveren. Om dit te overwinnen introduceren we CLI-Universe, een principiële synthesemotor die taken voor terminalagenten construeert. CLI-Universe genereert kandidaattaken door combinaties te bemonsteren over een multidimensionale capaciteitstaxonomie (domein, vaardigheidstype, capaciteit en technische pijler), en verankert vervolgens elke kandidaat via bewijsgestuurd diepgravend onderzoek van echte technische materialen. Om strikte supervisie te waarborgen, worden gevalideerde blauwdrukken geïnstantieerd in Docker-omgevingen en onderworpen aan een meerfasige uitvoerbare verificatiepijplijn met rubric-gestuurde testconstructie, hint-conditional filtering en strikte fail-to-pass-controles. In de volledige pijplijn, van kandidaatgeneratie tot verificatie, wordt ongeveer tweederde van de kandidaten weggegooid, waarbij alleen die overblijven die authentiek, verifieerbaar en niet-triviaal uitdagend zijn. Om ons raamwerk te valideren, instantieren we een sterk gedistilleerde dataset van 6.000 trajecten genaamd CLI-Universe-6K. Opmerkelijk is dat het finetunen van Qwen3-32B op CLI-Universe-6K 33,4% behaalt op Terminal-Bench 2.0. Dit zet een nieuwe state-of-the-art neer voor modellen getraind op open-sourcedata met 32B parameters of minder, en presteert beter dan verschillende modellen die een orde van grootte groter zijn, wat de diepgaande data-efficiëntie van gestructureerde, hifi-synthese aantoont.
Bestaande inbeddingsmodellen zijn inherent statisch: ze coderen tekstsegmenten geïsoleerd, waarbij ze de omringende context en temporele volgorde negeren. Dit artikel introduceert EvoEmbedding, een nieuw inbeddingsmodel dat evolueerbare representaties genereert voor retrieval. Het is afgestemd op scenario's met lange context, waar informatie dynamisch en sequentieel is en continue statusmonitoring vereist. Ons ontwerp is eenvoudig: EvoEmbedding houdt een continu bijgewerkt latent geheugen bij terwijl het sequentieel input verwerkt, en gebruikt dit samen met de ruwe inhoud om gezamenlijk evolueerbare inbeddingen te genereren. Als gevolg hiervan past ons model voor dezelfde query zijn representatie aan om verschillende doelen te retrieven op basis van de evoluerende context, verdergaand dan statisch semantisch zoeken. Om het model met deze mogelijkheid uit te rusten, construeren we EvoTrain-180K, een diverse dataset voor de gezamenlijke optimalisatie van latent geheugen en retrieval. Verder introduceren we een geheugenwachtrij om representatie-instorting tijdens recurrente codering te voorkomen, naast segment-batchtechnieken die aanzienlijke lengtevariatie aanpakken en de training 3,8 keer versnellen. Uitgebreide experimenten tonen aan dat ons model niet alleen grootschalige specialisten (bijv. Qwen3-Embedding-8B en KaLM-Embedding-Gemma3-12B) overtreft op een reeks retrieval-benchmarks met lange context, maar ook goed generaliseert naar downstream-taken (bijv. personalisatie) met contexten die 10 keer langer zijn dan zijn trainingsvenster. Opmerkelijk is dat EvoEmbedding naadloos integreert in agentische workflows om de prestaties te verbeteren. Een naïeve RAG-pijplijn uitgerust met ons model overtreft bijvoorbeeld speciale agentische geheugensystemen. Projectpagina: https://clare-nie.github.io/EvoEmbedding.
Wij presenteren BioMatrix, het eerste multimodale funderingsmodel dat sequenties, structuren en natuurlijke taal voor zowel moleculen als eiwitten native integreert binnen een enkele decoder-only architectuur. Bestaande biologische funderingsmodellen streven native multimodaliteit en brede entiteitsdekking afzonderlijk na: modellen die meerdere modaliteiten onder een gedeelde doelstelling fuseren, blijven beperkt tot één enkel entiteitstype, terwijl modellen die meerdere entiteitstypen bestrijken ofwel expliciete structuurmodellering weglaten ofwel vertrouwen op adapter-gebaseerde ontwerpen waarbij het model niet native de modaliteiten kan genereren die het wel kan lezen. BioMatrix overbrugt deze kloof door moleculaire sequenties (die zowel SMILES- als SELFIES-notaties ondersteunen), moleculaire structuren, eiwitsequenties, eiwitstructuren en natuurlijke taal via een uniform tokeniseringsschema in een gedeelde discrete tokenruimte te mappen, zodat alle modaliteiten uniform worden geconsumeerd en geproduceerd onder een enkele next-token predictiedoelstelling – zonder externe encoders, projectie-adapters of modaliteit-specifieke uitvoerkoppen. Gebouwd op het Qwen3-taalmodel (1,7B en 4B), wordt BioMatrix continu voorgetraind op 304,4 miljard tokens die algemene en domeinspecifieke tekst, sequentie- en structuurweergaven van moleculen en eiwitten, en cross-modale corpora omvatten die biomoleculaire entiteiten verweven met wetenschappelijke tekst en verschillende entiteiten koppelen via molecuul-eiwit- en eiwit-eiwitinteractiegegevens. Na afstemming op een uitgebreide reeks downstreamtoepassingen die 80 taken over 6 categorieën bestrijkt – waaronder enkelvoudige en meervoudige entiteitsbegrip- en generatietaken over en binnen modaliteiten – behaalt BioMatrix state-of-the-art of concurrerende prestaties op 77 van de 80 taken, wat aantoont dat een enkel, natief multimodaal generalistisch model gespecialiseerde benaderingen in een breed scala aan biologische taken effectief kan evenaren of overtreffen.
De kwadratische complexiteit van aandacht vormt een kritieke bottleneck voor het verwerken van lange contexten, wat de interesse in hybride aandachtontwerpen aanwakkert. De meeste open-source hybride modellen hanteren een laagsgewijze strategie. Eerder werk heeft echter de inherente moeilijkheid opgemerkt van het integreren van Lineaire Aandacht (LA) met Volledige Aandacht (FA), wat suggereert dat de ontwerpruimte van aandachthybridisatie nog onderbelicht is. Om deze ruimte te verkennen, voeren we een interpreteerbaarheidsanalyse uit en observeren we dat lagen bloksgewijze functionele gelijkenis vertonen, terwijl individuele heads binnen dezelfde laag een duidelijke functionele specialisatie vertonen, ondanks het delen van invoerkenmerken. Deze heterogeniteit op head-niveau suggereert dat de head-dimensie een natuurlijke en principiële granulariteit biedt voor het fuseren van heterogene aandachtssignalen. Voortbouwend op dit inzicht introduceren we HydraHead, een nieuwe architectuur die FA en LA hybridiseert langs de head-as. HydraHead kent twee belangrijke innovaties: (1) een op interpreteerbaarheid gebaseerde selectiestrategie die retrieval-kritische heads identificeert en alleen voor hen FA behoudt, en (2) een schaal-genormaliseerde fusiemodule die de distributionele kloof tussen FA- en LA-head-uitgangen overbrugt. Door gebruik te maken van een drietraps overdrachtspijplijn met parameterhergebruik en distillatie, bereiken we hoogwaardige hybride modellen met minimale trainingsoverhead. Onder een uniforme trainingsopzet presteert HydraHead beter dan andere hybride ontwerpen in taken met een lange context, terwijl het een sterke algemene redeneervaardigheid behoudt. Met op interpreteerbaarheid gebaseerde head-selectie evenaart het de prestaties bij lange context van een 3:1 laagsgewijze hybride bij een LA-tot-FA verhouding van 7:1. Cruciaal is dat HydraHead, getraind op slechts 15B tokens, een verbetering van meer dan 69% behaalt ten opzichte van de baseline bij een contextlengte van 512K, en daarmee Qwen3.5 benadert, een toonaangevend model van vergelijkbare grootte met een native contextlengte van 256K. Dit benadrukt het significante schaalpotentieel van hybridisatie op head-niveau.
Computergebruikagenten (CUA's) worden steeds vaker ingezet in dynamische interactieve omgevingen, wat een groeiende behoefte creëert aan continue vaardigheidsontwikkeling tijdens de interactie. Recente benaderingen pakken deze uitdaging aan door herbruikbare vaardigheden te leren uit succesvolle trajecten. Deze methoden voor vaardigheidsontwikkeling gaan echter grotendeels uit van statische en veilige omgevingen, waarbij risico's van adversariële interacties (bijv. promptinjecties) en omgevingsdynamiek (bijv. pop-ups) over het hoofd worden gezien. In dynamische omgevingen kunnen dergelijke aannames leiden tot risicovolle vaardigheidsontwikkeling en breekbare uitvoering, wat de betrouwbaarheid van CUA's ondermijnt. Dit roept de vraag op: hoe kunnen CUA's veilig vaardigheden leren en gebruiken in dynamische omgevingen? Om dit probleem aan te pakken, stellen we SkillHarness voor, een raamwerk voor veilig vaardigheden benutten in dynamische omgevingen. SkillHarness gaat verder dan statische vaardigheidsabstracties door vaardigheidsontwikkeling en -gebruik te modelleren als een veiligheidsbeperkt interactieproces. Specifiek introduceren we de vaardigheidsgrens die gebruikmaakt van multi-bron supervisiesignalen om veilige vaardigheden te identificeren uit interactietrajecten, en zelfverbeterende veiligheidsbeperkingen te construeren gedurende de hele levenscyclus van de vaardigheid. Daarnaast introduceert SkillHarness selectief hergebruik van vaardigheden, waarbij taken worden begeleid om zich te ontleden op basis van context en worden voltooid door de selectieve activering van subsets van vaardigheden. Onze experimenten tonen aan dat SkillHarness het onveiligheidspercentage van geleerde vaardigheden met 57,1% aanzienlijk verlaagt en consistent de uitvoeringsstabiliteit verbetert onder dynamische omgevingsveranderingen, waarmee het beter presteert dan bestaande basislijnen.
Autoregressieve generatie in grote taalmodellen (LLM's) decodeert conventioneel vanuit de laatste laag, ervan uitgaande dat diepere representaties betrouwbaardere volgende-token voorspellingen opleveren. We herzien deze aanname door een terugkerende Raad-Verfijn-Verstoor-dynamiek te onthullen: vroege lagen vormen grove schattingen, tussenliggende lagen verfijnen redeneerrelevante semantiek, en laatste lagen kunnen deze verfijnde voorspellingen verstoren richting generieke of op afstemming gerichte tokens. We introduceren Confident Decoding, een trainingsvrije decodeerstrategie die dynamisch de meest betrouwbare bijna-laatste laag selecteert door middel van entropiegeleid conservatief achterwaarts zoeken. We bieden verder een theoretische formulering van laagselectie als een optimaal stop-probleem, waarbij we aantonen dat onder begrensde projectieruis en dominante late-stage afstemmingsverstoring, onze zoekregel de verstoring filtert terwijl het verlies ten opzichte van de orakel-verfijningslaag wordt begrensd. Experimenten met dichte en Mixture-of-Experts LLM's tonen consistente winst aan op uitdagende redeneerbenchmarks, waaronder GPQA-Diamond, Omni-MATH en HLE, met nul geheugenoverhead en minder dan 2% latentietoename. Deze resultaten suggereren dat het dynamisch omzeilen van laatste-laag verstoringen sterker redeneergedrag uit afgestemde LLM's kan ontgrendelen.
Zelf-distillatie verbetert het redeneervermogen van grote taalmodellen door de eigen gegenereerde uitrolsequenties van het model als trainingssignaal te gebruiken, doorgaans via impliciete logit-niveau-afstemming die de KL-divergentie minimaliseert ten opzichte van een bevoorrechte doelverdeling. Omdat deze supervisie echter wordt gegenereerd via ongecontroleerde steekproeftrekking, biedt het geen diagnostisch inzicht in de specifieke fouten van het model of corrigerende richtlijnen voor de individuele faalpatronen. Hierdoor leert het model een bevoorrechte verdeling te imiteren in plaats van fijnmazige correcties te ontvangen die aangeven waar en waarom het redeneren faalt. In dit artikel stellen we Trajectory-Augmented Policy Optimization (TAPO) voor, die zelf-distillatie verschuift van impliciete distributie-afstemming naar expliciete trajectconstructie. Tijdens RL-training produceert het model zowel correcte als incorrecte uitrolsequenties voor dezelfde vraag, en TAPO benut deze contrastieve structuur om micro-reflectieve correcties te construeren: nieuwe trainingstrajecten die de foutieve redenering van het model behouden tot het punt van falen, en vervolgens een natuurlijk-talige diagnose en gecorrigeerde redenering invoegen, geleid door een correcte referentie uit dezelfde steekproefgroep. Omdat elk traject is verankerd in het eigen prefix en de eigen oplossingen van de lerende, behoudt het corrigerende signaal de on-policy-verdeling van het model in grotere mate dan de positiegewijze afstemming die door KL-gebaseerde methoden wordt opgelegd. Om deze trajecten te integreren, introduceert TAPO moeilijkheidsbewuste kandidaatselectie op de capaciteitsgrens van het model en ontkoppelde voordeelschatting om gradientverontreiniging te voorkomen. Experimenten op AIME 2024, AIME 2025 en HMMT 2025 tonen aan dat TAPO consistente verbeteringen behaalt ten opzichte van GRPO onder hetzelfde aantal trainingsstappen. Verdere analyse laat zien dat TAPO zowel het redeneren in eerste instantie als de effectiviteit van foutcorrectie versterkt.
Recentelijk hebben end-to-end OCR-modellen, waarvan DeepSeek OCR een voorbeeld is, OCR opnieuw in de schijnwerpers gezet. Een algemeen heersende opvatting is dat het gebruik van een groot taalmodel (LLM) als decoder het model in staat stelt gebruik te maken van de a priori verdeling van taal, wat leidt tot betere OCR-prestaties. Het nadeel is echter even duidelijk: naarmate de uitvoerreeks langer wordt, zorgt de opgebouwde KV-cache voor een hoger geheugengebruik en vertraagt de generatie steeds verder. Dit staat in schril contrast met mensen, die bij het kopiëren over lange horizon geen dergelijke efficiëntieafname vertonen. In dit technische rapport stellen wij Unlimited OCR voor, een model dat is ontworpen om het menselijke verwerkingswerkgeheugen na te bootsen. Met DeepSeek OCR als uitgangspunt vervangen we alle aandachtslagen in de decoder door onze voorgestelde Reference Sliding Window Attention (R-SWA), die de rekenkosten voor aandacht vermindert terwijl de KV-cache gedurende het gehele decoderingsproces constant blijft. Door de hoge compressieverhouding van DeepSeek OCR's encoder te combineren met ons constante KV-cache-ontwerp, kan Unlimited OCR tientallen pagina's documenten in een enkele voorwaartse doorgang transcriberen onder een standaard maximale lengte van 32K. Belangrijker nog is dat R-SWA een algemeen toepasbaar verwerkingsaandachtsmechanisme is: naast OCR is het evenzeer toepasbaar op taken zoals ASR, vertaling, enz. Code en modelgewichten zijn openbaar beschikbaar op http://github.com/baidu/Unlimited-OCR.
Diepgaande onderzoeksagenten zijn systemen gebaseerd op grote taalmodellen (Large Language Models, LLM's), ontworpen voor autonome, meerstaps wetenschappelijke redeneringen. Ze hebben een enorm potentieel om onderzoek in de exacte wetenschappen te versnellen. Er ontbreekt echter nog steeds een uitgebreide en diepgaande evaluatie van hun capaciteiten op dit gebied. Om deze leemte aan te vullen, introduceren we PhySciBench, een benchmark die zeer relevant is voor onderzoek in de exacte wetenschappen. Deze omvat 200 door experts samengestelde vragen, evenwichtig verdeeld over natuurkunde en scheikunde, in zes taakcategorieën die de werkwijze in de echte wetenschap weerspiegelen. Evaluaties van geavanceerde modellen en agentsystemen op PhySciBench laten een beperkte prestatie zien; zelfs de sterkste basislijn, Gemini Deep Research, behaalt slechts een nauwkeurigheid van 33,5%. Analyse van mislukte gevallen identificeert drie terugkerende tekortkomingen: kwetsbaarheid in uitgebreide redeneerketens, beperkte kennisoverdracht tussen stappen en een gebrek aan natuurkundig onderbouwde zelfverificatie. Gemotiveerd door deze bevindingen ontwikkelen we DelveAgent, een modulair multi-agent raamwerk uitgerust met een adaptieve planningslus, duale granulariteit geheugen en een hiërarchisch, natuurkundig onderbouwd reflectiemechanisme. Over vier wetenschappelijke benchmarks verbetert DelveAgent de nauwkeurigheid met maximaal 7,5 procentpunten, terwijl de inferentiekosten worden teruggebracht tot ongeveer een derde van de sterkste basislijn. Deze resultaten vestigen het belang van PhySciBench als een cruciale benchmark voor het evalueren van AI-systemen in de exacte wetenschappen en tonen aan dat architectonische specialisatie de betrouwbaarheid van autonoom wetenschappelijk onderzoek effectief kan verbeteren.
Taken met een lange horizon komen veel voor in robotische toepassingen in de echte wereld, maar foutdetectie voor dergelijke taken blijft onderbelicht. Het detecteren van fouten in robotische taken met een lange horizon is bijzonder uitdagend omdat het begin van een fout vaak dubbelzinnig is en dichte temporele annotaties doorgaans niet beschikbaar zijn. We presenteren Foresight, een raamwerk voor foutdetectie dat manipulatiebanen monitort met behulp van latente representaties van een actie-geconditioneerd wereldmodel. Foresight wordt getraind met alleen uiteindelijke taaklabels voor succes of falen. Door gebruik te maken van voorspellende inbeddingen van het wereldmodel, biedt onze methode een uniform raamwerk voor foutdetectie over verschillende beleidslijnen heen. We gebruiken verder functionele conforme voorspelling (FCP) om detectiedrempels adaptief te kalibreren. We evalueren Foresight met state-of-the-art visie-taal-actiebeleidslijnen in simulatie op LIBERO-Long, ManiSkill-Long en BEHAVIOR-1K, vergelijken het met state-of-the-art foutdetectiemethoden, en valideren het op echte robots met drie taken met een lange horizon op een ReactorX-200 arm en één taak op een Franka arm. Onze resultaten suggereren dat actie-geconditioneerde inbeddingen van wereldmodellen een schaalbare representatie bieden voor betrouwbare foutmonitoring bij manipulatie met een lange horizon.
Lange agenttrajecten bestaande uit denkketens en toolaanroepen stapelen verouderde inhoud op die volgende generaties verankert en uiteindelijk het contextvenster overstijgt. Bestaande steigers beperken dit met compactie op vaste intervallen die wordt geactiveerd bij een token-drempel. Dergelijke triggers houden geen rekening met de trajectstructuur, waardoor het risico bestaat dat deelresultaten halverwege een afleiding of zoekopdracht worden weggegooid. Wij stellen SelfCompact voor, een steiger die het model zelf laat beslissen wanneer en hoe te compacteren. Concreet combineert het twee inferentietijd-elementen: (i) een compactietool die het model aanroept om de opgebouwde context samen te vatten, en (ii) een lichte rubric die aangeeft wanneer te activeren (een subtask is opgelost, of het traject convergeert) en wanneer te onderdrukken (halverwege een afleiding, of bij vastlopen). Beide zijn nodig. De tool alleen wordt ongelijkmatig gebruikt bij opengewichtmodellen, vaak op ongunstige momenten of helemaal niet; de rubric alleen kan niet handelen. Samen roepen ze effectieve adaptieve compactie op zonder enige fijnafstemming of externe supervisie. We presenteren empirische resultaten op zes benchmarks (competitieve wiskunde en agentisch zoeken) en zeven modellen. Onze resultaten tonen aan dat SelfCompact gelijkwaardig is aan of beter presteert dan compactie op vaste intervallen tegen een fractie van de tokenkosten, met een verbetering van maximaal 18,1 punten op wiskunde en 5–9 punten op agentisch zoeken bij 30–70% lagere kosten per vraag. Onze resultaten leggen een metacognitieve kloof bloot: hoewel ongepromote modellen niet betrouwbaar kunnen bepalen wanneer hun eigen context verslechtert, overbrugt een lichte rubric deze kloof, waarmee het moment van compactie wordt geherdefinieerd als een vaardigheid die steigers zonder training kunnen leveren.
Telefoons worden een belangrijk uitvoeringsoppervlak voor algemene agenten, maar het trainen van open modellen voor betrouwbaar telefoongebruik blijft moeilijk omdat de omgeving die er bij implementatie toe doet—echte apparaten met echte apps—traag, toestandsgebonden, met neveneffecten, en moeilijk te resetten of verifiëren is, terwijl schaalbare mock-omgevingen slechts een benadering van echt gedrag geven. We presenteren PhoneBuddy, een trainingsrecept en een reeks open modellen voor agentisch telefoongebruik, dat een echte-app-omgeving combineert met een mock-app-omgeving, PhoneWorld, die uitvoerbare mock-apps reconstrueert op basis van de GUI-gebruiksstructuur van echte apps. PhoneBuddy begint met een gedeelde fase van begeleide fine-tuning op basis van trajecten die in beide omgevingen zijn verzameld, en vergelijkt vervolgens RL in de echte app met gemengde RL in beide omgevingen. In een menselijke evaluatie op 150 taken op echte telefoons, met apps, mini-apps en cross-app-workflows, verbetert het taak slagingspercentage van 36,67% na begeleide fine-tuning naar 40,67% na RL in de echte app en naar 45,33% na gemengde RL. Op AndroidWorld stijgt dezelfde progressie van 60,3% naar 77,2% naar 83,2%. Deze resultaten tonen aan dat mock-app-training geen vervanging is voor RL in de echte app, maar een complementaire bron van schaalbare, resetbare en automatisch gecontroleerde interactie. De winst is het grootst bij app- en mini-app-taken, terwijl langdurige cross-app-workflows een belangrijke open uitdaging blijven.
Wetenschappelijke ontdekkingsworkflows bevatten en steunen doorgaans sterk op labnotities, waarin onderzoekers observaties vastleggen, onzekere resultaten interpreteren en vervolgproeven plannen. Zulke informatieve labnotities bewaren de evoluerende wetenschappelijke redenering en de onzekerheid van de auteur, in plaats van de gepolijste eindresultaten die in publicaties worden getoond, en bieden een waardevolle kans voor AI om zich op een meer omvattend en dieper niveau met wetenschappelijke verkenning bezig te houden. Echter, het meeste eerdere werk over wetenschappelijke tekst richt zich op artikelen, protocollen of gestructureerde databases, waardoor informele labnotities onderbelicht blijven als input voor AI-agenten voor de wetenschap. Deze kloof is van belang omdat labnotities vaak gevalideerde observaties, voorlopige oordelen en mogelijke volgende experimentele stappen door elkaar halen in dezelfde passage. Als deze signalen worden verward, kan een AI-agent onzekere wetenschappelijke oordelen aanzien voor bevestigde conclusies of uitvoerbare acties. Daartoe presenteren we Notes2Skills, een tweetrapskader voor het omzetten van labnotitieboeken in verifieerbare vaardigheden voor wetenschappelijke AI-agenten, terwijl de zekerheid van de auteur behouden blijft. Over zeven condities en drie natte-lab-sessies heen is Notes2Skills de enige configuratie die noch onzekere notities voor vaste instructies aanziet, noch vaste notities weglaat. We tonen aan dat het behoud van zekerheid het ontbrekende stuk is tussen labnotitieboeken en betrouwbare agentvaardigheden, wat een pad opent naar veiligere AI-co-wetenschapperssystemen.
Search Agents (SA's) maken doorgaans gebruik van grote taalmodellen (LLM's) om complexe informatiezoekende taken te ondersteunen door autonoom webbronnen te verkennen en informatie te synthetiseren tot uitgebreide antwoorden. Voor de evaluatie van SA's richten eerdere benchmarks zich voornamelijk op gespecialiseerde taken die zelden voorkomen in realistische gebruikersscenario's. Bovendien beperkt hun afhankelijkheid van grove rubriceringen op taakniveau vaak de interpreteerbaarheid van evaluaties. Om dit hiaat te overbruggen, introduceren we DailyReport, een open einde benchmark om de capaciteiten van SA's te evalueren op dagelijkse zoektaken. Het bevat 150 taken met een open einde met 3.546 bijbehorende rubriceringen, die veelbesproken en actuele informatiebehoeften van echte gebruikers weergeven. Elke taak wordt opgedeeld in subtaken en geëvalueerd met cascade-rubriceringen over ontwarde dimensies. Via cascaderende prestatieattributie en gebruikersgerichte aggregatie leiden we zeer interpreteerbare scores af voor elke dimensie, samen met een gebruikersvoorkeursscore. Onze resultaten op 17 agentische systemen tonen aan dat huidige systemen nog steeds tekortschieten ten opzichte van de verwachtingen van gebruikers. Om toekomstig onderzoek te ondersteunen, worden onze dataset en code openbaar beschikbaar gesteld op https://github.com/AGI-Eval-Official/DailyReport.
Terminalgebruikende agents zijn snel de populairste downstream-toepassing van taalmodellen (TM's) geworden. Ondanks hun prevalentie is er relatief weinig academisch werk verricht naar op RL gebaseerde training van deze modellen, waarschijnlijk vanwege moeilijke benchmarks, een gebrek aan data en een gebrek aan eenvoudige basisrecepten. We presenteren Tmax, het sterkste open RL-recept voor terminalagents tot nu toe, waarmee open datarecepten dichter bij de frontlinie worden gebracht. Hoewel eenvoudig, behaalt ons recept 27% op Terminal-Bench 2.0 met slechts 9B parameters, waarmee het veel grotere modellen uit eerder werk overtreft. Concreet genereren we data met behulp van een nieuwe taxonomie, die moeilijkheidsbeheersing, persona's en verifier-diversificatie combineert, waardoor we goedkoop grote hoeveelheden terminalomgevingen kunnen genereren voor RL- en SFT-training. We maken onze terminaldataset open source, die meer dan 2,5 keer groter is dan eerder uitgebrachte terminalagent-datasets. Vervolgens trainen we open-gewichtsmodellen met behulp van RL met onze data, met een eenvoudig, uitsluitend op uitkomst gericht recept. We geven onze data, modellen en code vrij als een sterke basislijn voor toekomstig open academisch werk over terminalagents op https://github.com/hamishivi/tmax.
Het afstemmen van tekst-naar-beeld stroommatchingmodellen op menselijke voorkeuren via directe reward-backpropagatie is sample-efficiënt, maar wordt belemmerd door twee bekende pathologieën: activeringen kunnen niet worden opgeslagen over het volledige samplingtraject bij moderne modelschaal, en aaneengeschakelde Jacobiaanproducten over stappen heen blazen de reward-gradient op terwijl deze terugreist naar vroege indices. Connector-gebaseerde methoden, zoals LeapAlign, pakken deze problemen aan door het volledige terugwaartse traject te vervangen door een kort vastgezet pad, wat een nuttige ontkoppeling tussen sampling en optimalisatie benadrukt. De kwaliteit van de resulterende gradient hangt echter af van hoe nauwkeurig dit korte pad het volledige rollout benadert, vooral over lange intervallen. We stellen FlowBP voor, een uniform surrogaattrajectraamwerk dat het terugwaartse traject zelf als ontwerpobject beschouwt. FlowBP bewaart een geen-gradient gecachte rollout voor sampling, en bouwt vervolgens een lichtgewicht terugwaarts surrogaat uit gecachte en selectief opnieuw doorgestuurde snelheden. Deze visie scheidt vier keuzes: de invoer van het rewardmodel, de actieve set, de integratiegewichten en de brugkoppeling, en herstelt eerdere directe-gradientmethoden als specifieke instellingen. Binnen dit raamwerk implementeren we drie varianten: FlowBP-Sparse gebruikt schaarse Euler-reconstructie, FlowBP-Bridge voegt gecontroleerde brugkoppeling toe, en FlowBP-Lagrange verhoogt de orde van de sprongkwadratuur. Alle drie begrenzen het geheugen door de grootte van de actieve set en beperken de gradientketening tot maximaal één Jacobiaanfactor. Over SD3.5-M, FLUX.1-dev en FLUX.2-Klein-base heen op het gebied van voorkeurs-, kwaliteits- en compositionele metrieken verbeteren de drie varianten ten opzichte van directe-gradientbaselines op de meeste metrieken.
Flow matching is recentelijk naar voren gekomen als een krachtig paradigma voor state-of-the-art text-to-image (T2I) generatie, waardoor hoogwaardige generatie met een klein aantal bemonsteringsstappen mogelijk wordt. Naarmate deze modellen steeds meer worden geïntegreerd in praktijktoepassingen, wordt het waarborgen van veilige en niet-gevoelige inhoudsgeneratie een kritieke vereiste. Het aanpassen van veiligheids- en conceptverwijderingsmethoden aan dit nieuwe generatiekader blijft echter een open uitdaging. In het bijzonder zijn eerdere methoden grotendeels afhankelijk van iteratieve trajectsturing over een aantal denoising-stappen of van CLIP-gecentreerde promptembeddingmanipulatie. Deze ontwerpveronderstellingen vormen fundamentele knelpunten voor veiligheid in flow matching-gebaseerde T2I-generatie, waar beperkte bemonsteringsstappen iteratieve correctie beperken en moderne contextbewuste tekstencoders de effectiviteit van interventies op embeddingniveau verminderen. In dit artikel stellen we VESFlow voor, een trainingsvrije veiligheidsmethode die is toegesneden op flow matching met extreem weinig bemonsteringsstappen. Door gebruik te maken van het feit dat flow matching-modellen de marginale snelheid leren, bewerken we het snelheidsveld direct via een veiligheidsconditionele posterior. VESFlow stuurt het traject naar veilige outputs terwijl de conditioneringsprompt ongewijzigd blijft. Voortbouwend op de observatie dat VESFlow outputs onder goedaardige prompts ongewijzigd laat, introduceren we verder een op risicoscore gebaseerde filtering die snelheidsbewerking omzeilt om de rekenkosten te verlagen terwijl de generatie van goedaardige prompts behouden blijft. Op basis van deze filtering stellen we VESFlow+ voor, een sterkere variant van VESFlow die niet alleen de snelheid in de veilige richting bewerkt, maar ook wegduwt van de onveilige richting. Experimentele resultaten tonen aan dat VESFlow+ het doelconcept verwijdert, waardoor de aanvalsucceskans door NudeNet wordt teruggebracht tot 6,3% op Ring-A-Bell en 6,8% op MMA-Diffusion bij het 4-staps MeanFlow-model, terwijl de getrouwheid aan goedaardige prompts behouden blijft.
Open-gewichtsmodellen (Large Language Models, LLMs) maken wetenschappelijke vooruitgang en brede inzet mogelijk. Ze bemoeilijken echter de controle over de toegang tot gevoelige functionaliteiten. Huidige praktijken onderdrukken gevaarlijke mogelijkheden vóór vrijgave of reguleren de toegang via gesloten diensten die gebruikmaken van gespecialiseerde modelvarianten, input/output-monitoren en API-rechten. De eerste aanpak is vatbaar voor jailbreaks en offert functionaliteit op voor alle gebruikers om de risico's van een enkeling te beperken; de tweede is fundamenteel onverenigbaar met vrijgave van open gewichten. In dit artikel stellen we Gelaagde Taalmodellen (Tiered Language Models, TLMs) voor, waarbij één enkele set vrijgegeven gewichten meerdere functionaliteitsniveaus ondersteunt. In de standaard openbare configuratie gedraagt een TLM zich als een conventioneel LLM. Een compacte geheime sleutel specificeert een permutatie over een kleine subset van parameters, wat een alternatieve berekeningsgrafiek over dezelfde gewichten induceert die extra mogelijkheden blootlegt. We ontwikkelen een trainingsprotocol dat beide configuraties vanaf nul gezamenlijk vooraf traint, en vervolgens de gesleutelde configuratie verfijnt op private data met regularisatie om het gedrag van het openbare model te behouden. We trainen TLMs met 180M en 650M parameters en tonen aan dat de gesleutelde configuratie een nieuwe taal kan verwerven, instructievolgende vaardigheden kan ontwikkelen en private feitenkennis kan memoriseren, terwijl de openbare configuratie geen van deze capaciteiten vertoont. Bovendien laten we zien dat onze benadering op natuurlijke wijze uitbreidbaar is naar meerdere hiërarchische niveaus. Omdat autorisatie werkt op de gewichtsstructuur van het model in plaats van in de invoerruimte, is het mechanisme bestand tegen extractie via fijnafstemming en gedeeltelijke sleutelcompromittering. In algemene zin zetten TLMs een stap richting verzoening van open-gewichtvrijgave met selectieve functionaliteitscontrole.
Latente actie-pretraining leert representaties van visuele verandering uit paren van waarnemingen, maar bestaande methoden coderen doorgaans elke overgang als een enkele ongestructureerde representatie die de overgangsomvang en overgangswijze met elkaar verstrengelt. We introduceren Polar Latent Actions with Radial structure (PoLAR), die een radiaal-richtingsstructuur oplegt aan latente acties, waarbij de straal wordt aangemoedigd om de overgangsomvang te coderen en de richting om de overgangswijze te behouden. PoLAR gebruikt de temporele verschuiving tussen twee waarnemingen als een zwakke proxy voor de overgangsomvang, waardoor latente acties van waarnemingsparen die door grotere temporele gaten gescheiden zijn, worden aangemoedigd om grotere stralen in te nemen. We instantieren deze structuur in hyperbolische ruimte, waarvan het uitdijende volume met straal een natuurlijke pasvorm biedt voor meer diverse overgangswijzen bij grotere omvang. In zowel in-taak als grootschalige pretraining-omgevingen verbetert PoLAR de downstream-beleidsprestaties in simulatie en robotexperimenten in de echte wereld, waarbij het beter presteert dan latente actie-baselines en sterke voorgetrainde VLA's. Deze resultaten suggereren dat de geometrie van de latente actieruimte een belangrijke ontwerpkeuze is voor het overdragen van visuele pretraining naar downstream-robotbeleidsleren.
Dit werk presenteert een algemeen raamwerk voor het trainen van grote taalmodellen (LLMs) om "Connect the Dots" (CoD) uit te voeren, een metacapaciteit vereist voor agenten met een lange levenscyclus: wanneer een op LLM gebaseerde AI-agent wordt ingezet in een omgeving, lost deze een lange reeks taken op terwijl hij continu de omgeving verkent, leert van eigen ervaringen en iteratief zijn context over de omgeving bijwerkt, waardoor hij geleidelijk betere prestaties levert op toekomstige taken op basis van de bijgewerkte context. Belangrijke onderdelen van het CoD-raamwerk zijn: (1) algoritmeontwerp en infrastructuur voor end-to-end reinforcement learning (RL) met lange uitrolsequenties die solve-task- en update-context-episoden afwisselen; (2) taken en omgevingen die tijdens de training de beoogde metacapaciteit in LLMs stimuleren en uitlokken, evenals voor getrouwe meting van voortgang tijdens evaluatie. We presenteren proof-of-concept-implementaties van het CoD-raamwerk, waaronder een GRPO-stijl RL-algoritme met fijnmazige krediettoewijzing, evenals taken en omgevingen die zijn afgestemd op de beoogde metacapaciteit (in plaats van domeinspecifieke LLM-capaciteiten of standaard taak-voor-taak-RL). Empirische resultaten valideren de effectiviteit van end-to-end RL-training in de CoD-setting en tonen het potentieel aan voor generalisatie buiten de verdeling – binnen de trainingsdomeinen, over verschillende domeinen heen, en van CoD naar Ralph-loop-settings – van de uitgelokte metacapaciteit. Ons onderzoek naar CoD verbindt verschillende lijnen van eerder werk en opent nieuwe mogelijkheden voor het bevorderen van LLMs en AI-agenten. Om verder onderzoek en toepassingen te faciliteren, publiceren we onze implementaties op https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.
Recente pogingen om grote taalmodellen (LLMs) te combineren met causale ontdekking vragen modellen om paarsgewijze richtingen af te leiden, grafiekstructuren voor te stellen, of taalmodeluitvoer als prior knowledge en constraints in te voeren. Deze benaderingen beloven snellere analyses, maar verdoezelen ook of een causaal bewijs wordt ondersteund door data en aannames of door tekstuele associaties, prompt-artefacten en gehallucineerde mechanismen. Wij pleiten voor een andere rol van agenten in causale ontdekking. Agenten moeten data inspecteren, context ophalen, methode-aannames uitleggen en grafiekuitvoer verduidelijken, maar zij moeten geen edges, oriëntaties, prior knowledge, constraints of causale conclusies leveren. Wij stellen het principe voor dat agenten de workflow ondersteunen, terwijl causale claims geworteld blijven in data, expliciete aannames, formele algoritmen, diagnostiek en beslissingen van gebruikers of domeinexperts. We instantieren dit principe in causal-learn+, een online platform dat data-analyse, preprocessing, methode-aanbeveling, integratie van expertkennis, formele ontdekking en interpretatie coördineert rond het algoritmische ecosysteem van causal-learn. Een casestudy met Big Five-persoonlijkheidsdata illustreert een door agenten ondersteunde pipeline van causale ontdekking zonder de onbetrouwbaarheid van taalmodellen om te zetten in causaal bewijs. Het platform is beschikbaar op causallearn.com.
Moderne taalmodellen, waaronder transformer-, recurrente en geheugengebaseerde varianten, delen een gemeenschappelijk chassis: een stapel identieke lagen waarin parameters gelijkmatig over de diepte zijn verdeeld. Dit is een standaardinstelling die is overgenomen van de originele transformer en sindsdien grotendeels onveranderd is gebleven, hoewel een groeiende hoeveelheid bewijs suggereert dat lagen op niet-uniforme wijze bijdragen aan de uiteindelijke output, waarbij latere lagen de reststroom verfijnen in plaats van transformeren. We vragen ons af of de parametercapaciteit deze asymmetrie zou moeten weerspiegelen. Ons gecontroleerde experiment laat zien dat, onder een vast budget, het toewijzen van meer capaciteit aan eerdere lagen en minder aan latere lagen de perplexiteit verbetert ten opzichte van een uniforme breedte-baseline, terwijl de omgekeerde toewijzing schadelijk is. Voortbouwend op dit resultaat introduceren we Tapered Language Models (TLM's), een architectonisch principe waarbij een parameterdragende component monotoon taps toeloopt over de diepte onder een vast totaalbudget. MLP's zijn de natuurlijke plaats voor deze instantiatie: ze domineren het parameteraantal in alle moderne LM-families en stellen breedte bloot als een enkele, zuivere variatie-as. Bij drie modelschalen en vier architecturen (Transformer, Gated Attention, Hope-attention en Titans) verbetert het taps laten toelopen van de MLP-breedte via een vloeiend cosinusschema consequent de perplexiteit en de prestaties op downstream-benchmarks ten opzichte van uniforme baselines, zonder extra parameter- of rekenkosten. Deze bevindingen vestigen dieptebewuste capaciteitstoewijzing als een eenvoudige, architectuur-agnostische as van taalmodellontwerp, een vrije hefboom die verborgen in het zicht ligt.
Naarmate agentische systemen steeds complexere meerstapstaken aanpakken, vormt het evalueren van hun trajecten een belangrijk knelpunt – het handmatig annoteren van één enkel traject in populaire agentische benchmarks kan uren duren, waardoor het moeilijk wordt om evaluaties op te schalen voor het meten van prestaties of het samenstellen van trainingsdata. Dit heeft geleid tot een wijdverbreide afhankelijkheid van geautomatiseerde benaderingen zoals LLM-as-a-judge (LLMJ) om agenten op proces- en uitkomstniveau op grote schaal te bekritiseren, maar de degelijkheid van LLMJ-kritieken wordt vaak niet gemeten. Hier introduceren we Counsel, de eerste openbare dataset van meta-evaluaties voor agentische taken. Counsel bestaat uit procesgerichte kritieken van opengewicht LLMJ's op twee agent-benchmarks: tau-bench (klantenserviceagenten) en DA-Code (codeeragenten), en menselijke meta-evaluaties van deze kritieken. Menselijke annotatoren labelen kritieken op elke gemarkeerde fout als "precies juist", "juiste locatie maar zwakke redenering", of "had niet gemarkeerd moeten worden", met een betrouwbare interbeoordelaarsovereenstemming (Krippendorffs alpha van 0,78). De resulterende dataset stratificeert LLMJ-kritieken naar menselijke overeenstemming, zowel wat betreft foutlocatie in een traject als redeneerkwaliteit, en dient als waardevolle data om LLMJ's voor agenten te kalibreren, verbeteren of trainen. Bij het vergelijken van opengewicht beoordelaars zien we dat zowel capabelere beoordelaarsmodellen als meer redeneerinspanning leidden tot een betere menselijke overeenstemming, waarbij de sterkste beoordelaar ~88% overeenstemming bereikte op locatie en ~65% op redenering. Counsel wordt gegenereerd met behulp van opengewichtmodellen en is vrijelijk gelicentieerd voor breed gemeenschapsgebruik, waarvan we hopen dat het rigoureus onderzoek en verbeterde afstemming van LLM-gebaseerde evaluatoren voor agentische systemen mogelijk zal maken.
Multi-view 3D Visuele Vraagbeantwoording (MV3D-VQA) vereist de integratie van partiële waarnemingen in een coherente 3D-scènerepresentatie en de selectie van informatieve aanzichten voor meerstaps ruimtelijk redeneren. Huidige multimodale LLM's worden echter doorgaans getraind met schaarse supervisie op antwoordniveau, wat vaak leidt tot inconsistente kruisingsredeneringen en breekbare aanzichtselectie. Wij presenteren DR-MV3D (Dense Reward voor MV3D-VQA), een kaartverankerd leerkader dat dichte, verifieerbare beloningen biedt om het redeneerproces te superviseren. Onze aanpak ontleedt MV3D-VQA in (i) allocentrische globale kaartconstructie, (ii) vraag-afhankelijke aanzichttrajectplanning en (iii) egocentrische verankering voor antwoordpredictie. Om tussenstappen leerbaar te maken zonder handmatige annotaties introduceren we twee beloningen: een globale consistentiebeloning die de voorspelde kaart afstemt op geometrisch consistente pseudo-doelen van bevroren 3D-visie-fundatiemodellen (bijv. VGGT + SAM3), en een lokaal trajectbeloning die de geordende selectie van aanzichten superviseren. We optimaliseren de volledige pijplijn met trajectniveau-beleidsoptimalisatie (GRPO). Experimenten op MindCube, VSI-Bench en BLINK (MV) tonen aan dat DR-MV3D consequent beter presteert dan sterke multi-beeld-baselines, wat de effectiviteit ondersteunt van procesniveau dichte supervisie voor multi-view 3D-redeneren.
Vision-Language-Action (VLA)-modellen bieden een uniform paradigma voor robotmanipulatie, maar hun praktische inzet wordt vaak beperkt door uitvoeringsefficiëntie. Terwijl bestaande inspanningen zich voornamelijk richten op rekenkundige efficiëntie om de inferentielatentie per stap te verminderen, blijft de intrinsieke beleidsefficiëntie van deze modellen grotendeels onontgonnen. Beleidsefficiëntie wordt fundamenteel beïnvloed door twee factoren, namelijk de effectief uitvoerbare lengte van voorspelde actieblokken en het totale aantal fysieke stappen dat nodig is om een taak te voltooien. Deze twee factoren bepalen gezamenlijk het totale aantal voorwaartse inferentie-aanroepen tijdens de uitvoering. We constateren dat huidige VLA-beleidsstrategieën kampen met planningsonbetrouwbaarheid en actieredundantie, waarbij ze aanzienlijke degradatie van voorspellingen aan het einde van actieblokken vertonen en de neiging hebben om onnodig redundante fysieke stappen te genereren. Om dit aan te pakken stellen we PolicyTrim voor, een op reinforcement learning gebaseerd post-training raamwerk dat de betrouwbare actiebloklengte verlengt en redundante fysieke stappen vermindert. Voor betrouwbare blokverlenging hanteren we een dynamische exploratiestrategie die expliciet beloningen toekent voor het succesvol voltooien van langere uitvoerbare lengtes, waarmee de betrouwbare voorspellingshorizon stapsgewijs wordt opgeschroefd naar de empirische limiet. Voor stapefficiëntie ontwerpen we een redundantiebewuste beloning die direct succesvolle taakvoltooiingen met minder stappen begunstigt, terwijl niet-reproduceerbare shortcuts worden bestraft, waardoor redundante fysieke acties effectief worden geëlimineerd. Uitgebreide experimenten op drie benchmarks en drie VLA-modellen tonen aan dat PolicyTrim de benutting van actieblokken met een factor 3 verbetert en het aantal fysieke uitvoeringsstappen met 51,4% reduceert. Uiteindelijk levert ons raamwerk een tot 5,83 keer versnelde end-to-end implementatie op zonder afbreuk te doen aan het taaksuccespercentage.
Het is verleidelijk om aan te nemen dat elke taak die door een kort programma kan worden opgelost, aan een model kan worden geleerd als zijn redeneringsketen: schrijf de stappen uit, stem fijn, en het model volgt. Dit artikel toont aan dat deze aanname faalt voor een identificeerbare klasse van procedures. De testomgeving bestaat uit negen redeneertaken, elk afkomstig van een deterministische generator; openbare en verborgen splitsingen delen generatoren, dus niet-geziene data is een proxy voor testnauwkeurigheid. Ik reverse-engineer de generatoren naar Python-oplossingen, geef ze weer als redeneringsketen, en distilleer ze in een LoRA met rang ≤ 32 bovenop een 30B (3,5B actief) Nemotron-model. Vooruit-rekenbare taken installeren zich gemakkelijk: opzoek-/rekenkundige taken en een 8-bits boolean-taak transfereren (≥ 0,99 en 0,68). Cryptaritmetica niet: het distilleren van de backtracking-zoektocht blijft steken op 0,01-0,07 bij elf ontwerpen van redeneringsketens, reinforcement learning met verifieerbare beloningen, en zelftraining, hoewel een zoekoplossing 71% van de gevallen beantwoordt. Dit is geen capaciteitskloof. Het model voert de rekenkunde uit op 97-100% van de regels en rangschikt de juiste cryptar cijfercode in de top acht bij 71%; het kan de zoektocht niet als een links-naar-rechts afleiding voortzetten. Fijnstemmen leert de vorm van een verifieerbare eliminatiestap, terwijl de uitspraken onvoorwaardelijke sjablonen worden, slechts 16-57% van de tijd correct ("uitspraak-als-token"). Het plafond blijft gelden voor backbones van 3B tot 671B en voor fijnstemmen en prompting; een gecontroleerde interventie isoleert de oorzaak: het onthullen van de cryptarische sleutel, die de afleiding voorwaarts maakt, verhoogt dezelfde instanties van 0,03 naar 0,57. Wanneer de enige oplossing van een procedure zoeken is over een informatievrije structuur, bestaat er geen getrouwe voorwaartse redeneringsketen om te imiteren. De taak wordt alleen leerbaar door het zoeken te verwijderen, de combinatorische kern ervan voor te berekenen in een catalogus en de trace te reduceren tot herinneren plus verificatie; de eersteklasoplossing bereikt op deze manier Private LB 0,92. Wat distilleert is memorisatie en verificatie, niet zoeken.
Videodiffusiemodellen hebben opmerkelijk vooruitgang mogelijk gemaakt op het gebied van videogeneratie en -bewerking. Toch blijft inhoudsbehoud een kernuitdaging: bestaande methoden genereren elke pixel opnieuw en wijzigen vaak elementen die onveranderd zouden moeten blijven, zoals personages of achtergrondscènes. We introduceren Vera, een gelaagd diffusieframework voor inhoudsbehoud bij videobewerking. In plaats van de gehele video opnieuw te genereren, produceert Vera een bewerkingslaag samen met een alfamasker voor compositie met de bronvideo, waardoor creatieve bewerking en inhoudsbehoud door ontwerp worden gescheiden. Om een coherente compositie met de bronvideo te bevorderen, breiden we de tekst-naar-video DiT uit naar een Mixture-of-Transformers (MoT)-architectuur, met aparte DiT's voor elke laag die interageren via gezamenlijke zelfaandacht. Ter ondersteuning van de training van Vera construeren we verder een hoogwaardige gelaagde dataset met nauwkeurige alfamaskers, diverse scènes en dynamieken, en visuele effecten. In onze kwantitatieve benchmark en voorkeursstudie onder mensen overtreft Vera toonaangevende open-source videobewerkingsmodellen in inhoudsbehoud, terwijl het competitief blijft in bewerkingskwaliteit, gebruikmakend van 486K frames aan gelaagde trainingsdata.
Versterkend leren (RL) is een centrale benadering voor het verbeteren van redeneervermogens in grote taalmodellen (LLM's), waarbij de trainingsefficiëntie cruciaal afhangt van hoe problemen worden gesampled tijdens optimalisatie. Bestaande adaptieve curriculumleermethoden geven doorgaans prioriteit aan prompts van gemiddelde moeilijkheidsgraad, waarbij probleemselectie wordt behandeld als een standaard bandietprobleem met onafhankelijke armen, waarbij de gestructureerde, heterogene aard van de taakruimte wordt genegeerd. In dit werk framen we probleemsampling als een manifold-gestructureerd bandietprobleem met endogene niet-stationariteit: problemen zijn gerelateerd via de latente representatieruimte van het model, en samplebeslissingen kunnen sturen hoe leersignalen evolueren over die ruimte. Om dit perspectief te operationaliseren introduceren we het Bayesiaans Manifold Curriculum (BMC), een structuurbewust raamwerk dat problemen organiseert in een hiërarchische takenboom en Bayesiaans leren toepast om sampling te sturen. Empirisch vinden we dat verschillende samplingstrategieën niet-triviale afwegingen veroorzaken tussen productiviteit (leersignaal), diversiteit (dekking van het taakmanifold) en nut (evaluatierelevantie). Deze resultaten tonen aan dat alleen prioriteren op moeilijkheidsgraad onvoldoende is voor sterke downstreamprestaties, wat het belang benadrukt van het integreren van structuur en typebewustzijn in probleemsampling.
Lineaire probes worden veel gebruikt in interpreteerbaarheidsonderzoek en worden vaak vergeleken door cosinusovereenkomst. De Mahalanobis-cosinusovereenkomst (MCS) tussen twee richtingen, die het inwendig product herweegt op basis van covariantie van testgegevens, is een natuurlijke taakbewuste verfijning. Ying et al. (2026) rapporteren dat de MCS van een probe met een referentieprobe die is getraind op de out-of-distribution (OOD)-gegevens bijna perfect lineair de OOD AUROC van de probe voorspelt (R² = 0,98). Hier breiden we deze empirische bevinding uit over modellen, lagen en conceptdomeinen, en bewijzen we dit algemene fenomeen in gesloten vorm: voor gebalanceerde klassen waarvan de projecties Gaussisch zijn, zijn OOD AUROC en MCS ten opzichte van de referentieprobe lineair omdat beide sigmoïdevormige functies zijn van de signaal-ruisverhouding (SNR) van de probe op de testgegevens. De theorie voorspelt ook wanneer deze lineariteit faalt, wat we empirisch verifiëren. MCS biedt een theoretisch onderbouwd en empirisch effectief alternatief voor Euclidische cosinusovereenkomst voor het vergelijken van lineaire probes.
Hoewel grote en diverse datasets recente vooruitgang in grote modellen hebben gestimuleerd, blijft het identificeren van het optimale datamengsel voor voortraining en natraining een belangrijk open probleem. We pakken deze uitdaging aan met FASTMIX, een nieuw raamwerk dat de ontdekking van datamengsels automatiseert terwijl er slechts één enkel proxymodel wordt getraind. In plaats van te vertrouwen op vooraf gedefinieerde heuristieken of resource-intensieve simulaties, optimaliseert FASTMIX gezamenlijk mengselcoëfficiënten en modelparameters, wat de efficiëntie en schaalbaarheid aanzienlijk verbetert ten opzichte van eerdere benaderingen. De kern van FASTMIX is een herformulering van mengselselectie als een tweeledig optimalisatieprobleem. Onder deze herformulering laten we zien dat het optimaliseren van mengselverhoudingen wiskundig equivalent is aan het toekennen van per-bron verliesgewichten onder uniforme bronbemonstering. Dit plaatst de mengselcoëfficiënten direct in de differentieerbare iteratieve optimalisatiedoelstelling, waardoor efficiënte, gradiëntgebaseerde optimalisatie van zowel mengsel als model mogelijk wordt. Om het optimalisatieprobleem op te lossen, implementeert FASTMIX een benaderende iteratieve optimalisatieprocedure, die afwisselt tussen (i) het bijwerken van modelparameters op data die zijn bemonsterd volgens de huidige mengselverhoudingen (binnenste lus) en (ii) het bijwerken van mengselverhoudingen op basis van validatiefeedback (buitenste lus). Zowel bij voortraining als natraining presteert FASTMIX beter dan basislijnen, terwijl de zoekkosten drastisch worden verlaagd. Code (https://github.com/hrtan/fastmix)
Vision Transformers (ViT) domineren de computer visie. Hun afhankelijkheid van starre patchprojectoren belemmert echter de overdracht naar aardobservatie (AO), waar invoermodaliteiten, schalen en resoluties sterk variëren. We introduceren UniverSat, een ViT-achtige backbone gebouwd rond een Universele Patch-Encoder die patches van willekeurige ruimtelijke, spectrale en temporele resoluties, en van zowel optische als niet-optische sensoren, met een gedeelde set gewichten in een gedeelde inbeddingsruimte projecteert. Dit maakt het mogelijk om een enkel model te trainen op heterogene multimodale corpora via zelfsupervisie, wat robuuste, sensor-agnostische ruimtelijke kenmerken oplevert. We valideren deze aanpak met sterke resultaten voor classificatie en segmentatie op standaard AO-benchmarks van GeoBench, PANGEABench en SpectralEarth. Onze code en modellen zijn beschikbaar op https://github.com/gastruc/UniverSat.
Nu AI-laboratoria een dataplafond naderen waarbij de rekenkracht de snelheid van nieuwe hoogwaardige tekstgeneratie overtreft, verschuift de pretraining van taalmodellen naar een databeperkt, rekenkracht-overvloedig regime dat productieve multi-epoche training op vaste corpora vereist. Standaard autoregressieve (AR) pretraining heeft in deze setting ernstig last van overfitting; het bereikt vroeg zijn optimum en verslechtert vervolgens continu. We onderzoeken data-augmentatie tijdens de training als regularisator om deze overfitting te beperken en productieve training voor honderden epochs op dezelfde data mogelijk te maken. We introduceren drie orthogonale categorieën van augmentatie voor AR-pretraining: ruis op token-niveau (maskeren, willekeurige vervanging), sequentiepermutaties (rechts-naar-links voorspelling, Fill-in-the-Middle) en voorspelling van doelverschuiving (x_{t+i} voor i > 1). Door systematische ablatiestudies vinden we dat individuele augmentaties overfitting vertragen en het validatieverlies verlagen ten opzichte van de basislijn, waarbij willekeurige tokenvervanging de beste minimale verlieswaarde behaalt onder de individuele methoden. Het combineren van augmentatiecategorieën verlaagt het minimale validatieverlies verder. Onze experimenten tonen aan dat data-augmentaties de data-inefficiëntie van AR-pretraining verminderen en een veelbelovende oplossing bieden voor het databeperkte regime~\footnote{Alle code en data zijn beschikbaar op https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}
LLM-agenten in kennisintensieve vraagbeantwoording ondernemen zoek- en redeneeracties met onvolledige kennis over of hun huidige antwoord onzeker, niet onderbouwd of reeds volledig is. Dit leidt tot twee faalwijzen: het vasthouden aan zelfverzekerde maar niet onderbouwde antwoorden, wat de nauwkeurigheid schaadt, en het overmatig ophalen wanneer het beschikbare bewijs al voldoende is, wat leidt tot verspilde rekenkracht. Om agenten een vollediger beeld te geven van de toestandsruimte waarin ze opereren, introduceren we gekalibreerde verificateurstelemetrie (CalVerT), die de toestand van de agent uitbreidt met extra telemetrie: een gekalibreerde zelfvertrouwensscore en een verankeringsverificateursscore. We tonen aan dat CalVerT agenten kan verbeteren in zowel trainingsvrije als trainingsgebaseerde omgevingen. Op vier QA-benchmarks zien we dat CalVerT de F1-score verhoogt door het ophalen te activeren in gevallen waarin agenten te veel vertrouwen op parametrische kennis, terwijl het overbodig ophalen wordt verminderd in gevallen waarin agenten voldoende context hebben om te antwoorden. We tonen aan dat CalVerT bestaande QA-raamwerken kan uitbreiden zonder training. Bovendien verbetert CalVerT ook getrainde systemen: door simpelweg de toestand van een agent met telemetrie uit te breiden, zien we verbeteringen na versterkend leren, vergeleken met een agent met identieke training maar zonder CalVerT-telemetrie.
Discrete tekst-triggeroptimalisatie – het zoeken naar tekstreeksen die, wanneer door een model ingenomen, het model in de richting van een gespecificeerd doel sturen – vormt de basis van model red-teaming (bijv. LLM-jailbreaks), evenals auditing en interpreteerbaarheid. De huidige stand van zaken van discrete optimalisatoren belemmert echter de adoptie en vooruitgang ervan. Ten eerste zijn bestaande optimalisatoren, als ze al open-source zijn, verspreid over onderzoekscodebases die zijn gekoppeld aan specifieke modellen, doelstellingen en probleemdomeinen. Ten tweede woekeren varianten van optimalisatoren, die elk engineering overhead vereisen om te gebruiken of uit te breiden, en die moeilijk onderling te vergelijken blijven. Samen verhogen deze factoren de drempel voor het adopteren van optimalisatoren in bestaande of nieuwe domeinen, en voor het verbeteren ervan via nieuwe strategieën. We pakken deze hiaten aan met TROPT, het eerste open-source framework dat de uitvoering van discrete optimalisatoren verenigt en hun ontwikkeling standaardiseert onder één enkele interface. TROPT maakt het eenvoudig om end-to-end optimalisatierecepten aan te passen door elk component te wisselen – modellen, doelstellingen en optimalisatoren – en breidt daarmee het bereik over domeinen en nieuwe toepassingen uit. TROPT wordt momenteel geleverd met meer dan 30 optimalisatierecepten – die toepassingen bestrijken zoals jailbreaken en het onderzoeken van modelinterne – opgebouwd uit meer dan 15 optimalisatoren (variërend van white-box tot black-box toegang) en meer dan 15 verliesfuncties, van fundamentele tot state-of-the-art methoden. Om het nut ervan aan te tonen, gebruiken we TROPT in verschillende studies: (i) gecontroleerde grootschalige experimenten die optimalisatiestrategieën voor LLM-jailbreaks vergelijken en verbeteren, waarbij krachtige maar onderbenutte technieken aan het licht komen; en (ii) het overzetten van optimalisatoren van het ene domein (bijv. LLM-jailbreak) naar nieuwe domeinen (bijv. een corpusvergiftigings-embeddingmodel). Al met al verlaagt TROPT aanzienlijk de drempel voor het adopteren en bevorderen van discrete tekstoptimalisatie.
LLM-agenten met een lange horizon kunnen stilletjes falen: ze raken vroeg gecommitteerd aan één interpretatie van het bewijs en besteden de rest van de run aan het verdedigen daarvan. Dit noemen we voortijdige committering. Beoordeling van het uiteindelijke antwoord mist deze faalwijze omdat het alleen het antwoord ziet, niet of het proces al is ingestort op een stabiel pad. We definiëren representationale committering als cross-run convergentie van verborgen toestanden op een vaste redeneerstap, en gebruiken het als een vroege diagnostiek van trajectconsistentie. Op Llama-3.1-70B met ReAct op HotpotQA voorspelt de gelijkenis van verborgen toestanden op stap 4 stroomafwaartse gedragsconsistentie (r = -0,35, partiële r = -0,45), met een gelokaliseerde temporele en laagsgewijze signatuur. Het signaal repliceert over Qwen-2.5-72B en Phi-3-14B, en op StrategyQA (r = -0,83). Het volgt geen correctheid: vragen met een foutieve committering en vragen met een correcte committering zijn niet te scheiden op basis van activatiegelijkenis. Die grens is centraal in de bewering. Committering vertelt ons of een agent zich heeft vastgelegd, niet of het gelijk heeft. Een runtime monitor detecteert inconsistente trajecten uit verborgen toestanden met een AUROC tot 0,97 (0,85–0,88 onder een strengere splitsing), en een prompting-interventie vermindert gedragsvariantie met 28% ten opzichte van een op tokens gematchte controle, terwijl de nauwkeurigheid statistisch ongewijzigd blijft. We testen ook of het signaal self-consistentieberekening kan sturen; op een moeilijkere benchmark helpt het slechts bescheiden en wordt het geëvenaard door een eenvoudigere op output gebaseerde baseline. Het resultaat is een diagnostiek voor een verborgen procesfout, met duidelijke beperkingen in plaats van een algemene nauwkeurigheidshendel.
Computergebruikagenten (CUAs) handelen nu namens een gebruiker in persoonlijke toepassingen zoals e-mail, agenda's en takenlijsten. Deze toegang tot meerdere toepassingen is nuttig, maar creëert ook een grotendeels over het hoofd gezien privacyrisico: wanneer een agent in één context werkt, kan hij informatie uit een andere context halen die in die context ongepast is. Daarom introduceren we AgentCIBench, een evaluatie-instrument dat dit risico omzet in uitvoerbare, deterministisch gescoorde scenario's. We richten ons op drie veelvoorkomende faalmodi in CUAs: visuele co-locatie, waarbij de agent verboden items meeneemt die naast het taakdoel in de gebruikersinterface staan; overdelen als gevolg van taakambiguïteit, waarbij de agent een hoop persoonlijke status dumpt als reactie op een te vage opdracht; en misalignering van de ontvanger, waarbij de agent inhoud naar een geadresseerde stuurt voor wie deze ongepast is. We evalueren 15 geavanceerde agenten en vinden een verrassend hoog faalpercentage: 11 van de 15 lekken in meer dan 50% van de scenario's, met een gemiddelde lekkage van 67,9%, en dezelfde fouten blijven bestaan wanneer agenten end-to-end in de omgeving handelen om de taak te voltooien. We geven AgentCIBench vrij om de ontwikkeling van veiligere computergebruikagenten te stimuleren en positioneren het testen van contextuele openbaarmaking als een veiligheidscontrole vóór implementatie.
Tekst- en beeldgeconditioneerde 3D-modellen genereren nu overtuigende assets, maar bieden nog steeds weinig directe controle over de ruimte die een object moet innemen of vermijden. Bij het ontwerpen is deze ruimtelijke intentie vaak bekend voordat de generatie begint. Een stoel moet in een zitomhulsel passen, een rekwisiet moet speling laten voor beweging, of een onderdeel moet een contactoppervlak blootleggen. Prompts en beeldweergaven zijn slechte dragers voor dergelijke beperkingen, wat de noodzaak van een expliciete controles-interface benadrukt. We presenteren Arbor, een trainbare toevoeging voor tekstgeconditioneerde latente 3D-generatie. Arbor introduceert constraint-meshes als een native 3D-controle-interface. De interface gebruikt hull-regio's waar geometrie moet bestaan, vermijdingsregio's die leeg moeten blijven, en aanraakregio's waarmee het object contact moet maken. In tegenstelling tot completie of gehele-object-steigercontrole zijn deze meshes geen doeleind-bewijs. Het zijn lokale getypeerde vereisten en kunnen regio's omvatten waar geen oppervlak mag verschijnen. Arbor behoudt dit signaal als geometrie door constraint-meshes om te zetten in tokens en een gerouteerde toevoeging te leren binnen een bevroren denoiser. Elke latente regio kan daardoor het deel van de constraint ontvangen dat relevant is voor zijn ruimtelijke locatie. We evalueren Arbor op automatische en door kunstenaars samengestelde controle-benchmarks met hull-, vermijdings- en aanraakbeperkingen, en vergelijken de metrische trends met een gebruikersvoorkeursstudie. Zelfs zonder speciale nalevingsverliezen verbetert Arbor de naleving van beperkingen terwijl de objectkwaliteit en variatie onder vaste beperkingen behouden blijven.
Meshes behoren tot de meest voorkomende 3D-scenerepresentaties, maar het direct genereren van meshes is uitdagend omdat de representatie belangrijke symmetrieën bevat, waaronder permutatie-invariantie van vlakken en hoekpunten. MeshFlow leert om driehoeksmazen rechtstreeks als triangle soups te genereren, waardoor de noodzaak om meshes te serialiseren in lange autoregressieve reeksen wordt vermeden. We gebruiken equivariante optimal-transport flow matching modellen die de belangrijkste symmetrieën van triangle soups respecteren: willekeurige permutaties van vlakken en permutaties van de hoekpunten binnen elk vlak. Met dit doel voor ogen stellen we een eenvoudige maar effectieve wijziging voor aan de Diffusion Transformer-architectuur, wat resulteert in een schaalbaar netwerk dat in staat is een snelheidsveld te modelleren terwijl de gewenste equivariantie behouden blijft. We introduceren verder een op optimal-transport gebaseerde trainingsdoelstelling die de convergentie verbetert door supervisiesignalen te elimineren die deze symmetrieën schenden. MeshFlow bereikt een maaskwaliteit die vergelijkbaar is met state-of-the-art autoregressieve meshgeneratoren, terwijl het een ongeveer 18-voudige versnelling biedt tijdens inferentie. De projectpagina is te vinden op https://qiisun.github.io/MeshFlow/.
Met de snelle verspreiding van retrieval-augmented generation en semantisch zoeken wordt het steeds moeilijker om de juiste inbeddings- en retrievalsconfiguratie te kiezen. Grote retrieval-benchmarks zijn uitgebreid, maar te zwaar om tijdens de ontwikkeling opnieuw uit te voeren, en er is weinig infrastructuur om productie-instellingen – dimensionaliteitsreductie, kwantisering, herordening – onder identieke omstandigheden over vele modellen te vergelijken. Wij presenteren HAKARI-Bench, een lichtgewicht benchmark die bestaande retrieval-suites herstructureert tot kleine datasets (Nano-sets): 35 benchmarks en 551 taken in 43 talen in een uniform formaat, wat model-agnostische vergelijking onder gelijke voorwaarden mogelijk maakt van vijf retrievalfamilies (BM25, dicht, dun, late interactie, herordenen) en hun efficiëntievarianten. Over 55 modellen heen reproduceert de algehele rangschikking de officiële MTEB retrieval v2, MMTEB v2 retrieval en Engelse BEIR (volledig) met een Spearman >0,97. HAKARI-Bench vervangt geen volledige evaluatie; het maakt snelle modelselectie, regressiedetectie en het lezen van de kwaliteit-efficiëntie Pareto-grens mogelijk. Code, gegevens en leaderboard worden vrijgegeven onder de MIT-licentie.
Het reconstrueren van dynamische niet-rigide objecten uit monoculaire video vereist de integratie van visuele aanwijzingen uit directe waarnemingen met data-gedreven voorkennis over geometrie en verschijning. Eerdere benaderingen leren óf rechtstreeks 4D-representaties te voorspellen op basis van visuele invoer, óf ze initialiseren een 3D-representatie die vervolgens wordt vervormd en verfijnd op basis van videobewijs. De eerste worden echter beperkt door de schaarste aan 4D-trainingsdata, terwijl de laatste alleen voor de initiële reconstructie gebruikmaken van voorkennis en daarna uitsluitend vertrouwen op videosupervisie; geen van beide pakt complexe in-the-wild scenario's met grote vervormingen en occlusies goed aan. Wij presenteren Lift4D, een optimalisatiekader tijdens de testfase dat beide beperkingen aanpakt. Ten eerste passen we een bestaand 3D-reconstructiemodel voor enkele weergaven aan om temporeel consistente per-frame voorspellingen te verkrijgen via causale latente conditionering, wat een coherente initiële schatting oplevert voor een vervormbare 3D Gaussiaanse Splatting-representatie. Vervolgens 'boetseren' we deze representatie zodanig dat deze overeenkomt met de invoervideo door middel van een occlusiebewuste optimalisatie die zichtbare oppervlaktedetails getrouw herstelt en niet-waargenomen gebieden aanvult met behulp van een beeldhoek-geconditioneerde diffusieprior. We tonen aan dat Lift4D een duidelijke verbetering is ten opzichte van eerdere 4D-reconstructiemethoden, met name bij uitdagende in-the-wild sequenties met ernstige occlusies en niet-rigide beweging.
Generatieve muzieksystemen kunnen nu indrukwekkende audio genereren op basis van tekstprompts, maar audio-uitgangen zijn moeilijk te inspecteren, bewerken en diagnosticeren als muzikale structuur. We introduceren Libretto, een agentgericht raamwerk voor symbolische muziekgeneratie en -revisie. Libretto gebruikt een LLM-native grammatica met expliciete onset-slots, stemmen en maatniveau-organisatie, en evalueert vervolgens elk stuk in een corpus-gekalibreerde statistische ruimte over ritme, harmonie, melodie, textuur, vorm en variatie. Dezelfde structurele assen ondersteunen retrieval, diagnose, kopieerrisicobeheersing en iteratieve zelfrevisie. Bij gatvulling, referentiegeleide volledige-stukgeneratie, geleidelijke morfing en educatieve muziekgeneratie verandert Libretto symbolische muziek van een ruwe tokenreeks in een meetbaar en bewerkbaar object voor taalmodellenagenten.
Filmproductie vereist nauwkeurige bewegingscontrole en het samenstellen van referentiebeelden – mogelijkheden die bestaande methoden afzonderlijk behandelen. Punt-spoor-geconditioneerde beeld-naar-video modellen beperken het invoegen van content tot het eerste frame, terwijl referentie-naar-video modellen geen fijnmazige ruimtelijk-temporele controle bieden over hoe referentiecontent over frames wordt geïntegreerd. Wij presenteren Go-with-the-Track, dat beide capaciteiten verenigt door gezamenlijk te conditioneren op meerdere referentiebeelden en referentie-verankerde punt-sporen – waarbij conventionele punt-sporen worden uitgebreid om expliciet overeenkomsten tot stand te brengen tussen gegenereerde frames en referentiebeelden, waardoor nauwkeurige compositie en bewegingscontrole gedurende de gehele video mogelijk wordt. Om dit te bereiken introduceren wij ruimtelijk bewuste punt-spoor inbeddingen die de volledige reeks punt-spoor coördinaten coderen met behulp van een coördinaatsgewijze MLP gevolgd door temporele pooling. Deze representatie vat de ruimtelijke kenmerken van elk punt-spoor samen (als unieke identificator), terwijl de inbeddingsovereenkomst direct correleert met ruimtelijke nabijheid, wat het vermogen van het model om punt-sporen te onderscheiden en te associëren versterkt. Wij injecteren deze punt-spoor inbeddingen in een video diffusie transformator via een lichtgewicht adapter, waardoor de pixel-naar-patch resolutie mismatch wordt opgelost en het substantiële verlies aan bewegingsdetails dat inherent is aan naïeve punt-spoor subsampling wordt vermeden. Wij gebruiken een hybride trainingsstrategie om gezamenlijk te trainen op dynamische, statische en synthetische scène-video datasets om de bewegingscontroleerbaarheid te verbeteren. Experimenten tonen aan dat Go-with-the-Track superieure bewegings- en referentiecontrole in één enkel model bereikt en nieuwe mogelijkheden mogelijk maakt: meervoudig referentie-geconditioneerde videogeneratie met punt-spoor gedreven compositie, evenals cameracontrole voor zowel statische als dynamische scènes. Projectpagina: https://eyeline-labs.github.io/Go-with-the-Track/
Het optimaliseren van de samenstelling van pretrainingdata is cruciaal voor de generalisatie van grote taalmodellen (LLM's). Hoewel dynamische menging beter presteert dan statische strategieën door zich aan te passen aan de evoluerende trainingsdynamiek, slagen huidige methoden er niet in om computationele efficiëntie te verenigen met steekproefefficiëntie en structurele flexibiliteit voor diverse pipelines. We introduceren Actor-Critic Online Data Mixing (AC-ODM), dat datamenging benadert vanuit een reinforcement learning-perspectief met een geparametriseerd beleid waarvan we theoretisch aantonen dat het fungeert als een dynamische lineaire vervanger die de constructieve interferentie van gradiënten maximaliseert. Om de praktische flexibiliteit te vergroten, ondersteunt AC-ODM twee operationele modi: (i) een proxy-modus voor vaste, voorbereide corpora, waarbij een op een klein model geleerd beleid wordt overgedragen naar een groter doelmodel; en (ii) een niet-proxy-modus voor directe end-to-end training vanaf nul zonder voorkennis. Empirisch gezien presteert AC-ODM aanzienlijk beter dan eerdere methoden wat betreft convergentiesnelheid en downstream-nauwkeurigheid over verschillende architecturen. Op Pythia-1B bereikt het de optimale validatieperplexiteit met tot 66% minder trainingsstappen dan competitieve baselines, met een relatieve verbetering van 27,5% in MMLU-nauwkeurigheid en een 2,23x hogere pass@1 op HumanEval, terwijl het een vrijwel verwaarloosbare (0,4%) toename in wandkloktijd per stap en slechts 2% extra geheugenoverhead met zich meebrengt. Code is beschikbaar op https://github.com/DANG-ai/AC-ODM.
Nu zelfrijdende auto's internationaal blijven uitbreiden en multimodale systemen zoals VLM's gebruiken als cognitieve ruggengraat voor hun actiemodellen, hoe goed zullen deze systemen dan generaliseren in nieuwe omgevingen, met name in out-of-distribution (OOD) randgevallen in nieuwe geografische gebieden? In dit artikel onderzoeken we deze open vraag door een volledige factoriële analyse uit te voeren met menselijke bestuurders uit Lima, menselijke bestuurders uit New York City, en VLM's, waarbij we hen dashcambeelden tonen die zijn verzameld in Lima en New York City – en hen vragen stellen volgens een Visuele Vraagbeantwoording (VQA)-paradigma. We kiezen specifiek voor deze twee steden omdat het zeer uitdagende rijlocaties zijn waar momenteel geen zelfrijdende-autobedrijf actief is, en stellen vragen die vallen onder vier categorieën: Feitelijk, Beoordelingen, Contrafactueel en Redeneren. We vinden dat mensen en VLM's verschillen in hun antwoorden – hoewel dit wordt gemoduleerd door het type vragen, en dat mensen vergelijkbaar antwoorden ongeacht waar ze vandaan komen (Lima/NYC). Tot onze verrassing vonden we geen sterk verschil in antwoorden (mensen of VLM's) dat werd gemoduleerd door geografie, waarschijnlijk vanwege hun hoge out-of-distribution-karakter. Onze dataset is beschikbaar op: https://huggingface.co/datasets/Artificio/robusto-2
We introduceren ShotcreteDepth, een bimodale dataset uit de bouwsector die zowel een actief shotcrete-proces als algemene bouwomgevingen vastlegt. De dataset omvat stereoscopische RGB-beelden en LiDAR-puntenwolken die zijn verkregen onder zware reële omstandigheden, waaronder hoge troebelheid en slechte verlichting. Dergelijke omstandigheden hebben een negatieve invloed op sensormetingen, wat leidt tot onvolledige en ruizige waarnemingen die aanzienlijke uitdagingen vormen voor waarnemingssystemen in autonome toepassingen. Naast de dataset brengen we een lichtgewicht annotatietool uit, ontworpen voor tijdefficiënt labelen van LiDAR-puntenwolken. ShotcreteDepth bestaat uit 11.252 temporeel gesynchroniseerde datamonsters, waarvan er 220 zijn geannoteerd voor evaluatiedoeleinden. De dataset ondersteunt onderzoek naar stereomatching, dieptecompletie en diepteschatting onder omstandigheden die nauw aansluiten bij de operationele complexiteit in industriële omgevingen. Projectrepository: https://github.com/dtu-pas/shotcrete-depth
We beschrijven onze inzending voor de efficiëntietrack van de Academic Text-to-Music (ATTM) Grand Challenge op ICME 2026. Naast de FAD-CLAP en CLAP-score van het uitdagingsprotocol voegen we een geleerde menselijke voorkeursbeloning toe van TuneJury, een tweeling paarsgewijze ranker getraind op open muziekvoorkeursdatasets. De beloning dient zowel als een conditioneringssignaal tijdens training als als een selectiecriterium voor steekproeven. De pijplijn combineert vijf technische beslissingen op een FluxAudio-S backbone van 120M parameters, vier tijdens training en één bij inferentie: (i) conditionering op basis van beloning tijdens training die tevens dient als een CFG-as tijdens inferentie, (ii) een zoektocht over vijf score-conditioneringsarchitecturen, waarbij training en inferentie verschillende varianten gebruiken, (iii) expertiteratie op het bovenste deciel, (iv) een korte preferentie-afstemmingsronde (CRPO) voor audio-tekst-uitlijning, en (v) inferentie-nabewerking via gezamenlijke CFG, bronafscheiding en luidheidsnormalisatie. Per-stadium decompositie op 100 Song Describer prompts toont dat conditionering op basis van beloning tijdens training functioneert als een functionele conditioneringsas, expertiteratie de dominante bijdrage levert, de preferentie-afstemmingsronde slechts een winst op ruisniveau toevoegt, en de score-scalair tijdens inferentie reeds verzadigd is aan het einde van de keten.
Grote taalmodellen (LLMs) worden steeds vaker gebruikt om softwareontwikkeling te ondersteunen, maar hun praktische bruikbaarheid in toegepaste game-ontwikkelingsomgevingen blijft onderbelicht, vooral wanneer gegenereerde code moet worden geïntegreerd in een bestaand game-softwaresysteem. Dit artikel presenteert een verkennende empirische casestudy van GPT-4o in een op maat gemaakte Python/Pygame eindeloze renner. De studie onderzoekt zes geselecteerde ontwikkelingstaken: drie gelokaliseerde refactoringtaken en drie taken die betrekking hebben op het genereren van gameplayfuncties. De resulterende implementaties werden geëvalueerd met behulp van softwaremetrieken, eenheidstests en handmatige gameplaybeoordelingen. In deze casestudy werden alle drie geselecteerde refactoringtaken functioneel succesvol afgerond, terwijl slechts een van de drie geselecteerde taken voor het genereren van gameplayfuncties leidde tot een correct geïntegreerde functie. De bevindingen suggereren dat GPT-4o in deze setting gelokaliseerde transformaties betrouwbaarder afhandelde dan taken die nieuwe gameplay-interacties over meerdere bestaande systemen vereisen. Gezien het verkennende enkelvoudige casusontwerp kunnen deze resultaten het best worden geïnterpreteerd als indicatieve observaties in plaats van als generaliseerbaar bewijs van modelprestaties op categorieniveau. Over het geheel genomen levert het artikel een transparante casusgebaseerde beschrijving van de mogelijkheden en beperkingen van LLM-ondersteunde refactoring en gameplay-functiegeneratie in een bestaand game-softwaresysteem.
Naarmate stedelijke gebieden zich uitbreiden, wordt automatische monitoring van parkeerterreinen essentieel voor efficiënte en duurzame steden. Dit werk stelt een zelfgecontroleerde aanpak voor voor herkenning van parkeerplaatsbezetting die geen gelabelde monsters uit het doelparkeerterrein vereist. Voortbouwend op een zelfgecontroleerd protocol voor fijnafstemming via transfer learning, bestaat de voorgestelde trainingsstrategie uit twee zelfgecontroleerde fasen: eerst op ongelabelde algemene gegevens en vervolgens op ongelabelde doelspecifieke gegevens, gevolgd door gecontroleerde fijnafstemming met alleen algemene parkeerterreinlabels. We gebruiken SimCLR met een ResNet-50-encoder en evalueren de methode onder een leave-one-out cross-omgevingsprotocol op drie openbare datasets: PKLot, CNRPark-EXT en PLds. We introduceren ook een tweefasige implementatiestrategie waarbij eerst een Sterk Algemeen Model wordt ingezet, gevolgd door een Gespecialiseerd Model dat ongelabelde beelden verwerkt die tijdens de eerste N dagen van implementatie op een zelfgecontroleerde manier zijn verzameld. Experimentele resultaten tonen aan dat het Sterk Algemeen Model alleen al beter presteert dan gecontroleerde en zelfgecontroleerde basismethoden, met een gemiddelde nauwkeurigheid van 97,2%, die verder verbetert naar 97,8% met de voorgestelde tweefasige strategie. Deze resultaten laten zien dat zelfgecontroleerd leren een schaalbare en labelefficiënte oplossing mogelijk maakt voor real-time parkeerbezettingmonitoring. Onze getrainde modellen en broncode zijn openbaar beschikbaar op https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition.