Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Veel trainingsvrije sparse attention-methoden zijn effectief voor het versnellen van diffusiemodellen. Recentelijk suggereren verschillende werken dat het trainbaar maken van sparse attention de sparsiteit verder kan vergroten zonder de generatiekwaliteit aan te tasten. Wij bestuderen drie kernvragen: (1) wanneer falen de twee gebruikelijke maskeringsregels, namelijk Top-k en Top-p, en hoe kunnen we deze fouten vermijden? (2) waarom kan trainbare sparse attention een hogere sparsiteit bereiken dan trainingsvrije methoden? (3) wat zijn de beperkingen van het fine-tunen van sparse attention met behulp van het diffusieverlies, en hoe kunnen we deze aanpakken? Op basis van deze analyse stellen we SpargeAttention2 voor, een trainbare sparse attention-methode die een hoge sparsiteit bereikt zonder de generatiekwaliteit te verslechteren. SpargeAttention2 omvat (i) een hybride maskeringsregel die Top-k en Top-p combineert voor robuustere maskering bij hoge sparsiteit, (ii) een efficiënte implementatie van trainbare sparse attention, en (iii) een op distillatie geïnspireerd fine-tuningdoel om de generatiekwaliteit beter te behouden tijdens het fine-tunen met sparse attention. Experimenten met videodiffusiemodellen tonen aan dat SpargeAttention2 een attentiesparsiteit van 95% en een attentieversnelling van 16,2x bereikt met behoud van generatiekwaliteit, waarbij het consistent beter presteert dan eerdere sparse attention-methoden.
Wij presenteren Unified Latents (UL), een raamwerk voor het leren van latente representaties die gezamenlijk worden geregulariseerd door een diffusieprior en gedecodeerd door een diffusiemodel. Door de uitgangsruis van de encoder te koppelen aan het minimale ruisniveau van de prior, verkrijgen we een eenvoudige trainingsdoelstelling die een strakke bovengrens biedt voor de latente bitsnelheid. Op ImageNet-512 bereikt onze aanpak een competitieve FID van 1,4, met een hoge reconstructiekwaliteit (PSNR), terwijl minder trainings-FLOPs nodig zijn dan bij modellen getraind op Stable Diffusion-latenten. Op Kinetics-600 vestigen we een nieuwe state-of-the-art FVD van 1,3.
Het artikel introduceert GUI-Owl-1.5, het nieuwste native GUI-agentmodel dat instructie/denk-varianten biedt in meerdere groottes (2B/4B/8B/32B/235B) en een reeks platforms ondersteunt (desktop, mobiel, browser en meer) om cloud-edge samenwerking en real-time interactie mogelijk te maken. GUI-Owl-1.5 behaalt state-of-the-art resultaten op meer dan 20 GUI-benchmarks voor open-source modellen: (1) voor GUI-automatiseringstaken behaalt het 56,5 op OSWorld, 71,6 op AndroidWorld en 48,4 op WebArena; (2) voor groundingtaken behaalt het 80,3 op ScreenSpotPro; (3) voor tool-aanroepingstaken behaalt het 47,6 op OSWorld-MCP en 46,8 op MobileWorld; (4) voor geheugen- en kennistaken behaalt het 75,5 op GUI-Knowledge Bench. GUI-Owl-1.5 bevat verschillende belangrijke innovaties: (1) Hybride Data Flywheel: we bouwen de datapijplijn voor UI-begrip en trajectgeneratie op basis van een combinatie van gesimuleerde omgevingen en cloudgebaseerde sandbox-omgevingen om de efficiëntie en kwaliteit van gegevensverzameling te verbeteren. (2) Uniforme Verbetering van Agentcapaciteiten: we gebruiken een uniforme thought-synthesis pijplijn om de redeneercapaciteiten van het model te versterken, met bijzondere aandacht voor het verbeteren van cruciale agentvaardigheden, waaronder Tool/MCP-gebruik, geheugen en multi-agent aanpassing; (3) Multi-platform Omgeving RL Scaling: We introduceren een nieuwe omgeving RL-algoritme, MRPO, om de uitdagingen van multi-platform conflicten en de lage trainings efficiëntie van long-horizon taken aan te pakken. De GUI-Owl-1.5-modellen zijn open source, en een online cloud-sandbox demo is beschikbaar op https://github.com/X-PLUG/MobileAgent.
Agentische AI-assistenten die autonoom meerstappentaken uitvoeren, roepen open vragen op voor de gebruikerservaring: hoe moeten dergelijke systemen voortgang en redenering communiceren tijdens langdurige operaties, vooral in aandacht-kritische contexten zoals autorijden? Wij onderzoeken de timing en uitgebreidheid van feedback van agentische op LLM gebaseerde auto-assistenten via een gecontroleerde, mixed-methods studie (N=45) waarbij feedback over geplande stappen en tussenresultaten wordt vergeleken met stille werking met alleen een eindresultaat. Met een dubbele-taakparadigma met een spraakassistent in de auto ontdekten we dat tussentijdse feedback de waargenomen snelheid, het vertrouwen en de gebruikerservaring significant verbeterde, terwijl de taakbelasting afnam – effecten die standhielden bij verschillende taakcomplexiteiten en interactiecontexten. Interviews onthulden verder een gebruikersvoorkeur voor een adaptieve aanpak: hoge initiële transparantie om vertrouwen op te bouwen, gevolgd door een geleidelijke vermindering van uitgebreidheid naarmate systemen betrouwbaar blijken, met aanpassingen op basis van taakbelang en situationele context. Wij vertalen onze empirische bevindingen naar ontwerpimplicaties voor de timing en uitgebreidheid van feedback in agentische assistenten, waarbij transparantie en efficiëntie in balans worden gebracht.
Grote Taalmodellen (LLM's) worden in toenemende mate ingezet voor complexe problemen die niet noodzakelijkerwijs in één reactie worden opgelost, maar waarbij interactie met een omgeving nodig is om informatie te vergaren. In dergelijke scenario's moeten LLM's redeneren over inherente afwegingen tussen kosten en onzekerheid: wanneer moeten ze stoppen met verkennen en zich vastleggen op een antwoord? Bij een programmeertaak moet een LLM bijvoorbeeld een gegenereerd codefragment testen als het onzeker is over de correctheid ervan; de kosten van het schrijven van een test zijn niet nul, maar zijn doorgaans lager dan de kosten van het maken van een fout. In dit werk tonen we aan dat we LLM's kunnen aanzetten om expliciet te redeneren over het in evenwicht brengen van deze afwegingen tussen kosten en onzekerheid, waardoor ze optimaalere verkenning van de omgeving kunnen uitvoeren. We formaliseren meerdere taken, waaronder informatie-ophaling en programmeren, als sequentiële beslissingsproblemen onder onzekerheid. Elk probleem heeft een latente omgevingstoestand waarover kan worden geredeneerd via een prior die aan het LLM-agent wordt doorgegeven. We introduceren een raamwerk genaamd Kalibreer-Dan-Handel (Calibrate-Then-Act, CTA), waarbij we de LLM deze aanvullende context voeden om hem in staat te stellen optimaal te handelen. Deze verbetering blijft behouden, zelfs tijdens reinforcement learning-training van zowel de baseline als CTA. Onze resultaten voor informatiezoekende vraag-antwoordtaken en voor een vereenvoudigde programmeertaak tonen aan dat het expliciet maken van kosten-batenafwegingen met CTA agenten kan helpen om optimale beslissingsstrategieën te ontdekken.
Demonstraties van mensen, verzameld met draagbare apparaten (bijvoorbeeld tactiele handschoenen), bieden snelle en behendige supervisie voor beleidsleren, en worden geleid door rijke, natuurlijke tactiele feedback. Een belangrijke uitdaging is echter hoe menselijk verzamelde tactiele signalen over te dragen aan robots, ondanks de verschillen in sensorische modaliteiten en belichaming. Bestaande mens-naar-robot (H2R) benaderingen die aanraking incorporeren, veronderstellen vaak identieke tactiele sensoren, vereisen gepaarde gegevens, en kennen weinig tot geen belichamingskloof tussen de menselijke demonstrator en de robots, wat de schaalbaarheid en algemeenheid beperkt. Wij stellen TactAlign voor, een kruis-belichaming tactiele aligneringsmethode die menselijk verzamelde tactiele signalen overdraagt naar een robot met een andere belichaming. TactAlign transformeert menselijke en robot tactiele waarnemingen naar een gedeelde latente representatie met behulp van een gerectificeerde stroom, zonder gepaarde datasets, handmatige labels of geprivilegieerde informatie. Onze methode maakt goedkopen latent transport mogelijk, geleid door pseudo-paren afgeleid van hand-object interacties. Wij tonen aan dat TactAlign H2R-beleidsoverdracht verbetert over meerdere contactrijke taken (pivoteren, insertie, deksel sluiten), generaliseert naar onbekende objecten en taken met menselijke gegevens (minder dan 5 minuten), en zero-shot H2R-overdracht mogelijk maakt voor een zeer behendige taak (het indraaien van een lamp).
Wij presenteren het technisch rapport voor Arcee Trinity Large, een sparse Mixture-of-Experts-model met in totaal 400B parameters en 13B geactiveerde parameters per token. Daarnaast doen wij verslag over Trinity Nano en Trinity Mini, waarbij Trinity Nano 6B totale parameters heeft met 1B geactiveerd per token, en Trinity Mini 26B totale parameters heeft met 3B geactiveerd per token. De moderne architectuur van de modellen omvat onder meer afwisselende lokale en globale aandacht, 'gated attention', 'depth-scaled sandwich norm' en sigmoïde-routering voor Mixture-of-Experts. Voor Trinity Large introduceren we tevens een nieuwe MoE-belastingsbalanceringsstrategie genaamd Soft-clamped Momentum Expert Bias Updates (SMEBU). Wij trainen de modellen met behulp van de Muon-optimalisator. Alle drie de modellen voltooiden de training zonder verliespieken. Trinity Nano en Trinity Mini werden voorgetraind op 10 biljoen tokens, en Trinity Large werd voorgetraind op 17 biljoen tokens. De modelcheckpoints zijn beschikbaar op https://huggingface.co/arcee-ai.
Diffusion Transformers (DiTs) hebben state-of-the-art prestaties bereikt in beeld- en videogeneratie, maar hun succes gaat gepaard met een zware rekenkost. Deze inefficiëntie is grotendeels te wijten aan het vaste tokenisatieproces, dat gedurende de gehele denoiseringsfase patches van constante grootte gebruikt, ongeacht de complexiteit van de inhoud. Wij stellen dynamische tokenisatie voor, een efficiënte strategie tijdens de testfase die de patchgrootte varieert op basis van de complexiteit van de inhoud en de denoiseringstijdstap. Ons belangrijkste inzicht is dat vroege tijdstappen alleen grovere patches nodig hebben om de globale structuur te modelleren, terwijl latere iteraties fijnere (kleinere) patches vereisen om lokale details te verfijnen. Tijdens de inferentie herverdeelt onze methode dynamisch de patchgroottes over de denoiseringsstappen voor beeld- en videogeneratie en vermindert zij de kosten aanzienlijk met behoud van de perceptuele generatiekwaliteit. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan: zij bereikt een versnelling tot respectievelijk 3,52x en 3,2x op FLUX-1.Dev en Wan 2.1, zonder in te boeten aan generatiekwaliteit en promptnaleving.
Om de ongekende risico's te begrijpen en te identificeren die worden veroorzaakt door snel voortschrijdende modellen voor kunstmatige intelligentie (AI), presenteert het *Frontier AI Risk Management Framework in Practice* een uitgebreide beoordeling van hun frontier-risico's. Naarmate de algemene capaciteiten van Large Language Models (LLM's) zich snel ontwikkelen en agent-gebaseerde AI zich verspreidt, presenteert deze versie van het technische risicoanalyserapport een bijgewerkte en gedetailleerde beoordeling van vijf kritieke dimensies: cyberaanvallen, overtuiging en manipulatie, strategische misleiding, ongecontroleerd AI-onderzoek & -ontwikkeling (R& D), en zelfreplicatie. Specifiek introduceren we complexere scenario's voor cyberaanvallen. Voor overtuiging en manipulatie evalueren we het risico van LLM-tot-LLM-persuasie op nieuw uitgebrachte LLM's. Voor strategische misleiding en 'scheming' voegen we een nieuw experiment toe met betrekking tot opkomende misalignement. Voor ongecontroleerde AI R&D richten we ons op de "mis-evolutie" van agents wanneer zij autonoom hun geheugensubstraten en toolkits uitbreiden. Daarnaast monitoren en evalueren we de veiligheidsprestaties van OpenClaw tijdens de interactie op het Moltbook. Voor zelfreplicatie introduceren we een nieuw scenario met beperkte middelen. Belangrijker nog, we stellen een reeks robuuste mitigeringsstrategieën voor en valideren deze om deze opkomende bedreigingen aan te pakken. Dit biedt een voorlopige technische en uitvoerbare weg voor de veilige inzet van frontier-AI. Dit werk weerspiegelt ons huidige begrip van AI-frontierrisico's en dringt aan op collectieve actie om deze uitdagingen te mitigeren.
Hoewel toonaangevende grote taalmodellen sterke redeneer- en wiskundige capaciteiten demonstreren, blijft het praktische proces voor het trainen van domeinspecifieke wetenschappelijke taalmodellen vanuit ruwe bronnen onderbelicht. In dit werk presenteren we een gedetailleelde casestudy over het trainen van een wetenschappelijk taalmodel met 1,36 miljard parameters rechtstreeks vanuit ruwe arXiv LaTeX-bronnen, afkomstig uit de wiskunde, informatica en theoretische natuurkunde. We beschrijven een end-to-end pijplijn die metadata-filtering, archiefvalidatie, LaTeX-extractie, tekstnormalisatie, domeinbewuste tokenisatie en dense transformer-training onder beperkte rekenkracht (2x A100 GPU's) omvat. Via 24 experimentele runs analyseren we trainingsstabiliteit, schaalgedrag, verliezen in dataproductie en infrastructuurknelpunten. Onze bevindingen benadrukken hoe voorbewerkingsbeslissingen het bruikbare tokenvolume significant beïnvloeden, hoe tokenisatie de symbolische stabiliteit beïnvloedt, en hoe opslag- en I/O-beperkingen een even grote beperkende factor kunnen zijn als rekenkracht. We analyseren verder de convergentiedynamiek en tonen stabiel trainingsgedrag aan in een data-rijk regime (52B pretraining-tokens). In plaats van een nieuwe architectuur voor te stellen, biedt dit werk een op engineering gebaseerd, transparant verslag van het vanaf nul trainen van een klein wetenschappelijk taalmodel. We hopen dat deze inzichten onderzoekers met een beperkt rekenbudget ondersteunen die domeinspecifieke modellen willen bouwen.
Een groot deel van de vooruitgang in Multi-Agent Reinforcement Learning (MARL) voor spellen met imperfecte informatie is historisch gezien afhankelijk geweest van handmatige, iteratieve verfijning van basislijnen. Hoewel fundamentele families zoals Counterfactual Regret Minimization (CFR) en Policy Space Response Oracles (PSRO) op een solide theoretische basis rusten, berust het ontwerp van hun meest effectieve varianten vaak op menselijke intuïtie om een uitgestrekte algoritmische ontwerpruimte te navigeren. In dit werk stellen we het gebruik voor van AlphaEvolve, een evolutionaire codeeragent aangedreven door grote taalmodellen, om automatisch nieuwe multi-agent leeralgorithmes te ontdekken. We demonstreren de algemene toepasbaarheid van dit framework door nieuwe varianten te evolueren voor twee verschillende paradigma's van speltheoretisch leren. Ten eerste, binnen het domein van iteratieve spijtminimalisatie, evolueren we de logica die de spijtaccumulatie en policy-afleiding bestuurt, en ontdekken we een nieuw algoritme: Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR gebruikt nieuwe, niet-intuïtieve mechanismen – waaronder volatiliteitsgevoelige korting, consistentie-afgedwongen optimisme, en een hard opstartschema voor policy-accumulatie – om state-of-the-art basislijnen zoals Discounted Predictive CFR+ te overtreffen. Ten tweede, binnen het regime van population-based training-algoritmes, evolueren we meta-strategie-oplossers voor trainings- en evaluatietijd voor PSRO, en ontdekken we een nieuwe variant: Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduceert een hybride meta-oplosser die Optimistic Regret Matching lineair combineert met een gladde, temperatuur-gestuurde verdeling over de beste pure strategieën. Door deze mengfactor en diversiteitsbonussen dynamisch te temperen tijdens de training, automatiseert het algoritme de overgang van populatiediversiteit naar rigoureus evenwichtszoeken, wat resulteert in superieure empirische convergentie vergeleken met standaard statische meta-oplossers.
Het in staat stellen van VLA-modellen om omgevingsdynamiek te voorspellen, ook wel wereldmodellering genoemd, wordt erkend als essentieel voor het verbeteren van robotredenering en generalisatie. Huidige benaderingen kampen echter met twee hoofdproblemen: 1. Het trainingsdoel dwingt modellen om te veel nadruk te leggen op pixelreconstructie, wat semantisch leren en generalisatie beperkt. 2. Afhankelijkheid van voorspelde toekomstige observaties tijdens inferentie leidt vaak tot foutenaccumulatie. Om deze uitdagingen aan te pakken, introduceren wij Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Onze methode hanteert een tweefasige fine-tuningstrategie: in de mid-trainingfase leert het model de latente representaties van toekomstige observaties te voorspellen; in de post-trainingfase breiden we de rekenwerkdruk parallel uit en aligneren we de representatie simultaan met meerdere verschillende visuele foundation-modellen. Door de fine-tuning efficiëntie aanzienlijk te verbeteren en de afhankelijkheid van actie-geannoteerde data te verminderen, biedt FRAPPE een schaalbare en data-efficiënte route om wereldbewustzijn in generalistische robotbeleidsregels te versterken. Experimenten op de RoboTwin-benchmark en real-world taken tonen aan dat FRAPPE state-of-the-art benaderingen overtreft en sterke generalisatie vertoont in langetermijn- en onbekende scenario's.
Wij presenteren een uitgebreide analyse van hoe tweelaags neurale netwerken kenmerken aanleren om de modulaire opteltaak op te lossen. Ons werk biedt een volledige mechanistische interpretatie van het geleerde model en een theoretische verklaring voor de trainingsdynamiek. Hoewel eerder onderzoek heeft aangetoond dat individuele neuronen Fourier-kenmerken met één frequentie en fase-alignering aanleren, verklaart dit niet volledig hoe deze kenmerken zich combineren tot een globale oplossing. Wij overbruggen deze kloof door een diversificatievoorwaarde te formaliseren die tijdens de training ontstaat bij overparametrisering, bestaande uit twee delen: fasesymmetrie en frequentiediversificatie. Wij bewijzen dat deze eigenschappen het netwerk in staat stellen om gezamenlijk een gebrekkige indicatorfunctie te benaderen voor de correcte logica van de modulaire opteltaak. Hoewel individuele neuronen ruisige signalen produceren, stelt de fasesymmetrie een meerderheidsstemmingssysteem in staat om de ruis uit te doven, waardoor het netwerk robuust de correcte som kan identificeren. Verklaren wij het ontstaan van deze kenmerken onder willekeurige initialisatie via een loterijticketmechanisme. Onze gradiëntstroomanalyse bewijst dat frequenties binnen elk neuron met elkaar concurreren, waarbij de "winnaar" wordt bepaald door diens initiële spectrale magnitude en fase-alignering. Vanuit technisch oogpunt geven wij een rigoureuze karakterisering van de laaggewijze fasekoppelingsdynamiek en formaliseren wij het competitieve landschap met behulp van het ODE-vergelijkingslemma. Ten slotte gebruiken wij deze inzichten om grokking te ontraadselen, waarbij wij het karakteriseren als een drietrapsproces bestaande uit memorisatie gevolgd door twee generalisatiefasen, aangedreven door de competitie tussen verliesminimalisatie en gewichtsafname.
Agenten die opereren in complexe softwareomgevingen hebben baat bij het redeneren over de gevolgen van hun handelingen, aangezien zelfs een enkele onjuiste gebruikersinterface (UI)-operatie lange, artefact-bewarende workflows kan doen ontsporen. Deze uitdaging is bijzonder groot in scenario's waar computers worden gebruikt, omdat echte uitvoering tegenfactoriële verkenning niet ondersteunt. Dit maakt grootschalig leren en plannen via trial-and-error onpraktisch, ondanks dat de omgeving volledig digitaal en deterministisch is. Wij introduceren het Computergebruik-Wereldmodel (CUWM), een wereldmodel voor desktopsoftware dat de volgende UI-toestand voorspelt op basis van de huidige toestand en een kandidaat-actie. CUWM hanteert een tweestaps-factorisatie van UI-dynamiek: het voorspelt eerst een tekstuele beschrijving van voor de agent relevante toestandsveranderingen, en visualiseert vervolgens deze veranderingen om de volgende schermafbeelding te synthetiseren. CUWM wordt getraind op offline UI-overgangen die zijn verzameld van agenten die interacteren met echte Microsoft Office-toepassingen, en verder verfijnd met een lichtgewicht reinforcement learning-fase die de tekstuele transitievoorspellingen afstemt op de structurele vereisten van computergebruikomgevingen. Wij evalueren CUWM via actiezoeken tijdens tests, waarbij een bevroren agent het wereldmodel gebruikt om kandidaat-acties te simuleren en vergelijken vóór uitvoering. Over een reeks Office-taken heen verbetert door een wereldmodel geleide testtijd-schaling de beslissingskwaliteit en uitvoeringsrobuustheid.
Een centrale uitdaging bij het bewerken van grote taalmmodellen (LLM's) is het behoud van capaciteiten: methoden die doelgedrag succesvol wijzigen, kunnen stiekem de bewerkingsproxy manipuleren en algemene capaciteiten aantasten, wat leidt tot degeneratief gedrag dat doet denken aan proxy/reward hacking. Wij presenteren CrispEdit, een schaalbare en principiële tweedegraads bewerkingsalgoritme die capaciteitsbehoud als expliciete beperking hanteert, en verschillende bestaande bewerkingsbenaderingen verenigt en generaliseert. CrispEdit formuleert bewerken als een geoptimaliseerd beperkingsprobleem en handhaaft de beperking door bewerkingsupdates te projecteren op de deelruimte met lage kromming in het landschap van capaciteitsverlies. De crux van CrispEdit ligt in het uitdrukken van de capaciteitsbeperking via de Bregman-divergentie, waarvan de kwadratische vorm de Gauss-Newton-Hessiaan exact oplevert, zelfs wanneer het basismodel niet tot convergentie is getraind. Wij maken deze tweedegraads procedure efficiënt op de schaal van LLM's door gebruik te maken van Kronecker-gefactoriseerde benaderde kromming (K-FAC) en een nieuwe matrixvrije projector die de Kronecker-structuur benut om de constructie van massieve projectiematrices te vermijden. Op standaard benchmarktests voor modelbewerking behaalt CrispEdit een hoge bewerkingssuccesgraad terwijl de capaciteitsachteruitgang gemiddeld onder de 1% blijft across datasets, wat een significante verbetering betekent ten opzichte van eerdere bewerkers.
Lineaire aandachtstransformers zijn een krachtig alternatief geworden voor softmax-aandacht vanwege hun efficiëntie. Lineaire aandacht is echter over het algemeen minder expressief en resulteert in een verminderde nauwkeurigheid vergeleken met softmax-aandacht. Om het nauwkeurigheidsverschil tussen softmax-aandacht en lineaire aandacht te overbruggen, manipuleren we Mamba-2, een zeer krachtige variant van lineaire aandacht. We vereenvoudigen eerst Mamba-2 tot zijn meest fundamentele en belangrijke componenten, waarbij we evalueren welke specifieke keuzes het meest nauwkeurig maken. Vanuit deze vereenvoudigde Mamba-variant (Mamba-2S) verbeteren we het A-masker en verhogen we de orde van de verborgen toestand, wat resulteert in een methode, die we 2Mamba noemen, die bijna even nauwkeurig is als softmax-aandacht, maar veel geheugenefficiënter voor lange contextlengtes. We onderzoeken ook elementen van Mamba-2 die helpen de nauwkeurigheid van softmax-aandacht te overtreffen. Code voor al onze experimenten is beschikbaar.
Grote Taalmodellen (GTM's) hebben recent sterke redeneer- en generalisatiecapaciteiten getoond, wat hun inzet als besluitvormingsbeleid in complexe omgevingen motiveert. StarCraft II (SC2), met zijn enorme staat-actie-ruimte en gedeeltelijke observeerbaarheid, is een uitdagende testomgeving. Echter, bestaande GTM-gebaseerde SC2-agenten richten zich voornamelijk op het verbeteren van het beleid zelf en verwaarlozen de integratie van een leerbaar, actie-geconditioneerd overgangsmodel in de besluitvormingslus. Om deze kloof te overbruggen, stellen wij StarWM voor, het eerste wereldmodel voor SC2 dat toekomstige observaties voorspelt onder gedeeltelijke observeerbaarheid. Om het leren van SC2's hybride dynamiek te vergemakkelijken, introduceren wij een gestructureerde tekstuele representatie die observaties factoriseert in vijf semantische modules, en construeren wij SC2-Dynamics-50k, de eerste instructie-afsteldataset voor SC2-dynamiekvoorspelling. Wij ontwikkelen verder een multidimensionaal offline evaluatiekader voor voorspelde gestructureerde observaties. Offline resultaten tonen substantiële winsten van StarWM ten opzichte van zero-shot basislijnen, waaronder bijna 60% verbetering in nauwkeurigheid van resourcevoorspelling en consistentie van de macro-situatie aan eigen zijde. Ten slotte stellen wij StarWM-Agent voor, een wereldmodel-versterkt besluitvormingssysteem dat StarWM integreert in een Genereren--Simuleren--Verfijnen besluitvormingslus voor vooruitziend beleidsverfijning. Online evaluatie tegen SC2's ingebouwde AI toont consistente verbeteringen, met winstpercentagestijgingen van respectievelijk 30%, 15% en 30% tegen Hard (NV5), Harder (NV6) en ZeerMoeilijk (NV7), naast verbeterde macro-managementstabiliteit en tactische risico-inschatting.
Ondanks snelle vooruitgang in autonome webagentschappen blijft menselijke betrokkenheid essentieel voor het vormgeven van voorkeuren en het corrigeren van agentgedrag naarmate taken vorderen. Huidige agentische systemen ontberen echter een principieel begrip van wanneer en waarom mensen ingrijpen, waarbij ze vaak autonoom door kritieke beslissingspunten heen gaan of onnodige bevestiging vragen. In dit werk introduceren we de taak van het modelleren van menselijke interventie ter ondersteuning van collaboratieve webtaakuitvoering. We verzamelen CowCorpus, een dataset van 400 webnavigatietrajecten van echte gebruikers met meer dan 4.200 verweven menselijke en agentacties. We identificeren vier verschillende patronen van gebruikersinteractie met agentschappen: handen-af-toezicht, handen-aan-toezicht, collaboratieve taakoplossing en volledige gebruikersovername. Gebruikmakend van deze inzichten trainen we taalmodelen (LM's) om te anticiperen op wanneer gebruikers waarschijnlijk zullen ingrijpen op basis van hun interactiestijlen, wat een verbetering van 61,4-63,4% oplevert in de nauwkeurigheid van interventievoorspelling ten opzichte van basistaalmodelen. Ten slotte implementeren we deze interventiebewuste modellen in live webnavigatieagentschappen en evalueren we ze in een gebruikersstudie, waarbij we een stijging van 26,5% vaststellen in de door gebruikers beoordeelde bruikbaarheid van de agent. Samen tonen onze resultaten aan dat gestructureerde modellering van menselijke interventie leidt tot meer adaptieve, collaboratieve agentschappen.
Wij introduceren NESSiE, de NEceSsary SafEty-benchmark voor grote taalmodel(len). Met minimale testgevallen voor informatie- en toegangsbeveiliging onthult NESSiE veiligheidsgerelateerde fouten die niet zouden mogen bestaan, gezien de lage complexiteit van de taken. NESSiE is bedoeld als een lichtgewicht, gebruiksvriendelijke sanity check voor de veiligheid van taalmodel(len) en is als zodanig niet toereikend om veiligheid in het algemeen te garanderen – maar wij beargumenteren dat het doorstaan van deze test noodzakelijk is voor elke implementatie. Desalniettemin halen zelfs state-of-the-art LLM's geen 100% score op NESSiE en voldoen ze dus niet aan onze noodzakelijke voorwaarde voor taalmodelveiligheid, zelfs zonder tegenaanvallen. Onze Safe & Helpful (SH)-metriek maakt een directe vergelijking van de twee vereisten mogelijk, waaruit blijkt dat modellen eerder geneigd zijn behulpzaam dan veilig te zijn. Verder stellen we vast dat uitgeschakelde redeneervaardigheden voor sommige modellen, maar vooral een goedaardige afleidende context, de modelprestaties verslechteren. Over het geheel genomen onderstrepen onze resultaten de kritieke risico's van het inzetten van dergelijke modellen als autonome agents in de praktijk. Wij stellen de dataset, het package en de plotcode openbaar beschikbaar.
Vision-Language-Action-modellen (VLA's) zijn naar voren gekomen als een belangrijk paradigma binnen Physical AI en worden steeds vaker ingezet in autonome voertuigen, robots en slimme ruimtes. In deze resourcebeperkte on-device omgevingen is de selectie van een geschikte large language model (LLM)-backbone een cruciale uitdaging: modellen moeten een balans vinden tussen nauwkeurigheid enerzijds en strikte beperkingen qua inferentielatentie en hardware-efficiëntie anderzijds. Dit maakt hardware-software co-design een game-changing vereiste voor on-device LLM-implementatie, waarbij elk hardwareplatform een op maat gemaakte architecturale oplossing vereist. Wij stellen een wet voor hardware co-design voor die gezamenlijk modelnauwkeurigheid en inferentieprestatie vastlegt. Specifiek modelleren we trainingsverlies als een expliciete functie van architecturale hyperparameters en karakteriseren we inferentielatentie via roofline-modellering. We evalueren empirisch 1.942 kandidaat-architecturen op NVIDIA Jetson Orin, waarbij we 170 geselecteerde modellen trainen voor elk 10B tokens om een schaalwet te passen die architectuur relateert aan trainingsverlies. Door deze schaalwet te koppelen aan latentiemodellering, leggen we een directe nauwkeurigheid-latentie-correspondentie vast en identificeren we de Pareto-grens voor hardware-geco-designde LLM's. We formuleren verder architecturesearch als een gezamenlijke optimalisatie van precisie en prestatie, waarbij we haalbare ontwerpregio's afleiden onder industriële hardware- en applicatiebudgetten. Onze aanpak reduceert architectuurselectie van maanden naar dagen. Bij dezelfde latentie als Qwen2.5-0.5B op de doelhardware behaalt onze geco-designde architectuur 19,42% lagere perplexiteit op WikiText-2. Voor zover wij weten, is dit het eerste principiële en operationele framework voor hardware co-design schaalwetten in on-device LLM-implementatie. We zullen de code en gerelateerde checkpoints openbaar beschikbaar maken.
Veiligheidsuitlijning is essentieel voor de verantwoorde inzet van grote taalmodellen (LLM's). Toch baseren bestaande methoden zich vaak op zware fine-tuning die kostbaar is om bij te werken, te controleren en te onderhouden tussen modelfamilies. Volledige fine-tuning brengt aanzienlijke reken- en opslagkosten met zich mee, terwijl parameter-efficiënte methoden zoals LoRA efficiëntie inruilen voor inconsistente veiligheidswinst en gevoeligheid voor ontwerpkeuzes. Veiligheidsinterventiemechanismen zoals noodstopvoorzieningen verminderen onveilige uitvoer zonder de modelgewichten aan te passen, maar sturen of behouden niet direct de interne representaties die het veiligheidsgedrag bepalen. Deze beperkingen belemmeren snelle en betrouwbare veiligheidsupdates, vooral in omgevingen waar modellen frequent evolueren of zich moeten aanpassen aan nieuwe beleidsregels en domeinen. Wij presenteren NeST, een lichtgewicht, structuurbewust raamwerk voor veiligheidsuitlijning dat weigeringsgedrag versterkt door selectief een kleine subset van veiligheidsrelevante neuronen aan te passen, terwijl de rest van het model wordt bevroren. NeST stemt parameterupdates af op de interne organisatie van veiligheidsgedrag door functioneel samenhangende veiligheidsneuronen te clusteren en gedeelde updates binnen elke cluster af te dwingen. Dit maakt gerichte en stabiele veiligheidsaanpassing mogelijk zonder bredere modelwijziging of overhead tijdens inferentie. Wij evalueren NeST tegen drie dominante referentiemethoden: volledige fine-tuning, LoRA-gebaseerde fine-tuning en noodstopvoorzieningen, over 10 open-weight LLM's die meerdere modelfamilies en groottes omspannen. Over alle geëvalueerde modellen reduceert NeST het aanvalsuccespercentage van gemiddeld 44,5% naar 4,36%, wat overeenkomt met een vermindering van 90,2% in onveilige gegenereerde antwoorden, terwijl gemiddeld slechts 0,44 miljoen trainbare parameters nodig zijn. Dit komt neer op een 17.310x vermindering in bijgewerkte parameters vergeleken met volledige fine-tuning en een 9,25x reductie ten opzichte van LoRA, terwijl consequent sterkere veiligheidsprestaties voor uitlijning worden behaald.
Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) sterke effectiviteit heeft getoond bij redeneertaken, kan het niet direct worden toegepast op niet-verifieerbare domeinen die grondwaarheid-verifiers missen, zoals LLM-afstemming. In dit werk onderzoeken we of referentie-gestuurde LLM-evaluatoren deze kloof kunnen overbruggen door te dienen als zachte "verifiers". Ten eerste ontwerpen we evaluatieprotocollen die LLM-gebaseerde evaluatoren voor LLM-afstemming verbeteren met behulp van referentie-uitvoer. Door middel van uitgebreide experimenten tonen we aan dat een referentie-gestuurde aanpak de nauwkeurigheid van minder capabele LLM-beoordelaars aanzienlijk verbetert door gebruik te maken van referenties van frontier-modellen; sterkere LLM-beoordelaars kunnen eveneens worden verbeterd door hoogwaardige (d.w.z. door mensen geschreven) referenties. Voortbouwend op deze verbeterde beoordelaars, demonstreren we het nut van hoogwaardige referenties bij afstemming-tuning, waarbij LLM's die met referenties worden gestuurd, worden gebruikt als beoordelaars om zichzelf te verbeteren. We laten zien dat referentie-gestuurde zelfverbetering duidelijke winst oplevert ten opzichte van zowel directe SFT op referentie-uitvoer als zelfverbetering met referentievrije beoordelaars, en prestaties bereikt die vergelijkbaar zijn met training met ArmoRM, een sterk afgestemd beloningsmodel. Concreet behaalt onze methode 73,1% en 58,7% op respectievelijk AlpacaEval en Arena-Hard met Llama-3-8B-Instruct, en 70,0% en 74,1% met Qwen2.5-7B, wat overeenkomt met gemiddelde absolute winsten van +20,2 / +17,1 punten ten opzichte van SFT-distillatie en +5,3 / +3,6 punten ten opzichte van referentievrije zelfverbetering op AlpacaEval / Arena-Hard. Deze resultaten onderstrepen het potentieel van het gebruik van referentie-gestuurde LLM-evaluatoren om effectieve LLM-natraining mogelijk te maken in niet-verifieerbare domeinen.
Stereoscopische diepteschatting is fundamenteel voor de perceptie van onderwaterrobots, maar lijdt onder ernstige domeinverschuivingen veroorzaakt door golflengte-afhankelijke lichtverzwakking, verstrooiing en breking. Recente methoden benutten monocular foundation-modellen met op GRU gebaseerde iteratieve verfijning voor onderwateraanpassing; echter vereisen de sequentiële gating en lokale convolutionele kernels in GRU's meerdere iteraties voor lange-afstands dispariteitspropagatie, wat de prestaties beperkt in onderwatergebieden met grote dispariteit en zonder textuur. In dit artikel stellen we StereoAdapter-2 voor, dat de conventionele ConvGRU-updater vervangt door een nieuwe ConvSS2D-operator gebaseerd op selectieve state space-modellen. De voorgestelde operator gebruikt een vierrichtingen-scanningsstrategie die natuurlijk aansluit bij de epipolaire geometrie, terwijl verticale structurele consistentie wordt behouden, waardoor efficiënte ruimtelijke propagatie over lange afstanden binnen één update-stap mogelijk wordt tegen lineaire computationele complexiteit. Verder construeren we UW-StereoDepth-80K, een grootschalige synthetische onderwater stereodataset met diverse basislijnen, verzwakkingscoëfficiënten en verstrooiingsparameters, gegenereerd via een pijplijn in twee fasen die semantiekbewuste stijloverdracht en geometrie-consistente novel view-synthese combineert. In combinatie met dynamische LoRA-adaptatie, overgenomen van StereoAdapter, behaalt ons framework state-of-the-art zero-shot prestaties op onderwaterbenchmarks met een verbetering van 17% op TartanAir-UW en 7,2% op SQUID, waarbij validatie in de echte wereld op het BlueROV2-platform de robuustheid van onze aanpak aantoont. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.