Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Interpretatiemethoden hebben recentelijk aanzienlijke aandacht gekregen, met name in de context van grote taalmodel(len), waardoor inzichten worden verkregen in linguïstische representaties, foutdetectie en modelgedragingen zoals hallucinaties en herhalingen. Deze technieken blijven echter onderbelicht in automatische spraakherkenning (ASR), ondanks hun potentieel om zowel de prestaties als de interpreteerbaarheid van ASR-systemen te verbeteren. In dit werk passen we gevestigde interpretatiemethoden zoals logit lens, lineaire probing en activatiepatching aan en passen deze systematisch toe om te onderzoeken hoe akoestische en semantische informatie zich ontwikkelt over de lagen in ASR-systemen. Onze experimenten onthullen voorheen onbekende interne dynamieken, waaronder specifieke encoder-decoder-interacties die verantwoordelijk zijn voor herhalingshallucinaties en semantische vooroordelen die diep in akoestische representaties zijn gecodeerd. Deze inzichten demonstreren de voordelen van het uitbreiden en toepassen van interpretatietechnieken op spraakherkenning, wat veelbelovende richtingen opent voor toekomstig onderzoek naar het verbeteren van modeltransparantie en robuustheid.
Vision-Language Models (VLMs) hebben vaak last van visuele hallucinaties, waarbij ze dingen zeggen die niet daadwerkelijk in de afbeelding aanwezig zijn, en taalverkortingen, waarbij ze het visuele deel overslaan en alleen vertrouwen op tekstuele voorkennis. Deze problemen ontstaan omdat de meeste post-trainingsmethoden voor VLMs afhankelijk zijn van eenvoudige verificatie van antwoordovereenkomsten en alleen de einduitvoer begeleiden, waardoor het tussenliggende visuele redeneren zonder expliciete richtlijnen blijft. Als gevolg krijgen VLMs slechts spaarzame visuele signalen en leren ze vaak om taalgebaseerd redeneren te prioriteren boven visuele waarneming. Om dit te verhelpen, voegen sommige bestaande methoden visuele begeleiding toe met behulp van menselijke annotaties of gedistilleerde labels van externe grote modellen. Menselijke annotaties zijn echter arbeidsintensief en kostbaar, en omdat externe signalen zich niet kunnen aanpassen aan het evoluerende beleid, veroorzaken ze distributieverschuivingen die kunnen leiden tot beloningsmanipulatie. In dit artikel introduceren we Vision-SR1, een zelfbelonende methode die visueel redeneren verbetert zonder afhankelijk te zijn van externe visuele begeleiding via reinforcement learning. Vision-SR1 splitst het redeneren van VLMs op in twee fasen: visuele waarneming en taalredeneren. Het model wordt eerst aangemoedigd om zelfstandige visuele waarnemingen te produceren die voldoende zijn om de vraag te beantwoorden zonder terug te verwijzen naar de invoerafbeelding. Om deze zelfstandigheid te valideren, wordt hetzelfde VLM-model vervolgens opnieuw aangemoedigd om taalredeneren uit te voeren met alleen de gegenereerde waarneming als invoer om de beloning te berekenen. Deze zelfbeloning wordt gecombineerd met begeleiding op de einduitvoer, wat een gebalanceerd trainingssignaal oplevert dat zowel visuele waarneming als taalredeneren versterkt. Onze experimenten tonen aan dat Vision-SR1 visueel redeneren verbetert, visuele hallucinaties vermindert en de afhankelijkheid van taalverkortingen vermindert bij diverse vision-language taken.
Autonome agents voor Grafische Gebruikersinterfaces (GUI's) worden geconfronteerd met aanzienlijke uitdagingen in gespecialiseerde domeinen zoals wetenschappelijk rekenen, waar zowel planning op lange termijn als precieze uitvoering vereist zijn. Bestaande benaderingen kampen met een afweging: generalistische agents zijn goed in planning maar presteren slecht in uitvoering, terwijl gespecialiseerde agents het tegenovergestelde probleem hebben. Recente compositionele frameworks proberen deze kloof te overbruggen door een planner en een actor te combineren, maar deze zijn doorgaans statisch en niet trainbaar, wat aanpassing op basis van ervaring verhindert. Dit is een kritische beperking gezien de schaarste aan hoogwaardige data in wetenschappelijke domeinen. Om deze beperkingen aan te pakken, introduceren we CODA, een nieuw en trainbaar compositioneel framework dat een generalistische planner (Cerebrum) integreert met een gespecialiseerde uitvoerder (Cerebellum), getraind via een toegewijde tweefasenpijplijn. In de eerste fase, Specialisatie, passen we een ontkoppelde GRPO-benadering toe om een expertplanner te trainen voor elke wetenschappelijke applicatie afzonderlijk, waarbij we starten vanuit een kleine set taaktrajecten. In de tweede fase, Generalisatie, aggregeren we alle succesvolle trajecten van de gespecialiseerde experts om een geconsolideerde dataset op te bouwen, die vervolgens wordt gebruikt voor supervised fine-tuning van de uiteindelijke planner. Dit voorziet CODA van zowel robuuste uitvoering als domeinoverschrijdende generalisatie. Geëvalueerd op vier uitdagende applicaties uit de ScienceBoard-benchmark, presteert CODA aanzienlijk beter dan de baselines en vestigt het een nieuwe state of the art onder open-source modellen.
Recent onderzoek heeft aangetoond dat Chain-of-Thought (CoT) vaak beperkte verbeteringen oplevert bij soft-reasoning problemen, zoals analytisch en gezond verstand redeneren. CoT kan ook onbetrouwbaar zijn ten opzichte van het daadwerkelijke redeneerproces van een model. Wij onderzoeken de dynamiek en betrouwbaarheid van CoT bij soft-reasoning taken in instruction-tuned, reasoning en reasoning-distilled modellen. Onze bevindingen onthullen verschillen in hoe deze modellen afhankelijk zijn van CoT, en laten zien dat de invloed en betrouwbaarheid van CoT niet altijd op één lijn liggen.
Vision-Language-Action (VLA)-modellen passen grote vision-language-backbones aan om afbeeldingen en instructies te vertalen naar robotacties. Echter, heersende VLA-decoders genereren acties ofwel autoregressief in een vaste links-naar-rechts volgorde, of voegen continue diffusie- of flow matching-heads toe buiten de backbone, wat gespecialiseerde training en iteratieve sampling vereist die een uniforme, schaalbare architectuur belemmeren. Wij presenteren Discrete Diffusion VLA, een single-transformer-beleid dat gediscretiseerde actiebrokken modelleert met discrete diffusie en wordt getraind met hetzelfde kruisentropiedoel als de VLM-backbone. Het ontwerp behoudt het paradigma van progressieve verfijning van diffusie terwijl het natieve compatibiliteit behoudt met de discrete token-interface van VLM's. Onze methode bereikt een adaptieve decodeervolgorde die eenvoudige actie-elementen oplost voordat moeilijkere worden aangepakt en gebruikt secundaire remasking om onzekere voorspellingen te herzien over verfijningsrondes, wat consistentie verbetert en robuuste foutcorrectie mogelijk maakt. Deze uniforme decoder behoudt voorgetrainde vision-language-priors, ondersteunt parallel decoderen, doorbreekt het autoregressieve knelpunt en reduceert het aantal functie-evaluaties. Discrete Diffusion VLA behaalt 96,3% gemiddelde SR op LIBERO, 71,2% visuele matching op SimplerEnv Fractal en 49,3% totaal op SimplerEnv Bridge, wat een verbetering is ten opzichte van zowel autoregressieve als continue diffusie-baselines. Deze bevindingen geven aan dat de discrete-diffusie-actiedecoder precieze actiemodellering en consistente training ondersteunt, wat de basis legt voor het opschalen van VLA naar grotere modellen en datasets.
Onlangs heeft de generatie van interactieve digitale menselijke video's brede aandacht getrokken en opmerkelijke vooruitgang geboekt. Het bouwen van een praktisch systeem dat in realtime kan interageren met diverse invoersignalen blijft echter een uitdaging voor bestaande methoden, die vaak worstelen met hoge latentie, zware rekenkosten en beperkte bestuurbaarheid. In dit werk introduceren we een autoregressief videogeneratiekader dat interactieve multimodale controle en lage-latentie-extrapolatie mogelijk maakt in een streaming-manier. Met minimale aanpassingen aan een standaard groot taalmodel (LLM) accepteert ons kader multimodale conditiecoderingen, waaronder audio, pose en tekst, en produceert het ruimtelijk en semantisch coherente representaties om het denoisingsproces van een diffusiekop te begeleiden. Om dit te ondersteunen, hebben we een grootschalige dialoogdataset van ongeveer 20.000 uur uit meerdere bronnen samengesteld, die rijke gespreksscenario's biedt voor training. We introduceren verder een diepe compressie-autoencoder met een reductieverhouding van maximaal 64 keer, die effectief de langetermijninferentielast van het autoregressieve model verlicht. Uitgebreide experimenten op het gebied van duplexgesprekken, meertalige menselijke synthese en een interactief wereldmodel benadrukken de voordelen van onze aanpak in lage latentie, hoge efficiëntie en fijnmazige multimodale bestuurbaarheid.
Diffusie-taalmmodellen (DLM's) zijn recent naar voren gekomen als een alternatief voor autoregressieve benaderingen, waarbij ze parallelle sequentiegeneratie en flexibele tokenvolgordes bieden. Hun inferentie blijft echter trager dan die van autoregressieve modellen, voornamelijk vanwege de kosten van bidirectionele aandacht en het grote aantal verfijningsstappen dat nodig is voor hoogwaardige uitvoer. In dit werk belichten en benutten we een over het hoofd gezien eigenschap van DLM's: vroege antwoordconvergentie. In veel gevallen kan het juiste antwoord intern worden geïdentificeerd halverwege de stappen, nog voor de laatste decodeerstap, zowel onder semi-autoregressieve als willekeurige remaskingschema's. Op GSM8K en MMLU kan bijvoorbeeld respectievelijk tot 97% en 99% van de gevallen correct worden gedecodeerd met slechts de helft van de verfijningsstappen. Op basis van deze observatie introduceren we Prophet, een trainingsvrij snel decodeerparadigma dat vroege commit-decodering mogelijk maakt. Specifiek beslist Prophet dynamisch of het verfijnen moet worden voortgezet of dat er "all-in" moet worden gegaan (d.w.z. alle resterende tokens in één stap decoderen), waarbij het vertrouwensverschil tussen de top-2 voorspellingskandidaten als criterium wordt gebruikt. Het integreert naadloos in bestaande DLM-implementaties, veroorzaakt verwaarloosbare overhead en vereist geen aanvullende training. Empirische evaluaties van LLaDA-8B en Dream-7B over meerdere taken laten zien dat Prophet het aantal decodeerstappen tot wel 3,4x vermindert, terwijl de hoge generatiekwaliteit behouden blijft. Deze resultaten herformuleren DLM-decodering als een probleem van wanneer te stoppen met bemonsteren, en tonen aan dat vroege decodeerconvergentie een eenvoudig maar krachtig mechanisme biedt voor het versnellen van DLM-inferentie, complementair aan bestaande snelheidstechnieken. Onze code is publiekelijk beschikbaar op https://github.com/pixeli99/Prophet.
Multi-Token Prediction (MTP) is voorgesteld als een hulpdoel om next-token prediction (NTP) te verbeteren tijdens het trainen van taalmodel(len), maar laat inconsistente verbeteringen zien en presteert minder goed op standaard NLP-benchmarks. Wij stellen dat MTP's exacte voorspelling van toekomstige tokens te moeilijk is als hulpverliesfunctie. In plaats daarvan stellen we Token Order Prediction (TOP) voor, waarbij modellen worden getraind om aankomende tokens te ordenen op basis van hun nabijheid met behulp van een learning-to-rank verliesfunctie. TOP vereist slechts één extra unembedding-laag in vergelijking met de meerdere transformer-lagen van MTP. We pretrainen modellen van 340M, 1,8B en 7B parameters met behulp van NTP, MTP en TOP-doelstellingen. Resultaten op acht standaard NLP-benchmarks laten zien dat TOP over het algemeen zowel NTP als MTP overtreft, zelfs op grote schaal. Onze code is beschikbaar op https://github.com/zaydzuhri/token-order-prediction.
Recente vooruitgang in tekst-naar-audio (TTA) generatie blinkt uit in het synthetiseren van korte audioclips, maar heeft moeite met langere narratieve audio, wat temporele samenhang en compositioneel redeneren vereist. Om deze kloof te overbruggen, stellen we AudioStory voor, een uniform raamwerk dat grote taalmodellen (LLMs) integreert met TTA-systemen om gestructureerde, langere audioverhalen te genereren. AudioStory beschikt over sterke instructievolgende redeneergeneratiecapaciteiten. Het gebruikt LLMs om complexe narratieve queries te ontbinden in temporeel geordende sub-taken met contextuele aanwijzingen, waardoor coherente scènewisselingen en emotionele toonconsistentie mogelijk worden. AudioStory heeft twee aantrekkelijke kenmerken: (1) Ontkoppeld brugmechanisme: AudioStory ontwart de samenwerking tussen LLM en diffuser in twee gespecialiseerde componenten, namelijk een brugquery voor intra-gebeurtenis semantische uitlijning en een restquery voor cross-gebeurtenis samenhangbehoud. (2) End-to-end training: Door instructiebegrip en audiogeneratie te verenigen binnen een enkel end-to-end raamwerk, elimineert AudioStory de noodzaak voor modulaire trainingspijplijnen terwijl de synergie tussen componenten wordt versterkt. Bovendien hebben we een benchmark AudioStory-10K opgesteld, die diverse domeinen omvat, zoals geanimeerde soundscapes en natuurlijke geluidsnarratieven. Uitgebreide experimenten tonen de superioriteit van AudioStory aan bij zowel het genereren van enkele audio als narratieve audio, waarbij het eerdere TTA-baselines overtreft in zowel instructievolgend vermogen als audiofideliteit. Onze code is beschikbaar op https://github.com/TencentARC/AudioStory.
Naarmate modellen steeds vaker gebruikmaken van meerstaps redeneerstrategieën om complexe problemen op te lossen, is het toezicht houden op de logische geldigheid van deze tussenstappen een cruciaal onderzoeksuitdaging geworden. Procesbeloningsmodellen pakken dit aan door stap-voor-stap feedback te geven, maar huidige benaderingen hebben twee belangrijke nadelen: ze functioneren meestal als classificatoren zonder uitleg te bieden, en hun afhankelijkheid van supervised fine-tuning met statische datasets beperkt de generalisatie. Geïnspireerd door recente ontwikkelingen, herformuleren we stapgewijze beloningsmodellering van een classificatietaak naar een redeneertaak zelf. We stellen daarom een generatieve beoordelaar voor die redeneert over de redeneerstappen van het beleidsmodel (d.w.z., meta-redeneert), denktokens uitvoert voordat een definitief oordeel wordt gegeven. Ons model, StepWiser, wordt getraind door reinforcement learning met behulp van relatieve uitkomsten van rollouts. We laten zien dat het (i) betere beoordelingsnauwkeurigheid biedt voor tussenstappen dan bestaande methoden; (ii) kan worden gebruikt om het beleidsmodel tijdens de training te verbeteren; en (iii) de zoektocht tijdens de inferentie verbetert.
Vooruitgang in remote PhotoPlethysmoGraphy (rPPG) wordt beperkt door de kritieke problemen van bestaande openbaar beschikbare datasets: kleine omvang, privacyzorgen met gezichtsvideo's en een gebrek aan diversiteit in omstandigheden. Dit artikel introduceert een nieuwe, uitgebreide grootschalige multiview-videodataset voor rPPG en de schatting van gezondheidsbiomarkers. Onze dataset bestaat uit 3600 gesynchroniseerde video-opnames van 600 proefpersonen, vastgelegd onder verschillende omstandigheden (rust en na inspanning) met behulp van meerdere consumentencamera's vanuit verschillende hoeken. Om multimodale analyse van fysiologische toestanden mogelijk te maken, is elke opname gekoppeld aan een 100 Hz PPG-signaal en uitgebreide gezondheidsmetingen, zoals elektrocardiogram, arteriële bloeddruk, biomarkers, temperatuur, zuurstofverzadiging, ademhalingsfrequentie en stressniveau. Met deze data trainen we een efficiënt rPPG-model en vergelijken we de kwaliteit ervan met bestaande benaderingen in cross-dataset-scenario's. De openbare release van onze dataset en model zou de vooruitgang in de ontwikkeling van AI-medische assistenten aanzienlijk kunnen versnellen.
Smartphones bieden gebruikers aanzienlijk gemak, maar stellen apparaten ook in staat om uitgebreid verschillende soorten persoonlijke informatie vast te leggen. Bestaande smartphone-agents, aangedreven door Multimodale Grote Taalmodellen (MLLMs), hebben opmerkelijke prestaties geleverd bij het automatiseren van verschillende taken. Echter, als gevolg hiervan krijgen deze agents tijdens hun werking uitgebreide toegang tot gevoelige persoonlijke informatie van gebruikers. Om een grondig inzicht te krijgen in de privacybewustheid van deze agents, presenteren we de eerste grootschalige benchmark die, voor zover wij weten, 7.138 scenario's omvat. Daarnaast annoteren we voor de privacycontext in scenario's het type (bijv. Accountgegevens), het gevoeligheidsniveau en de locatie. Vervolgens benchmarken we zorgvuldig zeven beschikbare mainstream smartphone-agents. Onze resultaten tonen aan dat bijna alle gebenchmarkte agents een onbevredigende privacybewustheid (RA) vertonen, waarbij de prestaties zelfs met expliciete aanwijzingen onder de 60% blijven. Over het algemeen tonen closed-source agents een betere privacyvaardigheid dan open-source agents, waarbij Gemini 2.0-flash de beste prestaties levert met een RA van 67%. We ontdekken ook dat de privacydetectiecapaciteit van de agents sterk gerelateerd is aan het gevoeligheidsniveau van het scenario, d.w.z. scenario's met een hoger gevoeligheidsniveau zijn doorgaans beter identificeerbaar. We hopen dat deze bevindingen de onderzoeksgemeenschap inspireren om de onevenwichtige afweging tussen nut en privacy bij smartphone-agents opnieuw te overdenken. Onze code en benchmark zijn beschikbaar op https://zhixin-l.github.io/SAPA-Bench.
Bewegingsgeneratie is essentieel voor het animeren van virtuele personages en belichaamde agents. Hoewel recente tekstgestuurde methoden aanzienlijke vooruitgang hebben geboekt, hebben ze vaak moeite met het bereiken van precieze afstemming tussen linguïstische beschrijvingen en bewegingssemantiek, evenals met de inefficiënties van trage, meerstaps inferentie. Om deze problemen aan te pakken, introduceren we TMR++ Aligned Preference Optimization (TAPO), een innovatief framework dat subtiele bewegingsvariaties afstemt op tekstuele modifiers en iteratieve aanpassingen incorporeert om semantische verankering te versterken. Om real-time synthese verder mogelijk te maken, stellen we MotionFLUX voor, een hoogwaardig generatieframework gebaseerd op deterministische rectified flow matching. In tegenstelling tot traditionele diffusiemodellen, die honderden denoising-stappen vereisen, construeert MotionFLUX optimale transportpaden tussen ruisverdelingen en bewegingsruimtes, waardoor real-time synthese mogelijk wordt. De gelinieerde waarschijnlijkheidspaden verminderen de noodzaak van meerstaps sampling die typisch is voor sequentiële methoden, wat de inferentietijd aanzienlijk versnelt zonder in te leveren op bewegingskwaliteit. Experimentele resultaten tonen aan dat TAPO en MotionFLUX samen een geïntegreerd systeem vormen dat state-of-the-art benaderingen overtreft in zowel semantische consistentie als bewegingskwaliteit, terwijl het ook de generatiesnelheid versnelt. De code en voorgetrainde modellen zullen worden vrijgegeven.
Het vermogen om kennis te onderzoeken en te synthetiseren is essentieel voor menselijke expertise en vooruitgang. Een opkomende klasse van systemen belooft deze opwindende mogelijkheden door middel van generatieve onderzoeksynthese, waarbij ze zoekopdrachten uitvoeren over het live web en ontdekte bronnen synthetiseren tot uitgebreide, geciteerde samenvattingen. Het evalueren van dergelijke systemen blijft echter een uitdaging: bestaande benchmarks voor vraag-antwoordtaken richten zich op korte, feitelijke antwoorden, terwijl door experts samengestelde datasets het risico lopen verouderd te zijn en vervuild met data. Beide vangen de complexiteit en de evoluerende aard van echte onderzoeksynthesetaken niet goed. In dit werk introduceren we DeepScholar-bench, een live benchmark en een holistisch, geautomatiseerd evaluatieraamwerk dat is ontworpen om generatieve onderzoeksynthese te evalueren. DeepScholar-bench haalt zoekopdrachten uit recente, hoogwaardige ArXiv-artikelen en richt zich op een echte onderzoeksynthesetaak: het genereren van de gerelateerde werk-secties van een artikel door eerder onderzoek op te halen, te synthetiseren en te citeren. Ons evaluatieraamwerk beoordeelt de prestaties holistisch over drie belangrijke dimensies: kennissynthese, ophaalkwaliteit en verifieerbaarheid. We ontwikkelen ook DeepScholar-base, een referentiepijplijn die efficiënt is geïmplementeerd met behulp van de LOTUS API. Met behulp van het DeepScholar-bench raamwerk voeren we een systematische evaluatie uit van eerdere open-source systemen, Search AI's, OpenAI's DeepResearch en DeepScholar-base. We constateren dat DeepScholar-base een sterke basislijn vormt, waarbij het concurrerende of betere prestaties behaalt dan elke andere methode. We constateren ook dat DeepScholar-bench ver van verzadigd is, waarbij geen enkel systeem een score van 19% over alle metrieken overschrijdt. Deze resultaten onderstrepen de moeilijkheidsgraad van DeepScholar-bench, evenals het belang ervan voor de vooruitgang naar AI-systemen die in staat zijn tot generatieve onderzoeksynthese. We maken onze code beschikbaar op https://github.com/guestrin-lab/deepscholar-bench.
Het evalueren of vision-language modellen (VLMs) consistent redeneren over verschillende representaties is uitdagend omdat vergelijkingen tussen modaliteiten doorgaans verward worden door taakverschillen en asymmetrische informatie. We introduceren SEAM, een benchmark die semantisch equivalente invoerparen biedt over vier domeinen die bestaande gestandaardiseerde tekstuele en visuele notaties hebben. Door het gebruik van verschillende notatiesystemen over modaliteiten heen, in tegenstelling tot OCR-gebaseerde beeld-tekstkoppelingen, biedt SEAM een rigoureuze vergelijkende beoordeling van de tekstueel-symbolische en visueel-ruimtelijke redeneervaardigheden van VLMs. Over 21 hedendaagse modellen heen observeren we een systematische onbalans tussen modaliteiten: visie loopt vaak achter op taal in algemene prestaties, ondanks het feit dat de problemen semantisch equivalente informatie bevatten, en de overeenstemming tussen modaliteiten is relatief laag. Onze foutenanalyse onthult twee hoofdredenen: tekstuele perceptiefouten door tokenisatie in domeinnotaties en visuele perceptiefouten die hallucinaties veroorzaken. We laten ook zien dat onze resultaten grotendeels robuust zijn voor visuele transformaties. SEAM creëert een gecontroleerde, semantisch equivalente omgeving voor het meten en verbeteren van modaliteitsagnostisch redeneren.
Het bedienen van grote taalmodellen (LLMs) is een GPU-intensieve taak waarbij traditionele autoscalers tekortschieten, vooral voor moderne Prefill-Decode (P/D) gedisaggregeerde architecturen. Deze architectuurverschuiving, hoewel krachtig, introduceert aanzienlijke operationele uitdagingen, waaronder inefficiënt gebruik van heterogene hardware, netwerkflessenhalzen en kritieke onevenwichtigheden tussen de prefill- en decode-fasen. Wij introduceren HeteroScale, een gecoördineerd autoscaling-framework dat de kernuitdagingen van gedisaggregeerd P/D-bedienen aanpakt. HeteroScale combineert een topologiebewuste scheduler die zich aanpast aan heterogene hardware- en netwerkbeperkingen met een nieuw metriek-gestuurd beleid, afgeleid uit de eerste grootschalige empirische studie van autoscaling-signalen in productie. Door gebruik te maken van een enkele, robuuste metriek om zowel prefill- als decode-pools gezamenlijk te schalen, handhaaft HeteroScale architectonisch evenwicht terwijl het efficiënt, adaptief resourcemanagement waarborgt. Geïmplementeerd in een enorme productieomgeving op tienduizenden GPU's, heeft HeteroScale zijn effectiviteit bewezen door de gemiddelde GPU-utilisatie met een significante 26,6 procentpunten te verhogen en honderdduizenden GPU-uren per dag te besparen, terwijl strikte service level objectives worden gehandhaafd.
Fundamentele modellen voor materiaalmodellering ontwikkelen zich snel, maar hun training blijft kostbaar, waardoor state-of-the-art methoden vaak buiten bereik zijn voor veel onderzoeksgroepen. Wij introduceren Nequix, een compact E(3)-equivariant potentieel dat een vereenvoudigd NequIP-ontwerp combineert met moderne trainingspraktijken, waaronder equivariant root-mean-square layer normalisatie en de Muon-optimalisator, om de nauwkeurigheid te behouden terwijl de rekenvereisten aanzienlijk worden verminderd. Gebouwd in JAX, heeft Nequix 700K parameters en werd getraind in 500 A100-GPU-uren. Op de Matbench-Discovery en MDR Phonon benchmarks eindigt Nequix op de derde plaats terwijl het minder dan een kwart van de trainingskosten van de meeste andere methoden vereist, en het biedt een orde van grootte snellere inferentiesnelheid dan het huidige topmodel. Wij publiceren de modelgewichten en een volledig reproduceerbare codebase op https://github.com/atomicarchitects/nequix.
Dit artikel identificeert en analyseert een nieuwe kwetsbaarheidsklasse in agentsystemen gebaseerd op het Model Context Protocol (MCP). De aanvalsketen beschrijft en demonstreert hoe goedaardige, individueel geautoriseerde taken kunnen worden gecoördineerd om schadelijke emergent gedrag te produceren. Door middel van systematische analyse met behulp van het MITRE ATLAS-framework tonen we aan hoe 95 geteste agents met toegang tot meerdere diensten – waaronder browserautomatisering, financiële analyse, locatievolging en code-implementatie – legitieme operaties kunnen aaneenschakelen tot geavanceerde aanvalssequenties die verder reiken dan de beveiligingsgrenzen van individuele diensten. Deze red team-oefeningen onderzoeken of huidige MCP-architecturen de nodige cross-domein beveiligingsmaatregelen missen om een grote categorie van compositieaanvallen te detecteren of te voorkomen. We presenteren empirisch bewijs van specifieke aanvalsketens die gerichte schade veroorzaken door diensten te coördineren, waaronder data-exfiltratie, financiële manipulatie en infrastructuurcompromis. Deze bevindingen onthullen dat de fundamentele beveiligingsaanname van dienstenisolatie faalt wanneer agents acties kunnen coördineren over meerdere domeinen, wat resulteert in een exponentieel groeiend aanvalsoppervlak met elke extra functionaliteit. Dit onderzoek biedt een eenvoudig experimenteel kader dat niet evalueert of agents MCP-benchmarktaken kunnen voltooien, maar wat er gebeurt wanneer ze deze taken te goed uitvoeren en optimaliseren over meerdere diensten op manieren die menselijke verwachtingen en veiligheidsbeperkingen schenden. We stellen drie concrete experimentele richtingen voor met behulp van de bestaande MCP-benchmarksuite.