Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren 4KAgent, een uniform agent-gebaseerd super-resolutie generalistisch systeem dat ontworpen is om elke afbeelding universeel op te schalen naar 4K-resolutie (en zelfs hoger, indien iteratief toegepast). Ons systeem kan afbeeldingen transformeren van extreem lage resoluties met ernstige degradaties, bijvoorbeeld sterk vervormde invoeren van 256x256, naar kristalheldere, fotorealistische 4K-uitvoeren. 4KAgent bestaat uit drie kerncomponenten: (1) Profiling, een module die de 4KAgent-pijplijn aanpast op basis van specifieke use cases; (2) Een Perception Agent, die vision-language modellen samen met experts in beeldkwaliteitsbeoordeling gebruikt om de invoerafbeelding te analyseren en een op maat gemaakt herstelplan te maken; en (3) Een Restoration Agent, die het plan uitvoert volgens een recursief uitvoering-reflectie paradigma, geleid door een kwaliteitsgedreven mixture-of-expert beleid om de optimale uitvoer voor elke stap te selecteren. Daarnaast bevat 4KAgent een gespecialiseerde pijplijn voor gezichtsherstel, die gezichtsdetails in portret- en selfiefoto's aanzienlijk verbetert. We evalueren onze 4KAgent grondig over 11 verschillende taakcategorieën die in totaal 26 diverse benchmarks omvatten, waarbij we nieuwe state-of-the-art resultaten behalen in een breed spectrum van beeldvormingsdomeinen. Onze evaluaties beslaan natuurlijke afbeeldingen, portretfoto's, AI-gegenereerde inhoud, satellietbeelden, fluorescentiemicroscopie en medische beeldvorming zoals fundoscopie, echografie en röntgenfoto's, waarbij we superieure prestaties demonstreren in termen van zowel perceptuele (bijv. NIQE, MUSIQ) als trouw (bijv. PSNR) metrieken. Door een nieuw agent-gebaseerd paradigma te introduceren voor low-level vision taken, streven we ernaar om bredere interesse en innovatie te stimuleren binnen vision-centrische autonome agents in diverse onderzoeksgemeenschappen. We zullen alle code, modellen en resultaten vrijgeven op: https://4kagent.github.io.
Hoewel de geheugencapaciteiten van AI-agents steeds meer aandacht krijgen, blijven bestaande oplossingen fundamenteel beperkt. De meeste vertrouwen op platte, smal gedefinieerde geheugencomponenten, wat hun vermogen beperkt om te personaliseren, te abstraheren en gebruikersspecifieke informatie betrouwbaar te onthouden over tijd. Daarom introduceren we MIRIX, een modulair, multi-agent geheugensysteem dat de toekomst van AI-geheugen herdefinieert door het meest kritieke probleem van het veld op te lossen: het mogelijk maken voor taalmodellen om echt te onthouden. In tegenstelling tot eerdere benaderingen, gaat MIRIX verder dan tekst en omarmt het rijke visuele en multimodale ervaringen, waardoor geheugen echt nuttig wordt in realistische scenario's. MIRIX bestaat uit zes verschillende, zorgvuldig gestructureerde geheugentypes: Core, Episodisch, Semantisch, Procedureel, Resource Memory en Knowledge Vault, gekoppeld aan een multi-agent framework dat updates en retrievals dynamisch controleert en coördineert. Dit ontwerp stelt agents in staat om diverse, langetermijn gebruikersdata op grote schaal te behouden, over te redeneren en nauwkeurig op te halen. We valideren MIRIX in twee veeleisende omgevingen. Ten eerste, op ScreenshotVQA, een uitdagende multimodale benchmark bestaande uit bijna 20.000 hoge-resolutie computerschermafbeeldingen per reeks, die een diep contextueel begrip vereist en waar geen bestaande geheugensystemen kunnen worden toegepast, behaalt MIRIX 35% hogere nauwkeurigheid dan de RAG-baseline terwijl de opslagvereisten met 99,9% worden verminderd. Ten tweede, op LOCOMO, een langdurige conversatiebenchmark met enkelvoudige modale tekstuele input, bereikt MIRIX state-of-the-art prestaties van 85,4%, wat ver boven de bestaande baselines uitstijgt. Deze resultaten tonen aan dat MIRIX een nieuwe prestatiestandaard zet voor geheugen-augmented LLM-agents. Om gebruikers onze geheugensysteem te laten ervaren, bieden we een verpakte applicatie aan, aangedreven door MIRIX. Het monitort het scherm in realtime, bouwt een gepersonaliseerde geheugenbasis op en biedt intuïtieve visualisatie en veilige lokale opslag om privacy te waarborgen.
We introduceren Skywork-R1V3, een geavanceerd, open-source vision-language model (VLM) dat een nieuwe aanpak voor visueel redeneren introduceert. De belangrijkste innovatie ligt in het effectief overdragen van redeneervaardigheden van tekstgebaseerde Large Language Models (LLMs) naar visuele taken. De sterke prestaties van Skywork-R1V3 zijn voornamelijk te danken aan ons uitgebreide post-training RL-framework, dat het redeneervermogen van het model effectief activeert en versterkt, zonder dat aanvullende continue pre-training nodig is. Via dit framework ontdekken we verder de fundamentele rol van de connectormodule bij het bereiken van robuuste cross-modale uitlijning voor multimodale redeneermodellen. Daarnaast introduceren we een unieke indicator van redeneervermogen, de entropie van kritieke redeneertokens, die zeer effectief is gebleken voor checkpointselectie tijdens RL-training. Skywork-R1V3 behaalt state-of-the-art resultaten op MMMU, met een significante verbetering van 64,3% naar 76,0%. Deze prestatie komt overeen met het niveau van beginnende menselijke vaardigheden. Opmerkelijk is dat onze RL-gestuurde post-training aanpak zelfs het 38B-parametermodel in staat stelt om te concurreren met top closed-source VLMs. De implementatie draagt succesvol wiskundig redeneren over naar andere vakgerelateerde redeneertaken. We voegen ook een analyse toe van curriculum learning en reinforcement finetuning-strategieën, samen met een bredere discussie over multimodaal redeneren. Skywork-R1V3 vertegenwoordigt een significante sprong voorwaarts in multimodaal redeneren en toont RL aan als een krachtige motor voor het bevorderen van open-source VLM-capaciteiten.
Het genereren van diverse en natuurlijke menselijke bewegingssequenties op basis van tekstuele beschrijvingen vormt een fundamenteel en uitdagend onderzoeksgebied binnen de domeinen van computervisie, grafische technologie en robotica. Ondanks aanzienlijke vooruitgang in dit veld, worden huidige methodologieën vaak geconfronteerd met uitdagingen op het gebied van zero-shot generalisatievermogen, grotendeels toe te schrijven aan de beperkte omvang van trainingsdatasets. Bovendien belemmert het ontbreken van een uitgebreid evaluatiekader de vooruitgang van deze taak door geen richtingen voor verbetering te identificeren. In dit werk streven we ernaar om tekst-naar-beweging naar een nieuw tijdperk te brengen, namelijk het bereiken van het generalisatievermogen van zero-shot. Hiertoe ontwikkelen we eerst een efficiënt annotatiepijplijn en introduceren we MotionMillion – de grootste dataset voor menselijke bewegingen tot nu toe, met meer dan 2.000 uur en 2 miljoen hoogwaardige bewegingssequenties. Daarnaast stellen we MotionMillion-Eval voor, de meest uitgebreide benchmark voor het evalueren van zero-shot bewegingsgeneratie. Door gebruik te maken van een schaalbare architectuur, schalen we ons model op naar 7B parameters en valideren we de prestaties ervan op MotionMillion-Eval. Onze resultaten tonen een sterke generalisatie naar out-of-domain en complexe samengestelde bewegingen, wat een belangrijke stap markeert in de richting van zero-shot menselijke bewegingsgeneratie. De code is beschikbaar op https://github.com/VankouF/MotionMillion-Codes.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft zich bewezen als een zeer effectieve strategie om Large Language Models (LLMs) te voorzien van robuuste meerstaps redeneervaardigheden. Het ontwerp en de optimalisaties blijven echter afgestemd op puur tekstuele domeinen, wat resulteert in suboptimale prestaties bij multimodale redeneertaken. In het bijzonder merken we op dat een belangrijke bron van fouten in huidige multimodale redeneringen ligt in de perceptie van visuele invoer. Om dit knelpunt aan te pakken, stellen we Perception-Aware Policy Optimization (PAPO) voor, een eenvoudige maar effectieve uitbreiding van GRPO die het model aanmoedigt om te leren waarnemen terwijl het leert redeneren, volledig vanuit interne begeleidingssignalen. Opmerkelijk is dat PAPO niet afhankelijk is van aanvullende datacuratie, externe beloningsmodellen of propriëtaire modellen. Specifiek introduceren we het Impliciete Perceptieverlies in de vorm van een KL-divergentieterm aan het GRPO-doel, wat ondanks zijn eenvoud aanzienlijke algemene verbeteringen (4,4%) oplevert op diverse multimodale benchmarks. De verbeteringen zijn meer uitgesproken, oplopend tot 8,0%, bij taken met een hoge visuele afhankelijkheid. We observeren ook een aanzienlijke vermindering (30,5%) in perceptiefouten, wat wijst op verbeterde perceptuele capaciteiten met PAPO. We voeren een uitgebreide analyse uit van PAPO en identificeren een uniek 'loss hacking'-probleem, dat we grondig analyseren en mitigeren via een Double Entropy Loss. Over het geheel genomen introduceert ons werk een diepere integratie van perceptiebewuste begeleiding in RLVR-leerdoelen en legt het de basis voor een nieuw RL-framework dat visueel onderbouwde redenering aanmoedigt. Projectpagina: https://mikewangwzhl.github.io/PAPO.
Grote taalmodellen (LLMs) hebben recentelijk opmerkelijke successen behaald in code-generatiebenchmarks zoals HumanEval en LiveCodeBench. Een gedetailleerd onderzoek toont echter aan dat deze evaluatiesuites vaak slechts een beperkt aantal homogene testgevallen bevatten, waardoor subtiele fouten onopgemerkt blijven. Dit leidt niet alleen tot een kunstmatige inflatie van de gemeten prestaties, maar ondermijnt ook een nauwkeurige beloningsschatting in reinforcement learning-frameworks die verifieerbare beloningen gebruiken (RLVR). Om deze kritieke tekortkomingen aan te pakken, onderzoeken we systematisch de taak van testgevalgeneratie (TCG) door multidimensionale metrieken voor te stellen die ontworpen zijn om de grondigheid van testsuites rigoureus te kwantificeren. Bovendien introduceren we een mens-LLM collaboratieve methode (SAGA), die menselijke programmeerexpertise combineert met de redeneercapaciteit van LLMs, gericht op een aanzienlijke verbetering van zowel de dekking als de kwaliteit van gegenereerde testgevallen. Daarnaast ontwikkelen we een TCGBench om het onderzoek naar de TCG-taak te vergemakkelijken. Experimenten tonen aan dat SAGA een detectiepercentage van 90,62% en een verificatienauwkeurigheid van 32,58% behaalt op TCGBench. De Verificatienauwkeurigheid (Verifier Acc) van de code-generatie-evaluatiebenchmark die door SAGA is gesynthetiseerd, is 10,78% hoger dan die van LiveCodeBench-v6. Deze resultaten demonstreren de effectiviteit van onze voorgestelde methode. We hopen dat dit werk bijdraagt aan het bouwen van een schaalbare basis voor betrouwbare LLM-code-evaluatie, het verder bevorderen van RLVR in code-generatie, en de weg vrijmaakt voor geautomatiseerde adversariële testsynthese en adaptieve benchmarkintegratie.
Kernelontwikkeling in deep learning vereist het optimaliseren van rekenkundige eenheden over hardware heen, terwijl geheugenbeheer, parallellisme en hardware-specifieke optimalisaties in balans worden gebracht door uitgebreide empirische afstemming. Hoewel domeinspecifieke talen zoals Triton GPU-programmering vereenvoudigen door laag-niveau details te abstraheren, moeten ontwikkelaars nog steeds kritieke parameters zoals tilegroottes en geheugentoegangspatronen handmatig afstemmen via iteratief experimenteren, wat aanzienlijke barrières creëert voor optimale prestaties en bredere adoptie. In dit werk introduceren we AutoTriton, het eerste model gewijd aan Triton- programmering aangedreven door reinforcement learning (RL). AutoTriton voert supervised fine-tuning (SFT) uit om uitgerust te worden met essentiële Triton-programmerings- expertise met behulp van een hoogwaardige datainzamelingspijplijn, en voert RL uit met het Group Relative Policy Optimization (GRPO) algoritme, waarbij een op regels gebaseerde beloning en een op uitvoering gebaseerde beloning worden gecombineerd om de Triton-programmerings- vaardigheid verder te verbeteren, sequentieel. Experimenten over vijf evaluatiekanalen van TritonBench en KernelBench illustreren dat ons 8B-model AutoTriton prestaties bereikt die vergelijkbaar zijn met mainstream grote modellen, waaronder Claude-4-Sonnet en DeepSeek-R1-0528. Verdere experimentele analyse toont de cruciale rol aan van elke module binnen AutoTriton, inclusief de SFT-fase, de RL-fase, en de beloningsontwerpstrategie. Deze bevindingen onderstrepen de belofte van RL voor het automatisch genereren van hoogwaardige kernels, en aangezien hoogwaardige kernels kerncomponenten zijn van AI-systemen, legt deze doorbraak een belangrijke basis voor het bouwen van efficiëntere AI-systemen. Het model en de code zijn beschikbaar op https://github.com/AI9Stars/AutoTriton.
Transformers kampen met kwadratische complexiteit en geheugenproblemen bij lange sequenties, wat heeft geleid tot de adoptie van lineaire aandachtmechanismen met vaste grootte van verborgen toestanden. Lineaire modellen hebben echter vaak beperkte recallprestaties, wat resulteert in hybride architecturen die lineaire en volledige aandachtlagen combineren. Ondanks uitgebreid onderzoek naar hybride architecturen is de keuze van het lineaire aandachtcomponent nog niet diepgaand onderzocht. Wij evalueren systematisch verschillende lineaire aandachtmodellen over generaties heen - van vectorrecursies tot geavanceerde gatingmechanismen - zowel op zichzelf staand als in hybride vorm. Om deze uitgebreide analyse mogelijk te maken, hebben we 72 modellen getraind en openbaar gemaakt: 36 met 340M parameters (20B tokens) en 36 met 1.3B parameters (100B tokens), waarbij zes varianten van lineaire aandacht over vijf hybridisatieverhoudingen zijn bestreken. Benchmarking op standaard taalmodelleer- en recalltaken toont aan dat superieure op zichzelf staande lineaire modellen niet noodzakelijk uitblinken in hybride modellen. Hoewel taalmodelleerprestaties stabiel blijven over verschillende verhoudingen van lineaire naar volledige aandacht, verbetert recall aanzienlijk met meer volledige aandachtlagen, vooral onder een verhouding van 3:1. Onze studie benadrukt selectief gating, hiërarchische recursie en gecontroleerd vergeten als cruciaal voor effectieve hybride modellen. Wij bevelen architecturen aan zoals HGRN-2 of GatedDeltaNet met een lineaire-naar-volledige verhouding tussen 3:1 en 6:1 om efficiënt Transformer-niveau recall te bereiken. Onze modellen zijn openbaar gemaakt op https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
Reinforcement Learning from Verifiable Rewards (RLVR) verbetert de redeneervaardigheden van Large Language Models (LLM's), maar heeft moeite met instabiele exploratie. Wij stellen FR3E (First Return, Entropy-Eliciting Explore) voor, een gestructureerd exploratieraamwerk dat beslissingspunten met hoge onzekerheid in redeneertrajecten identificeert en gerichte rollouts uitvoert om semantisch onderbouwde tussentijdse feedback te construeren. Onze methode biedt gerichte begeleiding zonder te vertrouwen op dichte supervisie. Empirische resultaten op wiskundige redeneerbenchmarks (AIME24) laten zien dat FR3E stabielere training bevordert, langere en coherentere antwoorden produceert, en het aandeel van volledig correcte trajecten vergroot. Deze resultaten benadrukken de effectiviteit van het raamwerk bij het verbeteren van LLM-redenering door middel van robuustere en gestructureerdere exploratie.
Geautomatiseerd Bewijsvoeren (ATP) in formele talen vormt een fundamentele uitdaging voor AI. Hoewel Large Language Models (LLM's) opmerkelijke vooruitgang hebben geboekt, blijft er een aanzienlijke kloof bestaan tussen hun krachtige informele redeneervaardigheden en hun zwakke prestaties in formele bewijsvoering. Recente studies tonen aan dat de informele nauwkeurigheid meer dan 80% bedraagt, terwijl het formele succes onder de 8% blijft op benchmarks zoals PutnamBench. Wij stellen dat deze kloof blijft bestaan omdat huidige state-of-the-art bewijsvoerders, door het nauw te koppelen van redeneren en bewijzen, worden getraind met paradigma's die onbedoeld diepgaand redeneren bestraffen ten gunste van oppervlakkige, tactiek-gebaseerde strategieën. Om deze fundamentele kloof te overbruggen, stellen we een nieuw raamwerk voor dat hoogwaardig redeneren ontkoppelt van laagniveau bewijsgeneratie. Onze aanpak maakt gebruik van twee afzonderlijke, gespecialiseerde modellen: een krachtige, algemene Reasoner om diverse, strategische subdoel-lemma's te genereren, en een efficiënte Prover om deze rigoureus te verifiëren. Dit modulaire ontwerp bevrijdt het volledige redeneerpotentieel van het model en omzeilt de valkuilen van end-to-end training. We evalueren onze methode op een uitdagende set van post-2000 IMO-problemen, een probleemset waarop geen eerdere open-source bewijsvoerder succes heeft gerapporteerd. Ons ontkoppelde raamwerk lost met succes 5 van deze problemen op, wat een significante stap vooruit betekent in de richting van geautomatiseerd redeneren op uitzonderlijk moeilijke wiskundige uitdagingen. Om toekomstig onderzoek te bevorderen, maken we onze volledige dataset van gegenereerde en geverifieerde lemma's voor een breed scala aan IMO-problemen beschikbaar, te vinden op https://tencent-imo.github.io/.
De snelle vooruitgang van multimodale grote taalmodellen (MLLM) heeft de weg geëffend voor Vision-Language-Action (VLA) paradigma's, die visuele waarneming, natuurlijke taalverwerking en controle integreren binnen één beleid. Onderzoekers op het gebied van autonoom rijden passen deze methoden actief toe in het domein van voertuigen. Dergelijke modellen beloven autonome voertuigen die hoogwaardige instructies kunnen interpreteren, complexe verkeersscènes kunnen analyseren en zelf beslissingen kunnen nemen. De literatuur blijft echter gefragmenteerd en breidt zich snel uit. Dit overzicht biedt de eerste uitgebreide samenvatting van VLA voor Autonoom Rijden (VLA4AD). We (i) formaliseren de architectonische bouwstenen die gedeeld worden in recent werk, (ii) volgen de evolutie van vroege verklarende naar redeneringsgerichte VLA-modellen, en (iii) vergelijken meer dan 20 representatieve modellen op basis van de vooruitgang van VLA in het domein van autonoom rijden. We consolideren ook bestaande datasets en benchmarks, waarbij we protocollen benadrukken die gezamenlijk rijveiligheid, nauwkeurigheid en verklaringskwaliteit meten. Tot slot gaan we in op open uitdagingen - robuustheid, real-time efficiëntie en formele verificatie - en schetsen we toekomstige richtingen voor VLA4AD. Dit overzicht biedt een beknopt maar compleet referentiemateriaal voor de ontwikkeling van interpreteerbare, sociaal afgestemde autonome voertuigen. De Github-repository is beschikbaar op https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
Recente ontwikkelingen in taalmodellering hebben de effectiviteit van State Space Models (SSMs) aangetoond voor efficiënte sequentiemodellering. Hoewel hybride architecturen zoals Samba en de decoder-decoder-architectuur, YOCO, veelbelovende prestatieverbeteringen hebben laten zien ten opzichte van Transformers, hebben eerdere werken het efficiëntiepotentieel van representatiedeling tussen SSM-lagen niet onderzocht. In dit artikel introduceren we de Gated Memory Unit (GMU), een eenvoudig maar effectief mechanisme voor efficiënte geheugendeling tussen lagen. We passen dit toe om SambaY te creëren, een decoder-hybride-decoder-architectuur die GMU's in de cross-decoder integreert om geheugenleesstatussen te delen vanuit een op Samba gebaseerde zelf-decoder. SambaY verbetert de decodeerefficiëntie aanzienlijk, behoudt lineaire tijdscomplexiteit bij het vooraf vullen, en verbetert de prestaties bij lange contexten, allemaal zonder expliciete positionele codering. Door uitgebreide schaalexperimenten tonen we aan dat ons model een aanzienlijk lagere onherleidbare verlies heeft vergeleken met een sterke YOCO-basislijn, wat wijst op superieure prestatieschaalbaarheid onder grootschalige rekenregimes. Ons grootste model, versterkt met Differentiële Aandacht, Phi4-mini-Flash-Reasoning, behaalt aanzienlijk betere prestaties dan Phi4-mini-Reasoning op redeneertaken zoals Math500, AIME24/25 en GPQA Diamond zonder enige reinforcement learning, terwijl het tot 10x hogere decodeerdoorvoer levert op prompts van 2K lengte met een generatielengte van 32K onder het vLLM-inferentiekader. We hebben onze trainingscodebase vrijgegeven op open-source data op https://github.com/microsoft/ArchScale.
We introduceren FlexOlmo, een nieuwe klasse van taalmodelen (LMs) die (1) gedistribueerde training zonder data-deling ondersteunt, waarbij verschillende modelparameters onafhankelijk worden getraind op gesloten datasets, en (2) data-flexibele inferentie, waarbij deze parameters samen met hun bijbehorende data flexibel kunnen worden in- of uitgesloten bij modelinferenties zonder verdere training. FlexOlmo maakt gebruik van een mixture-of-experts (MoE)-architectuur, waarbij elke expert onafhankelijk wordt getraind op gesloten datasets en later wordt geïntegreerd via een nieuwe domeingebaseerde routering zonder enige gezamenlijke training. FlexOlmo wordt getraind op FlexMix, een door ons samengesteld corpus bestaande uit publiekelijk beschikbare datasets naast zeven domeinspecifieke sets, die realistische benaderingen vormen van gesloten sets. We evalueren modellen met tot 37 miljard parameters (20 miljard actief) op 31 diverse downstream taken. We laten zien dat een algemene expert getraind op publieke data effectief kan worden gecombineerd met onafhankelijk getrainde experts van andere data-eigenaren, wat leidt tot een gemiddelde relatieve verbetering van 41% terwijl gebruikers de mogelijkheid hebben om bepaalde data uit te sluiten op basis van data-licenties of toestemmingsvereisten. Onze aanpak overtreft ook eerdere methoden voor modelmerging met gemiddeld 10,1% en overtreft de standaard MoE die zonder data-beperkingen is getraind met hetzelfde aantal trainings-FLOPs. Samengevat biedt dit onderzoek een oplossing voor zowel data-eigenaren als onderzoekers in gereguleerde industrieën met gevoelige of beschermde data. FlexOlmo maakt het mogelijk te profiteren van gesloten data terwijl de voorkeuren van data-eigenaren worden gerespecteerd door hun data lokaal te houden en fijnmazige controle over data-toegang tijdens inferentie te ondersteunen.
Het ophelderen van moleculaire structuren uit spectra is een fundamenteel probleem in de scheikunde, met verstrekkende implicaties voor stofidentificatie, synthese en medicijnontwikkeling. Traditionele methoden zijn sterk afhankelijk van expertinterpretatie en schieten tekort in schaalbaarheid. Baanbrekende machine learning-methoden hebben op retrieval gebaseerde strategieën geïntroduceerd, maar hun afhankelijkheid van eindige bibliotheken beperkt de generalisatie naar nieuwe moleculen. Generatieve modellen bieden een veelbelovend alternatief, maar de meeste gebruiken autoregressieve SMILES-gebaseerde architecturen die 3D-geometrie negeren en moeite hebben met het integreren van diverse spectrale modaliteiten. In dit werk presenteren we DiffSpectra, een generatief raamwerk dat zowel 2D- als 3D-moleculaire structuren rechtstreeks afleidt uit multi-modale spectrale data met behulp van diffusiemodellen. DiffSpectra formuleert structuuropheldering als een conditioneel generatieproces. Het denoiserende netwerk is geparametriseerd door Diffusion Molecule Transformer, een SE(3)-equivariante architectuur die topologische en geometrische informatie integreert. Conditionering wordt verzorgd door SpecFormer, een transformer-gebaseerde spectrale encoder die intra- en inter-spectrale afhankelijkheden vastlegt uit multi-modale spectra. Uitgebreide experimenten tonen aan dat DiffSpectra een hoge nauwkeurigheid bereikt in structuuropheldering, met exacte structuren die in 16,01% van de gevallen als top-1 en in 96,86% als top-20 worden teruggevonden via sampling. Het model profiteert aanzienlijk van 3D-geometrische modellering, SpecFormer pre-training en multi-modale conditionering. Deze resultaten benadrukken de effectiviteit van spectrum-geconditioneerde diffusiemodellering bij het aanpakken van de uitdaging van moleculaire structuuropheldering. Voor zover wij weten, is DiffSpectra het eerste raamwerk dat multi-modale spectrale redenering en gezamenlijke 2D/3D generatieve modellering verenigt voor de novo moleculaire structuuropheldering.
Langetermijnredenering vereist het nauwkeurig identificeren van relevante informatie in uitgebreide, ruisrijke invoercontexten. Eerder onderzoek toont aan dat het gebruik van testtijdleren om context direct in modelparameters te coderen effectief redeneren over ruisrijke informatie mogelijk maakt. Meta-leermethoden voor het mogelijk maken van testtijdleren zijn echter onpraktisch geheugenintensief, wat hun toepassing in langetermijncontexten verhindert. In dit werk stellen we PERK (Parameter Efficient Reasoning over Knowledge) voor, een schaalbare aanpak voor het leren coderen van lange invoercontexten met behulp van gradientupdates aan een lichtgewicht modeladapter tijdens testtijd. Specifiek gebruikt PERK twee geneste optimalisatielussen in een meta-trainingsfase. De binnenste lus codeert snel contexten in een low-rank adapter (LoRA) die dient als een parameterzuinige geheugenmodule voor het basismodel. Tegelijkertijd leert de buitenste lus om de bijgewerkte adapter te gebruiken om relevante informatie uit de gecodeerde langetermijncontext nauwkeurig te herinneren en erover te redeneren. Onze evaluaties op verschillende langetermijnredeneertaken tonen aan dat PERK de standaard prompt-gebaseerde langetermijncontextbaseline aanzienlijk overtreft, met gemiddelde absolute prestatieverbeteringen van tot 90% voor kleinere modellen (GPT-2) en tot 27% voor ons grootste geëvalueerde model, Qwen-2.5-0.5B. Over het algemeen is PERK robuuster tegen redeneercomplexiteit, lengte-extrapolatie en de locaties van relevante informatie in contexten. Tot slot laten we zien dat, hoewel PERK geheugenintensief is tijdens training, het efficiënter schaalt tijdens inferentie dan prompt-gebaseerde langetermijncontextinferentie.
Nova Premier is Amazons meest geavanceerde multimodale basis- en leraarmodel voor modeldistillatie. Het verwerkt tekst, afbeeldingen en video met een contextvenster van één miljoen tokens, waardoor het grote codebases, documenten van 400 pagina's en video's van 90 minuten in één prompt kan analyseren. We presenteren de eerste uitgebreide evaluatie van het kritieke risicoprofiel van Nova Premier binnen het Frontier Model Safety Framework. De evaluaties richten zich op drie hoogrisicodomeinen — Chemisch, Biologisch, Radiologisch & Nucleair (CBRN), Offensieve Cyberoperaties en Geautomatiseerde AI-ontwikkeling — en combineren geautomatiseerde benchmarks, expert-red-teaming en uplift-studies om te bepalen of het model de vrijgavecriteria overschrijdt. We vatten onze methodologie samen en presenteren de belangrijkste bevindingen. Op basis van deze evaluatie concluderen we dat Nova Premier veilig is voor publieke vrijgave, in lijn met onze toezeggingen tijdens de AI-veiligheidstop van Parijs in 2025. We blijven onze veiligheidsevaluatie- en mitigatieprocessen verbeteren naarmate nieuwe risico's en mogelijkheden van frontier-modellen worden geïdentificeerd.
Automatische detectie van giftige taal is cruciaal voor het creëren van veilige, inclusieve online ruimtes. Het is echter een zeer subjectieve taak, waarbij percepties van giftige taal worden gevormd door gemeenschapsnormen en persoonlijke ervaringen. Bestaande modellen voor toxiciteitsdetectie worden doorgaans getraind op annotaties die diverse annotatorperspectieven samenvatten tot één enkele grondwaarheid, waardoor belangrijke context-specifieke noties van toxiciteit, zoals gereclaimde taal, worden uitgewist. Om dit aan te pakken, introduceren we MODELCITIZENS, een dataset van 6,8K sociale media posts en 40K toxiciteitsannotaties over diverse identiteitsgroepen. Om de rol van conversatiecontext op toxiciteit, typisch voor sociale media posts, vast te leggen, verrijken we MODELCITIZENS posts met LLM-gegenereerde conversatiescenario's. State-of-the-art toxiciteitsdetectietools (bijv. OpenAI Moderation API, GPT-o4-mini) presteren slechter op MODELCITIZENS, met verdere achteruitgang op context-verrijkte posts. Tot slot brengen we LLAMACITIZEN-8B en GEMMACITIZEN-12B uit, LLaMA- en Gemma-gebaseerde modellen die zijn afgestemd op MODELCITIZENS, en die GPT-o4-mini met 5,5% overtreffen op in-distributie-evaluaties. Onze bevindingen benadrukken het belang van gemeenschapsgeïnformeerde annotatie en modellering voor inclusieve contentmoderatie. De data, modellen en code zijn beschikbaar op https://github.com/asuvarna31/modelcitizens.
Ondanks vooruitgang in op reinforcement learning (RL) gebaseerde videoredenenering met grote taalmodellen (LLMs), blijven gegevensverzameling en finetunen aanzienlijke uitdagingen. Deze methoden zijn vaak afhankelijk van grootschalig supervised fine-tuning (SFT) met uitgebreide videogegevens en lange Chain-of-Thought (CoT)-annotaties, wat ze kostbaar en moeilijk schaalbaar maakt. Om dit aan te pakken, presenteren we Video-RTS, een nieuwe aanpak om de videoredeneneringscapaciteit te verbeteren met een aanzienlijk verbeterde gegevensefficiëntie door data-efficiënte RL te combineren met een video-adaptieve test-time scaling (TTS)-strategie. Op basis van observaties over de gegevensschaling van RL-monsters, slaan we de resource-intensieve SFT-stap over en gebruiken we efficiënte pure-RL-training met output-gebaseerde beloningen, wat geen aanvullende annotaties of uitgebreid finetunen vereist. Bovendien introduceren we, om rekenbronnen efficiënter te benutten, een sparse-to-dense video TTS-strategie die de inferentie verbetert door iteratief frames toe te voegen op basis van outputconsistentie. We valideren onze aanpak op meerdere videoredeneneringsbenchmarks, waaruit blijkt dat Video-RTS bestaande videoredeneneringsmodellen gemiddeld met 2,4% in nauwkeurigheid overtreft met slechts 3,6% trainingsmonsters. Zo behaalt Video-RTS een verbetering van 4,2% op Video-Holmes, een recente en uitdagende videoredeneneringsbenchmark, en een verbetering van 2,6% op MMVU. Opmerkelijk is dat onze pure RL-training en adaptieve video TTS complementaire sterke punten bieden, wat de sterke redeneerprestaties van Video-RTS mogelijk maakt.
Onderzoek naar autonome chirurgie heeft zich grotendeels gericht op de automatisering van eenvoudige taken in gecontroleerde omgevingen. Echter, echte chirurgische toepassingen vereisen behendige manipulatie over langere perioden en generalisatie naar de inherente variabiliteit van menselijk weefsel. Deze uitdagingen blijven moeilijk aan te pakken met bestaande logica-gebaseerde of conventionele end-to-end leerbenaderingen. Om deze kloof te overbruggen, stellen we een hiërarchisch framework voor voor het uitvoeren van behendige, langetermijn chirurgische stappen. Onze aanpak maakt gebruik van een hoog-niveau beleid voor taakplanning en een laag-niveau beleid voor het genereren van robot trajecten. De hoog-niveau planner plant in taalruimte, waarbij taakniveau of corrigerende instructies worden gegenereerd die de robot door de langetermijn stappen leiden en fouten van het laag-niveau beleid corrigeren. We valideren ons framework door ex vivo experimenten op cholecystectomie, een veelvoorkomende minimaal invasieve procedure, en voeren ablatiestudies uit om de belangrijkste componenten van het systeem te evalueren. Onze methode behaalt een 100% slagingspercentage over acht onbekende ex vivo galblaassen, waarbij volledig autonoom wordt geopereerd zonder menselijke interventie. Dit werk demonstreert stapniveau autonomie in een chirurgische procedure, wat een mijlpaal markeert naar de klinische implementatie van autonome chirurgische systemen.
De opkomst van multimodale memes in het tijdperk van sociale media vereist dat multimodale Large Language Models (mLLMs) de schadelijkheid van memes effectief kunnen begrijpen. Bestaande benchmarks voor het beoordelen van mLLMs op het begrijpen van schadelijke memes zijn gebaseerd op nauwkeurigheidsgerichte, model-agnostische evaluaties met behulp van statische datasets. Deze benchmarks zijn beperkt in hun vermogen om actuele en grondige beoordelingen te bieden, aangezien online memes zich dynamisch ontwikkelen. Om dit aan te pakken, stellen we AdamMeme voor, een flexibel, agent-gebaseerd evaluatieraamwerk dat adaptief de redeneervaardigheden van mLLMs onderzoekt bij het ontcijferen van meme-schadelijkheid. Door middel van multi-agent samenwerking biedt AdamMeme uitgebreide evaluaties door de meme-gegevens iteratief bij te werken met uitdagende voorbeelden, waardoor specifieke beperkingen in hoe mLLMs schadelijkheid interpreteren aan het licht komen. Uitgebreide experimenten tonen aan dat ons raamwerk systematisch de wisselende prestaties van verschillende doel-mLLMs onthult, wat diepgaande, fijnmazige analyses van model-specifieke zwakheden oplevert. Onze code is beschikbaar op https://github.com/Lbotirx/AdamMeme.
Grote taalmodellen (LLM's) en hun veiligheidsclassificatoren presteren vaak slecht op talen met beperkte bronnen vanwege beperkte trainingsgegevens en evaluatiebenchmarks. Dit artikel introduceert RabakBench, een nieuwe meertalige veiligheidsbenchmark die is toegespitst op de unieke taalkundige context van Singapore, met aandacht voor Singlish, Chinees, Maleis en Tamil. RabakBench is opgebouwd via een schaalbare drietrapspijplijn: (i) Genereren - het genereren van tegenvoorbeelden door het verrijken van echte Singlish webinhoud met LLM-gestuurde red teaming; (ii) Labelen - semi-geautomatiseerde multi-label veiligheidsannotatie met behulp van meerderheidsgestemde LLM-labelers die zijn afgestemd op menselijke oordelen; en (iii) Vertalen - hoogwaardige vertaling die taalkundige nuances en toxiciteit over talen behoudt. De uiteindelijke dataset bestaat uit meer dan 5.000 veiligheidsgelabelde voorbeelden in vier talen en zes fijnmazige veiligheidscategorieën met ernstniveaus. Evaluaties van 11 populaire open-source en closed-source guardrail-classificatoren tonen een significante prestatievermindering. RabakBench maakt niet alleen robuuste veiligheidsevaluatie mogelijk in meertalige omgevingen in Zuidoost-Azië, maar biedt ook een reproduceerbaar raamwerk voor het bouwen van gelokaliseerde veiligheidsdatasets in omgevingen met beperkte bronnen. De benchmarkdataset, inclusief de door mensen geverifieerde vertalingen, en de evaluatiecode zijn openbaar beschikbaar.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben beeldgebaseerde vraag-antwoordmogelijkheden mogelijk gemaakt. Een belangrijke beperking is echter het gebruik van CLIP als visuele encoder; hoewel het grove globale informatie kan vastleggen, mist het vaak fijnmazige details die relevant zijn voor de invoervraag. Om deze tekortkomingen aan te pakken, onderzoekt dit werk of vooraf getrainde tekst-naar-beeld diffusiemodellen kunnen dienen als instructiegevoelige visuele encoders. Door een analyse van hun interne representaties, ontdekken we dat diffusiekenmerken zowel rijk zijn aan semantiek als sterke beeld-tekst-uitlijning kunnen coderen. Bovendien ontdekken we dat we tekstconditionering kunnen gebruiken om het model te richten op regio's die relevant zijn voor de invoervraag. We onderzoeken vervolgens hoe deze kenmerken kunnen worden uitgelijnd met grote taalmodellen en ontdekken een lekverschijnsel, waarbij het LLM onbedoeld informatie kan herstellen uit de oorspronkelijke diffusieprompt. We analyseren de oorzaken van dit lek en stellen een mitigatiestrategie voor. Op basis van deze inzichten verkennen we een eenvoudige fusiestrategie die zowel CLIP als conditionele diffusiekenmerken benut. We evalueren onze aanpak op zowel algemene VQA- als gespecialiseerde MLLM-benchmarks, wat de belofte van diffusiemodellen voor visueel begrip aantoont, met name in visiegerichte taken die ruimtelijk en compositioneel redeneren vereisen. Onze projectpagina is te vinden op https://vatsalag99.github.io/mustafar/.