Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks hun opmerkelijke capaciteiten hebben Large Language Models (LLMs) moeite om historische interactie-informatie effectief te benutten in dynamische en complexe omgevingen. Geheugensystemen stellen LLMs in staat om verder te gaan dan stateless interacties door het introduceren van mechanismen voor persistente informatieopslag, -opvraging en -gebruik. Bestaande geheugensystemen brengen echter vaak aanzienlijke tijd- en rekenkosten met zich mee. Daarom introduceren we een nieuw geheugensysteem genaamd LightMem, dat een balans vindt tussen de prestaties en efficiëntie van geheugensystemen. Geïnspireerd door het Atkinson-Shiffrin-model van het menselijk geheugen, organiseert LightMem het geheugen in drie complementaire fasen. Ten eerste filtert het op cognitie geïnspireerde sensorische geheugen irrelevante informatie snel uit door middel van lichtgewicht compressie en groepeert het informatie op basis van hun onderwerpen. Vervolgens consolideert het onderwerpbewuste kortetermijngeheugen deze op onderwerp gebaseerde groepen, waarbij het inhoud organiseert en samenvat voor gestructureerdere toegang. Tot slot gebruikt het langetermijngeheugen met slaaptijd-update een offline procedure die consolidatie ontkoppelt van online inferentie. Experimenten op LongMemEval met GPT- en Qwen-backbones laten zien dat LightMem sterke baseline-methoden overtreft in nauwkeurigheid (tot 10,9% winst) terwijl het tokengebruik tot 117x, API-aanroepen tot 159x en de looptijd met meer dan 12x reduceert. De code is beschikbaar op https://github.com/zjunlp/LightMem.
We presenteren kern-aandacht-disaggregatie (CAD), een techniek die de training van grote taalmodellen met lange contexten verbetert door de kern-aandachtsberekening, softmax(QK^T)V, los te koppelen van de rest van het model en deze uit te voeren op een aparte pool van apparaten. In bestaande systemen bevindt de kern-aandacht zich op dezelfde locatie als andere lagen; bij lange contextlengtes veroorzaakt de kwadratische rekenkundige groei in vergelijking met de bijna-lineaire groei van andere componenten een onbalans in de belasting en vertragingen in data- en pijplijn-parallelle groepen. CAD wordt mogelijk gemaakt door twee observaties. Ten eerste is kern-aandacht toestandsloos: het heeft geen trainbare parameters en slechts minimale tijdelijke data, waardoor balansverstoring neerkomt op het plannen van rekenintensieve taken. Ten tweede is het samenstelbaar: moderne aandachtskernels behouden een hoge efficiëntie bij het verwerken van samengevoegde batches van token-level shards met willekeurige lengtes. CAD verdeelt de kern-aandacht in token-level taken en wijst deze toe aan toegewijde aandachtsservers, die taken dynamisch hergroeperen om de rekenkundige belasting gelijk te verdelen zonder de kernefficiëntie op te offeren. We implementeren CAD in een systeem genaamd DistCA, dat een ping-pong-uitvoeringsschema gebruikt om communicatie volledig te overlappen met berekening en in-place uitvoering op aandachtsservers om het geheugengebruik te verminderen. Op 512 H200 GPU's en contextlengtes tot 512k tokens verbetert DistCA de end-to-end trainingsdoorvoer met maximaal 1,35x, elimineert het vertragingen in data- en pijplijn-parallelle groepen, en bereikt het een bijna perfecte balans in rekenkracht en geheugen.
Generatieve wereldmodellen (WMs) kunnen nu werelden simuleren met opvallend visueel realisme, wat van nature de vraag oproept of ze belichaamde agenten kunnen voorzien van voorspellende perceptie voor besluitvorming. Vooruitgang op dit gebied is beperkt gebleven door gefragmenteerde evaluatie: de meeste bestaande benchmarks hanteren open-loop protocollen die visuele kwaliteit in isolatie benadrukken, waardoor de kernkwestie van belichaamde bruikbaarheid onopgelost blijft, namelijk: helpen WMs agenten daadwerkelijk om te slagen in belichaamde taken? Om dit gat te dichten, introduceren we World-in-World, het eerste open platform dat WMs benchmarkt in een gesloten-lus wereld die echte agent-omgeving interacties nabootst. World-in-World biedt een uniforme online planningsstrategie en een gestandaardiseerde actie-API, waardoor heterogene WMs kunnen worden ingezet voor besluitvorming. We hebben vier gesloten-lus omgevingen samengesteld die diverse WMs rigoureus evalueren, taaksucces als primaire metriek prioriteren, en verder gaan dan de gebruikelijke focus op visuele kwaliteit; we presenteren ook de eerste dataschaalwet voor wereldmodellen in belichaamde settings. Onze studie onthult drie verrassingen: (1) visuele kwaliteit alleen garandeert geen taaksucces, beheersbaarheid is belangrijker; (2) schalen na de training met actie-observatiegegevens is effectiever dan het upgraden van de vooraf getrainde videogeneratoren; en (3) het toewijzen van meer rekentijd tijdens de inferentie stelt WMs in staat om de gesloten-lus prestaties aanzienlijk te verbeteren.
Recente vooruitgang in tekst-naar-beeld (T2I) generatie benadrukt het belang van betrouwbare benchmarks om te evalueren hoe nauwkeurig gegenereerde afbeeldingen de semantiek van hun tekstuele prompt weerspiegelen. Echter, (1) bestaande benchmarks missen de diversiteit van promptsituaties en meertalige ondersteuning, beide essentieel voor praktische toepasbaarheid; (2) ze bieden alleen grove evaluaties over primaire dimensies, waarbij een beperkt aantal subdimensies wordt behandeld, en schieten tekort in fijnmazige subdimensiebeoordeling. Om deze beperkingen aan te pakken, introduceren we UniGenBench++, een uniforme semantische evaluatiebenchmark voor T2I-generatie. Specifiek bestaat het uit 600 prompts die hiërarchisch zijn georganiseerd om zowel dekking als efficiëntie te waarborgen: (1) het omvat diverse real-world scenario's, d.w.z. 5 hoofdthema's en 20 subthema's; (2) het onderzoekt uitgebreid de semantische consistentie van T2I-modellen over 10 primaire en 27 subevaluatiecriteria, waarbij elke prompt meerdere testpunten beoordeelt. Om de robuustheid van modellen tegen variaties in taal en promptlengte rigoureus te beoordelen, bieden we zowel Engelse als Chinese versies van elke prompt in korte en lange vormen. Door gebruik te maken van de algemene wereldkennis en fijnmazige beeldbegripcapaciteiten van een closed-source Multi-modale Grote Taal Model (MLLM), d.w.z. Gemini-2.5-Pro, is een effectieve pijplijn ontwikkeld voor betrouwbare benchmarkconstructie en gestroomlijnde modelevaluatie. Bovendien, om het gebruik door de gemeenschap verder te vergemakkelijken, trainen we een robuust evaluatiemodel dat offline beoordeling van T2I-modeloutputs mogelijk maakt. Door uitgebreide benchmarking van zowel open-source als closed-source T2I-modellen, onthullen we systematisch hun sterke en zwakke punten op verschillende aspecten.
We presenteren Ring-1T, het eerste open-source, state-of-the-art denkmodel met een schaal van een biljoen parameters. Het beschikt over in totaal 1 biljoen parameters en activeert ongeveer 50 miljard per token. Het trainen van dergelijke modellen op een schaal van een biljoen parameters brengt ongekende uitdagingen met zich mee, waaronder train-inference-misalignement, inefficiënties in rollout-verwerking en knelpunten in het RL-systeem. Om deze problemen aan te pakken, introduceren we drie onderling verbonden innovaties: (1) IcePop stabiliseert RL-training via token-level discrepantiemasking en clipping, waardoor instabiliteit door train-inference-mismatches wordt opgelost; (2) C3PO++ verbetert de resourcebenutting voor lange rollouts onder een tokenbudget door deze dynamisch te partitioneren, waardoor een hoge tijdefficiëntie wordt bereikt; en (3) ASystem, een hoogwaardig RL-framework ontworpen om de systemische knelpunten die de training van modellen met een biljoen parameters belemmeren, te overwinnen. Ring-1T levert baanbrekende resultaten op kritieke benchmarks: 93,4 op AIME-2025, 86,72 op HMMT-2025, 2088 op CodeForces en 55,94 op ARC-AGI-v1. Opmerkelijk is dat het een zilveren medaille-niveau resultaat behaalt op de IMO-2025, wat zijn uitzonderlijke redeneervaardigheden onderstreept. Door het complete 1T-parameter MoE-model vrij te geven aan de gemeenschap, bieden we de onderzoeksgemeenschap directe toegang tot geavanceerde redeneervaardigheden. Deze bijdrage markeert een belangrijke mijlpaal in het democratiseren van grootschalige redeneerintelligentie en stelt een nieuwe standaard voor de prestaties van open-source modellen.
Hoewel grote taalmodellen (LLMs) aanzienlijk potentieel hebben om chemische ontdekkingen te bevorderen, ontbreekt het huidige LLMs aan fundamentele chemische kennis, produceren ze onbetrouwbare redeneertrajecten en vertonen ze suboptimale prestaties bij diverse chemische taken. Om deze uitdagingen aan te pakken, stellen we Chem-R voor, een generaliseerbaar Chemical Reasoning-model dat is ontworpen om de beraadslagingsprocessen van chemici na te bootsen. Chem-R wordt getraind via een driefasenraamwerk dat geleidelijk geavanceerde redeneervaardigheden opbouwt, waaronder: 1) Chemical Foundation Training, dat de kernchemische kennis vastlegt. 2) Chemical Reasoning Protocol Distillation, dat gestructureerde, expertachtige redeneersporen incorporeert om systematisch en betrouwbaar probleemoplossen te begeleiden. 3) Multi-task Group Relative Policy Optimization, dat het model optimaliseert voor evenwichtige prestaties bij diverse moleculaire en reactiegerichte taken. Deze gestructureerde pijplijn stelt Chem-R in staat om state-of-the-art prestaties te behalen op uitgebreide benchmarks, waarbij het toonaangevende grote taalmodellen, waaronder Gemini-2.5-Pro en DeepSeek-R1, met tot 46% op moleculaire taken en 66% op reactietaken overtreft. Tegelijkertijd presteert Chem-R ook consistent beter dan de bestaande chemische foundation-modellen bij zowel moleculaire als reactiegerichte taken. Deze resultaten onderstrepen de robuuste generalisatie, interpreteerbaarheid en het potentieel van Chem-R als basis voor de volgende generatie AI-gestuurde chemische ontdekkingen.
Het genereren van lange video's met Diffusion Transformers (DiTs) wordt beperkt door de kwadratische schaling van volledige aandacht (full attention) met de sequentielengte. Aangezien aandacht sterk redundant is, worden de uitvoeren gedomineerd door een kleine subset van query-key paren. Bestaande sparse methoden vertrouwen op bloksgewijze grove schattingen, waarvan de nauwkeurigheid-efficiëntie afwegingen beperkt worden door de blokgrootte. Dit artikel introduceert Mixture-of-Groups Attention (MoGA), een efficiënte sparse aandacht die een lichtgewicht, leerbare token router gebruikt om tokens precies te matchen zonder bloksgewijze schatting. Door semantisch bewuste routing maakt MoGA effectieve langeafstandsinteracties mogelijk. Als een kernel-vrije methode integreert MoGA naadloos met moderne aandachtstacks, waaronder FlashAttention en sequentieparallelisme. Op basis van MoGA ontwikkelen we een efficiënt model voor het genereren van lange video's dat end-to-end minutenlange, multi-shot, 480p video's produceert met 24 fps, met een contextlengte van ongeveer 580k. Uitgebreide experimenten op verschillende videogeneratietaken valideren de effectiviteit van onze aanpak.
Hoewel Multimodale Grote Taalmodellen (MLLMs) uitblinken in holistisch begrip, hebben ze moeite met het vastleggen van de complexe wereld met ingewikkelde scènes, wat een gedetailleerde analyse van ingewikkelde details en objectrelaties vereist. Region-level MLLMs zijn een veelbelovende stap geweest. Eerdere pogingen zijn echter over het algemeen geoptimaliseerd om gegeven regio's in isolatie te begrijpen, waarbij cruciale globale contexten worden verwaarloosd. Om dit aan te pakken, introduceren we Grasp Any Region (GAR) voor uitgebreid region-level visueel begrip. Gekoppeld aan een effectieve RoI-uitgelijnde feature replay-techniek, ondersteunt GAR (1) precieze waarneming door gebruik te maken van noodzakelijke globale contexten, en (2) het modelleren van interacties tussen meerdere prompts. Samen bereikt het dan van nature (3) geavanceerd compositioneel redeneren om specifieke vrije-vorm vragen over elke regio te beantwoorden, waardoor het paradigma verschuift van passieve beschrijving naar actieve dialoog. Bovendien hebben we GAR-Bench geconstrueerd, dat niet alleen een nauwkeurigere evaluatie biedt van het begrip van een enkele regio, maar ook, nog belangrijker, interacties en complex redeneren over meerdere regio's meet. Uitgebreide experimenten hebben aangetoond dat GAR-1B niet alleen de state-of-the-art captioning-capaciteiten behoudt, bijvoorbeeld DAM-3B met +4,5 verslaat op DLC-Bench, maar ook uitblinkt in het modelleren van relaties tussen meerdere prompts met geavanceerde begripscapaciteiten, en zelfs InternVL3-78B overtreft op GAR-Bench-VQA. Nog belangrijker is dat onze zero-shot GAR-8B zelfs in-domain VideoRefer-7B overtreft op VideoRefer-BenchQ, wat aangeeft dat de sterke capaciteiten eenvoudig kunnen worden overgedragen naar video's.
We presenteren DeepSeek-OCR als een eerste onderzoek naar de haalbaarheid van het comprimeren van lange contexten via optische 2D-mapping. DeepSeek-OCR bestaat uit twee componenten: DeepEncoder en DeepSeek3B-MoE-A570M als decoder. Specifiek fungeert DeepEncoder als de kernengine, ontworpen om lage activeringen te behouden bij hoogresolutie-invoer, terwijl hoge compressieverhoudingen worden bereikt om een optimaal en beheersbaar aantal visuele tokens te garanderen. Experimenten tonen aan dat wanneer het aantal teksttokens binnen 10 keer het aantal visuele tokens ligt (d.w.z. een compressieverhouding < 10x), het model een decodeerprecisie (OCR) van 97% kan bereiken. Zelfs bij een compressieverhouding van 20x blijft de OCR-nauwkeurigheid ongeveer 60%. Dit toont aanzienlijke belofte voor onderzoeksgebieden zoals historische lang-contextcompressie en geheugenvergetingsmechanismen in LLM's. Daarnaast toont DeepSeek-OCR ook een hoge praktische waarde. Op OmniDocBench overtreft het GOT-OCR2.0 (256 tokens/pagina) met slechts 100 visuele tokens, en presteert het beter dan MinerU2.0 (gemiddeld 6000+ tokens per pagina) terwijl het minder dan 800 visuele tokens gebruikt. In productie kan DeepSeek-OCR trainingsdata genereren voor LLM's/VLM's op een schaal van 200k+ pagina's per dag (een enkele A100-40G). Codes en modelgewichten zijn publiek toegankelijk op http://github.com/deepseek-ai/DeepSeek-OCR.
Hoewel Multimodale Grote Taalmodellen (MLLMs) bekwaamheid hebben getoond in videobeschrijvingen, vereisen praktische toepassingen beschrijvingen die specifieke gebruikersinstructies volgen in plaats van uitgebreide, onbeperkte beschrijvingen te genereren. Huidige benchmarks beoordelen echter voornamelijk de beschrijvende volledigheid en negeren grotendeels de mogelijkheden om instructies te volgen. Om dit gat te dichten, introduceren we IF-VidCap, een nieuwe benchmark voor het evalueren van beheersbare videobeschrijvingen, die 1.400 hoogwaardige samples bevat. In tegenstelling tot bestaande benchmarks voor videobeschrijvingen of algemene instructievolging, integreert IF-VidCap een systematisch raamwerk dat beschrijvingen beoordeelt op twee dimensies: correctheid van het formaat en correctheid van de inhoud. Onze uitgebreide evaluatie van meer dan 20 prominente modellen onthult een genuanceerd beeld: ondanks de voortdurende dominantie van propriëtaire modellen, wordt de prestatiekloof kleiner, waarbij toonaangevende open-source oplossingen nu bijna gelijkwaardig presteren. Bovendien blijkt dat modellen die gespecialiseerd zijn in dichte beschrijvingen onderpresteren in vergelijking met algemene MLLMs bij complexe instructies, wat aangeeft dat toekomstig werk zowel de beschrijvende rijkdom als de trouw aan instructies gelijktijdig moet bevorderen.
Hoewel diffusiemodellen de beste generatiekwaliteit bereiken, lijden ze nog steeds onder computationeel kostbare sampling. Recente werken pakken dit probleem aan met op gradienten gebaseerde optimalisatiemethoden die een ODE-diffusieoplosser met weinig stappen destilleren uit het volledige samplingproces, waardoor het aantal functie-evaluaties wordt teruggebracht van tientallen naar slechts enkele. Deze benaderingen vertrouwen echter vaak op ingewikkelde trainingstechnieken en richten zich niet expliciet op het behoud van fijne details. In dit artikel introduceren we de Generalized Solver: een eenvoudige parameterisatie van de ODE-sampler die geen aanvullende trainingstrucs vereist en de kwaliteit verbetert ten opzichte van bestaande benaderingen. We combineren verder het oorspronkelijke distillatieverlies met adversarial training, wat artefacten vermindert en de detailgetrouwheid verbetert. We noemen de resulterende methode de Generalized Adversarial Solver en demonstreren de superieure prestaties in vergelijking met bestaande solver-trainingsmethoden onder vergelijkbare resourcebeperkingen. Code is beschikbaar op https://github.com/3145tttt/GAS.
Het nauwkeurig personaliseren van grote taalmodellen (LLMs) om af te stemmen op individuele gebruikersvoorkeuren is een cruciale maar uitdagende taak. Hoewel supervised fine-tuning (SFT) snel een prestatieplateau bereikt, worstelt ook standaard reinforcement learning from human feedback (RLHF) met de nuances van personalisatie. Scalar-gebaseerde beloningsmodellen zijn gevoelig voor reward hacking, wat leidt tot uitgebreide en oppervlakkig gepersonaliseerde reacties. Om deze beperkingen aan te pakken, stellen we Critique-Post-Edit voor, een robuust reinforcement learning-framework dat een meer trouwe en controleerbare personalisatie mogelijk maakt. Ons framework integreert twee belangrijke componenten: (1) een Personalized Generative Reward Model (GRM) dat multidimensionale scores en tekstuele kritieken biedt om reward hacking te weerstaan, en (2) een Critique-Post-Edit-mechanisme waarbij het beleidsmodel zijn eigen uitvoer herziet op basis van deze kritieken voor meer gericht en efficiënt leren. Onder een rigoureuze lengte-gecontroleerde evaluatie presteert onze methode aanzienlijk beter dan standaard PPO op personalisatiebenchmarks. Het gepersonaliseerde Qwen2.5-7B-model behaalt een gemiddelde win-rate verbetering van 11%, en het gepersonaliseerde Qwen2.5-14B-model overtreft de prestaties van GPT-4.1. Deze resultaten tonen een praktische weg naar trouwe, efficiënte en controleerbare personalisatie.
Hoewel recente vooruitgang in visie-taalmodellen (VLMs) opmerkelijke vooruitgang heeft geboekt in een breed scala aan multimodale taken, blijft het begrijpen van 3D-ruimtelijke relaties vanuit beperkte gezichtspunten een aanzienlijke uitdaging. Eerdere redeneermethoden vertrouwen doorgaans op pure tekst (bijvoorbeeld topologische cognitieve kaarten) of op 2D-visuele aanwijzingen. Hun beperkte representatievermogen belemmert echter de prestaties bij specifieke taken die 3D-ruimtelijke verbeelding vereisen. Om deze beperking aan te pakken, stellen we 3DThinker voor, een raamwerk dat effectief gebruikmaakt van de rijke geometrische informatie die in afbeeldingen is ingebed tijdens het redeneren, zoals mensen dat doen. Ons raamwerk is het eerste dat 3D-mentaling mogelijk maakt tijdens het redeneren zonder enige 3D-voorafgaande input, en het vertrouwt niet op expliciet gelabelde 3D-gegevens voor training. Specifiek bestaat onze training uit twee fasen. Eerst voeren we gesuperviseerde training uit om de 3D-latente gegenereerd door VLM tijdens het redeneren af te stemmen op die van een 3D-fundamentmodel (bijvoorbeeld VGGT). Vervolgens optimaliseren we het gehele redeneertraject uitsluitend op basis van uitkomstsignalen, waardoor de onderliggende 3D-mentaling wordt verfijnd. Uitgebreide experimenten over meerdere benchmarks tonen aan dat 3DThinker consequent sterke basislijnen overtreft en een nieuw perspectief biedt op het integreren van 3D-representaties in multimodaal redeneren. Onze code zal beschikbaar zijn op https://github.com/zhangquanchen/3DThinker.
Meertalige watermerktechnieken hebben als doel de uitvoer van grote taalmodelen (LLM's) traceerbaar te maken over verschillende talen heen, maar huidige methoden schieten hierin nog tekort. Ondanks beweringen van robuustheid over talen heen, worden ze alleen geëvalueerd op hoog-resourcetalen. Wij tonen aan dat bestaande meertalige watermerkmethoden niet echt meertalig zijn: ze blijven niet robuust onder vertalingsaanvallen in middel- en laag-resourcetalen. Wij leiden dit falen terug naar semantische clustering, wat mislukt wanneer de tokenizer-vocabulaire te weinig volledige woordtokens bevat voor een bepaalde taal. Om dit aan te pakken, introduceren wij STEAM, een detectiemethode gebaseerd op terugvertaling die de verloren gegane watermerksterkte herstelt na vertaling. STEAM is compatibel met elke watermerkmethode, robuust over verschillende tokenizers en talen heen, niet-invasief en eenvoudig uitbreidbaar naar nieuwe talen. Met gemiddelde verbeteringen van +0,19 AUC en +40%p TPR@1% op 17 talen, biedt STEAM een eenvoudige en robuuste weg naar eerlijkere watermerktechnieken over diverse talen heen.
De recente ontwikkeling van Multimodale Grote Taalmodellen (MLLMs) heeft het vermogen van AI om visuele modaliteiten te begrijpen aanzienlijk verbeterd. Bestaande evaluatiebenchmarks blijven echter beperkt tot vragen met één beurt, waarbij de complexiteit van dialogen met meerdere beurten in realistische scenario's over het hoofd wordt gezien. Om deze kloof te overbruggen, introduceren wij MT-Video-Bench, een holistische benchmark voor videobegrip om MLLMs te evalueren in dialogen met meerdere beurten. Specifiek beoordeelt onze MT-Video-Bench voornamelijk zes kerncompetenties die zich richten op perceptie en interactiviteit, en omvat 987 zorgvuldig samengestelde dialogen met meerdere beurten uit diverse domeinen. Deze vaardigheden zijn rigoureus afgestemd op realistische toepassingen, zoals interactieve sportanalyse en intelligente tutoring op basis van video's met meerdere beurten. Met MT-Video-Bench evalueren wij uitgebreid verschillende state-of-the-art open-source en closed-source MLLMs, waarbij aanzienlijke prestatieverschillen en beperkingen in het omgaan met videodialogen met meerdere beurten aan het licht komen. De benchmark zal publiekelijk beschikbaar worden gesteld om toekomstig onderzoek te bevorderen.
Recente vooruitgang in videogeneratie heeft het mogelijk gemaakt visueel aantrekkelijke video's te produceren, met een breed scala aan toepassingen in contentcreatie, entertainment en virtual reality. De meeste bestaande videogeneratiemodellen gebaseerd op diffusie-transformers zijn echter beperkt tot lage-resolutie uitvoer (<=720P) vanwege de kwadratische rekencomplexiteit van het aandachtmechanisme ten opzichte van de uitvoerbreedte en -hoogte. Dit rekenkundige knelpunt maakt native hoog-resolutie videogeneratie (1080P/2K/4K) onpraktisch voor zowel training als inferentie. Om deze uitdaging aan te pakken, presenteren we UltraGen, een nieuw videogeneratiekader dat i) efficiënte en ii) end-to-end native hoog-resolutie videosynthese mogelijk maakt. Specifiek kenmerkt UltraGen zich door een hiërarchische dual-branch aandachtarchitectuur gebaseerd op globale-lokale aandachtdecompositie, die volledige aandacht ontkoppelt in een lokale aandachtbranch voor hoogwaardige regionale inhoud en een globale aandachtbranch voor algehele semantische consistentie. We stellen verder een ruimtelijk gecomprimeerde globale modelleringsstrategie voor om efficiënt globale afhankelijkheden te leren, en een hiërarchisch kruisvenster lokaal aandachtmechanisme om rekenkosten te verminderen terwijl de informatiestroom tussen verschillende lokale vensters wordt verbeterd. Uitgebreide experimenten tonen aan dat UltraGen voor het eerst voorgetrainde lage-resolutie videomodellen effectief kan opschalen naar 1080P en zelfs 4K-resolutie, waarbij het bestaande state-of-the-art methoden en super-resolutie gebaseerde tweestaps pijplijnen overtreft in zowel kwalitatieve als kwantitatieve evaluaties.
Data quality speelt een cruciale rol bij het verbeteren van supervised fine-tuning (SFT) voor grote taalmodelen (LLMs), en token-level data selectie is naar voren gekomen als een veelbelovende richting vanwege het fijnmazige karakter. Ondanks hun sterke empirische prestaties delen bestaande token-level selectiemethoden twee belangrijke beperkingen: (1) ze vereisen het trainen of toegang hebben tot een extra referentiemodel, en (2) ze vertrouwen uitsluitend op verliesinformatie voor tokenselectie, wat semantisch belangrijke tokens die niet worden bevoordeeld door verliesgebaseerde metrieken niet goed kan behouden. Om deze uitdagingen aan te pakken, stellen we ssToken voor, een Self-modulated and Semantic-aware Token Selection benadering. ssToken maakt gebruik van gemakkelijk toegankelijke historische modellen om het per-token verliesverschil met het huidige model te berekenen, wat dient als een zelf-gemoduleerd signaal dat het model in staat stelt om adaptief tokens te selecteren langs zijn optimalisatietraject, in plaats van te vertrouwen op excessief verlies van een offline getraind referentiemodel zoals in eerdere werken. We introduceren verder een semantisch bewuste, aandacht-gebaseerde tokenbelangschattingsmetriek, orthogonaal aan verliesgebaseerde selectie en biedt aanvullende semantische informatie voor effectievere filtering. Uitgebreide experimenten over verschillende modelfamilies en schalen tonen aan dat zowel zelf-gemoduleerde selectie als semantisch bewuste selectie alleen al beter presteren dan fine-tuning met volledige data, terwijl hun integratie—ssToken—synergistische winsten bereikt en verder uitsteekt boven eerdere token-level selectiemethoden, wat prestatieverbeteringen oplevert terwijl de trainings efficiëntie behouden blijft.
De originele CLIP-tekstencoder is beperkt door een maximale invoerlengte van 77 tokens, wat zijn vermogen belemmert om lange teksten effectief te verwerken en fijnmazig semantisch begrip te realiseren. Bovendien ondersteunt de CLIP-tekstencoder geen meertalige invoer. Al deze beperkingen verminderen aanzienlijk de toepasbaarheid ervan over een breder scala aan taken. Recente studies hebben geprobeerd de CLIP-tekstencoder te vervangen door een LLM-gebaseerde embedder om het vermogen te verbeteren in het verwerken van lange teksten, meertalig begrip en fijnmazige semantische interpretatie. Echter, omdat de representatieruimtes van LLM's en de visueel-taalkundige ruimte van CLIP onafhankelijk zijn gepretraind zonder uitlijningsprioriteiten, kan directe uitlijning met behulp van contrastief leren de intrinsieke visueel-taalkundige uitlijning in de CLIP-beeldencoder verstoren, wat leidt tot een onderbenutting van de kennis die tijdens het pretrainen is opgedaan. Om deze uitdaging aan te pakken, stellen we ProCLIP voor, een curriculum learning-gebaseerd progressief visueel-taalkundig uitlijningsframework om de CLIP-beeldencoder effectief uit te lijnen met een LLM-gebaseerde embedder. Specifiek destilleert ProCLIP eerst kennis van de CLIP-tekstencoder naar de LLM-gebaseerde embedder om gebruik te maken van de rijke gepretrainde kennis van CLIP terwijl een initiële uitlijning wordt gevestigd tussen de LLM-embedder en de CLIP-beeldencoder. Vervolgens lijn ProCLIP de CLIP-beeldencoder verder uit met de LLM-gebaseerde embedder door middel van beeld-tekst contrastief tunen, waarbij zelfdistillatieregularisatie wordt gebruikt om overfitting te voorkomen. Om een effectievere uitlijning te bereiken, worden instance semantische uitlijningsverlies en embeddingstructuur uitlijningsverlies gebruikt tijdens representatieovererving en contrastief tunen. De code is beschikbaar op https://github.com/VisionXLab/ProCLIP.
De afgelopen jaren hebben grootschalige generatieve modellen voor visuele inhoud (bijvoorbeeld afbeeldingen, video's en 3D-objecten/scènes) opmerkelijke vooruitgang geboekt. Het trainen van grootschalige videogeneratiemodellen blijft echter bijzonder uitdagend en resource-intensief vanwege de cross-modale tekst-video-uitlijning, de lange sequenties die betrokken zijn en de complexe spatiotemporele afhankelijkheden. Om deze uitdagingen aan te pakken, presenteren we een trainingsraamwerk dat vier pijlers optimaliseert: (i) gegevensverwerking, (ii) modelarchitectuur, (iii) trainingsstrategie en (iv) infrastructuur voor grootschalige videogeneratiemodellen. Deze optimalisaties leverden aanzienlijke efficiëntiewinsten en prestatieverbeteringen op in alle fasen van gegevensvoorbewerking, videocompressie, parameterschaling, curriculumgebaseerde voorpretraining en uitlijning-gerichte napretraining. Ons resulterende model, MUG-V 10B, evenaart recente state-of-the-art videogeneratoren in het algemeen en overtreft toonaangevende open-source-baselines in menselijke evaluaties voor e-commerce-gerichte videogeneratietaken. Belangrijker is dat we de volledige stack open-source maken, inclusief modelgewichten, grootschalige trainingscode gebaseerd op Megatron-Core en inferentiepijplijnen voor videogeneratie en -verbetering. Voor zover wij weten, is dit de eerste openbare release van grootschalige videogeneratietrainingscode die gebruikmaakt van Megatron-Core om hoge trainingsefficiëntie en bijna-lineaire multi-node-schaling te bereiken. Details zijn beschikbaar op https://github.com/Shopee-MUG/MUG-V{onze webpagina}.
Redeneren over dynamische ruimtelijke relaties is essentieel, aangezien zowel waarnemers als objecten vaak gelijktijdig bewegen. Hoewel vision-language modellen (VLMs) en visuele expertise-modellen uitblinken in 2D-taken en statische scenario's, blijft hun vermogen om dynamische 3D-scenario's volledig te begrijpen beperkt. Wij introduceren Dynamische Ruimtelijke Intelligentie en stellen DSI-Bench voor, een benchmark met bijna 1.000 dynamische video's en meer dan 1.700 handmatig geannoteerde vragen die negen ontkoppelde bewegingspatronen van waarnemers en objecten bestrijken. Ruimtelijk en temporeel symmetrische ontwerpen verminderen vooroordelen en maken een systematische evaluatie mogelijk van de redeneervaardigheden van modellen over eigen beweging en objectbeweging. Onze evaluatie van 14 VLMs en expert-modellen onthult belangrijke beperkingen: modellen verwarren vaak waarnemer- en objectbeweging, vertonen semantische vooroordelen en slagen er niet in om relatieve relaties in dynamische scenario's nauwkeurig af te leiden. Onze DSI-Bench biedt waardevolle inzichten en bevindingen voor de toekomstige ontwikkeling van algemene en expert-modellen met dynamische ruimtelijke intelligentie.
Hoewel Large Language Model (LLM)-agenten veelbelovend zijn in geautomatiseerd handelen, kampen ze nog steeds met kritieke beperkingen. Prominente multi-agent frameworks lijden vaak aan inefficiëntie, produceren inconsistente signalen en missen de end-to-end optimalisatie die nodig is om een coherente strategie te leren uit marktfeedback. Om dit aan te pakken, introduceren we AlphaQuanter, een single-agent framework dat reinforcement learning (RL) gebruikt om een dynamisch beleid te leren over een transparante, tool-augmented beslissingsworkflow. Dit stelt een enkele agent in staat om tools autonoom te orkestreren en proactief informatie op te vragen wanneer nodig, wat resulteert in een transparant en controleerbaar redeneerproces. Uitgebreide experimenten tonen aan dat AlphaQuanter state-of-the-art prestaties behaalt op belangrijke financiële metrieken. Bovendien onthult zijn interpreteerbare redenering geavanceerde strategieën, wat nieuwe en waardevolle inzichten biedt voor menselijke handelaren. Onze code voor data-acquisitie en agenttraining is publiekelijk beschikbaar op: https://github.com/AlphaQuanter/AlphaQuanter
In dit werk tonen we aan dat het mogelijk is om aanzienlijke hoeveelheden alignment-trainingsdata te extraheren uit een nageoefend model -- nuttig om het model te sturen om bepaalde capaciteiten te verbeteren, zoals redeneren over lange contexten, veiligheid, instructieopvolging en wiskunde. Terwijl het merendeel van gerelateerd onderzoek over memorisatie zich heeft gericht op het meten van het succes van trainingsdata-extractie via string matching, stellen wij dat embedding-modellen beter geschikt zijn voor onze specifieke doelen. Afstanden gemeten via een hoogwaardig embedding-model kunnen semantische overeenkomsten tussen strings identificeren die een andere metriek, zoals bewerkingsafstand, moeilijk kan vastleggen. In feite zou in ons onderzoek benaderende string matching (met een conservatieve schatting van 10 keer) de hoeveelheid data die kan worden geëxtraheerd ernstig hebben onderschat vanwege triviale artefacten die de metriek verlagen. Interessant genoeg ontdekken we dat modellen trainingsdata die is gebruikt in natreiningsfasen zoals SFT of RL makkelijk reproduceren. We laten zien dat deze data vervolgens kan worden gebruikt om een basismodel te trainen, waarbij een betekenisvol deel van de oorspronkelijke prestaties wordt hersteld. Wij geloven dat ons werk een mogelijk over het hoofd gezien risico blootlegt met betrekking tot het extraheren van alignment-data. Tot slot opent ons werk een interessante discussie over de downstream-effecten van distillatiepraktijken: aangezien modellen aspecten van hun trainingsset lijken te reproduceren, kan distillatie daarom worden gezien als een indirecte training op de oorspronkelijke dataset van het model.
Video reasoning met behulp van Large Multimodal Models (LMMs) is afhankelijk van kostbare reinforcement learning (RL) en uitgebreide chain-of-thought, wat resulteert in aanzienlijke rekenkundige overhead tijdens zowel training als inferentie. Bovendien zijn de mechanismen die het denkproces in deze redeneermodellen sturen zeer beperkt. In dit artikel ontdekken we, door de entropie van de modeloutput als signaal te gebruiken, dat hoogwaardige modellen een reeks micro-exploraties en micro-exploitaties doorlopen die het redeneerproces gefundeerd houden (d.w.z., overmatige willekeur vermijden terwijl het model een antwoord verkent of overdenkt). We observeren verder dat, zodra dit "denkproces" is afgerond, nauwkeurigere modellen een betere convergentie vertonen door de entropie aanzienlijk te verminderen via een finale exploitatie-fase (d.w.z., een zekerder convergentie naar een oplossingspad). We gebruiken deze nieuwe, theoretisch onderbouwde inzichten vervolgens om het gedrag van het model direct tijdens inferentie af te stemmen, zonder gebruik te maken van RL of supervised fine-tuning. Specifiek past onze voorgestelde aanpak, genaamd V-Reason (Video-Reason), tijdens inferentie de waarden-cache van de LMM aan via een paar optimalisatiestappen op een kleine, trainbare controller met behulp van een entropie-gebaseerd doel, d.w.z., er is geen supervisie van een dataset of RL nodig. Deze afstemming verbetert het micro-exploratie- en exploitatiegedrag van het model tijdens inferentie. Onze experimenten tonen aan dat onze voorgestelde methode significante verbeteringen behaalt ten opzichte van de basisinstructie-afgestemde modellen over verschillende video-redeneerdatasets, waarbij de kloof met RL-getrainde modellen wordt verkleind tot binnen 0,6% gemiddelde nauwkeurigheid zonder enige training, terwijl enorme efficiëntievoordelen worden geboden: output-tokens worden met 58,6% verminderd vergeleken met het RL-model.
Medische diagnostische toepassingen vereisen modellen die multimodale medische invoer (afbeeldingen, patiëntgeschiedenissen, laboratoriumresultaten) kunnen verwerken en diverse uitvoer kunnen genereren, waaronder zowel tekstuele rapporten als visuele inhoud (annotaties, segmentatiemaskers en afbeeldingen). Ondanks deze behoefte verstoren bestaande medische AI-systemen dit geïntegreerde proces: modellen voor medische beeldinterpretatie begrijpen afbeeldingen maar kunnen geen visuele uitvoer genereren, terwijl modellen voor medische beeldgeneratie afbeeldingen synthetiseren maar geen tekstuele uitleg kunnen bieden. Dit leidt tot hiaten in gegevensrepresentatie, feature-integratie en multimodale mogelijkheden op takeniveau. Daarom stellen we een multiniveau raamwerk voor dat inspiratie put uit diagnostische workflows via het Observatie-Kennis-Analyse (OKA) paradigma. Specifiek construeren we op het observatieniveau UniMed-5M, een dataset met meer dan 5,6 miljoen monsters die diverse unimodale gegevens herformatteren naar multimodale paren voor fundamentele observatie. Op het kennissniveau introduceren we Progressief Curriculum Leren dat systematisch medische multimodale kennis introduceert. Op het analyseniveau introduceren we UniMedVL, het eerste medische geïntegreerde multimodale model voor de gelijktijdige analyse van beeldinterpretatie- en generatietaken binnen een enkele architectuur. UniMedVL behaalt superieure prestaties op vijf benchmarks voor medische beeldinterpretatie, terwijl het gespecialiseerde modellen evenaart in generatiekwaliteit over acht medische beeldvormingsmodaliteiten. Cruciaal is dat onze geïntegreerde architectuur bidirectionele kennisdeling mogelijk maakt: generatietaken verbeteren visuele begripsfeatures, wat aantoont dat het integreren van traditioneel gescheiden mogelijkheden binnen een enkel medisch raamwerk verbeteringen mogelijk maakt over diverse medische visie-taaltaken. De code is beschikbaar op https://github.com/uni-medical/UniMedVL.
We introduceren Mono4DGS-HDR, het eerste systeem voor het reconstrueren van renderbare 4D high dynamic range (HDR)-scènes uit ongeposeerde monoscopische low dynamic range (LDR)-video's die zijn vastgelegd met afwisselende belichtingstijden. Om een dergelijk uitdagend probleem aan te pakken, presenteren we een geïntegreerd raamwerk met een tweestaps optimalisatiebenadering gebaseerd op Gaussian Splatting. De eerste fase leert een HDR Gaussiaanse representatie van de video in orthografische cameracoördinatenruimte, waardoor cameraposes overbodig worden en een robuuste initiële HDR-videoreconstructie mogelijk wordt. De tweede fase transformeert de video-Gaussians naar de wereldruimte en verfijnt gezamenlijk de wereld-Gaussians met cameraposes. Bovendien stellen we een strategie voor tijdelijke luminantie-regularisatie voor om de temporele consistentie van het HDR-uiterlijk te verbeteren. Aangezien onze taak nog niet eerder is bestudeerd, hebben we een nieuwe evaluatiebenchmark geconstrueerd met behulp van openbaar beschikbare datasets voor HDR-videoreconstructie. Uitgebreide experimenten tonen aan dat Mono4DGS-HDR aanzienlijk beter presteert dan alternatieve oplossingen die zijn aangepast vanuit state-of-the-art methoden, zowel in renderkwaliteit als snelheid.
Grote Taalmodellen (LLMs) zijn krachtige redeneerders in natuurlijke taal, maar hun acties zijn doorgaans beperkt tot het uitvoeren van vocabulaire tokens. Hierdoor moeten interacties met externe omgevingen — zoals symbolische operatoren of simulatoren — worden uitgedrukt via tekst in vooraf gedefinieerde formaten, worden geparsed en worden doorgestuurd naar externe interfaces. Dit belast het taalgebruik van het model met zowel redeneer- als controle taken en vereist een handmatig gemaakte parser, extern aan het LLM. Om dit aan te pakken, ontkoppelen we omgevingsinteracties van taal door ze te internaliseren in een Uitgebreide Actieruimte (ExpA), buiten het vocabulaire. Het model begint te redeneren in de standaard taalomgeving, maar kan op elk moment routeringsacties activeren en overschakelen naar een externe omgeving. Vanaf daar kan het model alleen omgevingsspecifieke acties aanroepen, feedback ontvangen van de omgeving en mogelijk terugrouteren naar taal als resultaat. Om effectieve verkenning van de uitgebreide actieruimte en nieuwe omgevingen te bevorderen, introduceren we ExpA Reinforcement Learning (EARL) met contrafeitelijke beleidsoptimalisatie. Bij taken die multi-turn interacties en contingent plannen vereisen, presteert EARL beter dan sterke baseline-modellen met vocabulaire-beperkte acties. Het presteert robuust in calculator-gebaseerd multi-task leren en bereikt in het gedeeltelijk waargenomen sorteervraagstuk een perfecte Sort-4 nauwkeurigheid terwijl het zelf een efficiënt algoritme ontdekt dat competitief is met klassieke ontwerpen.
Code agents worden steeds vaker vertrouwd om zelfstandig bugs te repareren op platforms zoals GitHub, maar hun beveiligingsevaluatie richt zich bijna uitsluitend op functionele correctheid. In dit artikel onthullen we een nieuw type bedreiging voor code agents in de praktijk: Functioneel Correct maar Kwetsbare (FCV) patches, die alle testgevallen doorstaan maar kwetsbare code bevatten. Met onze voorgestelde FCV-Aanval, die opzettelijk kan worden gecreëerd door kwaadwillende aanvallers of onbewust kan worden geïntroduceerd door welwillende ontwikkelaars, tonen we aan dat state-of-the-art LLM's (bijv. ChatGPT en Claude) en agent-scaffolds (bijv. SWE-agent en OpenHands) allemaal kwetsbaar zijn voor deze FCV-bedreiging; over 12 agent-modelcombinaties op SWE-Bench vereist de aanval slechts black-box toegang en een enkele query naar de code agent om de aanval uit te voeren. Voor CWE-538 (informatieblootstellingskwetsbaarheid) behaalt de FCV-Aanval bijvoorbeeld een aanvalssuccespercentage van 40,7% op GPT-5 Mini + OpenHands. Onze resultaten onthullen een belangrijke beveiligingsbedreiging die over het hoofd wordt gezien door huidige evaluatieparadigma's en benadrukken de noodzaak van de ontwikkeling van beveiligingsbewuste verdedigingsmechanismen voor code agents.
Grote Multimodale Modellen (LMMs) worden steeds vaker toegepast in wetenschappelijk onderzoek, maar het blijft onduidelijk of ze betrouwbaar de multimodale complexiteit van papers kunnen begrijpen en erover kunnen redeneren. Een centrale uitdaging ligt in het detecteren en oplossen van inconsistenties tussen tekst, figuren, tabellen en vergelijkingen, problemen die vaak subtiel, domeinspecifiek zijn en uiteindelijk de duidelijkheid, reproduceerbaarheid en betrouwbaarheid ondermijnen. Bestaande benchmarks negeren dit probleem, door ofwel afzonderlijke modaliteiten te isoleren of te vertrouwen op synthetische fouten die de complexiteit van de echte wereld niet vatten. We introduceren PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), de eerste benchmark die gebaseerd is op echte inconsistenties die door reviewers in wetenschappelijke papers zijn gemeld. Via een meerfasenpijplijn van review-mining, LLM-ondersteunde filtering en menselijke verificatie, hebben we 262 inconsistenties uit 242 papers samengesteld. Op basis van deze set hebben we drie taken ontworpen, namelijk inconsistentie-identificatie, herstel en paar-matching, die het vermogen van een model beoordelen om inconsistenties tussen verschillende modaliteiten te detecteren, te corrigeren en erover te redeneren. Verder introduceren we, om het beruchte probleem van keuze-only shortcuts in meerkeuzeevaluatie aan te pakken, waarbij modellen antwoordpatronen uitbuiten zonder de vraag echt te begrijpen, gestructureerde JSON-gebaseerde antwoordrepresentaties die linguïstische vooroordelen minimaliseren door de afhankelijkheid van oppervlakkige stilistische aanwijzingen te verminderen. We benchmarken 21 toonaangevende LMMs, waaronder grote open-weight modellen (GLM-4.5V 106B, InternVL3 78B) en propriëtaire modellen (Gemini 2.5 Pro, GPT-5 met hoog redeneervermogen). De resultaten tonen opvallend lage prestaties (26,1-54,2%), wat de uitdaging van multimodaal wetenschappelijk redeneren benadrukt en vooruitgang richting betrouwbare wetenschappelijke assistenten motiveert.
De basis van reproduceerbare wetenschap ligt in protocollen die precies, logisch geordend en uitvoerbaar zijn. De autonome generatie van deze protocollen via natuurlijke taalvragen zou de efficiëntie van het reproductieproces aanzienlijk kunnen verbeteren. Huidige toonaangevende grote taalmodellen (LLMs) genereren echter vaak onvolledige of inconsistente protocollen, wat hun bruikbaarheid beperkt. Om deze beperking aan te pakken, introduceren we eerst SciRecipe, een grootschalige dataset van meer dan 12K gestructureerde protocollen die 27 biologische subvelden beslaan en zowel begrips- als probleemoplossende taken omvatten. Om de protocollengeneratie verder te verbeteren, stellen we het "Sketch-and-Fill"-paradigma voor, dat analyse, structurering en expressie scheidt om ervoor te zorgen dat elke stap expliciet en verifieerbaar is. Hieraan aanvullend evalueert het gestructureerde componentgebaseerde beloningsmechanisme stapgranulariteit, actievolgorde en semantische trouw, waardoor modeloptimalisatie wordt afgestemd op experimentele betrouwbaarheid. Op basis van deze componenten ontwikkelen we Thoth, getraind via een gefaseerd Knowledge-to-Action-proces dat voortschrijdt van kennisverwerving naar operationeel redeneren en uiteindelijk naar robuuste, uitvoerbare protocollengeneratie. Op meerdere benchmarks overtreft Thoth zowel propriëtaire als open-source LLMs, met aanzienlijke verbeteringen in stapalignering, logische volgorde en semantische nauwkeurigheid. Onze aanleg opent de weg naar betrouwbare wetenschappelijke assistenten die kennis verbinden met experimentele uitvoering. Alle data, code en modellen zullen openbaar worden vrijgegeven.
Beeldkwaliteit is een cruciale factor bij het leveren van visueel aantrekkelijke inhoud op webplatforms. Echter, beelden ondergaan vaak degradatie als gevolg van lossy bewerkingen die door online sociale netwerken (OSNs) worden toegepast, wat een negatieve invloed heeft op de gebruikerservaring. Beeldherstel is het proces van het herstellen van een schoon, hoogwaardig beeld vanuit een gegeven gedegradeerde input. Recentelijk hebben multi-task (all-in-one) beeldherstelmodellen aanzienlijke aandacht gekregen vanwege hun vermogen om verschillende soorten beelddegradaties gelijktijdig aan te pakken. Deze modellen hebben echter vaak een buitensporig hoog aantal trainbare parameters, waardoor ze rekenkundig inefficiënt zijn. In dit artikel stellen we een strategie voor om multi-task beeldherstelmodellen te comprimeren. We streven ernaar om zeer sparse subnetwerken te ontdekken binnen overgeparameteriseerde diepe modellen die de prestaties van hun dichte tegenhangers kunnen evenaren of zelfs overtreffen. Het voorgestelde model, genaamd MIR-L, maakt gebruik van een iteratieve pruningstrategie die gewichten met een lage magnitude over meerdere rondes verwijdert, terwijl de overgebleven gewichten worden gereset naar hun oorspronkelijke initialisatie. Dit iteratieve proces is belangrijk voor de optimalisatie van het multi-task beeldherstelmodel, waarbij effectief "winning tickets" worden ontdekt die de state-of-the-art prestaties behouden of overtreffen bij hoge sparsity-niveaus. Experimentele evaluatie op benchmarkdatasets voor de taken deraining, dehazing en denoising toont aan dat MIR-L slechts 10% van de trainbare parameters behoudt, terwijl het een hoge beeldherstelprestatie handhaaft. Onze code, datasets en vooraf getrainde modellen zijn publiekelijk beschikbaar gesteld op https://github.com/Thomkat/MIR-L.
Een centrale uitdaging bij inferentie met grote taalmodellen is de afweging tussen generatiesnelheid en uitvoerkwaliteit. Autoregressieve modellen produceren tekst van hoge kwaliteit, maar genereren tokens sequentieel. Diffusiemodellen kunnen tokens parallel genereren, maar hebben vaak veel iteraties nodig om dezelfde kwaliteit te bereiken. Wij stellen geplande diffusie voor, een hybride methode die de sterke punten van beide paradigma's combineert. Geplande diffusie werkt in twee fasen: eerst maakt het model een kort autoregressief plan dat de uitvoer opsplitst in kleinere, onafhankelijke segmenten. Vervolgens genereert het model deze segmenten gelijktijdig met behulp van diffusie. Deze aanpak breidt de Pareto-grens voor snelheid en kwaliteit uit en biedt een praktische weg naar snellere, hoogwaardige tekstgeneratie. Op AlpacaEval, een reeks van 805 instructievolgende prompts, bereikt geplande diffusie een Pareto-optimale afweging tussen kwaliteit en latentie, met een versnelling van 1,27x tot 1,81x ten opzichte van autoregressieve generatie, met slechts een daling van 0,87% tot 5,4% in winrate, respectievelijk. Onze gevoeligheidsanalyse toont aan dat het planningsmechanisme van geplande diffusie minimaal en betrouwbaar is, en dat eenvoudige runtime-instellingen bestaan om flexibele controle over de afweging tussen kwaliteit en latentie te bieden.
Large Language Models (LLMs) vertonen een sterke maar oppervlakkige afstemming: ze weigeren schadelijke vragen direct wanneer een weigering aan het begin van een assistent-interactie wordt verwacht, maar deze bescherming valt uiteen zodra een schadelijke voortzetting plaatsvindt (hetzij via adversariële aanvallen of via schadelijke assistent-prefill-aanvallen). Dit roept een fundamentele vraag op: Kan de inherente oppervlakkige afstemming in LLMs worden benut om veiligheid te garanderen bij willekeurige generatiedieptes? Om dit doel te bereiken, stellen we Any-Depth Alignment (ADA) voor, een effectieve verdediging tijdens de inferentie met verwaarloosbare overhead. ADA is gebaseerd op onze observatie dat afstemming geconcentreerd is in de assistent-header-tokens door herhaald gebruik in oppervlakkige-weigeringstraining, en dat deze tokens sterke afstemmingsprioriteiten van het model bezitten. Door deze tokens halverwege opnieuw in te voeren, dwingt ADA het model om schadelijkheid opnieuw te beoordelen en weigeringen te herstellen op elk punt in de generatie. Over diverse open-source modelfamilies (Llama, Gemma, Mistral, Qwen, DeepSeek en gpt-oss) behaalt ADA robuuste veiligheidsprestaties zonder wijzigingen aan de parameters van het basismodel. Het garandeert een weigeringspercentage van bijna 100% tegen uitdagende adversariële prefill-aanvallen variërend van tientallen tot duizenden tokens. Bovendien verlaagt ADA het gemiddelde slagingspercentage van prominente adversariële prompt-aanvallen (zoals GCG, AutoDAN, PAIR en TAP) tot onder de 3%. Dit alles wordt bereikt terwijl de bruikbaarheid bij goedaardige taken behouden blijft met minimale overmatige weigering. ADA behoudt deze veerkracht zelfs nadat het basismodel aanvullende instructieafstemming ondergaat (goedaardig of adversariëel).
Instructie-getrainde grote taalmodellen (IT-LLMs) vertonen sterk zero-shot redeneervermogen, maar hun vermogen om eenvoudige, zelfstandige instructies uit te voeren blijft onderbelicht, ondanks dat dit fundamenteel is voor het volgen van complexe instructies. We evalueren 20 IT-LLMs op aangepaste MMLU- en MMLU-Pro benchmarks door systematisch de vorm van optielabels (alfabetisch, numeriek, Romeins) te variëren terwijl hun betekenis identiek blijft onder vier paradigma’s, namelijk: (1) Met expliciete instructies veroorzaken labelwijzigingen grote prestatieverschuivingen (bijv. -30,45% voor Romeinse versus numerieke labels), wat een instructie-formaatbias blootlegt. (2) Zonder instructies daalt de prestatie verder (tot -10,84%) en neemt de gevoeligheid voor labels toe, wat de rol van expliciete begeleiding benadrukt. (3) Wanneer de inhoud van de opties wordt verwijderd, halen de modellen de random-choice basislijnen niet, behalve bij numerieke labels, wat wijst op zwakke naleving van atomische richtlijnen. (4) Three-shot voorbeelden leveren geen significante verbeteringen in robuustheid of trouw op, en generatieanalyses tonen aanhoudende labelfouten, vooral voor niet-numerieke formaten. Over verschillende modelgroottes heen behalen grotere LLMs een hogere nauwkeurigheid, maar blijven inconsistent in het volgen van instructies. Deze resultaten leggen de tekortkomingen van de huidige instructie-afstemmingsparadigma’s bloot en benadrukken de noodzaak van evaluatiemethoden en trainingsstrategieën die expliciet gericht zijn op het volgen van atomische instructies.
Wat als kunstmatige agenten niet alleen konden communiceren, maar ook evolueren, zich aanpassen en hun werelden op manieren hervormen die we niet volledig kunnen voorspellen? Met llm die nu multi-agent systemen en sociale simulaties aandrijven, zien we nieuwe mogelijkheden voor het modelleren van open, voortdurend veranderende omgevingen. Toch blijven de meeste huidige simulaties beperkt binnen statische sandboxen, gekenmerkt door vooraf gedefinieerde taken, beperkte dynamiek en rigide evaluatiecriteria. Deze beperkingen voorkomen dat ze de complexiteit van echte samenlevingen kunnen vastleggen. In dit artikel betogen we dat statische, taakspecifieke benchmarks fundamenteel ontoereikend zijn en heroverwogen moeten worden. We bespreken kritisch opkomende architecturen die llm combineren met multi-agent dynamiek, benadrukken belangrijke uitdagingen zoals het balanceren van stabiliteit en diversiteit, het evalueren van onverwachte gedragingen en het opschalen naar grotere complexiteit, en introduceren een nieuwe taxonomie voor dit snel evoluerende veld. Tot slot presenteren we een onderzoeksagenda gericht op openheid, continue co-evolutie en de ontwikkeling van veerkrachtige, sociaal afgestemde AI-ecosystemen. We roepen de gemeenschap op om verder te gaan dan statische paradigma's en bij te dragen aan de vorming van de volgende generatie adaptieve, sociaal bewuste multi-agent simulaties.
We bestuderen kortetermijnvoorspellingen van wekelijkse aantallen terroristische incidenten met behulp van de Global Terrorism Database (GTD, 1970–2016). We ontwikkelen een reproduceerbare pijplijn met vaste tijdsgebonden splitsingen en evalueren een Bidirectionele LSTM (BiLSTM) tegen sterke klassieke referentiemodellen (seizoensnaïef, lineair/ARIMA) en een diepe LSTM-Attention-basislijn. Op de afgezonderde testset behaalt de BiLSTM een RMSE van 6,38, wat beter is dan LSTM-Attention (9,19; +30,6%) en een lineaire lag-regressie-basislijn (+35,4% RMSE-verbetering), met parallelle verbeteringen in MAE en MAPE. Ablaties waarbij temporeel geheugen, lengte van de trainingsgeschiedenis, ruimtelijke granulariteit, lookback-grootte en featuregroepen worden gevarieerd, tonen aan dat modellen die getraind zijn op lange historische gegevens het beste generaliseren; een gematigde lookback (20–30 weken) biedt sterke context; en bidirectionele codering is cruciaal voor het vastleggen van zowel opbouw- als nasleep-patronen binnen het venster. Analyse van featuregroepen geeft aan dat kortetermijnstructuur (vertraagde aantallen en rollende statistieken) het meeste bijdraagt, waarbij geografische en slachtoffergerelateerde kenmerken aanvullende verbeteringen bieden. We publiceren code, configuraties en compacte resultatentabellen en verstrekken een data/ethiekverklaring waarin GTD-licenties en uitsluitend onderzoeksgebruik worden gedocumenteerd. Over het algemeen biedt de studie een transparante, basislijn-overstijgende referentie voor het voorspellen van GTD-incidenten.
Betrouwbare en verifieerbare data is een cruciale drijfveer geworden voor het vergroten van de capaciteiten van moderne taalmodelen, waardoor stabiele reinforcement learning met verifieerbare beloningen en effectieve distillatie mogelijk wordt, wat competentie overdraagt over wiskunde, programmeren en agentgerichte taken. Het construeren van generaliseerbare synthetische verifieerbare data blijft echter moeilijk vanwege hallucinatiegevoelige generatie en zwakke of triviale verificatie-artefacten die niet in staat zijn sterke van zwakke oplossingen te onderscheiden. Bestaande benaderingen vertrouwen vaak op taakspecifieke heuristieken of post-hoc filters die niet overdraagbaar zijn tussen domeinen en ontbreken een principiële, universele evaluator van verifieerbaarheid. In dit werk introduceren we een evolutionair, taakagnostisch, strategiegestuurd, uitvoerbaar controleerbaar data-syntheseframework dat, vanuit minimale seed-supervisie, gezamenlijk problemen, diverse kandidaatoplossingen en verificatie-artefacten synthetiseert, en iteratief strategieën ontdekt via een consistentiegebaseerde evaluator die overeenstemming afdwingt tussen door mensen geannoteerde en door strategie geïnduceerde controles. Deze pijplijn transformeert filtering in principiële synthese: het assembleert betrouwbaar samenhangende, verifieerbare trainingsinstanties en generaliseert zonder domeinspecifieke regels. Onze experimenten demonstreren de effectiviteit van de voorgestelde aanpak onder zowel RLVR- als modeldistillatie-trainingsparadigma's. De resultaten laten zien dat trainen met onze gesynthetiseerde data aanzienlijke verbeteringen oplevert op zowel de LiveCodeBench- als AgentBench-OS-taken, wat de robuuste generalisatie van ons framework benadrukt.
Tool-augmented grote taalmodellen (LLMs) ontwikkelen zich tot diepe onderzoeksagenten, systemen die complexe vragen ontleden, externe informatie ophalen en onderbouwde antwoorden samenstellen. Toch worden huidige agenten nog beperkt door oppervlakkige informatieverzameling, zwakke afstemmingsmetrieken en broos gebruik van tools. Wij introduceren PokeeResearch-7B, een 7B-parameter diepe onderzoeksagent die is gebouwd onder een uniform reinforcement learning-raamwerk voor robuustheid, afstemming en schaalbaarheid. PokeeResearch-7B wordt getraind door een annotatievrij Reinforcement Learning from AI Feedback (RLAIF)-raamwerk om beleidsoptimalisatie te realiseren met behulp van LLM-gebaseerde beloningssignalen die feitelijke nauwkeurigheid, citatietrouw en instructievolging vastleggen. Een keten-van-gedachten-gestuurde multi-call redeneerstructuur versterkt de robuustheid verder door zelfverificatie en adaptief herstel van toolfouten. Onder 10 populaire diepe onderzoeksbenchmarks behaalt PokeeResearch-7B state-of-the-art prestaties onder 7B-schaal diepe onderzoeksagenten. Dit benadrukt dat zorgvuldige reinforcement learning en redeneerontwerp efficiënte, veerkrachtige en onderzoekswaardige AI-agenten kunnen voortbrengen. Het model en de inferentiecode zijn open-source vrijgegeven onder MIT-licentie op https://github.com/Pokee-AI/PokeeResearchOSS.