Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Zelf-evolutiemethoden verbeteren codegeneratie via iteratieve "genereren-verifiëren-verfijnen" cycli, maar bestaande aanpakken lijden onder lage verkenningsefficiëntie, waardoor ze er niet in slagen oplossingen met superieure complexiteit te ontdekken binnen beperkte budgetten. Deze inefficiëntie ontstaat doordat initialisatiebias de evolutie vasthoudt in gebieden met suboptimale oplossingen, door ongecontroleerde stochastische operaties zonder feedbacksturing, en door onvoldoende benutting van ervaring tussen taken. Om deze knelpunten aan te pakken, stellen we Gecontroleerde Zelf-Evolutie (CSE) voor, die uit drie kernelementen bestaat. Gediversifieerde Planinitialisatie genereert structureel verschillende algoritmische strategieën voor brede dekking van de oplossingsruimte. Genetische Evolutie vervangt stochastische operaties door feedback-gestuurde mechanismen, waardoor gerichte mutatie en compositionele crossover mogelijk worden. Hiërarchisch Evolutiegeheugen legt zowel succesvolle als mislukte ervaringen vast op inter-taak en intra-taak niveau. Experimenten op EffiBench-X tonen aan dat CSE consequent alle baseline-methoden overtreft across verschillende LLM-backbones. Bovendien bereikt CSE hogere efficiëntie vanaf de vroege generaties en handhaaft het continue verbetering gedurende de hele evolutie. Onze code is openbaar beschikbaar op https://github.com/QuantaAlpha/EvoControl.
Diepgaande onderzoekssystemen worden veelvuldig ingezet voor meerstaps webonderzoek, analyse en kruisbron-synthese, maar de evaluatie ervan blijft een uitdaging. Bestaande benchmarks vereisen vaak arbeidsintensieve taakconstructie, steunen op statische evaluatiedimensies, of slagen er niet in feiten betrouwbaar te verifiëren wanneer bronverwijzingen ontbreken. Om deze lacunes te overbruggen, introduceren we DeepResearchEval, een geautomatiseerd raamwerk voor de constructie van diepgaande onderzoektaken en agent-gebaseerde evaluatie. Voor taakconstructie stellen we een persona-gestuurd pipeline voor dat realistische, complexe onderzoektaken genereert, verankerd in diverse gebruikersprofielen, waarbij een tweestapsfilter (Taakkwalificatie en Zoeknoodzaak) wordt toegepast om alleen taken te behouden die multi-bron integratie en externe retrieval vereisen. Voor evaluatie presenteren we een agent-gebaseerde pipeline met twee componenten: een Adaptieve Puntgewijze Kwaliteitsevaluatie die dynamisch taakspecifieke evaluatiedimensies, criteria en gewichten afleidt op basis van elke gegenereerde taak, en een Actieve Feitencontrole die autonoom rapportuitspraken extraheert en verifieert via webzoekopdrachten, zelfs wanneer bronvermeldingen ontbreken.
Grote Taalmodellen (LLM) Agents vertonen inherente redeneervermogens door de samenwerking van meerdere tools. Bestaande methoden kampen tijdens agent-inferentie echter vaak met (i) lokaal myopische generatie, vanwege het ontbreken van vooruitkijken (lookahead), en (ii) trajectonstabiliteit, waarbij kleine vroege fouten kunnen escaleren tot uiteenlopende redeneerpaden. Deze problemen maken het moeilijk om globale effectiviteit en computationele efficiëntie in evenwicht te brengen. Om deze twee problemen aan te pakken, stellen we meta-adaptieve exploratie met LLM-agents voor (https://github.com/exoskeletonzj/MAXS), een meta-adaptief redeneerraamwerk gebaseerd op LLM-agents dat tooluitvoering en redeneerplanning flexibel integreert. MAXS past een lookahead-strategie toe om redeneerpaden enkele stappen vooruit uit te breiden, schat de voordelige waarde (advantage value) van toolgebruik in, en combineert stapconsistentievariantie en trendhellingen tussen stappen om gezamenlijk stabiele, consistente en hoogwaardige redeneerstappen te selecteren. Daarnaast introduceren we een trajectconvergentiemechanisme dat de computationele kosten beheerst door verdere rollouts te stoppen zodra padconsistentie is bereikt, waardoor een balans mogelijk wordt tussen resource-efficiëntie en globale effectiviteit in multi-tool redenering. We voeren uitgebreide empirische studies uit over drie basismodellen (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) en vijf datasets, waaruit blijkt dat MAXS consequent beter presteert dan bestaande methoden, zowel qua prestaties als inferentie-efficiëntie. Verdere analyse bevestigt de effectiviteit van onze lookahead-strategie en toolgebruik.
Wetenschappelijk redeneren berust niet alleen op logische inferentie, maar ook op het activeren van voorkennis en ervaringsstructuren. Het geheugen kan kennis efficiënt hergebruiken en de consistentie en stabiliteit van redeneren verbeteren. Bestaande benchmarks evalueren echter voornamelijk eindantwoorden of stap-voor-stap coherentie, waarbij de geheugengestuurde mechanismen die ten grondslag liggen aan menselijk redeneren over het hoofd worden gezien. Dit proces omvat het activeren van ankers en attractoren, waarna ze worden geïntegreerd in meerstapsinferentie. Om deze leemte aan te pakken, stellen we A^3-Bench~ voor (https://a3-bench.github.io), een benchmark ontworpen om wetenschappelijk redeneren te evalueren via dubbelschalige, geheugengestuurde activering, gebaseerd op Anker- en Attractor-Activering. Ten eerste annoteren we 2.198 wetenschappelijke redeneerproblemen across verschillende domeinen met behulp van het SAPM-proces (Subject, Anchor & Attractor, Problem, and Memory developing). Ten tweede introduceren we een dubbelschalig evaluatieraamwerk voor geheugengebruik dat ankers en attractoren benut, samen met de AAUI-metriek (Anchor–Attractor Utilization Index) om geheugenactiveringspercentages te meten. Tot slot valideren we A^3-Bench via experimenten met diverse basismodellen en paradigma's, en analyseren we hoe geheugenactivering redeneerprestaties beïnvloedt, wat inzichten biedt in geheugengestuurd wetenschappelijk redeneren.
In dit rapport introduceren we DASD-4B-Thinking, een lichtgewicht maar zeer capabel, volledig open-source redeneermodel. Het behaalt state-of-the-art (SOTA) prestaties onder open-source modellen van vergelijkbare omvang op uitdagende benchmarks voor wiskunde, wetenschappelijk redeneren en codegeneratie – en overtreft zelfs verschillende grotere modellen. We beginnen met een kritische herevaluatie van een breed geadopteerd distillatieparadigma in de gemeenschap: Supervised Fine-Tuning (SFT) op door de leraar gegenereerde antwoorden, ook wel sequence-level distillatie genoemd. Hoewel een reeks recente werken die dit schema volgen opmerkelijke efficiëntie en sterke empirische prestaties hebben aangetoond, zijn deze voornamelijk geworteld in het SFT-perspectief. Dientengevolge richten deze benaderingen zich overwegend op het ontwerpen van heuristische regels voor het filteren van SFT-gegevens, terwijl de kernprincipes van distillatie zelf – het in staat stellen van het studentmodel om de volledige outputverdeling van de leraar te leren om diens generalisatievermogen te erven – grotendeels over het hoofd worden gezien. Concreet identificeren we drie kritieke beperkingen in de huidige praktijk: i) Onvoldoende representatie van de sequence-level verdeling van de leraar; ii) Een mismatch tussen de outputverdeling van de leraar en het leervermogen van de student; en iii) Exposure bias die ontstaat door teacher-forced training versus autoregressieve inferentie. Samengevat reflecteren deze tekortkomingen een systemische afwezigheid van expliciete interactie tussen leraar en student gedurende het distillatieproces, waardoor de essentie van distillatie onderbenut blijft. Om deze problemen aan te pakken, stellen we verschillende methodologische innovaties voor die gezamenlijk een verbeterde trainingspipeline voor sequence-level distillatie vormen. Opmerkelijk is dat DASD-4B-Thinking competitieve resultaten behaalt met slechts 448K trainingsvoorbeelden – een orde van grootte minder dan wat door de meeste bestaande open-source inspanningen wordt gebruikt. Om gemeenschapsonderzoek te ondersteunen, maken we onze modellen en de trainingsdataset openbaar beschikbaar.
Vision-Language-Action (VLA)-taken vereisen redeneren over complexe visuele scènes en het uitvoeren van adaptieve acties in dynamische omgevingen. Hoewel recente onderzoeken naar redenerende VLA's aantonen dat expliciete chain-of-thought (CoT) de generalisatie kan verbeteren, lijden ze onder hoge inferentielatentie door lange redeneersporen. Wij stellen Fast-ThinkAct voor, een efficiënt redeneerraamwerk dat compacte maar krachtige planning bereikt door middel van verbaliseerbare latente redenering. Fast-ThinkAct leert efficiënt te redeneren met latente CoT's door distillatie van een teacher-model, aangedreven door een voorkeursgestuurd doel om manipulatietrajecten uit te lijnen, wat zowel linguïstische als visuele planningscapaciteiten overdraagt voor embodied control. Dit maakt reasoning-enhanced policy learning mogelijk die compact redeneren effectief verbindt met actie-uitvoering. Uitgebreide experimenten op diverse embodied manipulatie- en redeneerbenchmarks tonen aan dat Fast-ThinkAct sterke prestaties bereikt met tot 89,3% gereduceerde inferentielatentie ten opzichte van state-of-the-art redenerende VLA's, waarbij effectieve planning over lange horizonnen, few-shot-aanpassing en foutherstel behouden blijven.
Algemene grootschalige visueel-taalkundige modellen (LVLM's) falen vaak in de dermatologie, ondanks hun enorme omvang, door "diffuse aandacht" - het onvermogen om subtiele pathologische laesies te onderscheiden van achtergrondruis. In dit artikel dagen we de aanname uit dat parameterschaling de enige weg is naar medische precisie. We introduceren SkinFlow, een raamwerk dat diagnose behandelt als een optimalisatie van de efficiëntie van visuele informatieoverdracht. Onze aanpak gebruikt een Virtuele-Breedte Dynamische Visie Encoder (DVE) om complexe pathologische variëteiten "uit te vouwen" zonder fysieke parameteruitbreiding, gekoppeld aan een tweefasen Reinforcement Learning-strategie. Deze strategie aligneert sequentieel expliciete medische beschrijvingen (Fase I) en reconstrueert impliciete diagnostische texturen (Fase II) binnen een beperkte semantische ruimte. Verder stellen we een klinisch onderbouwd evaluatieprotocol voor dat diagnostische veiligheid en hiërarchische relevantie prioriteert boven rigide labelmatching. Empirische resultaten zijn overtuigend: ons 7B-model vestigt een nieuwe state-of-the-art op de Fitzpatrick17k-benchmark, met een winst van +12,06% in Top-1 nauwkeurigheid en een stijging van +28,57% in Top-6 nauwkeurigheid ten opzichte van de enorme algemene modellen (zoals Qwen3VL-235B en GPT-5.2). Deze bevindingen tonen aan dat het optimaliseren van geometrische capaciteit en informatiestroom superieure diagnostische redenering oplevert vergeleken met ruwe parameterschaling.
Wij presenteren OpenVoxel, een trainingsvrij algoritme voor het groeperen en voorzien van bijschriften bij sparse voxels, met als doel open-vocabulary 3D-scènebegrip. Uitgaande van het sparse voxel-rasterisatiemodel (SVR) dat verkregen is uit multi-view beelden van een 3D-scène, is onze OpenVoxel in staat zinvolle groepen te produceren die verschillende objecten in de scène beschrijven. Door gebruik te maken van krachtige Vision Language Models (VLM's) en Multi-modale Large Language Models (MLLM's), bouwt onze OpenVoxel succesvol een informatieve scenekaart op door elke groep van een bijschrift te voorzien, wat verdere 3D-scènebegriptaken mogelijk maakt, zoals open-vocabulary segmentatie (OVS) of referring expression segmentation (RES). In tegenstelling tot eerdere methoden is onze methode trainingsvrij en introduceert ze geen embeddings van een CLIP/BERT-tekstencoder. In plaats daarvan gaan we direct over tot tekst-naar-tekst zoekopdrachten met behulp van MLLM's. Door middel van uitgebreide experimenten toont onze methode superieure prestaties aan in vergelijking met recente studies, met name in complexe referring expression segmentation (RES)-taken. De code wordt openbaar gemaakt.
De ontwikkeling van grote taalmmodellen (LLM's) heeft superieure prestaties bereikt in een reeks downstreamtaken, waaronder retrieval-augmented generation (RAG) op basis van LLM's. De kwaliteit van gegenereerde inhoud is sterk afhankelijk van de bruikbaarheid van de opgehaalde informatie en de capaciteit van de interne informatieverwerkingsmechanismen van LLM's om deze te integreren in de antwoordgeneratie. Over het algemeen wordt aangenomen dat de opgehaalde informatie relevant is voor de vraag. Echter, de opgehaalde informatie kan een variabele mate van relevantie en bruikbaarheid hebben, afhankelijk van de vraag en de documentencollectie. Het is belangrijk om de relevantie van de opgehaalde informatie mee te nemen in de antwoordgeneratie. In dit artikel stellen we OpenDecoder voor, een nieuwe aanpak die expliciete evaluatie van de opgehaalde informatie benut als kwaliteitsindicator-functies voor generatie. Wij streven ernaar een RAG-model te bouwen dat robuuster is tegen variërende niveaus van ruis in de context. Drie soorten expliciete evaluatie-informatie worden overwogen: relevantiescore, rankingscore en QPP-score (query performance prediction). De experimentele resultaten op vijf benchmarkdatasets tonen de effectiviteit en betere robuustheid van OpenDecoder aan door verschillende baseline-methoden te overtreffen. Belangrijk is dat dit paradigma flexibel genoeg is om te integreren met de post-training van LLM's voor elk doel en gecombineerd kan worden met elk type externe indicatoren.
Ervaringsinterventie bij webagentschappen vormt een veelbelovend technisch paradigma, dat de interactiecapaciteiten van agents versterkt door waardevolle inzichten uit opgebouwde ervaringen aan te reiken. Bestaande methoden injecteren ervaring echter voornamelijk passief als globale context vóór taakuitvoering, waardoor ze moeite hebben zich aan te passen aan dynamisch veranderende contextuele observaties tijdens de agent-omgeving-interactie. Wij stellen ExpSeek voor, dat ervaring verschuift naar proactieve zoekacties op stapniveau: (1) het schatten van entropiedrempels per stap om het interventietijdstip te bepalen met behulp van de intrinsieke signalen van het model; (2) het ontwerpen van stapniveau-ervaringsinhoud die op maat is gemaakt. Experimenten met Qwen3-8B- en 32B-modellen op vier uitdagende webagent-benchmarks tonen aan dat ExpSeek absolute verbeteringen van respectievelijk 9,3% en 7,5% bereikt. Onze experimenten valideren de haalbaarheid en voordelen van entropie als een zelftriggerend signaal, en tonen aan dat zelfs een kleinschalig ervaringsmodel van 4B de prestaties van grotere agentmodellen aanzienlijk kan verbeteren.
Vision-Language Models (VLMs) hebben opmerkelijke prestaties getoond in User Interface (UI)-groundingtaken, aangedreven door hun vermogen om screenshots met steeds hogere resolutie te verwerken. Screenshots worden echter getokeniseerd in duizenden visuele tokens (bijvoorbeeld ongeveer 4700 voor 2K-resolutie), wat aanzienlijke rekenkosten met zich meebrengt en de aandacht verdunt. Mensen richten zich daarentegen meestal op interessegebieden bij interactie met een UI. In dit werk pionieren we met de taak van efficiënte UI-grounding. Geleid door een praktische analyse van de kenmerken en uitdagingen van de taak, stellen we FocusUI voor, een efficiënt UI-groundingraamwerk dat de patches selecteert die het meest relevant zijn voor de instructie, terwijl positionele continuïteit behouden blijft voor precieze grounding. FocusUI adresseert twee belangrijke uitdagingen: (1) Het elimineren van redundante tokens in visuele codering. We construeren patch-level supervisie door een instructie-geconditioneerde score te fuseren met een op regels gebaseerde UI-graphscore die grote homogene gebieden down-weight om onderscheidende en instructie-relevante visuele tokens te selecteren. (2) Het behouden van positionele continuïteit tijdens visuele tokenselectie. We constateren dat algemene methoden voor het snoeien van visuele tokens leiden tot ernstige nauwkeurigheidsvermindering bij UI-groundingtaken door verbroken positionele informatie. We introduceren een nieuwe PosPad-strategie, die elke aaneengesloten reeks verwijderde visuele tokens comprimeert tot een enkele speciale marker, geplaatst op de laatste index van de reeks, om positionele continuïteit te behouden. Uitgebreide experimenten op vier groundingbenchmarks tonen aan dat FocusUI GUI-specifieke baseline-methoden overtreft. Op de ScreenSpot-Pro benchmark behaalt FocusUI-7B een prestatieverbetering van 3,7% ten opzichte van GUI-Actor-7B. Zelfs met slechts 30% retentie van visuele tokens daalt FocusUI-7B met slechts 3,2%, terwijl het tot 1,44x snellere inferentie en 17% lager piek-GPU-geheugen bereikt.
Het trainen van Large Language Models (LLM's) is vaak gericht op het optimaliseren van voorkeursafstemming, waarbij uitvoeren worden beloond die als behulpzaam en interactievriendelijk worden ervaren. Dit op voorkeur gerichte doel kan echter worden uitgebuit: manipulatieve prompts kunnen reacties sturen in de richting van gebruiksgeruststellende instemming en weg van waarheidsgerichte correctie. In dit werk onderzoeken we of afgestemde modellen kwetsbaar zijn voor Preference-Undermining Attacks (PUA), een klasse van manipulatieve promptstrategieën die ontworpen zijn om het verlangen van het model om gebruikersvoorkeuren te behagen uit te buiten, ten koste van waarachtigheid. Wij stellen een diagnostische methodologie voor die een fijnmazigere en meer directieve analyse biedt dan geaggregeerde benchmarkscores, door gebruik te maken van een factorieel evaluatieraamwerk om door prompts geïnduceerde verschuivingen op te splitsen in interpreteerbare effecten van systeemdoelen (waarheids- versus voorkeurgericht) en PUA-stijl dialoogfactoren (directieve controle, persoonlijke denigratie, voorwaardelijke goedkeuring, realiteitsontkenning) binnen een gecontroleerd 2 maal 2^4 design. Verrassend genoeg zijn geavanceerdere modellen soms gevoeliger voor manipulatieve prompts. Naast de dominante factor van realiteitsontkenning observeren we modelspecifieke omkeringen van effecten en interacties met PUA-stijl factoren, wat wijst op op maat gemaakte verdedigingsmechanismen in plaats van uniforme robuustheid. Deze bevindingen bieden een nieuwe, reproduceerbare factoriële evaluatiemethodologie die fijnmazigere diagnostiek mogelijk maakt voor post-trainingsprocessen zoals RLHF, waardoor betere afwegingen mogelijk worden in de productiteratie van LLM's door een genuanceerder inzicht in de risico's van voorkeursafstemming en de impact van manipulatieve prompts.
Hoewel op LLM gebaseerde agents veelbelovend zijn voor diepgaand onderzoek, vertrouwen de meeste bestaande benaderingen op vaste workflows die moeite hebben zich aan te passen aan realistische, open-einde vragen. Recent werk onderzoekt daarom zelf-evolutie door agents hun eigen code of prompts te laten herschrijven om het probleemoplossend vermogen te verbeteren, maar onbeperkte optimalisatie leidt vaak tot instabiliteit, hallucinaties en instructie-drift. Wij stellen EvoFSM voor, een gestructureerd zelf-evoluerend framework dat zowel aanpasbaarheid als controle bereikt door een expliciete Eindige Toestandsautomaat (Finite State Machine, FSM) te evolueren in plaats van te vertrouwen op vrijvormig herschrijven. EvoFSM ontkoppelt de optimalisatieruimte in macroscopische Flow (toestandsovergangslogica) en microscopische Skill (toestandspecifiek gedrag), wat gerichte verbeteringen mogelijk maakt binnen duidelijke gedragsgrenzen. Geleid door een criticus-mechanisme verfijnt EvoFSM de FSM via een kleine set beperkte operaties, en integreert het verder een zelf-evoluerend geheugen dat succesvolle trajecten destilleert tot herbruikbare priors en faalpatronen tot restricties voor toekomstige vragen. Uitgebreide evaluaties op vijf multi-hop vraag-antwoord benchmarks tonen de effectiviteit van EvoFSM aan. In het bijzonder bereikt EvoFSM een nauwkeurigheid van 58,0% op de DeepSearch benchmark. Aanvullende resultaten op interactieve besluitvormingstaken valideren verder de generalisatie ervan.
Wij presenteren TranslateGemma, een suite van open machinevertalingsmodellen gebaseerd op de Gemma 3 foundation-modellen. Om de inherente meertalige capaciteiten van Gemma 3 voor de vertaaltaak te verbeteren, hanteren we een tweestaps fine-tuningproces. Eerst wordt supervised fine-tuning uitgevoerd met een rijke mix van hoogwaardige, grootschalige synthetische parallelle data, gegenereerd via state-of-the-art modellen, en door mensen vertaalde parallelle data. Dit wordt gevolgd door een reinforcement learning-fase, waarin we de vertaalkwaliteit optimaliseren met behulp van een ensemble van beloningsmodellen, waaronder MetricX-QE en AutoMQM, gericht op vertaalkwaliteit. Wij demonstreren de effectiviteit van TranslateGemma met humane evaluatie op de WMT25-testset voor 10 taalparen en met automatische evaluatie op de WMT24++ benchmark voor 55 taalparen. Automatische metrieken tonen consistente en substantiële verbeteringen ten opzichte van de baseline Gemma 3-modellen voor alle formaten. Opmerkelijk is dat kleinere TranslateGemma-modellen vaak prestaties leveren die vergelijkbaar zijn met grotere baseline-modellen, wat een verbeterde efficiëntie biedt. Wij tonen ook aan dat TranslateGemma-modellen sterke multimodale capaciteiten behouden, met verbeterde prestaties op de Vistra-beeldvertalingsbenchmark. De release van de open TranslateGemma-modellen heeft tot doel de onderzoeksgemeenschap te voorzien van krachtige en aanpasbare tools voor machinevertaling.
Recente vooruitgang in wereldmodellen toont belofte voor het modelleren van toekomstige dynamieken van omgevingstoestanden, waardoor agents kunnen redeneren en handelen zonder toegang tot echte omgevingen. Huidige methoden voeren voornamelijk enkelstaps- of vaste-horizonrollouts uit, waardoor hun potentieel voor complexe taakplanning onderbenut blijft. Wij stellen Imagine-then-Plan (ITP) voor, een uniform raamwerk voor agentleren via vooruitziende verbeelding, waarbij het beleidsmodel van een agent interageert met het geleerde wereldmodel, wat meerstaps "verbeelde" trajecten oplevert. Aangezien de verbeeldingshorizon kan variëren per taak en fase, introduceren we een nieuw adaptief vooruitziend mechanisme door het ultieme doel en de taakvoortgang af te wegen. De resulterende verbeelde trajecten bieden rijke signalen over toekomstige gevolgen, zoals behaalde voortgang en potentiële conflicten, welke worden gefuseerd met huidige observaties, waardoor een gedeeltelijk observeerbaar en verbeeldbaar Markov-beslissingsproces wordt geformuleerd om beleidsleren te sturen. We concretiseren ITP met zowel trainingsvrije als door reinforcement getrainde varianten. Uitgebreide experimenten over representatieve agentbenchmarks tonen aan dat ITP aanzienlijk beter presteert dan competitieve baseline-methoden. Verdere analyses valideren dat ons adaptieve vooruitziend mechanisme het redeneervermogen van agents grotendeels verbetert, wat waardevolle inzichten biedt voor het aanpakken van bredere, complexe taken.
Moderne videogeneratieve modellen op basis van diffusiemodellen kunnen zeer realistische clips produceren, maar zijn rekenkundig inefficiënt; vaak zijn er minuten GPU-tijd nodig voor slechts enkele seconden video. Deze inefficiëntie vormt een kritieke barrière voor de inzet van generatieve video in toepassingen die realtime interactie vereisen, zoals embodied AI en VR/AR. Dit artikel onderzoekt een nieuwe strategie voor camera-geconditioneerde videogeneratie van statische scènes: het gebruik van diffusiegebaseerde generatieve modellen om een beperkte set keyframes te genereren, waarna de volledige video wordt gesynthetiseerd via 3D-reconstructie en rendering. Door keyframes om te zetten in een 3D-representatie en tussenliggende beelden te renderen, amortiseert onze aanpak de generatiekosten over honderden frames en handhaaft tegelijkertijd geometrische consistentie. We introduceren verder een model dat het optimale aantal keyframes voor een gegeven cameratraject voorspelt, waardoor het systeem rekenkracht adaptief kan toewijzen. Onze uiteindelijke methode, SRENDER, gebruikt zeer weinig keyframes voor eenvoudige trajecten en meer keyframes voor complexe camerabewegingen. Dit resulteert in videogeneratie die meer dan 40 keer sneller is dan de diffusiegebaseerde baseline bij het genereren van 20 seconden video, met behoud van hoge visuele kwaliteit en temporele stabiliteit. Dit biedt een praktisch pad naar efficiënte en controleerbare videosynthese.
Geheugen speelt een fundamentele rol bij het vergroten van het redeneervermogen, de aanpasbaarheid en de contextuele nauwkeurigheid van moderne Large Language Models en Multi-Modal LLMs. Naarmate deze modellen evolueren van statische voorspellers naar interactieve systemen die in staat zijn tot continu leren en gepersonaliseerde inferentie, is de integratie van geheugenmechanismen een centraal thema geworden in hun architecturale en functionele ontwikkeling. Dit overzichtsartikel presenteert een uitgebreide en gestructureerde synthese van geheugen in LLMs en MLLMs, waarbij de literatuur wordt georganiseerd in een samenhangende taxonomie bestaande uit impliciete, expliciete en agent-gebaseerde geheugenparadigma's. Het onderzoek onderscheidt specifiek drie primaire geheugenkaders. Impliciet geheugen verwijst naar de kennis die is ingebed in de interne parameters van vooraf getrainde transformers, inclusief hun vermogen tot memorisatie, associatief ophalen en contextueel redeneren. Recent werk heeft methoden onderzocht om dit latente geheugen te interpreteren, manipuleren en herconfigureren. Expliciet geheugen omvat externe opslag- en ophaalcomponenten die zijn ontworpen om modeloutputs aan te vullen met dynamische, bevraagbare kennisrepresentaties, zoals tekstuele corpora, dichte vectoren en op grafen gebaseerde structuren, waardoor schaalbare en bijwerkbare interactie met informatiebronnen mogelijk wordt. Agent-gebaseerd geheugen introduceert persistente, temporeel uitgebreide geheugenstructuren binnen autonome agents, die langetermijnplanning, zelfconsistentie en collaboratief gedrag in multi-agent systemen faciliteren, met relevantie voor embodied en interactieve AI. Het onderzoek gaat verder dan tekst en onderzoekt de integratie van geheugen in multi-modale settings, waar coherentie tussen visie, taal, audio en actiemodaliteiten essentieel is. Belangrijke architecturale vooruitgang, benchmarktaken en open uitdagingen worden besproken, waaronder kwesties met betrekking tot geheugencapaciteit, uitlijning, feitelijke consistentie en kruis-systeem interoperabiliteit.
Analyse van aangeleerde representaties kent een blinde vlek: ze richt zich op gelijkenis, door te meten hoe nauw embeddings overeenkomen met externe referenties, maar gelijkenis onthult alleen wát er wordt gerepresenteerd, niet of die structuur robuust is. Wij introduceren geometrische stabiliteit, een aparte dimensie die kwantificeert hoe betrouwbaar de representatiegeometrie standhoudt onder perturbatie, en presenteren Shesha, een raamwerk om dit te meten. In 2.463 configuraties across zeven domeinen tonen we aan dat stabiliteit en gelijkenis empirisch ongecorreleerd zijn (ρ≈0.01) en mechanistisch verschillend: gelijkenismetrieken storten in na verwijdering van de belangrijkste hoofdcomponenten, terwijl stabiliteit gevoelig blijft voor fijnmazige manifoldstructuur. Dit onderscheid levert praktische inzichten op: voor veiligheidsmonitoring fungeert stabiliteit als een functionele geometrische kanarie, die structurele drift bijna 2x gevoeliger detecteert dan CKA, terwijl niet-functionele ruis wordt uitgefilterd die valse alarmen veroorzaakt in rigide afstandsmetrieken; voor bestuurbaarheid voorspelt supervised stabiliteit lineaire stuurbaarheid (ρ=0.89-0.96); voor modelselectie dissocieert stabiliteit van transferleerbaarheid, wat een geometrische tol onthult die transferoptimalisatie met zich meebrengt. Buiten machine learning voorspelt stabiliteit CRISPR-perturbatiecoherentie en neurale-gedragskoppeling. Door te kwantificeren hoe betrouwbaar systemen structuur behouden, biedt geometrische stabiliteit een noodzakelijke aanvulling op gelijkenis voor het auditen van representaties in biologische en computationele systemen.
Belichaamde systemen ervaren de wereld als 'een symfonie van stromen': een combinatie van vele continue stromen van zintuiglijke input gekoppeld aan eigenbeweging, verweven met de dynamiek van externe objecten. Deze stromen volgen vloeiende, tijd-geparameteriseerde symmetrieën, die zich combineren via een precies gestructureerde algebra; toch negeren de meeste wereldmodellen van neurale netwerken deze structuur en leren ze dezelfde transformaties steeds opnieuw uit data. In dit werk introduceren we 'Flow Equivariant World Models', een raamwerk waarin zowel eigenbeweging als beweging van externe objecten worden verenigd als één-parameter Lie-groep 'stromen'. We benutten deze unificatie om grootequivariantie ten opzichte van deze transformaties te implementeren, waardoor een stabiele latente wereldrepresentatie over honderden tijdstappen wordt geboden. Op zowel 2D- als 3D-partieel geobserveerde videobenchmarks voor wereldmodellering tonen we aan dat Flow Equivariant World Models aanzienlijk beter presteren dan vergelijkbare state-of-the-art, op diffusie gebaseerde en met geheugen versterkte wereldmodelleringsarchitecturen – vooral wanneer er voorspelbare werelddynamiek is buiten het huidige gezichtsveld van de agent. We laten zien dat stroom-equivariantie bijzonder gunstig is voor lange rollouts, die ver generaliseren voorbij de trainingshorizon. Door wereldmodelrepresentaties te structureren met betrekking tot interne en externe beweging, biedt stroom-equivariantie een schaalbare route naar data-efficiënte, symmetrie-gestuurde, belichaamde intelligentie. Projectlink: https://flowequivariantworldmodels.github.io.
Multimodale Large Language Models (MLLM's) boeken aanzienlijke vooruitgang in multimodale redeneervaardigheden. Vroege benaderingen richtten zich op puur op tekst gebaseerd redeneren. Recentere studies hebben multimodale informatie in de redeneerstappen geïntegreerd; zij volgen echter vaak een enkel, taakspecifiek redeneerpatroon, wat hun generaliseerbaarheid over verschillende multimodale taken beperkt. In feite zijn er tal van multimodale taken die uiteenlopende redeneervaardigheden vereisen, zoals het inzoomen op een specifieke regio of het markeren van een object in een afbeelding. Om dit aan te pakken, stellen wij verenigd generatief multimodaal redeneren voor, waarbij diverse multimodale redeneervaardigheden worden geünificeerd door het genereren van tussenliggende afbeeldingen tijdens het redeneerproces. Wij concretiseren dit paradigma met Omni-R1, een tweefasen SFT+RL-framework met een perceptie-uitlijningsverlies en een perceptiebeloning, waardoor functionele beeldgeneratie mogelijk wordt. Daarnaast introduceren wij Omni-R1-Zero, dat de behoefte aan multimodale annotaties elimineert door stapsgewijze visualisaties te bootstrapen vanuit alleen-tekst redeneergegevens. Empirische resultaten tonen aan dat Omni-R1 verenigd generatief redeneren bereikt over een breed scala aan multimodale taken, en dat Omni-R1-Zero gemiddeld even goed of zelfs beter kan presteren dan Omni-R1, wat een veelbelovende richting voor generatief multimodaal redeneren suggereert.
Op reinforcement learning (RL) gebaseerde verbetering van grote taalmodellen (LLM's) leidt vaak tot een verminderde uitvoerdiversiteit, wat hun bruikbaarheid in open-eindtaken zoals creatief schrijven ondermijnt. Bestaande methoden missen expliciete mechanismen om diverse verkenning te sturen en prioriteren optimalisatie-efficiëntie en prestaties boven diversiteit. Dit artikel stelt een RL-raamwerk voor dat is gestructureerd rond een semi-gestructureerde lange Chain-of-Thought (CoT), waarbij het generatieproces wordt opgedeeld in expliciet geplande tussenstappen. Wij introduceren een *Diverse Planning Branching*-methode die strategisch divergentie introduceert in de planningsfase op basis van diversiteitsvariatie, samen met een groepsbewuste diversiteitsbeloning om verschillende trajecten aan te moedigen. Experimentele resultaten op creatief-schrijfbenchmarks tonen aan dat onze aanpak de uitvoerdiversiteit aanzienlijk verbetert zonder de generatiekwaliteit te compromitteren, en consistent beter presteert dan bestaande baseline-methoden.
De taak van Image-to-Video (I2V)-generatie heeft als doel een video te synthetiseren vanuit een referentiebeeld en een tekstprompt. Dit vereist dat diffusiemodellen tijdens het denoiseproces hoogfrequente visuele beperkingen en laagfrequente tekstuele begeleiding met elkaar in overeenstemming brengen. Hoewel bestaande I2V-modellen prioriteit geven aan visuele consistentie, blijft de effectieve koppeling van deze dubbele begeleiding om een sterke naleving van de tekstprompt te garanderen onderbelicht. In dit werk observeren we dat in op Diffusion Transformer (DiT) gebaseerde I2V-modellen bepaalde tussenlagen een zwakke semantische respons vertonen (aangeduid als Semantisch-Zwakke Lagen), wat blijkt uit een meetbare daling in tekst-visuele gelijkenis. Wij schrijven dit toe aan een fenomeen genaamd Conditie-Isolatie, waarbij de aandacht voor visuele kenmerken gedeeltelijk loskomt van tekstbegeleiding en te veel leunt op aangeleerde visuele prioriteiten. Om dit aan te pakken, stellen wij Focale Begeleiding (FG) voor, die de bestuurbaarheid van Semantisch-Zwakke Lagen versterkt. FG omvat twee mechanismen: (1) Fijnmazige Semantische Begeleiding (FSG) benut CLIP om sleutelregio's in het referentiekader te identificeren en gebruikt deze als ankers om Semantisch-Zwakke Lagen te sturen. (2) Attention Cache transfert aandachtspunten van semantisch responsieve lagen naar Semantisch-Zwakke Lagen, waarbij expliciete semantische signalen worden geïnjecteerd en de overmatige afhankelijkheid van de aangeleerde visuele prioriteiten van het model wordt verminderd, waardoor de naleving van tekstuele instructies wordt verbeterd. Om onze aanpak verder te valideren en het gebrek aan evaluatie in deze richting aan te pakken, introduceren we een benchmark voor het beoordelen van instructievolging in I2V-modellen. Op deze benchmark bewijst Focale Begeleiding zijn effectiviteit en generaliseerbaarheid door de totalscore op Wan2.1-I2V te verhogen naar 0,7250 (+3,97%) en de op MMDiT gebaseerde HunyuanVideo-I2V te stimuleren naar 0,5571 (+7,44%).
Versterkend leren (VL) biedt een principiële manier om de redeneercapaciteiten van grote taalmodellen te verbeteren, maar de effectiviteit ervan hangt af van trainingssignalen die informatief blijven naarmate de modellen evolueren. In de praktijk vertraagt de VL-vooruitgang vaak wanneer de taakmoeilijkheid niet goed is afgestemd op de modelcapaciteit, of wanneer de training wordt gedomineerd door een beperkte set terugkerende probleempatronen. Om deze problemen gezamenlijk aan te pakken, stellen wij SCALER voor (Synthetic sCalable Adaptive Learning Environment for Reasoning), een raamwerk dat effectieve leersignalen in stand houdt door adaptieve omgevingsontwerp. SCALER introduceert een schaalbare synthesepijplijn die real-world programmeerproblemen omzet in verifieerbare redeneeromgevingen met controleerbare moeilijkheidsgraad en onbeperkte instantiegeneratie, waardoor VL-training voorbij eindige datasets mogelijk wordt terwijl sterke correctheidsgaranties behouden blijven. Hierop voortbordurend past SCALER verder een adaptieve multi-omgeving VL-strategie toe die dynamisch de instantiemoeilijkheid aanpast en de actieve set van omgevingen samenstelt om de capaciteitsgrens van het model te volgen en distributionele diversiteit te behouden. Deze co-adaptatie voorkomt rewardschaarste, vermindert overfitting aan nauwe taakpatronen en ondersteunt een aanhoudende verbetering gedurende de hele training. Uitgebreide experimenten tonen aan dat SCALER consistent beter presteert dan op datasets gebaseerde VL-basislijnen over diverse redeneerbenchmarks heen en stabielere, langetermijntrainingsdynamieken vertoont.
Kritiek-gestuurd reinforcement learning (RL) is naar voren gekomen als een krachtig paradigma voor het trainen van LLM-agenten door schaarse beloningen op basis van uitkomsten aan te vullen met feedback in natuurlijke taal. Huidige methoden vertrouwen echter vaak op statische of offline criticusmodellen, die niet meeveranderen naarmate het beleid evolueert. Bij on-policy RL verschuiven de foutpatronen van de agent in de tijd, waardoor stationaire critics verouderd raken en feedback met afnemende bruikbaarheid leveren. Om dit aan te pakken, introduceren we ECHO (Evolving Critic for Hindsight-Guided Optimization), een raamwerk dat het beleid en de criticus gezamenlijk optimaliseert via een gesynchroniseerde co-evolutionaire lus. ECHO maakt gebruik van een gecascadeerd roll-outmechanisme waarbij de criticus meerdere diagnoses genereert voor een initiële traject, gevolgd door beleidsverfijning om groepsgestructureerde voordeelschatting mogelijk te maken. We pakken de uitdaging van leerplateaus aan via een saturatiebewust winstvormingsdoel, dat de criticus beloont voor het induceren van incrementele verbeteringen in hoogpresterende trajecten. Door gebruik te maken van dual-track GRPO-updates, zorgt ECHO ervoor dat de feedback van de criticus gesynchroniseerd blijft met het evoluerende beleid. Experimentele resultaten tonen aan dat ECHO tot stabielere training en een hoger succespercentage bij taken met een lange tijds-horizon leidt in open-wereldomgevingen.
Clusterwerkbelastingtoewijzing vereist vaak complexe configuraties, wat een bruikbaarheidskloof creëert. Dit artikel introduceert een semantisch, op intentie gebaseerd planningsparadigma voor clustersystemen met behulp van Natural Language Processing. Het systeem gebruikt een Large Language Model (LLM), geïntegreerd via een Kubernetes scheduler-extender, om natuurlijke-taalaantekeningen voor allocatiehints te interpreteren voor zachte affiniteitsvoorkeuren. Er werd een prototype ontwikkeld met een clusterstatuscache en een intentie-analyzer (gebruikmakend van AWS Bedrock). Empirische evaluatie toonde een hoge LLM-parseernauwkeurigheid aan (>95% Subset Accuracy op een evaluatiedataset met grondwaarheid) voor topmodellen zoals Amazon Nova Pro/Premier en Mistral Pixtral Large, wat aanzienlijk beter presteerde dan een baseline-engine. Tests van de planningskwaliteit in zes scenario's toonden aan dat het prototype superieure of gelijkwaardige plaatsing bereikte in vergelijking met standaard Kubernetes-configuraties, met name uitblinkend in complexe en kwantitatieve scenario's en bij het afhandelen van conflicterende zachte voorkeuren. De resultaten valideren het gebruik van LLM's voor toegankelijke planning, maar benadrukken beperkingen zoals synchrone LLM-latentie, wat asynchrone verwerking suggereert voor productiegereedheid. Dit werk bevestigt de levensvatbaarheid van semantische zachte affiniteit voor het vereenvoudigen van workload-orchestratie.
Grote taalmodellen genereren vaak plausibele maar onbetrouwbare samenvattingen die gebruikers niet kunnen verifiëren aan de hand van de brontekst, een kritieke beperking in compliance-gevoelige domeinen zoals overheids- en juridische analyse. Wij presenteren sui-1, een model met 24B parameters dat abstractieve samenvattingen produceert met inline citaties, waardoor gebruikers elke bewering kunnen herleiden naar de bronzin. Onze synthetische datapijplijn combineert chain-of-thought prompting met meerfasenverificatie, en genereert meer dan 22.000 hoogwaardige trainingsvoorbeelden in vijf talen uit diverse bronnen, waaronder parlementaire documenten, webteksten en Wikipedia. Evaluatie toont aan dat sui-1 alle geteste open-weight baseline-modellen significant overtreft, inclusief modellen met 3x zoveel parameters. Deze resultaten tonen aan dat taakspecifieke training voor citatie-onderbouwde samenvatting substantieel beter presteert dan schaal alleen. De modelgewichten en een interactieve demo zijn openbaar beschikbaar.
De kwaliteit van subwoord-tokenisatie is cruciaal voor Large Language Models, maar de evaluatie van tokenizers voor morfologisch rijke Oeralische talen wordt bemoeilijkt door het ontbreken van schone morfeemlexicons. Wij introduceren SampoNLP, een corpusvrije toolkit voor het creëren van morfologische lexicons met behulp van MDL-geïnspireerde Self-Referential Atomicity Scoring, die samengestelde vormen filtert op basis van interne structurele aanwijzingen – geschikt voor settings met weinig bronnen. Met behulp van de hoogzuivere lexicons gegenereerd door SampoNLP voor Fins, Hongaars en Estisch voeren we een systematische evaluatie uit van BPE-tokenizers over een reeks vocabulairegroottes (8k-256k). Wij stellen een uniforme metriek voor, de Integrated Performance Score (IPS), om de afweging tussen morfeemdekking en overmatige splitsing te navigeren. Door de IPS-curves te analyseren, identificeren we de "elbow points" van afnemende meeropbrengsten en geven we de eerste empirisch onderbouwde aanbevelingen voor optimale vocabulairegroottes (k) voor deze talen. Onze studie biedt niet alleen praktische richtlijnen, maar demonstreert ook kwantitatief de beperkingen van standaard BPE voor sterk agglutinerende talen. De SampoNLP-bibliotheek en alle gegenereerde bronnen zijn publiekelijk beschikbaar gesteld: https://github.com/AragonerUA/SampoNLP