Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wereldmodellen hebben aanzienlijke aandacht gekregen als een veelbelovende onderzoeksrichting in kunstmatige intelligentie, maar een duidelijke en eenduidige definitie ontbreekt nog steeds. In dit artikel introduceren we OpenWorldLib, een uitgebreid en gestandaardiseerd inferentiekader voor Geavanceerde Wereldmodellen. Gebaseerd op de evolutie van wereldmodellen, stellen we een duidelijke definitie voor: een wereldmodel is een model of raamwerk dat gericht is op perceptie, uitgerust is met interactie- en langetermijngeheugencapaciteiten, en dient voor het begrijpen en voorspellen van de complexe wereld. We categoriseren verder systematisch de essentiële capaciteiten van wereldmodellen. Op basis van deze definitie integreert OpenWorldLib modellen voor verschillende taken binnen een uniform raamwerk, waardoor efficiënt hergebruik en collaboratieve inferentie mogelijk worden. Tot slot presenteren we aanvullende reflecties en analyses over mogelijke toekomstige onderzoeksrichtingen voor wereldmodellen. Code link: https://github.com/OpenDCAI/OpenWorldLib
Huidige methoden voor documentparsering concurreren vooral op innovatie van modelarchitectuur, terwijl systematische engineering van trainingsdata onderbelicht blijft. Toch vertonen state-of-the-art-modellen met verschillende architecturen en parameterschalen hoogst consistente foutpatronen op dezelfde set moeilijke voorbeelden, wat suggereert dat de prestatiebeperking voortkomt uit gedeelde tekortkomingen in de trainingsdata in plaats van de architectuur zelf. Op basis van deze bevinding presenteren we \minerupro, dat de state-of-the-art verbetert uitsluitend via data-engineering en optimalisatie van de trainingsstrategie, terwijl de 1,2B-parameterarchitectuur van \mineru volledig ongewijzigd blijft. De kern wordt gevormd door een Data Engine die gelijktijdig is ontworpen rond dekking, informatiewaarde en annotatienauwkeurigheid: Diversity-and-Difficulty-Aware Sampling breidt trainingsdata uit van minder dan 10M naar 65,5M voorbeelden en corrigeert tegelijkertijd distributieverschuiving; Cross-Model Consistency Verification benut outputovereenstemming tussen heterogene modellen om voorbeeldmoeilijkheid te beoordelen en betrouwbare annotaties te genereren; de Judge-and-Refine-pijplijn verbetert annotatiekwaliteit voor moeilijke voorbeelden via render-then-verify iteratieve correctie. Een drietraps progressieve trainingsstrategie – grootschalige pre-training, fine-tuning op moeilijke voorbeelden en GRPO-alignment – benut deze data sequentieel op verschillende kwaliteitsniveaus. Op evaluatiegebied lossen we element-matching biases op in OmniDocBench~v1.5 en introduceren een Harde subset, waarmee we het meer onderscheidende OmniDocBench~v1.6-protocol vaststellen. Zonder enige architectuurwijziging behaalt \minerupro 95,69 op OmniDocBench~v1.6, een verbetering van 2,71 punten ten opzichte van dezelfde architectuurbasislijn en overtreft het alle bestaande methoden inclusief modellen met meer dan 200 keer zoveel parameters.
Vision-Language-Action (VLA)-modellen behalen sterke prestaties in robotmanipulatie door gebruik te maken van vooraf getrainde vision-language-backbones. In downstream-roboticaomgevingen worden ze echter meestal afgestemd met beperkte data, wat leidt tot overfitting aan specifieke instructieformuleringen en waarbij robuustheid tegenover geparafraseerde instructies onderbelicht blijft. Om deze kloof te onderzoeken, introduceren we LIBERO-Para, een gecontroleerde benchmark die actie-uitdrukkingen en objectverwijzingen onafhankelijk varieert voor een fijnmazige analyse van linguïstische generalisatie. Over zeven VLA-configuraties (0,6B-7,5B) heen observeren we een consistente prestatieachteruitgang van 22-52 procentpunt bij parafrasering. Deze achteruitgang wordt voornamelijk gedreven door lexicale variatie op objectniveau: zelfs eenvoudige synoniemsubstituties veroorzaken grote dalingen, wat wijst op een afhankelijkheid van oppervlakkige matching in plaats van semantische verankering. Bovendien ontstaat 80-96% van de fouten door trajectdivergentie op planningsniveau in plaats van uitvoeringsfouten, wat aantoont dat parafrasering de taakidentificatie verstoort. Binaire slagingspercentages behandelen alle parafrases als gelijkwaardig, wat verhult of modellen consistent presteren over moeilijkheidsgraden heen of vertrouwen op eenvoudigere gevallen. Om dit aan te pakken, stellen we PRIDE voor, een metriek die de moeilijkheidsgraad van een parafrase kwantificeert aan de hand van semantische en syntactische factoren. Onze benchmark en bijbehorende code zijn beschikbaar op: https://github.com/cau-hai-lab/LIBERO-Para
Uitgebreide redenering in grote taalmodellen (LLM's) veroorzaakt ernstige KV-cache-geheugenknelpunten. Toonaangevende KV-cachecompressiemethoden schatten het belang van KV in met behulp van aandachtsscores van recente post-RoPE queries. Echter, queries roteren met de positie tijdens RoPE, waardoor representatieve queries zeer schaars zijn, wat leidt tot slechte top-key selectie en onstabiele redenering. Om dit probleem te vermijden, wenden we ons tot de pre-RoPE-ruimte, waar we observeren dat Q- en K-vectoren sterk geconcentreerd zijn rond vaste niet-nul centra en stabiel blijven over posities heen – Q/K-concentratie. We tonen aan dat deze concentratie ertoe leidt dat queries de voorkeur geven aan keys op specifieke afstanden (bijvoorbeeld dichtstbijzijnde keys), waarbij de centra bepalen welke afstanden de voorkeur krijgen via een trigonometrische reeks. Op basis hiervan stellen we TriAttention voor om de belangrijkheid van keys in te schatten door gebruik te maken van deze centra. Via de trigonometrische reeks gebruiken we de afstandsvoorkeur gekarakteriseerd door deze centra om keys te scoren op basis van hun posities, en benutten we ook Q/K-normen als een extra signaal voor belangrijkheidsschatting. Op AIME25 met 32K-token-generatie evenaart TriAttention de redeneernauwkeurigheid van Full Attention, terwijl het een 2,5x hogere doorvoer of 10,7x KV-geheugenreductie bereikt, terwijl toonaangevende baseline-methoden slechts ongeveer de helft van de nauwkeurigheid bereiken bij dezelfde efficiëntie. TriAttention maakt implementatie van OpenClaw mogelijk op een enkele consumenten-GPU, waar een lange context anders tot geheugentekort zou leiden met Full Attention.
Hoewel tekstfrequentie is gevalideerd als relevant voor de menselijke cognitie bij leessnelheid, is de relatie met Large Language Models (LLMs) zelden bestudeerd. Wij stellen een nieuwe onderzoeksrichting voor met betrekking tot tekstdatafrequentie, een onderbelicht onderwerp voor zover ons bekend. Ons raamwerk bestaat uit drie eenheden. Ten eerste stelt dit artikel de Textuele Frequentiewet (Textual Frequency Law, TFL) voor, welke stelt dat frequente tekstdata de voorkeur verdient voor LLMs, zowel voor prompting als fine-tuning. Aangezien de trainingsdata van veel LLMs gesloten zijn, stellen we voor om online bronnen te gebruiken om de frequentie op zinsniveau te schatten. Vervolgens gebruiken we een invoerparafraseerder om de invoer te herformuleren naar een frequentere tekstuele expressie. Vervolgens stellen we Textuele Frequentie Distillatie (Textual Frequency Distillation, TFD) voor door LLMs te bevragen om verhaalvoltooiing uit te voeren door zinnen in de datasets verder uit te breiden, en de resulterende corpora worden gebruikt om de initiële schatting aan te passen. Ten slotte stellen we Curriculum Textuele Frequentie Training (Curriculum Textual Frequency Training, CTFT) voor, waarbij LLMs worden gefinetuned in een oplopende volgorde van zinsfrequentie. Experimenten worden uitgevoerd op onze samengestelde dataset Textual Frequency Paired Dataset (TFPD) voor wiskundig redeneren, machinaal vertalen, gezond verstand redeneren en agent-gestuurde toolaanroeping. Resultaten tonen de effectiviteit van ons raamwerk aan.
Video Large Language Models (VideoLLM's) hebben sterke prestaties behaald bij veel video-inzichttaken, maar de meeste bestaande systemen blijven offline en zijn niet goed geschikt voor live videostreams die continue observatie en tijdige reactie vereisen. Recente streaming-VideoLLM's hebben vooruitgang geboekt, maar huidige aanpakken zijn vaak afhankelijk van ontkoppelde trigger-responspijplijnen of beperkt tot beschrijvende narratieven, wat hun effectiviteit voor open-eind vraag-antwoordtaken en interactie op lange termijn vermindert. Wij stellen AURA (Always-On Understanding and Real-Time Assistance) voor, een end-to-end streaming visueel interactiekader dat een uniforme VideoLLM in staat stelt om continu videostreams te verwerken en zowel real-time vraag-antwoordtaken als proactieve reacties te ondersteunen. AURA integreert contextbeheer, dataconstructie, trainingsdoelstellingen en implementatie-optimalisatie voor stabiele streaminginteractie op lange termijn. Het behaalt state-of-the-art prestaties op streamingbenchmarks en ondersteunt een real-time demosysteem met ASR en TTS dat op 2 FPS draait op twee 80G-acceleratoren. Wij geven het AURA-model vrij samen met een real-time inferentiekader om toekomstig onderzoek te vergemakkelijken.
Beeldruimtelijke bewerking voert geometriegestuurde transformaties uit, waardoor nauwkeurige controle over objectlay-out en camerastandpunten mogelijk is. Bestaande modellen schieten tekort voor fijnmazige ruimtelijke manipulaties, wat de noodzaak voor een toegewijd evaluatiekader motiveert. Onze bijdragen zijn als volgt: (i) We introduceren SpatialEdit-Bench, een complete benchmark die ruimtelijke bewerking evalueert door middel van gezamenlijke meting van perceptuele geloofwaardigheid en geometrische nauwkeurigheid via standpuntreconstructie en kadreringsanalyse. (ii) Om het datatekort voor schaalbare training aan te pakken, construeren we SpatialEdit-500k, een synthetische dataset gegenereerd met een controleerbaar Blender-proces dat objecten weergeeft tegen diverse achtergronden en systematische camerabewegingen, waarbij precieze grondwaar-transformaties worden geboden voor zowel object- als cameragerichte operaties. (iii) Voortbouwend op deze data ontwikkelen we SpatialEdit-16B, een basismodel voor fijnmazige ruimtelijke bewerking. Onze methode behaalt competitieve prestaties bij algemene bewerkingen en overtreft eerdere methoden aanzienlijk bij ruimtelijke manipulatietaken. Alle bronnen worden openbaar gemaakt op https://github.com/EasonXiao-888/SpatialEdit.
AI-agenten die als persistente assistenten worden ingezet, moeten correcte overtuigingen handhaven naarmate hun informatie-omgeving evolueert. In de praktijk is bewijs verspreid over heterogene bronnen die elkaar vaak tegenspreken, kan nieuwe informatie eerdere conclusies ongeldig maken, en komen gebruikersvoorkeuren aan het licht via correcties in plaats van expliciete instructies. Bestaande benchmarks veronderstellen grotendeels statische, single-authority omgevingen en evalueren niet of agenten deze complexiteit kunnen bijbenen. Wij introduceren ClawArena, een benchmark voor het evalueren van AI-agenten in evoluerende informatie-omgevingen. Elk scenario handhaaft een complete verborgen grondwaarheid, terwijl de agent alleen wordt blootgesteld aan ruisrijke, gedeeltelijke en soms tegenstrijdige sporen verspreid over multi-channel sessies, werkruimtebestanden en gefaseerde updates. Evaluatie is georganiseerd rond drie gekoppelde uitdagingen: redeneren met conflicterende bronnen, dynamische geloofsrevisie en impliciete personalisatie, waarvan de interacties leiden tot een taxonomie van 14 vraagcategorieën. Twee vraagformaten, multiple-choice (set-selectie) en op shells gebaseerde uitvoerbare controles, testen zowel redenering als grounding in de werkruimte. De huidige release bevat 64 scenario's verspreid over 8 professionele domeinen, in totaal 1.879 evaluatierondes en 365 dynamische updates. Experimenten met vijf agent-frameworks en vijf taalmodellen tonen aan dat zowel modelcapaciteit (15,4% verschil) als framework-ontwerp (9,2%) de prestaties substantieel beïnvloeden, dat zelf-evoluerende vaardigheidsframeworks model-capaciteitskloof gedeeltelijk kunnen dichten, en dat de moeilijkheidsgraad van geloofsrevisie wordt bepaald door de update-ontwerpstrategie in plaats van louter de aanwezigheid van updates. Code is beschikbaar op https://github.com/aiming-lab/ClawArena.
AI-agenten die samenwerken binnen lokale bestandssystemen ontstaan snel als een nieuw paradigma in mens-AI-interactie; effectieve personalisatie wordt echter beperkt door ernstige databeperkingen, aangezien strikte privacybarrières en de moeilijkheid om multomodelle real-world sporen gezamenlijk te verzamelen schaalbare training en evaluatie verhinderen, en bestaande methoden interaction-centric blijven terwijl ze dichte gedragssporen in bestandssysteemoperaties over het hoofd zien; om deze kloof te dichten, stellen we FileGram voor, een uitgebreid raamwerk dat agentgeheugen en personalisatie verankert in bestandssysteemgedragssporen, bestaande uit drie kerncomponenten: (1) FileGramEngine, een schaalbare persona-gedreven data-engine die realistische workflows simuleert en fijnmazige multomodelle actiesequenties op grote schaal genereert; (2) FileGramBench, een diagnostische benchmark verankerd in bestandssysteemgedragssporen voor het evalueren van geheugensystemen op profielreconstructie, sporenontrafeling, persona-driftdetectie en multomodelle verankering; en (3) FileGramOS, een bottom-up geheugenarchitectuur die gebruikersprofielen direct opbouwt vanuit atomische acties en content-delta's in plaats van dialoogsamenvattingen, waarbij deze sporen worden gecodeerd in procedurele, semantische en episodische kanalen met abstractie op querytijd; uitgebreide experimenten tonen aan dat FileGramBench uitdagend blijft voor state-of-the-art geheugensystemen en dat FileGramEngine en FileGramOS effectief zijn, en door het raamwerk open source te maken, hopen we toekomstig onderzoek naar gepersonaliseerde geheugengerichte bestandssysteemagenten te ondersteunen.
Grote taalmodellen (LLM's) blinken uit in complex redeneren, maar hun efficiëntie wordt beperkt door de oplopende cognitieve belasting van lange gedachtesporen. In dit artikel presenteren we LightThinker, een methode waarmee LLM's dynamisch tussenliggende gedachten kunnen comprimeren tot compacte semantische representaties. Statische compressie worstelt echter vaak met complex redeneren, waarbij het onomkeerbare verlies van tussenliggende details kan leiden tot logische knelpunten. Om dit aan te pakken, evolueren we het framework naar LightThinker++, waarbij we Expliciet Adaptief Geheugenbeheer introduceren. Dit paradigma verschuift naar beheersing op gedragsniveau door expliciete geheugenprimitieven te incorporeren, ondersteund door een gespecialiseerde traject-synthesepijplijn om doelgericht geheugenplannen te trainen. Uitgebreide experimenten demonstreren de veelzijdigheid van het framework op drie dimensies. (1) LightThinker reduceert het piek-tokenverbruik met 70% en de inferentietijd met 26% met minimaal nauwkeurigheidsverlies. (2) In standaard redeneertaken reduceert LightThinker++ het piek-tokenverbruik met 69,9% en levert het een nauwkeurigheidswinst van +2,42% op binnen hetzelfde contextbudget voor maximale prestaties. (3) Het meest opmerkelijk is dat het in langetermijn-agenttaken een stabiele footprint behoudt voorbij 80 rondes (een reductie van 60%-70%), met een gemiddelde prestatieverbetering van 14,8% over verschillende complexe scenario's. Al met al biedt ons werk een schaalbare richting voor het volhouden van diep LLM-redeneren over langere horizonnen met minimale overhead.
Versterkend leren met verifieerbare beloningen (RLVR) is een standaardparadigma geworden voor het na-trainen van grote taalmodel(len). Hoewel Group Relative Policy Optimization (GRPO) veel wordt toegepast, kent diens grove krediettoewijzing uniforme straffen toe aan mislukte rollouts, waardoor het ontbreekt aan de token-level focus die nodig is om specifieke afwijkingen efficiënt aan te pakken. Self-Distillation Policy Optimization (SDPO) lost dit op door een dichtere, meer gerichte supervisie op logit-niveau te bieden die snelle vroege verbetering mogelijk maakt, maar de methode faalt vaak tijdens langdurige training. Wij herleiden deze instabiliteit in latere fasen tot twee intrinsieke tekortkomingen: zelfdistillatie op reeds correcte samples introduceert optimalisatie-ambiguïteit, en de betrouwbaarheid van het signaal van de 'zelf-leraar' degradeert progressief. Om deze problemen op te lossen, stellen wij Sample-Routed Policy Optimization (SRPO) voor, een uniform on-policy raamwerk dat correcte samples doorstuurt naar de beloning-afgestemde versterking van GRPO en mislukte samples naar de gerichte logit-level correctie van SDPO. SRPO integreert verder een entropie-bewust dynamisch wegingsmechanisme om onbetrouwbare distillatiedoelen met hoge entropie te onderdrukken, terwijl zelfverzekerde doelen worden benadrukt. Geëvalueerd over vijf benchmarks en twee modelschalen, bereikt SRPO zowel de snelle vroege verbetering van SDPO als de langetermijnstabiliteit van GRPO. Het overtreft consistent de piekprestaties van beide baseline-methoden, verhoogt het gemiddelde over de vijf benchmarks op Qwen3-8B met 3,4% ten opzichte van GRPO en 6,3% ten opzichte van SDPO, en levert tegelijkertijd gematigde antwoordlengtes op en verlaagt de rekenkosten per stap met tot 17,2%.
Een veelbelovende onderzoeksrichting om grote taalmodellen (LLM's) consistent correcte code te laten genereren, richt zich op hun onvermogen om programma-uitvoering correct in te schatten, vooral voor code die ze zelf genereren. In dit werk tonen we aan dat Code-LLM's getraind kunnen worden om programma-uitvoering stap voor stap te simuleren, en dat deze capaciteit benut kan worden om de prestaties bij competitive programming te verbeteren. Onze aanpak combineert supervised fine-tuning op natuurlijktaalkundige uitvoeringstraces – tekstuele verklaringen gebaseerd op werkelijke uitvoering – met reinforcement learning met verifieerbare beloningen. We introduceren twee complementaire doelstellingen: uitvoervoorspelling gegeven code en invoer, en het oplossen van competitive programming-taken met feedback op basis van zowel ware als zelf-voorspelde uitvoering. Deze doelstellingen stellen modellen in staat om zelfverificatie uit te voeren op meerdere kandidaat-oplossingen en iteratief zichzelf te verbeteren door testuitvoering te simuleren. Op meerdere competitive programming-testbanken levert onze methode consistente verbeteringen op ten opzichte van standaard redeneertechnieken. We presenteren verder ablatiestudies en analyse om de rol van uitvoeringssimulatie en diens beperkingen te verduidelijken.
Leren uit ervaring is cruciaal voor het ontwikkelen van krachtige grote-taalmodelagenten (LLM-agenten), maar de heersende zelf-evoluerende paradigma's blijven inefficiënt: agenten leren in isolatie, ontdekken herhaaldelijk vergelijkbaar gedrag op basis van beperkte ervaring, wat leidt tot redundante verkenning en slechte generalisatie. Om dit probleem aan te pakken, stellen we SkillX voor, een volledig geautomatiseerd raamwerk voor het opbouwen van een plug-and-play vaardigheidskennisbank die herbruikbaar is across agenten en omgevingen. SkillX werkt via een volledig geautomatiseerde pijplijn gebouwd op drie synergetische innovaties: (i) Multi-Level Vaardigheden Ontwerp, dat ruwe trajecten destilleert tot een drielaagse hiërarchie van strategische plannen, functionele vaardigheden en atomische vaardigheden; (ii) Iteratieve Vaardigheden Verfijning, dat vaardigheden automatisch reviseert op basis van uitvoeringsfeedback om de kwaliteit van de bibliotheek continu te verbeteren; en (iii) Explorerende Vaardigheden Uitbreiding, dat proactief nieuwe vaardigheden genereert en valideert om de dekking voorbij de initiële trainingsgegevens uit te breiden. Met behulp van een sterke backbone-agent (GLM-4.6) bouwen we automatisch een herbruikbare vaardighedenbibliotheek en evalueren we de overdraagbaarheid ervan op uitdagende benchmarks met een lange tijds horizon en gebruikersinteractie, waaronder AppWorld, BFCL-v3 en τ²-Bench. Experimenten tonen aan dat SkillKB consistent de taaksucces en uitvoeringsefficiëntie verbetert wanneer het wordt ingeplugd in zwakkere basisagenten, wat het belang benadrukt van gestructureerde, hiërarchische ervaringsrepresentaties voor generaliseerbaar agent-leren. Onze code zal binnenkort openbaar beschikbaar zijn op https://github.com/zjunlp/SkillX.
Wat is er nodig om een visuele redeneerder te bouwen die werkt voor grafieken, wetenschap, ruimtelijk inzicht en open-einde taken? De krachtigste visueel-taalmodelen (VLM's) tonen aan dat zulk breed visueel redeneren binnen handbereik ligt, maar het recept erachter blijft onduidelijk, opgesloten in propriëtaire reinforcement learning (RL) pijplijnen met niet-openbare data. Wij introduceren Vero, een familie van volledig open VLM's die prestaties evenaart of overtreft van bestaande open-weight modellen voor diverse visuele redeneertaken. Wij schalen RL-data en beloningen op over zes brede taakcategorieën, construeren Vero-600K, een dataset met 600K voorbeelden uit 59 datasets, en ontwerpen taakgerouteerde beloningen die omgaan met heterogene antwoordformaten. Vero behaalt state-of-the-art prestaties, verbetert vier basismodellen met gemiddeld 3.7-5.5 punten op VeroEval, onze reeks van 30 uitdagende benchmarks. Uitgaande van Qwen3-VL-8B-Instruct, presteert Vero beter dan Qwen3-VL-8B-Thinking op 23 van de 30 benchmarks zonder extra propriëtaire denkdata. Wanneer getraind vanuit hetzelfde basismodel, overtreft Vero-600K bestaande RL-datasets over alle taakcategorieën. Systematische ablatiestudies onthullen dat verschillende taakcategorieën kwalitatief verschillende redeneerpatronen oproepen die slecht overdraagbaar zijn in isolatie, wat suggereert dat brede datadekking de primaire drijvende kracht is voor sterke RL-schaling. Alle data, code en modellen worden vrijgegeven.
OpenClaw, de meest gebruikte persoonlijke AI-agent begin 2026, opereert met volledige lokale systeemtoegang en integreert met gevoelige diensten zoals Gmail, Stripe en het bestandssysteem. Hoewel deze brede privileges een hoog niveau van automatisering en krachtige personalisatie mogelijk maken, blootstellen ze ook een aanzienlijk aanvalsoppervlak dat bestaande gesandeboxte evaluaties niet kunnen vastleggen. Om deze kloof te dichten, presenteren we de eerste real-world veiligheidsevaluatie van OpenClaw en introduceren we de CIK-taxonomie, die de persistente staat van een agent verenigt in drie dimensies, namelijk Capability (Capaciteit), Identity (Identiteit) en Knowledge (Kennis), voor veiligheidsanalyse. Onze evaluaties beslaan 12 aanvalsscenario's op een live OpenClaw-instantie over vier basismodellen (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro en GPT-5.4). De resultaten tonen aan dat het vergiftigen van één enkele CIK-dimensie het gemiddelde aanvalsuccespercentage verhoogt van 24,6% naar 64-74%, waarbij zelfs het meest robuuste model een meer dan drievoudige toename vertoont ten opzichte van de basislijnkwetsbaarheid. We evalueren verder drie CIK-afgestemde verdedigingsstrategieën naast een bestandsbeschermingsmechanisme; de sterkste verdediging levert echter nog steeds een slagingspercentage van 63,8% op bij capaciteitgerichte aanvallen, terwijl bestandsbescherming 97% van de kwaadaardige injecties blokkeert maar ook legitieme updates verhindert. Samen genomen tonen deze bevindingen aan dat de kwetsbaarheden inherent zijn aan de agentarchitectuur, wat meer systematische beveiligingsmaatregelen vereist om persoonlijke AI-agents te beveiligen. Onze projectpagina is https://ucsc-vlaa.github.io/CIK-Bench.
Reinforcement Learning with Verifiable Rewards (RLVR) traint effectief redeneermodellen die afhankelijk zijn van overvloedige, perfecte labels, maar de kwetsbaarheid ervan voor onvermijdelijke, ruisende labels door een tekort aan experts blijft kritisch onderbelicht. In dit werk zetten we een eerste stap naar een systematische analyse van ruisende labelmechanismen in RLVR. In tegenstelling tot supervised classificatie, incorporeren de meeste RLVR-algoritmen een op rollouts gebaseerde voorwaarde: de invloed van een label op de training is afhankelijk van of het huidige beleid rollouts kan genereren die dit label realiseren – een eigenschap die zich natuurlijk uitstrekt tot ruisende labels. Gebaseerd op deze observatie onderscheiden we twee soorten ruis: inactieve ruisende labels, die de data-efficiëntie verminderen, en actieve ruisende labels, die worden versterkt en het risico lopen het model naar incorrecte verdelingen te sturen. Uit experimenten met training op ruisende samples identificeren we een Early Correctness Coherence-fenomeen: hoewel ruisende samples in latere fases achterblijven, neemt de nauwkeurigheid op zowel schone als ruisende samples in de vroege training vergelijkbaar toe. Gemotiveerd door deze dynamiek stellen we Online Label Refinement (OLR) voor, dat potentieel ruisende labels progressief corrigeert met meerderheidsgestemde antwoorden wanneer aan twee voorwaarden wordt voldaan: een positieve helling in de rollout-slaagpercentage van het meerderheidsantwoord en stabiele historische consistentie tussen updates, wat geleidelijke zelfcorrectie mogelijk maakt naarmate het beleid verbetert. We evalueren OLR op zes in-distribution wiskundige redeneerbenchmarks (AIME24/25, AMC, MATH-500, Minerva en Olympiad) en drie out-of-distribution taken (ARC-c, GPQA-diamond en MMLU-pro). Over ruisratio's van 0.1 tot 0.9 verbetert OLR consistent de robuustheid onder zowel inactieve als actieve ruisende label-instellingen, met gemiddelde winsten van 3.6% tot 3.9% op in-distribution benchmarks en 3.3% tot 4.6% op out-of-distribution evaluaties.
Universele multimodale inbedding (UME) brengt heterogene invoer met één enkel model in een gedeelde retrievalruimte. Recente benaderingen verbeteren UME door expliciete chain-of-thought (CoT)-redeneringen te genereren voordat inbeddingen worden geëxtraheerd, waardoor multimodale grote-taalmodellen complexe query-intenties beter kunnen afleiden. Expliciete CoT brengt echter aanzienlijke inferentie-overhead met zich mee en kan rijk multimodaal bewijs samendrukken in een nauw tekstueel knelpunt. Wij stellen PLUME voor, een latent redeneerkader dat UME verbetert door verbaal gemaakte CoT te vervangen door een korte autoregressieve reeks van continue latente toestanden. Om diverse multimodale query's te ondersteunen, introduceert PLUME verder een semantisch-anker-gestuurde transitie-adapter die de latente reeks langs verschillende redeneertrajecturen stuurt binnen hetzelfde vaste rekenbudget. Om de training te stabiliseren, hanteert PLUME een progressief expliciet-naar-latent curriculum dat verbale redenering alleen als tijdelijk trainingssteiger gebruikt en dit gedrag geleidelijk overdraagt naar verborgen-toestandsberekening, waardoor expliciete CoT tijdens inferentie wordt geëlimineerd. Op de 78-taken MMEB-v2-benchmark presteert PLUME beter dan sterke expliciete-CoT UME-baselines, terwijl het redeneren wordt teruggebracht van honderden gegenereerde tokens naar minder dan 10 latente stappen, wat een meer dan 30x snellere inferentie oplevert. PLUME is bijzonder geschikt voor retrievalsettings waar relevant bewijs dicht, structureel complex en moeilijk te organiseren is via verbale tussentijdse redeneringen, zoals video- en visuele documentretrieval. Deze resultaten tonen aan dat gestructureerde latente berekening de voordelen van tussentijds redeneren kan behouden zonder de overhead van expliciete redeneringsgeneratie, wat een sterker en efficiënter paradigma biedt voor praktische retrievalsystemen.
Recente vooruitgang in Video Foundation Models (VFMs) heeft een revolutie teweeggebracht in de synthese van mensgerichte video's, maar fijnmazige en onafhankelijke bewerking van onderwerpen en scènes blijft een kritieke uitdaging. Recente pogingen om rijkere omgevingscontrole te incorporeren via rigide 3D-geometrische composities stuiten vaak op een scherpe wisselwerking tussen precieze controle en generatieve flexibiliteit. Bovendien beperkt de zware 3D-voorbewerking nog steeds de praktische schaalbaarheid. In dit artikel stellen we ONE-SHOT voor, een parameter-efficiënt raamwerk voor compositionele mens-omgeving videogeneratie. Onze belangrijkste inzicht is het ontbinden van het generatieve proces in losgekoppelde signalen. Specifiek introduceren we een injectiemechanisme in de canonieke ruimte dat menselijke dynamiek ontkoppelt van omgevingssignalen via cross-attention. We stellen ook Dynamic-Grounded-RoPE voor, een nieuwe positionele embeddingstrategie die ruimtelijke correspondenties tot stand brengt tussen uiteenlopende ruimtedomeinen zonder enige heuristische 3D-uitlijning. Om synthese op lange termijn te ondersteunen, introduceren we een Hybride Contextintegratiemechanisme om de consistentie van onderwerp en scène te handhaven over generaties op minuutniveau. Experimenten tonen aan dat onze methode state-of-the-art methoden significant overtreft, met superieure structurele controle en creatieve diversiteit voor videosynthese. Ons project is beschikbaar op: https://martayang.github.io/ONE-SHOT/.
Diepgaande onderzoeksagenten (DRA's) integreren LLM-redenering met externe tools. Geheugensystemen stellen DRA's in staat om historische ervaringen te benutten, wat essentieel is voor efficiënte redenering en autonome evolutie. Bestaande methodes zijn afhankelijk van het ophalen van vergelijkbare trajecten uit het geheugen om de redenering te ondersteunen, maar lijden onder cruciale beperkingen zoals inefficiënte geheugenevolutie en toenemende opslag- en ophaalkosten. Om deze problemen aan te pakken, stellen we een nieuw Memory Intelligence Agent (MIA)-raamwerk voor, bestaande uit een Manager-Planner-Uitvoerder-architectuur. De Geheugenmanager is een niet-parametrisch geheugensysteem dat gecomprimeerde historische zoektrajecten kan opslaan. De Planner is een parametrische geheugenagent die zoekplannen voor vragen kan produceren. De Uitvoerder is een andere agent die informatie kan zoeken en analyseren, geleid door het zoekplan. Om het MIA-raamwerk te bouwen, hanteren we eerst een alternerend paradigma voor versterkend leren om de samenwerking tussen de Planner en de Uitvoerder te verbeteren. Verder stellen we de Planner in staat om continu te evolueren tijdens test-time learning, waarbij updates on-the-fly naast inferentie worden uitgevoerd zonder het redeneerproces te onderbreken. Daarnaast stellen we een bidirectionele conversielus in tussen parametrische en niet-parametrische geheugens om efficiënte geheugenevolutie te bereiken. Ten slotte integreren we een reflectie- en een onbewaakt oordeelsmechanisme om de redenering en zelf-evolutie in de open wereld te stimuleren. Uitgebreide experimenten over elf benchmarks tonen de superioriteit van MIA aan.
Recente vooruitgang in Vision-Language Models (VLMs) heeft de grenzen van Visuele Vraagbeantwoording (VQA) aanzienlijk verlegd. Echter kunnen hoogresolutie details soms ruis worden die leidt tot hallucinaties of redeneerfouten. In dit artikel stellen we Degradation-Driven Prompting (DDP) voor, een nieuw raamwerk dat de VQA-prestaties verbetert door strategisch de beeldkwaliteit te verminderen om modellen te dwingen zich te concentreren op essentiële structurele informatie. We evalueren DDP in twee verschillende taken. *Physical attributes* richt zich op beelden die gevoelig zijn voor menselijke misinschatting, waarbij DDP een combinatie gebruikt van 80% downsampling, structurele visuele hulpmiddelen (witte achtergrondmaskers en orthometrische lijnen) en In-Context Learning (ICL) om de focus van het model te kalibreren. *Perceptual phenomena* behandelt diverse visuele anomalieën en illusies waar machines gevoelig voor zijn, waaronder Visuele Anomalie (VA), Kleurillusie (CI), Bewegingsillusie (MI), Gestalt (GI), Geometrische (GSI) en Visuele Illusies (VI). Voor deze taak integreert DDP een taakclassificatiefase met gespecialiseerde tools zoals vervagingsmaskers en contrastverbetering naast downsampling. Onze experimentele resultaten tonen aan dat minder meer is: door visuele invoer opzettelijk te degraderen en gerichte structurele prompts te verstrekken, stelt DDP VLMs in staat om afleidende texturen te omzeilen en superieure redeneernauwkeurigheid te bereiken op uitdagende visuele benchmarks.
Test-Time Learning (TTL) stelt taalagentschappen in staat om hun prestaties iteratief te verfijnen door herhaalde interacties met de omgeving tijdens de inferentiefase. De kern van TTL wordt gevormd door een adaptatiebeleid dat het actorbeleid bijwerkt op basis van ervaring uit eerdere episodes, waardoor toekomstig gedrag verbetert. Bestaande methodes vertrouwen op vaste, handmatig ontworpen adaptatiebeleidsregels in plaats van deze te optimaliseren voor downstreamverbetering. Wij stellen dat optimale adaptatiebeleidsregels moeten worden geleerd uit taakomgevingen, en niet handmatig moeten worden ontworpen op basis van menselijke intuïtie. Om dit te bereiken introduceren we Meta-TTL, een raamwerk dat de ontdekking van effectieve adaptatiebeleidsregels formuleert als een bi-level optimalisatieprobleem. Binnen dit raamwerk voert de innerlijke lus het standaard TTL-proces uit, waarbij wordt gemeten hoe effectief een kandidaat-adaptatiebeleid een agent helpt om fouten te corrigeren in opeenvolgende episodes. Geleid door de prestaties van de agent, gebruikt de buitenste lus evolutionaire zoekopdrachten over een diverse distributie van trainingstaken om het adaptatiebeleid iteratief te verfijnen. We evalueren Meta-TTL op Jericho en WebArena-Lite in zowel in-distributie (ID) als out-of-distributie (OOD) settings, met gebruik van meerdere meta-agent backbones. Resultaten op beide benchmarks tonen aan dat Meta-TTL consistent beter presteert dan handmatig ontworpen baseline-methoden, wat suggereert dat het geoptimaliseerde adaptatiebeleid overdraagbare strategieën encodeert die generaliseren buiten de trainings-taakdistributie.
Beelddegradatie door vervaging, ruis, compressie en slechte belichting ondermijnt multimodaal begrip in real-world settings aanzienlijk. Geünificeerde multimodale modellen die begrip en generatie in een enkele architectuur combineren, zijn bij uitstek geschikt voor deze uitdaging, omdat hun generatieve pathway de fijnmazige visuele structuur kan modelleren die degradatie vernietigt. Toch slagen deze modellen er niet in hun eigen generatieve capaciteit te benutten bij gedegradeerde invoer. Wij herleiden deze disconnect tot twee samenhangende factoren: bestaande trainingsregimes vragen het model nooit om generatie tijdens redeneren aan te roepen, en de standaard decode-reencode pathway ondersteunt geen effectieve gezamenlijke optimalisatie. Wij presenteren CLEAR, een raamwerk dat de twee capaciteiten verbindt via drie progressieve stappen: (1) supervised fine-tuning op een degradatiebewuste dataset om het genereer-dan-antwoord redeneerpatroon te vestigen; (2) een Latent Representation Bridge die de decode-reencode omweg vervangt door een directe, optimaliseerbare verbinding tussen generatie en redeneren; (3) Interleaved GRPO, een reinforcement learning-methode die tekstredenering en visuele generatie gezamenlijk optimaliseert onder antwoordcorrectheidbeloningen. Wij construeren MMD-Bench, dat drie degradatieniveaus bestrijkt across zes standaard multimodale benchmarks. Experimenten tonen aan dat CLEAR de robuustheid op gedegradeerde invoer aanzienlijk verbetert while de prestatie op schone beelden behoudt. Onze analyse onthult verder dat het verwijderen van pixel-level reconstructietoezicht leidt tot intermediaire visuele toestanden met hogere perceptuele kwaliteit, wat suggereert dat taakgedreven optimalisatie en visuele kwaliteit van nature op één lijn liggen.
Wij introduceren AvatarPointillist, een nieuw raamwerk voor het genereren van dynamische 4D Gaussian-avatars vanuit een enkele portretfoto. De kern van onze methode is een decoder-only Transformer die autoregressief een pointcloud genereert voor 3D Gaussian Splatting. Deze sequentiële aanpak maakt een precieze, adaptieve constructie mogelijk, waarbij de puntdichtheid en het totale aantal punten dynamisch worden aangepast op basis van de complexiteit van het onderwerp. Tijdens de puntgeneratie voorspelt het AR-model ook gezamenlijk de bindingsinformatie per punt, wat realistische animatie mogelijk maakt. Na de generatie zet een speciale Gaussian-decoder de punten om in complete, renderbare Gaussian-attributen. Wij tonen aan dat conditionering van de decoder op de latente kenmerken van de AR-generator een effectieve interactie tussen de fasen mogelijk maakt en de getrouwheid aanzienlijk verbetert. Uitgebreide experimenten valideren dat AvatarPointillist hoogwaardige, fotorealistische en bestuurbare avatars produceert. Wij geloven dat deze autoregressieve formulering een nieuw paradigma vertegenwoordigt voor avatargeneratie, en wij zullen onze code vrijgeven om toekomstig onderzoek te inspireren.
Naarmate grote taalmodelagenten zich ontwikkelen van software engineering (SWE) taken naar machine learning engineering (MLE), wordt het verifiëren van agentgedrag exponentieel duurder: waar SWE-taken geverifieerd kunnen worden via sneluitvoerende unittests, vereist MLE-verificatie het draaien van volledige ML-pipelines – gegevensvoorverwerking, modeltraining en metriekevaluatie – op grote datasets bij elke rollout-stap, waardoor trajectory-wise on-policy reinforcement learning (RL) onhaalbaar traag wordt. Bestaande benaderingen wijken uit naar supervised fine-tuning (SFT) of offline proxy-beloningen, wat ten koste gaat van de exploratie- en generalisatievoordelen van on-policy RL. Wij observeren dat de omvang van de sandboxgegevens de primaire bron van dit knelpunt is. Gebaseerd op dit inzicht introduceren wij SandMLE, een multi-agent framework dat diverse, verifieerbare synthetische MLE-omgevingen genereert vanuit een klein aantal seedtaken. Dit behoudt de structurele en technische complexiteit van real-world problemen, maar beperkt de datasets tot micro-schaal (elke taak wordt gekoppeld aan slechts 50-200 trainingsvoorbeelden). Door middel van uitgebreide experimenten tonen wij aan dat SandMLE de uitvoeringstijd met meer dan 13 keer reduceert, waardoor voor het eerst grootschalige, trajectory-wise on-policy RL in het MLE-domein mogelijk wordt. Op MLE-bench-lite behaalt SandMLE significante verbeteringen ten opzichte van SFT-baselines voor Qwen3-8B, 14B en 30B-A3B, met relatieve verbeteringen in de medaillescore variërend van 20,3% tot 66,9%. Bovendien generaliseert het getrainde beleid over onzichtbare agent-scaffolds heen en behaalt het tot 32,4% betere HumanRank-scores op MLE-Dojo.
Fundamentele modellen voor biologie en natuurkunde optimaliseren voorspellende nauwkeurigheid, maar hun interne representaties slagen er systematisch niet in de continue geometrie van de systemen die ze modelleren te behouden. Wij identificeren de hoofdoorzaak: de Geometrische Uitlijningsbelasting, een intrinsieke kost van het forceren van continue variëteiten door discrete categorische knelpunten. Gecontroleerde ablatiestudies op synthetische dynamische systemen tonen aan dat het vervangen van kruis-entropie door een continue uitvoerlaag op een identieke encoder de geometrische vervorming tot 8,5x vermindert, terwijl aangeleerde codeboeken een niet-monotone dubbele binding vertonen waarbij fijnere kwantisatie de geometrie verslechtert ondanks verbeterde reconstructie. Onder continue doelfuncties verschillen drie architecturen met 1,3x; onder discrete tokenisatie lopen ze 3.000x uiteen. Door 14 biologische fundamentemodellen te evalueren met ratedistortietheorie en MINE, identificeren we drie faalregimes: Lokale-Globale Ontkoppeling, Representatiecompressie en Geometrische Leegte. Een gecontroleerd experiment bevestigt dat de robuustheid van Evo 2 voor reverse-complementen op echt DNA een geconserveerde sequentiesamenstelling weerspiegelt, geen aangeleerde symmetrie. Geen enkel model bereikt gelijktijdig lage vervorming, hoge wederzijdse informatie en globale coherentie.
Long-tailed herkenning heeft geprofiteerd van foundation-modellen en fine-tuning paradigma's, maar bestaande studies en benchmarks zijn voornamelijk beperkt tot natuurlijke beelddomeinen, waar pre-trainings- en fine-tuning data vergelijkbare distributies delen. In tegenstelling hiermee vertonen wetenschappelijke beelden duidelijke visuele kenmerken en supervisiesignalen, wat vragen oproept over de effectiviteit van het fine-tunen van foundation-modellen in dergelijke settings. In dit werk onderzoeken we wetenschappelijke long-tailed herkenning onder een puur visueel en parameter-efficiënt fine-tuning (PEFT) paradigma. Experimenten op drie wetenschappelijke benchmarks tonen aan dat het fine-tunen van foundation-modellen beperkte winst oplevert, en onthullen dat features uit de voorlaatste laag een belangrijke rol spelen, met name voor tail-klassen. Gemotiveerd door deze bevindingen stellen we SciLT voor, een raamwerk dat multi-level representaties benut door adaptieve feature-fusie en dual-supervision learning. Door gezamenlijk gebruik te maken van features uit de voorlaatste en laatste laag, bereikt SciLT een gebalanceerde prestatie across head- en tail-klassen. Uitgebreide experimenten tonen aan dat SciLT consistent beter presteert dan bestaande methoden, een sterke en praktische baseline vestigt voor wetenschappelijke long-tailed herkenning, en waardevolle richtlijnen biedt voor het aanpassen van foundation-modellen aan wetenschappelijke data met substantiële domeinverschuivingen.
Agentische AI-systemen voeren in toenemende mate consequente handelingen uit namens menselijke principaalgebruikers, waarbij taken worden gedelegeerd via meerstapsketens van autonome agents. Er bestaat geen standaard die een fundamentele verantwoordingskloof adresseert: het verifiëren dat terminale handelingen in een delegatieketen daadwerkelijk waren geautoriseerd door een menselijke principaal, via welke delegatieketen, en binnen welke reikwijdte. Dit artikel presenteert het Human Delegation Provenance (HDP) protocol, een lichtgewicht token-gebaseerd schema dat menselijke autorisatiecontext in multi-agent systemen cryptografisch vastlegt en verifieert. Een HDP-token koppelt een menselijke autorisatiegebeurtenis aan een sessie, registreert de delegatiehandeling van elke agent als een ondertekende stap in een append-only keten, en stelt elke deelnemer in staat om de volledige herkomstregistratie te verifiëren met alleen de publieke Ed25519-sleutel van de uitgever en de huidige sessie-identifier. Verificatie gebeurt volledig offline, zonder dat er registry-opzoekingen of vertrouwensankers van derden nodig zijn. We positioneren HDP binnen het bestaande landschap van delegatieprotocollen, identificeren het onderscheidende ontwerppunt ten opzichte van OAuth 2.0 Token Exchange (RFC 8693), JSON Web Tokens (RFC 7519), UCAN en het Intent Provenance Protocol (draft-haberkamp-ipp-00), en tonen aan dat bestaande standaarden niet voldoen aan de multi-hop, append-only, menselijke-herkomst vereisten van agentische systemen. HDP is gepubliceerd als een IETF Internet-Draft (draft-helixar-hdp-agentic-delegation-00) en een referentie-TypeScript-SDK is publiekelijk beschikbaar.
Het omvormen van causale generatieve taalmodel(len) naar bidirectionele encoders biedt een krachtig alternatief voor BERT-achtige architecturen. De huidige benaderingen kennen echter nog beperkingen: er is geen consensus over optimale trainingsdoelstellingen, ze lijden onder catastrofale vergetelheid op grote schaal, en ze slagen er niet in om het uitgebreide ecosysteem van gespecialiseerde generatieve modellen flexibel te integreren. In dit werk identificeren we, door middel van systematische ablatiestudies op de Gemma3- en Qwen3-families, de belangrijkste factoren die een succesvolle adaptatie sturen, waarbij we de cruciale rol benadrukken van een vaak weggelaten fase van voorafgaande masking. Om dit proces op te schalen zonder de oorspronkelijke pretrainingsdata, introduceren we een dubbele strategie die lineair gewichtsmergen combineert met een lichtgewicht datamengsel uit meerdere domeinen, wat catastrofale vergetelheid vermindert. Ten slotte verrijken we onze encoders door ze te mergen met gespecialiseerde causale modellen, waardoor modaliteits- en domeinspecifieke capaciteiten naadloos worden overgedragen. Dit open-source recept, ontworpen voor elk causaal decoder-LLM, levert BidirLM op, een familie van vijf encoders die de alternatieven overtreffen op tekst-, visie- en audio-representatiebenchmarks.
Het versnellende tempo van wetenschappelijke publicaties maakt het voor onderzoekers steeds moeilijker om bij te blijven. Wij presenteren Paper Espresso, een open-source platform dat automatisch trending arXiv-publicaties ontdekt, samenvat en analyseert. Het systeem gebruikt grote taalmmodellen (LLM's) om gestructureerde samenvattingen met onderwerpetiketten en trefwoorden te genereren, en biedt trendanalyses op meerdere granulariteiten (dagelijks, wekelijks, maandelijks) via LLM-gestuurde topicconsolidatie. Gedurende 35 maanden van continue inzet heeft Paper Espresso meer dan 13.300 publicaties verwerkt en alle gestructureerde metadata openbaar vrijgegeven, wat rijke dynamieken in het AI-onderzoekslandschap onthult: een piek in midden-2025 in reinforcement learning voor LLM-redenering, niet-verzadigende topicontwikkeling (6.673 unieke topics), en een positieve correlatie tussen topicnieuwigheid en gemeenschapsbetrokkenheid (2.0x mediane upvotes voor de meest vernieuwende publicaties). Een live demo is beschikbaar op https://huggingface.co/spaces/Elfsong/Paper_Espresso.
Grote Taalmodellen (LLM's) kunnen poëzie componeren, maar hoe ver staan ze nog van menselijke dichters? In dit artikel introduceren we POEMetric, het eerste uitgebreide raamwerk voor poëzie-evaluatie, dat drie aspecten onderzoekt: 1) basale instructieopvolgingsvaardigheden bij het genereren van gedichten volgens een bepaalde vorm en thema, 2) geavanceerde vaardigheden zoals creativiteit, lexicale diversiteit en eigenzinnigheid, het oproepen van emotionele resonantie, en het gebruik van beeldspraak en stijlfiguren, en 3) algemene beoordeling van de algehele gedichtkwaliteit en inschatting van het auteurschap. Wij stelden een menselijke gedichtendataset samen – 203 Engelstalige gedichten in 7 vaste vormen, geannoteerd met metrum, rijmschema's en thema's – en experimenteerden met 30 LLM's voor poëziegeneratie op basis van dezelfde vormen en thema's als de menselijke data, wat resulteerde in 6.090 LLM-gedichten. Op basis van POEMetric beoordeelden we de prestaties van zowel menselijke dichters als LLM's via regelgebaseerde evaluatie en LLM-als-rechter, waarvan de resultaten werden gevalideerd door menselijke experts. Resultaten tonen aan dat, hoewel het topmodel een hoge vormnauwkeurigheid behaalde (4.26 op 5.00, met Gemini-2.5-Pro als rechter; idem hieronder) en thema-overeenkomst (4.99), alle modellen er niet in slaagden hetzelfde niveau van geavanceerde vaardigheden te bereiken als menselijke dichters, die ongeëvenaarde creativiteit (4.02), eigenzinnigheid (3.95), emotionele resonantie (4.06) en vaardig gebruik van beeldspraak (4.49) en stijlfiguren (4.67) lieten zien. Mensen versloegen ook de best presterende LLM in algehele gedichtkwaliteit (4.22 vs. 3.20). Poëziegeneratie blijft dus een formidabele uitdaging voor LLM's. Data en code zijn vrijgegeven op https://github.com/Bingru-Li/POEMetric.
Grootschalige taalmodellen (LLM) multi-agent systemen kunnen op twee verschillende dimensies worden opgeschaald: door het aantal agenten te vergroten en door verbetering via opgebouwde ervaring in de loop der tijd. Hoewel eerder onderzoek deze dimensies afzonderlijk heeft bestudeerd, blijft de interactie ertussen onder realistische kostenbeperkingen onduidelijk. In dit artikel introduceren we een conceptuele schaalbaarheidsvisie op multi-agent systemen die zowel teamgrootte als levenslang lerend vermogen gezamenlijk beschouwt, en we bestuderen hoe geheugenontwerp dit landschap deelt. Hiertoe stellen we LLMA-Mem voor, een levenslang geheugenraamwerk voor LLM multi-agent systemen onder flexibele geheugentopologieën. We evalueren LLMA-Mem op MultiAgentBench in coderings-, onderzoeks- en databaseomgevingen. Empirisch verbetert LLMA-Mem consequent de prestaties op lange termijn ten opzichte van baseline-methoden, terwijl de kosten worden verlaagd. Onze analyse onthult verder een niet-monotoon schaalbaarheidslandschap: grotere teams leveren niet altijd betere lange-termijnprestaties, en kleinere teams kunnen grotere overtreffen wanneer het geheugen het hergebruik van ervaring beter ondersteunt. Deze bevindingen positioneren geheugenontwerp als een praktisch pad om multi-agent systemen effectiever en efficiënter te schalen over tijd.
De snelle opkomst van autonome, agent-gebaseerde kunstmatige intelligentie in de financiële dienstverlening heeft een existentiële architectuurcrisis veroorzaakt: grote taalmodellen (LLM's) zijn probabilistische, niet-deterministische systemen die opereren in domeinen die absolute, wiskundig verifieerbare nalevingsgaranties vereisen. Bestaande beveiligingsoplossingen – waaronder NVIDIA NeMo Guardrails en Guardrails AI – steunen op probabilistische classificatiemodellen en syntactische validatoren die fundamenteel ontoereikend zijn voor het afdwingen van complexe, multi-variabele regelgevende beperkingen zoals opgelegd door de SEC, FINRA en OCC. Dit artikel presenteert het Lean-Agent Protocol, een op formele verificatie gebaseerd AI-beveiligingsplatform dat gebruikmaakt van het Aristotle neuraal-symbolische model, ontwikkeld door Harmonic AI, om institutioneel beleid automatisch te formaliseren naar Lean 4-code. Elke voorgestelde agent-actie wordt behandeld als een wiskundig conjecture: uitvoering is alleen toegestaan indien en slechts indien de Lean 4-kernel bewijst dat de actie voldoet aan vooraf gecompileerde regelgevende axioma's. Deze architectuur biedt cryptografisch niveau van nalevingszekerheid bij microseconde latentie, en voldoet direct aan SEC Rule 15c3-5, OCC Bulletin 2011-12, FINRA Rule 3110, en de CFPB-vereisten voor verklaarbaarheid. Een driefasen implementatieroutekaart, van schaduwverificatie tot implementatie op ondernemingsschaal, wordt gepresenteerd.
Kan communicatiedruk in multi-agent systemen discrete, compositionele representaties extraheren van onzichtbare fysische eigenschappen uit bevroren videokenmerken? Wij tonen aan dat agenten die communiceren via een Gumbel-Softmax-flessenhals met iteratief leren, positioneel ontwarde protocollen ontwikkelen voor latente eigenschappen (elasticiteit, wrijving, massaverhouding) zonder eigenschapslabels of supervisie op de berichtstructuur. Met 4 agenten convergeert 100% van 80 seeds naar bijna perfecte compositionaliteit (PosDis=0.999, holdout 98,3%). Controlegroepen bevestigen dat de multi-agentstructuur – niet bandbreedte of temporele dekking – dit effect drijft. Causale interventie toont gerichte eigenschapsverstoring (~15% daling op beoogde eigenschap, <3% op anderen). Een gecontroleerde backbone-vergelijking onthult dat het perceptuele vooroordeel bepaalt wat communiceerbaar is: DINOv2 domineert bij ruimtelijk zichtbare hellingsfysica (98,3% vs 95,1%), terwijl V-JEPA 2 domineert bij uitsluitend dynamische botsingsfysica (87,4% vs 77,7%, d=2,74). Schaal-gematchede (d=3,37) en frame-gematchede (d=6,53) controles schrijven dit verschil volledig toe aan video-native pretraining. Het bevroren protocol ondersteunt actie-geconditioneerd plannen (91,5%) met contrafeitelijke snelheidsredenering (r=0,780). Validatie op Physics 101-beelden van echte camera's bevestigt 85,6% massa-vergelijkingsnauwkeurigheid op onzichtbare objecten, waarbij temporele dynamiek +11,2% bijdraagt beyond statisch uiterlijk, compositionaliteit bij agent-schaling repliceert op 90% voor 4 agenten, en causale interventie zich uitstrekt tot echte video (d=1,87, p=0,022).
Audio-visuele grote taalmodellen (AVLLM's) doen hun intrede als uniforme interfaces voor multimodale perceptie. Wij presenteren de eerste mechanistische interpreteerbaarheidsstudie van AVLLM's, waarin we analyseren hoe audio- en visuele kenmerken evolueren en fuseren door verschillende lagen van een AVLLM om de uiteindelijke tekstoutput te produceren. Wij constateren dat hoewel AVLLM's rijke audio-semantiek coderen in tussenliggende lagen, deze capaciteiten grotendeels niet tot uiting komen in de uiteindelijke tekstgeneratie wanneer audio en visie conflicteren. Probing-analyses tonen aan dat nuttige latente audio-informatie aanwezig is, maar dat diepere fusielagen visuele representaties disproportioneel bevoordelen, wat de neiging heeft audiocues te onderdrukken. Wij herleiden deze onbalans verder naar de training: het audiogedrag van de AVLLM komt sterk overeen met dat van het visie-taal-basismodel, wat wijst op beperkte aanvullende afstemming op audio-supervisie. Onze bevindingen onthullen een fundamentele modaliteitsbias in AVLLM's en bieden nieuwe mechanistische inzichten in hoe multimodale LLM's audio en visie integreren.
Reinforcement learning from verifiable rewards (RLVR) heeft het redeneervermogen van LLM's verbeterd, maar een fundamentele beperking blijft bestaan: modellen kunnen niet leren van problemen die te moeilijk zijn om op te lossen onder hun huidige beleid, omdat deze geen zinvol beloningssignaal opleveren. Wij stellen een eenvoudige maar effectieve oplossing voor op basis van taakherformulering. We transformeren uitdagende open-einde problemen naar cognitief eenvoudigere varianten – zoals multiple-choice- en invulformats – die het oorspronkelijke antwoord behouden, terwijl de effectieve zoekruimte wordt verkleind en er dichtere leer signalen worden gegenereerd. Deze herformuleringen beslaan een spectrum van discriminerende tot generatieve taken, wat we benutten om het leren te bootstrappen: modellen leren eerst van gestructureerde, eenvoudigere formats, en deze kennis wordt vervolgens overgedragen om de prestaties op de oorspronkelijke open-einde problemen te verbeteren. Voortbouwend op dit inzicht introduceren we Cog-DRIFT, een raamwerk dat herformuleerde varianten construeert en deze organiseert in een adaptief curriculum op basis van moeilijkheidsgraad. De training vordert van eenvoudigere naar moeilijkere formats, waardoor het model kan leren van problemen die voorheen geen enkel signaal opleverden onder standaard RL post-training. Cog-DRIFT verbetert niet alleen de prestaties op de oorspronkelijk onoplosbare moeilijke problemen (absoluut +10,11% voor Qwen en +8,64% voor Llama), maar generaliseert ook goed naar andere achtergehouden datasets. Over 2 modellen en 6 redeneerbenchmarks heen, presteert onze methode consistent beter dan standaard GRPO en sterke guided-exploration baselines. Gemiddeld laat Cog-DRIFT verbeteringen zien van +4,72% (Qwen) en +3,23% (Llama) ten opzichte van de op één na beste baseline. We tonen verder aan dat Cog-DRIFT pass@k verbetert tijdens testen, en dat het curriculum de steekproefefficiëntie verbetert. Al met al benadrukken onze resultaten taakherformulering en curriculumleren als een effectief paradigma om de verkenbarrière in LLM post-training te overwinnen.
Diffusie grote taalmodellen (dLLM's) staan in theorie het decoderen van tokens in willekeurige volgorde toe, een flexibiliteit die een rijkere verkenning van redeneerpaden zou kunnen mogelijk maken dan bij autoregressieve (AR) LLM's. In de praktijk leidt decodering in willekeurige volgorde echter vaak tot een verminderde generatiekwaliteit. Om dit te verhelpen verbetert *low-confidence remasking* de kwaliteit van een enkel sample (bijv. Pass@1) door tokens met een hoge betrouwbaarheid voorrang te geven, maar het onderdrukt ook de verkenning en beperkt de winst bij meerdere samples (bijv. Pass@k), wat een fundamenteel kwaliteit-verkenning-dilemma creëert. In dit artikel geven we een verenigende verklaring voor dit dilemma. We tonen aan dat *low-confidence remasking* een kortzichtige benadering van kwaliteit verbetert, terwijl het bewezen de entropie van de geïnduceerde sequentiedistributie beperkt. Om deze beperking te overwinnen, karakteriseren we de optimale distributie die expliciet een balans zoekt tussen kwaliteit en verkenning, en ontwikkelen we een eenvoudige *Independent Metropolis–Hastings*-steekproefnemer die deze distributie tijdens het decoderen benadert. Experimenten op een reeks redeneerbenchmarks, waaronder MATH500, AIME24/25, HumanEval en MBPP, tonen aan dat onze aanpak een betere afweging tussen verkenning en kwaliteit oplevert dan zowel willekeurige *remasking* als *low-confidence remasking*.