Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren HY-World 2.0, een multimodale wereldmodel-framework dat een verbetering vormt van ons vorige project HY-World 1.0. HY-World 2.0 verwerkt diverse invoermodaliteiten, waaronder tekstprompts, afbeeldingen met één gezichtspunt, afbeeldingen met meerdere gezichtspunten en video's, en produceert 3D-wereldrepresentaties. Bij invoer van tekst of afbeeldingen met één gezichtspunt voert het model wereldgeneratie uit, waarbij het hoogwaardige, navigeerbare 3D Gaussian Splatting (3DGS)-scènes synthetiseert. Dit wordt bereikt via een viertrapsmethode: a) Panoramageneratie met HY-Pano 2.0, b) Trajectplanning met WorldNav, c) Werelduitbreiding met WorldStereo 2.0, en d) Wereldsamenstelling met WorldMirror 2.0. Specifiek introduceren we belangrijke innovaties om de panoramakwaliteit te verbeteren, 3D-scènebegrip en -planning mogelijk te maken, en WorldStereo, ons op keyframes gebaseerde viewgeneratiemodel met consistent geheugen, te upgraden. We upgraden ook WorldMirror, een feedforward-model voor universele 3D-voorspelling, door de modelarchitectuur en leerstrategie te verfijnen, waardoor wereldreconstructie vanuit meerdere gezichtspunten of video's mogelijk wordt. Tevens introduceren we WorldLens, een hoogwaardig 3DGS-renderplatform met een flexibele engine-onafhankelijke architectuur, automatische IBL-verlichting, efficiënte botsingsdetectie en een co-design voor training en rendering, dat interactieve verkenning van 3D-werelden met karakterondersteuning mogelijk maakt. Uitgebreide experimenten tonen aan dat HY-World 2.0 state-of-the-art prestaties bereikt op verschillende benchmarks binnen open-source benaderingen, met resultaten die vergelijkbaar zijn met het closed-source model Marble. We maken alle modelgewichten, code en technische details openbaar om reproduceerbaarheid te vergemakkelijken en verder onderzoek naar 3D-wereldmodellen te ondersteunen.
Hoogwaardige autonome voertuigen vereisen bewegingsplanners die multimodale toekomstige onzekerheden kunnen modelleren, terwijl ze robuust blijven in gesloten-lus interacties. Hoewel op diffusie gebaseerde planners effectief zijn in het modelleren van complexe trajectverdelingen, lijden ze vaak onder stochastische instabiliteiten en een gebrek aan corrigerende negatieve feedback wanneer ze puur met imitatieleren worden getraind. Om deze problemen aan te pakken, stellen we RAD-2 voor, een uniform generator-discriminator raamwerk voor gesloten-lus planning. Concreet wordt een op diffusie gebaseerde generator gebruikt om diverse trajectkandidaten te produceren, terwijl een met reinforcement learning geoptimaliseerde discriminator deze kandidaten herrangschikt op basis van hun langetermijn rij-kwaliteit. Dit ontkoppelde ontwerp vermijdt het direct toepassen van schaarse scalaire beloningen op de volledige hoogdimensionale trajectruimte, waardoor de optimalisatiestabiliteit verbetert. Om reinforcement learning verder te verbeteren, introduceren we Temporally Consistent Group Relative Policy Optimization, dat temporele coherentie benut om het credit assignment probleem te verlichten. Daarnaast stellen we On-policy Generator Optimalisatie voor, dat gesloten-lus feedback omzet in gestructureerde longitudinale optimalisatiesignalen en de generator geleidelijk verschuift naar hoogbeloonde trajectvariëteiten. Om grootschalige training efficiënt te ondersteunen, introduceren we BEV-Warp, een hoogdoorzet simulatiewerkomgeving die gesloten-lus evaluatie direct in het Bird's-Eye View kenmerkruimte uitvoert via spatial warping. RAD-2 vermindert het aanrijdingspercentage met 56% vergeleken met sterke op diffusie gebaseerde planners. Inzet in de echte wereld demonstreert verder een verbeterde waargenomen veiligheid en rij-soepelheid in complex stedelijk verkeer.
Deep Research Agents (DRA's) hebben als doel complexe, langetermijnonderzoektaken op te lossen die planning, retrieval, multimodaal begrip en rapportgeneratie omvatten, maar hun evaluatie blijft uitdagend vanwege dynamische webomgevingen en ambigue taakdefinities. Wij stellen DR^{3}-Eval voor, een realistische en reproduceerbare benchmark voor het evalueren van deep research agents op multimodale, multi-file rapportgeneratie. DR^{3}-Eval is geconstrueerd vanuit authentieke, door gebruikers verstrekte materialen en gekoppeld aan een per-taak statisch onderzoekssandbox-corpus dat de complexiteit van het open web simuleert terwijl het volledig verifieerbaar blijft, en dat ondersteunende documenten, afleidende elementen en ruis bevat. Bovendien introduceren we een multidimensionaal evaluatieraamwerk dat Information Recall, Factuele Nauwkeurigheid, Citation Coverage, Instructievolging en Dieptekwaliteit meet, en valideren we de afstemming daarvan met menselijke beoordelingen. Experimenten met ons ontwikkelde multi-agent systeem DR^{3}-Agent, gebaseerd op meerdere state-of-the-art taalmodel(len), tonen aan dat DR^{3}-Eval zeer uitdagend is en kritieke faalmodi onthult op het gebied van retrieval-robuustheid en hallucinatiecontrole. Onze code en data zijn openbaar beschikbaar.
Een veelgebruikte strategie voor modelverbetering is het gebruik van synthetische data gegenereerd door een sterker model voor supervised fine-tuning (SFT). Voor opkomende redeneermodellen zoals Qwen3-8B leidt deze aanpak echter vaak niet tot verbeterde redeneervaardigheden en kan deze zelfs een aanzienlijke prestatievermindering veroorzaken. In dit werk identificeren we een substantiële stilistische divergentie tussen door de leraar gegenereerde data en de verdeling van de leerling als een belangrijke factor die SFT beïnvloedt. Om deze kloof te overbruggen, stellen we een Teacher-Student Cooperation Data Synthesis raamwerk (TESSY) voor, waarbij leraar- en leerlingmodellen worden afgewisseld om stijl- en niet-stijltokens afwisselend te genereren. Hierdoor produceert TESSY synthetische reeksen die de geavanceerde redeneercapaciteiten van de leraar erven, terwijl ze stilistisch consistent blijven met de verdeling van de leerling. In experimenten met codegeneratie, waarbij GPT-OSS-120B als leraar wordt gebruikt, leidt fine-tuning van Qwen3-8B op door de leraar gegenereerde data tot prestatieverliezen van 3,25% op LiveCodeBench-Pro en 10,02% op OJBench, terwijl TESSY verbeteringen van respectievelijk 11,25% en 6,68% bereikt.
Grote taalmodellen (LLM's) vertonen, ondanks veiligheidsafstemming (safety alignment), broos weigeringsgedrag dat kan worden omzeild door eenvoudige taalkundige aanpassingen. Zo toont 'tense jailbreaking' aan dat modellen die schadelijke verzoeken weigeren, deze vaak wel uitvoeren wanneer ze in de verleden tijd worden geherformuleerd. Dit onthult een kritieke generalisatiekloof in huidige afstemmingsmethoden, waarvan de onderliggende mechanismen slecht worden begrepen. In dit werk introduceren we de Activation-Scaling Guard (ASGuard), een inzichtelijk, mechanisch onderbouwd kader dat deze specifieke kwetsbaarheid gericht mitigeert. In de eerste stap gebruiken we circuitanalyse om de specifieke aandachtskoppen (attention heads) te identificeren die causaal verband houden met de beoogde jailbreak, zoals een aanval via tijdsverandering. Ten tweede trainen we een precieze, kanaalgewijze schaalvector (scaling vector) om de activering van de op tijdsverandering gevoelige koppen te herkalibreren. Tot slot passen we deze toe in een 'preventieve fine-tuning', waarbij we het model dwingen een robuuster weigeringsmechanisme aan te leren. Over vier LLM's gezien, verlaagt ASGuard effectief het aanvalsuccespercentage van gerichte jailbreaks, waarbij de algemene capaciteiten behouden blijven en overmatig weigeren wordt geminimaliseerd. Dit resulteert in een Pareto-optimaal evenwicht tussen veiligheid en bruikbaarheid. Onze bevindingen benadrukken, gebaseerd op mechanische analyse, hoe adversariële achtervoegsels (adversarial suffixes) de voortplanting van de weigeringsbemiddelende richting onderdrukken. Verder toont ons werk aan hoe een diepgaand begrip van de interne modelstructuur kan worden benut om praktische, efficiënte en gerichte methoden te ontwikkelen voor het aanpassen van modelgedrag, waarmee we een koers uitzetten naar betrouwbaardere en interpreteerbare AI-veiligheid.
De efficiënte ruimtelijke allocatie van primitieven vormt de basis van 3D Gaussian Splatting, aangezien deze direct de synergie bepaalt tussen representatiecompactheid, reconstructiesnelheid en weergavenauwkeurigheid. Eerdere oplossingen, of ze nu gebaseerd zijn op iteratieve optimalisatie of voorwaartse inferentie, kampen met aanzienlijke afwegingen tussen deze doelstellingen, voornamelijk door de afhankelijkheid van lokale, heuristiek-gestuurde allocatiestrategieën die geen globaal scènewaardigheidsbesef hebben. Specifiek zijn huidige voorwaartse methoden grotendeels pixel-uitgelijnd of voxel-uitgelijnd. Door pixels terug te projecteren naar dichte, view-uitgelijnde primitieven, bakken ze redundantie in het 3D-model. Naarmate er meer invoerviews worden toegevoegd, neemt de representatiegrootte toe en wordt de globale consistentie broos. Daarom introduceren wij GlobalSplat, een raamwerk gebouwd op het principe van eerst uitlijnen, daarna decoderen. Onze aanpak leert een compacte, globale, latente scènerepresentatie die multi-view invoer codeert en cross-view correspondenties oplost voordat enige expliciete 3D-geometrie wordt gedecodeerd. Cruciaal is dat deze formulering compacte, globaal consistente reconstructies mogelijk maakt zonder te vertrouwen op voorgetrainde pixel-voorspellingsbackbones of het hergebruiken van latente kenmerken uit dichte basislijnen. Door gebruik te maken van een coarse-to-fine trainingscurriculum dat de gedecodeerde capaciteit geleidelijk verhoogt, voorkomt GlobalSplat van nature representatie-inflatie. Op RealEstate10K en ACID behaalt ons model competitieve nieuwe-view-syntheseprestaties terwijl het slechts 16K Gaussians gebruikt, aanzienlijk minder dan vereist door dichte pijplijnen, met een lichtgewicht footprint van 4MB. Verder stelt GlobalSplat een aanzienlijk snellere inferentie mogelijk dan de basislijnen, werkend in minder dan 78 milliseconden in een enkele voorwaartse passage. Projectpagina beschikbaar op https://r-itk.github.io/globalsplat/
Hoewel end-to-end Vision-Language-Action (VLA)-modellen een veelbelovend paradigma vormen voor robotmanipulatie, gaat het finetunen ervan op beperkte controledata vaak ten koste van de diepgaande redeneervermogens die zijn geërfd van hun basis Vision-Language Models (VLM's). Om deze fundamentele afweging op te lossen, stellen we HiVLA voor, een hiërarchisch raamwerk met een visueel-verankerd centrum dat hoogwaardige semantische planning expliciet ontkoppelt van laagwaardige motorcontrole. In het hoogwaardige deel voert eerst een VLM-planner taakdecompositie en visuele verankering uit om gestructureerde plannen te genereren, bestaande uit een subtask-instructie en een precies doelbegrenzingskader. Vervolgens introduceren we in het laagwaardige deel een flow-matching Diffusion Transformer (DiT)-actie-expert, uitgerust met een nieuw gecascadeerd cross-attention-mechanisme, om dit plan om te zetten in fysieke acties. Dit ontwerp fuseert sequentieel globale context, hoogwaardige objectgerichte uitsneden en vaardigheidssemantiek, waardoor de DiT zich puur kan richten op robuuste uitvoering. Onze ontkoppelde architectuur behoudt het zero-shot redeneervermogen van de VLM terwijl onafhankelijke verbetering van beide componenten mogelijk is. Uitgebreide experimenten in simulatie en de echte wereld tonen aan dat HiVLA aanzienlijk beter presteert dan state-of-the-art end-to-end baseline-modellen, met name uitblinkt in langetermijn vaardigheidscompositie en de fijnmazige manipulatie van kleine objecten in rommelige scènes.
Claude Code is een agent-gebaseerd codeerhulpmiddel dat shell-commando's kan uitvoeren, bestanden kan bewerken en externe services kan aanroepen namens de gebruiker. Deze studie beschrijft de uitgebreide architectuur door analyse van de publiek beschikbare TypeScript-broncode en vergelijkt deze verder met OpenClaw, een onafhankelijk open-source AI-agentensysteem dat veel van dezelfde ontwerpvragen beantwoordt vanuit een andere implementatiecontext. Onze analyse identificeert vijf menselijke waarden, filosofieën en behoeften die de architectuur motiveren (menselijk beslissingsgezag, veiligheid en beveiliging, betrouwbare uitvoering, capaciteitsvergroting en contextuele aanpasbaarheid) en traceert deze via dertien ontwerpprincipes naar specifieke implementatiekeuzes. De kern van het systeem is een eenvoudige while-lus die het model aanroept, tools uitvoert en herhaalt. Het merendeel van de code bevindt zich echter in de systemen rond deze lus: een permissiesysteem met zeven modi en een ML-gebaseerde classifier, een compactiepijplijn met vijf lagen voor contextbeheer, vier uitbreidingsmechanismen (MCP, plugins, skills en hooks), een delegatiemechanisme voor subagentschappen met werkboomisolatie, en sessieopslag gericht op toevoeging. Een vergelijking met OpenClaw, een multi-kanaal persoonlijk assistentie-gateway, toont aan dat dezelfde terugkerende ontwerpvragen tot verschillende architecturale antwoorden leiden wanneer de implementatiecontext verandert: van per-actie veiligheidsclassificatie naar perimeter-niveau toegangscontrole, van een enkele CLI-lus naar een ingebedde runtime binnen een gateway control plane, en van contextvensteruitbreidingen naar gateway-brede capaciteitsregistratie. We identificeren tenslotte zes open ontwerprichtingen voor toekomstige agentsystemen, gegrond in recente empirische, architecturale en beleidsliteratuur.
Retrieval-Augmented Generation (RAG) breidt Large Vision-Language Models (LVLMs) uit met externe visuele kennis. Bestaande visuele RAG-systemen vertrouwen echter doorgaans op generieke retrievalsignalen die de fijnmazige visuele semantiek negeren die essentieel is voor complex redeneren. Om deze beperking aan te pakken, stellen we UniDoc-RL voor, een unified reinforcement learning-framework waarin een LVLM-agent gezamenlijk retrieval, reranking, actieve visuele perceptie en redeneren uitvoert. UniDoc-RL formuleert de verwerving van visuele informatie als een sequentieel besluitvormingsprobleem met een hiërarchische actieruimte. Specifiek verfijnt het progressief visueel bewijs, van grofkorrelige documentretrieval tot fijnkorrelige beeldselectie en actief region cropping, waardoor het model irrelevante inhoud kan onderdrukken en zich kan richten op informatie-dichte regio's. Voor effectieve end-to-end training introduceren we een dense multi-reward-schema dat task-aware supervisie biedt voor elke actie. Gebaseerd op Group Relative Policy Optimization (GRPO) stemt UniDoc-RL agentgedrag af op meerdere doelstellingen zonder afhankelijk te zijn van een apart waardenetwerk. Om dit trainingsparadigma te ondersteunen, hebben we een uitgebreide dataset samengesteld met hoogwaardige redeneertrajecten en fijnmazige actieannotaties. Experimenten op drie benchmarks tonen aan dat UniDoc-RL consistent state-of-the-art-baselines overtreft, met winsten tot 17,7% ten opzichte van eerdere RL-gebaseerde methoden.
Vision-Language Models (VLMs) hebben opmerkelijke capaciteiten getoond in gezamenlijk visueel-taalkundig begrip, maar hun grote schaal vormt aanzienlijke uitdagingen voor implementatie in scenarios met beperkte middelen. Knowledge Distillation (KD) biedt een haalbare manier om modelcapaciteiten te verbeteren zonder modelgrootte of gegevensvereisten te vergroten, waardoor implementatie efficiënter wordt. Het toepassen van KD op VLMs wordt echter bemoeilijkt door modaliteit-specifieke supervisie: hoewel multimodale kennis in VLMs wordt gefuseerd binnen de taalkundige ruimte, houden huidige methoden elk modality afzonderlijk onder toezicht zonder multimodale afstemming expliciet aan te pakken, wat leidt tot inconsistente overdracht van multimodale kennis. Om dit aan te pakken, stellen we Switch-KD voor, een visueel-schakel distillatiekader dat visie-taalkundige kennisoverdracht verenigt binnen een gedeelde tekst-waarschijnlijkheidsruimte. Switch-KD omvat twee belangrijke componenten: (1) Visueel-Switch Distillatie, die de visuele uitvoer van de student omschakelt naar het taalpad van de leraar om kruismodale probabilistische referenties te construeren voor impliciete overdracht van visuele kennis; en (2) Dynamic Bi-directional Logits Difference (DBiLD) verlies, dat informatieve waarschijnlijkheidsregio's adaptief afstemt terwijl de distributiestructuren van leraar en student behouden blijven door bidirectioneel toezicht. Geleid door Switch-KD, distilleert een 0.5B TinyLLaVA effectief rijke multimodale kennis van zijn 3B leraar, wat resulteert in een gemiddelde verbetering van 3.6 punten over 10 multimodale benchmarks zonder enige architectuurwijziging.
Accurate toekomstige videovoorspelling vereist zowel een hoge visuele kwaliteit als consistente scènesemantiek, vooral in complexe dynamische omgevingen zoals autonoom rijden. Wij presenteren Re2Pix, een hiërarchisch videovoorspellingsraamwerk dat voorspelling ontleedt in twee fasen: voorspelling van semantische representaties en representatiegestuurde visuele synthese. In plaats van toekomstige RGB-frames direct te voorspellen, voorspelt onze aanpak eerst de toekomstige scènestructuur in de kenmerkruimte van een bevroren vision foundation-model, en conditioneert vervolgens een latent diffusi
Elke aanroep van een LLM-classificatie-eindpunt produceert een gelabeld invoer-uitvoerpaar dat al wordt bewaard in de productielogs. Deze paren vormen een gratis, groeiende trainingsset: een lichtgewicht surrogaat dat hierop wordt getraind, kan een aanzienlijk deel van het toekomstige verkeer verwerken tegen bijna nul marginale inferentiekosten. De open vragen zijn wanneer het surrogaat betrouwbaar genoeg is voor implementatie, wat het afhandelt versus doorverwijst, en hoe die grens evolueert naarmate er meer data beschikbaar komt. Wij introduceren TRACER (Trace-based Adaptive Cost-Efficient Routing), een open-source systeem dat ML-surrogaten traint op de eigen productietraces van een LLM en de implementatie beheert via een pariteitspoort: het surrogaat wordt alleen geactiveerd wanneer de overeenstemming met de LLM een door de gebruiker gespecificeerde drempelwaarde α overschrijdt. Om de routeringsgrens transparant te maken, genereert TRACER interpreteerbare artefacten die beschrijven welke invoerregio's het surrogaat afhandelt, waar het een plateau bereikt en waarom het doorverwijst. Op een benchmark met 77 intentieklassen en een Sonnet 4.6-leraar bereikt TRACER een surrogaatdekking van 83-100%, afhankelijk van de kwaliteitsdoelstelling α; op een benchmark met 150 klassen vervangt het surrogaat de leraar volledig. Bij een natuurlijke-taalinferentietaak weigert de pariteitspoort de implementatie correct omdat de embeddingrepresentatie geen betrouwbare scheiding ondersteunt. Het systeem is beschikbaar als open-source software.
Human-Object Interaction (HOI) modellering beschrijft hoe mensen handelingen verrichten op en zich verhouden tot objecten, doorgaans uitgedrukt als <persoon, actie, object> tripletten. Bestaande benaderingen splitsen op in twee gescheiden families: HOI-generatie synthetiseert scènes vanuit gestructureerde tripletten en lay-outs, maar slaagt er niet in gemengde condities zoals HOI- en object-gerelateerde entiteiten te integreren; en HOI-bewerking past interacties aan via tekst, maar worstelt met het ontkoppelen van pose van fysiek contact en het schalen naar meerdere interacties. Wij introduceren OneHOI, een uniform diffusion transformer raamwerk dat HOI-generatie en -bewerking consolideert in een enkel conditioneel denoisingsproces, aangedreven door gedeelde gestructureerde interactierepresentaties. De kern wordt gevormd door de Relationele Diffusion Transformer (R-DiT), die werkwoord-gemedieerde relaties modelleert via rol- en instantie-bewuste HOI-tokens, lay-out-gebaseerde ruimtelijke Actie-Gronding (Action Grounding), een Gestructureerde HOI-Aandacht (Structured HOI Attention) om de interactietopologie af te dwingen, en HOI RoPE om multi-HOI-scènes te ontwarren. Gezamenlijk getraind met modality dropout op onze HOI-Edit-44K, samen met HOI- en object-gerichte datasets, ondersteunt OneHOI lay-out-geleide, lay-out-vrije, willekeurig-masker- en gemengde-condition-controle, en behaalt state-of-the-art resultaten voor zowel HOI-generatie als -bewerking. Code is beschikbaar op https://jiuntian.github.io/OneHOI/.
Dit artikel richt zich op de afstemming van flow matching-modellen op menselijke voorkeuren. Een veelbelovende aanpak is finetunen door beloningsgradiënten direct terug te propageren door het differentieerbare generatieproces van flow matching. Het terugpropageren door lange trajecten resulteert echter in onhoudbare geheugenkosten en gradiëntexplosie. Daarom hebben directe-gradiëntmethoden moeite met het updaten van vroege generatiestappen, die cruciaal zijn voor het bepalen van de globale structuur van de uiteindelijke afbeelding. Om dit probleem aan te pakken, introduceren wij LeapAlign, een finetunemethode die de rekenkosten verlaagt en directe gradiëntpropagatie van beloning naar vroege generatiestappen mogelijk maakt. Concreet verkorten we het lange traject tot slechts twee stappen door twee opeenvolgende sprongen te ontwerpen, waarbij elke sprong meerdere ODE-bemonsteringsstappen overslaat en toekomstige latente representaties in één stap voorspelt. Door de start- en eindtijdstappen van de sprongen te randomiseren, leidt LeapAlign tot efficiënte en stabiele modelupdates bij elke generatiestap. Om dergelijke verkorte trajecten beter te benutten, kennen we hogere trainingsgewichten toe aan trajecten die consistenter zijn met het lange generatiepad. Om de gradiëntstabiliteit verder te verbeteren, verlagen we de gewichten van gradiënttermen met een grote omvang, in plaats van ze volledig te verwijderen zoals in eerdere werken. Bij het finetunen van het Flux-model presteert LeapAlign consistent beter dan state-of-the-art GRPO-gebaseerde en directe-gradiëntmethoden op verschillende metrieken, en bereikt het superieure beeldkwaliteit en beeld-tekstafstemming.
Vision-language modellen (VLM) hebben de AI-gestuurde interpretatie en rapportage van complexe medische beeldvorming, zoals computertomografie (CT), aanzienlijk vooruitgeholpen. Toch reduceren bestaande methoden clinici grotendeels tot passieve waarnemers van eindresultaten, zonder een interpreteerbaar redeneerspoor voor hen om te inspecteren, valideren of verfijnen. Om dit aan te pakken, introduceren we RadAgent, een AI-agent die tools gebruikt om CT-rapporten te genereren via een stapsgewijs en interpreteerbaar proces. Elk resulterend rapport wordt vergezeld door een volledig inspecteerbaar spoor van tussenbeslissingen en toolinteracties, waardoor clinici kunnen nagaan hoe de gerapporteerde bevindingen worden afgeleid. In onze experimenten merken we op dat RadAgent de generatie van borst-CT-rapporten verbetert ten opzichte van zijn 3D VLM-tegenhanger, CT-Chat, op drie dimensies. De klinische nauwkeurigheid verbetert met 6,0 punten (36,4% relatief) in macro-F1 en 5,4 punten (19,6% relatief) in micro-F1. De robuustheid onder adversariële omstandigheden verbetert met 24,7 punten (41,9% relatief). Bovendien behaalt RadAgent 37,0% in betrouwbaarheid (faithfulness), een geheel nieuwe capaciteit die afwezig is in zijn 3D VLM-tegenhanger. Door de interpretatie van borst-CT's te structureren als een expliciet, met tools versterkt en iteratief redeneerspoor, brengt RadAgent ons dichter bij transparante en betrouwbare AI voor radiologie.
De snelle vooruitgang van Artificial Intelligence Generated Content (AIGC)-tools maakt het mogelijk om op aanvraag afbeeldingen, video's en visualisaties te creëren voor webpaginadesign, wat een flexibel en in toenemende mate geadopteerd paradigma biedt voor moderne UI/UX. Het direct integreren van dergelijke tools in geautomatiseerde webpagina-generatie leidt echter vaak tot stijlinconsistentie en slechte globale coherentie, omdat elementen geïsoleerd worden gegenereerd. Wij stellen MM-WebAgent voor, een hiërarchisch agent-gebaseerd raamwerk voor multimodale webpagina-generatie dat AIGC-gebaseerde elementgeneratie coördineert door middel van hiërarchische planning en iteratieve zelfreflectie. MM-WebAgent optimaliseert gezamenlijk de globale lay-out, lokale multimodale content en hun integratie, waardoor samenhangende en visueel consistente webpagina's worden geproduceerd. We introduceren verder een benchmark voor multimodale webpagina-generatie en een meerniveau-evaluatieprotocol voor systematische beoordeling. Experimenten tonen aan dat MM-WebAgent beter presteert dan code-generatie- en agent-gebaseerde baseline-methoden, met name op het gebied van multimodale elementgeneratie en -integratie. Code & Data: https://aka.ms/mm-webagent.
Multimodale grote taalmodellen (MLLM's) presteren goed op veel visie-taaltaken, maar hebben vaak moeite met visie-centrische problemen die fijnmazig visueel redeneren vereisen. Recent bewijs suggereert dat deze beperking niet voortkomt uit zwakke visuele representaties, maar uit een onderbenutting van visuele informatie tijdens instructie-afstemming (instruction tuning), waarbij veel taken gedeeltelijk opgelost kunnen worden met alleen taalpriors. Wij stellen een eenvoudige en lichtgewicht aanpak voor die visuele instructie-afstemming versterkt met een klein aantal visueel verankerde zelf-gesuperviseerde taken, uitgedrukt als natuurlijke taal-instructies. Door klassieke zelf-gesuperviseerde pretext-taken, zoals rotatievoorspelling, kleurherkenning en cross-view correspondentie, te herformuleren als beeld-instructie-respons triplets, introduceren we supervisie die niet opgelost kan worden zonder op visueel bewijsmateriaal te vertrouwen. Onze aanpak vereist geen menselijke annotaties, geen architectuurwijzigingen en geen extra trainingsfasen. Over meerdere modellen, trainingsregimes en benchmarks heen, verbetert het injecteren van slechts een kleine fractie (3-10%) van dergelijke visueel verankerde instructies consistent de prestaties op visie-centrische evaluaties. Onze bevindingen benadrukken instructie-afstemming met visueel verankerde SSL-taken als een krachtige hefboom om visueel redeneren in MLLM's te verbeteren door eenvoudige aanpassingen aan de verdeling van de trainingsdata. Code beschikbaar op: https://github.com/sirkosophia/V-GIFT
Versterkend Leren (Reinforcement Learning, RL) is naar voren gekomen als een cruciale aanjager voor het verbeteren van de redeneercapaciteiten van Grote Taalmodellen (Large Language Models, LLM's). Hoewel recente vooruitgang zich richtte op beloningsontwerp of datasynthese, benutten weinig onderzoeken de intrinsieke representatiekenmerken van het model om het trainingsproces te sturen. In dit artikel observeren we eerst de aanwezigheid van activaties met een hoge magnitude in de query- en sleutelvectoren bij het verwerken van lange contexten. Geïnspireerd door modelkwantisatie – die het cruciale belang van dergelijke activaties met hoge magnitude aantoont – en het inzicht dat redeneren over lange contexten van nature een sparse structuur vertoont, veronderstellen we dat deze gewichten de cruciale aanjagers zijn voor effectieve modeloptimalisatie. Op basis van dit inzicht stellen we LongAct voor, een strategie die verschuift van uniforme naar op salientie gebaseerde sparse updates. Door selectief alleen de gewichten bij te werken die zijn gekoppeld aan deze significante activaties, behaalt LongAct een verbetering van ongeveer 8% op LongBench v2 en verbetert het de generalisatie op de RULER-benchmark. Bovendien toont onze methode een opmerkelijke universaliteit, waarbij de prestaties consistent worden verbeterd across diverse RL-algoritmen zoals GRPO en DAPO. Uitgebreide ablatiestudies suggereren dat focussen op deze salientiekenmerken de sleutel is om het potentieel voor lange contexten te ontsluiten.
Grote Taalmodellen (LLM's) zijn sterk afhankelijk van Key-Value (KV)-caching om de inferentielatentie te minimaliseren. Standaard KV-caches zijn echter contextafhankelijk: het hergebruiken van een gecached document in een nieuwe context vereist het opnieuw berekenen van KV-toestanden om verschuivingen in de aandachtspreking te verwerken. Bestaande oplossingen zoals CacheBlend, EPIC en SAM-KV verlichten dit probleem door selectief een subset van tokens opnieuw te berekenen; zij lijden echter nog steeds onder niet-verwaarloosbare rekenkosten (FLOPs) en verhoogde Time-to-First-Token (TTFT)-latentie. In dit artikel stellen we KV Packet voor, een raamwerk voor cachehergebruik zonder herberekening, dat gecachede documenten behandelt als onveranderlijke "pakketten" verpakt in lichtgewicht, trainbare soft-token adapters. Deze worden getraind via zelfgesuperviseerde distillatie om contextdiscontinuïteiten te overbruggen. Experimenten met Llama-3.1 en Qwen2.5 tonen aan dat de voorgestelde KV Packet-methode bijna nul FLOPs en een lagere TTFT bereikt dan op herberekening gebaseerde referentiemethoden, terwijl F1-scores worden gehandhaafd die vergelijkbaar zijn met die van de volledige herberekeningsreferentie.
Wij bestuderen gedrags-geregulariseerde reinforcement learning (RL), waarbij regularisatie naar een referentiedistributie (de dataset in offline RL of het basismodel in LLM RL-finetuning) essentieel is om waardeverbetering door foutieve extrapolatie buiten de distributie te voorkomen. Bestaande methodes zijn ofwel gebaseerd op gereparameteriseerd beleidsgradiënten, die moeilijk te schalen zijn naar grote generatieve modellen, ofwel op reject sampling, wat te conservatief kan zijn bij pogingen om buiten de ondersteuning van het gedrag te treden. In dit artikel stellen wij Value Gradient Flow (VGF) voor, een nieuwe, schaalbare paradigma voor gedrags-geregulariseerde RL. VGF beschouwt gedrags-geregulariseerde RL als een optimaal transportprobleem dat de referentiedistributie afbeeldt op de door de waarde geïnduceerde optimale beleidsdistributie. Wij lossen dit transportprobleem op via discrete gradiëntstroming, waarbij waardegradiënten deeltjes sturen die geïnitialiseerd zijn vanuit de referentiedistributie. Onze analyse toont aan dat VGF regularisatie impliciet oplegt door het transportbudget te controleren. VGF elimineert expliciete beleidsparameterisatie terwijl het expressief en flexibel blijft, wat adaptieve schaling tijdens testen mogelijk maakt door het transportbudget aan te passen. Uitgebreide experimenten tonen aan dat VGF aanzienlijk beter presteert dan eerdere methodes en state-of-the-art resultaten behaalt op offline RL-benchmarks (D4RL, OGBench) en LLM RL-taken. Code en runs zijn te vinden op https://ryanxhr.github.io/vgf.
AI-coderingsagenten opereren in een paradox: ze bezitten uitgebreide parametrische kennis, maar kunnen zich geen gesprek van een uur geleden herinneren. Bestaande geheugensystemen slaan tekst op in vectordatabases met enkelvoudige retrieval, vereisen cloud-LLM's voor kernoperaties, en implementeren geen van de cognitieve processen die menselijk geheugen effectief maken. Wij presenteren SuperLocalMemory V3.3 ("The Living Brain"), een lokaal-first agentgeheugensysteem dat de volledige cognitieve geheugentaxonomie implementeert met wiskundige levenscyclusdynamiek. Voortbouwend op de informatie-geometrische fundamenten van V3.2 (arXiv:2603.14588) introduceren we vijf bijdragen: (1) Fisher-Rao Quantization-Aware Distance (FRQAD) – een nieuwe metriek op de Gaussische statistische variëteit die 100% precisie bereikt bij het prefereren van hoogwaardige embeddings boven gekwantiseerde (vs 85.6% voor cosinus), zonder precedent; (2) Ebbinghaus Adaptief Vergeten met levenscyclusbewuste kwantisatie – de eerste wiskundige vergeetcurve in lokaal agentgeheugen gekoppeld aan progressieve embeddingcompressie, met 6.7x discriminerend vermogen; (3) 7-kanaals cognitieve retrieval met semantische, keyword, entiteitengrafiek, temporele, spreading activation, consolidatie en Hopfield associatieve kanalen, behalend 70.4% op LoCoMo in zero-LLM Modus A; (4) geheugenparameterisatie die Langetermijn Impliciet geheugen implementeert via soft prompts; (5) zero-friction auto-cognitieve pijplijn die de volledige geheugenlevenscyclus automatiseert. Op LoCoMo behaalt V3.3 70.4% in Modus A (zero-LLM), met +23.8 procentpunt op multi-hop en +12.7 procentpunt op adversarial. V3.2 behaalde 74.8% in Modus A en 87.7% in Modus C; het 4.4 procentpunt verschil reflecteert een bewuste architecturale afweging. SLM V3.3 is open source onder de Elastic License 2.0, draait volledig op CPU, en heeft meer dan 5.000 maandelijkse downloads.
Tekstgestuurde inversie van generatieve modellen is een kernparadigma voor het manipuleren van 2D- of 3D-inhoud, wat tal van toepassingen mogelijk maakt, zoals tekstgebaseerd bewerken, stijloverdracht of inverse problemen. Dit gaat echter uit van de veronderstelling dat generatieve modellen gevoelig blijven voor prompts in natuurlijke taal. Wij tonen aan dat deze aanname voor state-of-the-art native tekst-naar-3D-generatieve modellen vaak niet opgaat. Wij identificeren een kritieke faalmodus waarbij generatietrajecten worden getrokken naar latente "sink traps": regio's waar het model ongevoelig wordt voor aanpassingen van de prompt. In deze regimes leiden veranderingen in de invoertekst niet tot wijzigingen in de interne representaties die de uitvoergeometrie beïnvloeden. Cruciaal is dat wij observeren dat dit geen beperking is van de geometrische expressiviteit van het model; dezelfde generatieve modellen zijn weliswaar in staat om een enorme verscheidenheid aan vormen te produceren, maar worden, zoals wij aantonen, ongevoelig voor tekstgeleiding buiten de verdeling. Wij onderzoeken dit gedrag door de steekproeftrajecten van het generatieve model te analyseren en stellen vast dat complexe geometrieën nog steeds kunnen worden gerepresenteerd en geproduceerd door gebruik te maken van de onvoorwaardelijke generatieve prior van het model. Dit leidt tot een robuuster raamwerk voor tekstgebaseerde 3D-vormbewerking dat latente sinks omzeilt door de geometrische representatiekracht van een model te ontkoppelen van zijn linguïstische gevoeligheid. Onze aanpak adresseert de beperkingen van huidige 3D-pipelines en maakt hoogwaardige semantische manipulatie van 3D-vormen buiten de verdeling mogelijk. Projectwebpagina: https://daidedou.sorpi.fr/publication/beyondprompts
Retrieval-Augmented Generation (RAG) verankert de reacties van grote taalmodellen (LLM's) in externe bronnen, maar behandelt het model als een passieve consument van zoekresultaten: het ziet nooit hoe de corpus is georganiseerd of wat het nog niet heeft opgehaald, wat zijn vermogen beperkt om terug te spoelen of verspreid bewijs te combineren. Wij presenteren Corpus2Skill, dat offline een documentencorpus destilleert tot een hiërarchische vaardigheidsdirectory en een LLM-agent toestaat hierin tijdens runtime te navigeren. Het compilatieproces clustert iteratief documenten, genereert op elk niveau door een LLM geschreven samenvattingen, en materialiseert het resultaat als een boom van navigeerbare vaardigheidsbestanden. Tijdens runtime krijgt de agent een overzicht op hoofdniveau van de corpus, boort zich via steeds gedetailleerdere samenvattingen in onderwerptakken in, en haalt volledige documenten op via hun ID. Omdat de hiërarchie expliciet zichtbaar is, kan de agent redeneren over waar te zoeken, terugkeren van onproductieve paden en bewijs over verschillende takken combineren. Op WixQA, een enterprise klantenondersteuning-benchmark voor RAG, presteert Corpus2Skill beter dan dense retrieval, RAPTOR en agent-gebaseerde RAG-baselines op alle kwaliteitsmetrieken.
Grote taalmodellen (LLM's) hebben recentelijk aanzienlijke aandacht gekregen als een veelbelovende benadering om wetenschappelijke ontdekkingen te versnellen. Hun toepassing in open-eindige wetenschappelijke domeinen zoals de biologie blijft echter beperkt, voornamelijk vanwege het gebrek aan feitelijk onderbouwde en actiegerichte verklaringen. Om dit aan te pakken, introduceren we een gestructureerd verklaringsformalisme voor virtuele cellen dat biologisch redeneren vertegenwoordigt als mechanistische actiegrafen, wat systematische verificatie en falsificatie mogelijk maakt. Voortbordurend hierop stellen we VCR-Agent voor, een multi-agent framework dat biologisch onderbouwde kennisextractie integreert met een op-verificatie-gebaseerde filteraanpak om autonoom mechanistisch redeneren te genereren en valideren. Met behulp van dit framework publiceren we de VC-TRACES-dataset, die bestaat uit geverifieerde mechanistische verklaringen afgeleid van de Tahoe-100M-atlas. Empirisch tonen we aan dat training met deze verklaringen de feitelijke precisie verbetert en een effectiever supervisiesignaal oplevert voor downstream genexpressievoorspelling. Deze resultaten onderstrepen het belang van betrouwbaar mechanistisch redeneren voor virtuele cellen, bereikt door de synergie van multi-agent systemen en rigoureuze verificatie.
Cross-tokenizer distillatie (CTD), de overdracht van kennis van een leraar- naar een leerling-taalmodel wanneer deze twee verschillende tokenizers gebruiken, blijft een grotendeels onopgelost probleem. Bestaande benaderingen steunen op heuristische strategieën om niet-overeenkomende vocabulaires uit te lijnen, wat aanzienlijke complexiteit introduceert. In dit artikel stellen we een eenvoudige maar effectieve baseline voor, genaamd Byte-Level Distillatie (BLD), die CTD mogelijk maakt door te opereren op een gemeenschappelijk interface tussen tokenizers: het byteniveau. Concreet zetten we de uitvoerdistributie van de leraar om in byteniveau-kansen, koppelen een lichtgewicht byteniveau-decodeerkop aan de leerling, en distilleren via deze gedeelde byteniveau-interface. Ondanks zijn eenvoud presteert BLD competitief met – en overtreft op verschillende benchmarks – aanzienlijk complexere CTD-methoden, over een reeks distillatietaken heen met modellen van 1B tot 8B parameters. Onze resultaten suggereren dat het byteniveau een natuurlijk gemeenschappelijk terrein is voor cross-tokenizer kennisoverdracht, maar benadrukken tegelijkertijd dat consistente verbeteringen over alle taken en benchmarks ongrijpbaar blijven, wat onderstreept dat CTD nog steeds een open probleem is.
Rubric-verrijkte verificatie leidt beloningsmodellen met expliciete evaluatiecriteria, wat betrouwbaardere beoordelingen oplevert dan verificatie met één enkel model. De meeste bestaande methoden vereisen echter kostbare rubric-annotaties, wat de schaalbaarheid beperkt. Bovendien constateren we dat rubric-generatie kwetsbaar is voor een gebrek aan samenwerking; rubric-generatie is kwetsbaar voor een samenwerkingsfalen; rubrics van lage kwaliteit misleiden beloningsmodellen actief in plaats van te helpen. Geïnspireerd door het principe van coöperatieve communicatie stellen we Cooperative yet Critical reward modeling (C²) voor, een raamwerk dat de beoordelingen van beloningsmodellen aanzienlijk verbetert door het model kritisch te laten samenwerken met een rubric-generator die uitsluitend is getraind op binaire voorkeuren. In C² synthetiseren we nuttige en misleidende rubric-paren door te meten hoe elke rubric het beloningsmodel naar de correcte voorkeur toe of er juist vanaf leidt. Met deze contrastieve paren trainen we een coöperatieve rubric-generator om nuttige rubrics voor te stellen, en een kritische verificateur om de rubric-geldigheid te beoordelen alvorens een oordeel te vellen, waarbij deze tijdens inferentie alleen rubrics volgt die hij als nuttig beschouwt. C² presteert beter dan redenerende beloningsmodellen die op dezelfde binaire voorkeuren zijn getraind, met winsten tot 6,5 punten op RM-Bench en 6,0 punten lengte-gecontroleerde winratio op AlpacaEval 2.0. Zonder externe rubric-annotaties stelt C² een 8B-beloningsmodel in staat om de prestaties te evenaren die worden bereikt met rubrics van een model dat 4 keer groter is. Over het geheel genomen toont ons werk aan dat het uitlokken van weloverwogen samenwerking in rubric-verrijkte verificatie beloningsmodellen op een schaalbare manier betrouwbaarder maakt.
Wij presenteren Three-Phase Transformer (3PT), een structurele prior voor het residual-stream in decoder-only Transformers, gebouwd op een standaard SwiGLU + RMSNorm + RoPE + GQA backbone. De verborgen vector wordt opgedeeld in N even grote cyclische kanalen, elk onderhouden door fase-respecterende operaties: een per-kanaal RMSNorm, een 2D Givens-rotatie tussen aandacht en FFN die elk kanaal roteert met theta + i*(2*pi/N), en een hoofdental-beperking die GQA-hoofden uitlijnt met de partitie. De architectuur is een zelfstabiliserend evenwicht tussen scrambling en herinvoering, geen opgeplakt module. De partitie creëert een eendimensionale DC-deelruimte loodrecht op de kanalen, waarin we een vast Gabrielhoorn-profiel r(p) = 1/(p+1) injecteren als een absoluut-positie zijkanaal dat orthogonaal samenstelt met RoPE's relatieve-positie rotatie. De canonieke N=3 ontleent zijn metafoor aan gebalanceerde driefasige wisselstroom, waar drie sinusoiden 120 graden uit fase optellen tot nul zonder anti-gecorreleerd paar. Met 123M parameters op WikiText-103 behaalt 3PT een perplexiteit van -7,20% (-2,62% bits-per-byte) ten opzichte van een gematchte RoPE-Only baseline bij +1.536 parameters (0,00124% van het totaal), met een 1,93x convergentiesnelheid in stappen (1,64x wall-clock). N gedraagt zich als een parameter-delende knop in plaats van een uniek optimum: bij 5,5M is een N-sweep over {1,2,3,4,6,8,12} bijna monotoon met N=1 als winnaar; bij 123M vindt een sweep over drie seeds N=3 en N=1 statistisch ononderscheidbaar. Het dragende mechanisme is de gekanaliseerde residual stream, per-blok rotatie, per-fase normalisatie, en hoorn-DC-injectie. Wij karakteriseren (a) zelfstabilisatie van de geometrie zonder expliciete handhaving, een nieuw geval van het behoudswet-framework voor neurale netwerken; (b) een U-vormig diepteprofiel van rotatiehoek-drift bij 12 lagen; (c) orthogonale compositie met RoPE, aandacht, en FFN.
Meerderheidsstemming over meerdere LLM-pogingen verbetert wiskundig redeneren, maar gecorreleerde fouten beperken de effectieve steekproefomvang. Een logische oplossing is om verschillende redeneerstrategieën toe te wijzen aan verschillende 'stemmers'. Deze aanpak, de Diverse Prompt Mixer, werd getest in de AIMO 3-wedstrijd: 3 modellen, 23+ experimenten, 50 IMO-niveau problemen, één H100 80 GB, tijdslimiet van 5 uur. Elke interventie op promptniveau faalt. Steekproefname met een hoge temperatuur ontkoort fouten al; zwakkere strategieën verminderen de nauwkeurigheid meer dan dat ze de correlatie verminderen. Over een capaciteitskloof van 8 punten bij gelijke N=8 en elke geteste optimalisatie heerst modelcapaciteit. Het verschil tussen de beste meerderheidsstemscore (42/50) en pass@20 (~45,5) is selectieverlies, geen promptverlies. Een op een verifier gebaseerde selector zou dit kunnen dichten. Prompt engineering kan dat niet.
Bij online incrementeel leren arriveren gegevens continu met aanzienlijke distributieverschuivingen, wat een grote uitdaging vormt omdat eerdere samples een beperkte herspeelwaarde hebben bij het aanleren van een nieuwe taak. Eerder onderzoek vertrouwde typisch op ofwel een enkel adaptief centroid ofwel meerdere vaste centroïden om elke klasse in de latente ruimte te representeren. Dergelijke methoden komen echter in de problemen wanneer klassengegevensstromen inherent multimodaal zijn en voortdurende centroid-updates vereisen. Om dit te overwinnen, introduceren we een online Mixture Model-leerraamwerk gebaseerd op de optimaal transporttheorie (MMOT), waarbij centroïden incrementeel meeevolueren met nieuwe gegevens. Deze aanpak biedt twee hoofdvoordelen: (i) het biedt een nauwkeurigere karakterisering van complexe gegevensstromen, en (ii) het maakt verbeterde schatting van klassenovereenkomst mogelijk voor ongeziene samples tijdens inferentie via MMOT-afgeleide centroïden. Versterken we de representatieleren en verminderen we catastrofale vergetelheid door een Dynamisch Behoud-strategie die de latente ruimte reguleert en klasse-scheidbaarheid in de tijd handhaaft. Experimentele evaluaties op benchmark-datasets bevestigen de superieure effectiviteit van onze voorgestelde methode.