Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De ontwikkeling van Vision Language Models (VLM's) is grotendeels afhankelijk geweest van het vergroten van het modelformaat, wat de inzet op rekenkracht-beperkte mobiele en edge-apparaten zoals smartphones en robots belemmert. In dit werk verkennen we de prestatiegrenzen van compacte (bijvoorbeeld 2B en 8B) VLM's. We betwisten de heersende praktijk dat state-of-the-art VLM's moeten vertrouwen op visuele encoders die geïnitialiseerd zijn via massale contrastieve pre-training (bijvoorbeeld CLIP/SigLIP). We identificeren een doelmatigheidsprobleem: contrastief leren, geoptimaliseerd voor discriminatie, legt grove en categoriale invarianties op die fijnmazige visuele aanwijzingen onderdrukken die nodig zijn voor dichte beeldbeschrijving en complexe VLM-redenering. Om dit probleem aan te pakken, presenteren we Penguin-VL, waarvan de visuele encoder wordt geïnitialiseerd vanuit een tekst-only LLM. Onze experimenten tonen aan dat Penguin-Encoder een superieur alternatief biedt voor traditionele contrastieve pre-training, waardoor een hogere mate van visuele nauwkeurigheid en data-efficiëntie voor multimodaal begrip wordt ontsloten. Op diverse beeld- en videobenchmarks bereikt Penguin-VL prestaties die vergelijkbaar zijn met toonaangevende VLM's (bijvoorbeeld Qwen3-VL) in wiskundig redeneren en overtreft het deze in taken zoals documentbegrip, visuele kennis en multi-perspectief videobegrip. Opmerkelijk is dat deze winst wordt behaald met een lichtgewicht architectuur, wat aantoont dat verbeterde visuele representatie, en niet modelschaling, de primaire drijver is van de prestaties. Onze ablatiestudies tonen aan dat Penguin-Encoder consistent beter presteert dan contrastief getrainde encoders, waarbij fijnmazige ruimtelijke en temporele aanwijzingen behouden blijven die cruciaal zijn voor dichte perceptie en complexe redenering. Dit maakt het een sterk drop-in alternatief voor reken-efficiënte VLM's en stelt hoge prestaties mogelijk in omgevingen met beperkte middelen. Code: https://github.com/tencent-ailab/Penguin-VL
Proximale beperkingen zijn fundamenteel voor de stabiliteit van reinforcement learning bij Large Language Models. Hoewel het canonieke clipping-mechanisme in PPO dient als een efficiënte surrogaat voor vertrouwensregio's, identificeren wij een kritieke bottleneck: vaste grenzen beperken strikt de upward-updatemarge van acties met een lage waarschijnlijkheid, waarbij hoog-voordelige tail-strategieën onevenredig worden onderdrukt en een snelle entropie-implosie wordt geïnduceerd. Om dit aan te pakken, introduceren wij Band-constrained Policy Optimization (BandPO). BandPO vervangt canonieke clipping door Band, een uniforme theoretische operator die vertrouwensregio's gedefinieerd door f-divergenties projecteert in dynamische, waarschijnlijkheidsbewuste clipping-intervallen. Theoretische analyse bevestigt dat Band deze exploratiebottleneck effectief oplost. Wij formuleren deze mapping als een convex optimalisatieprobleem, waarbij een globaal optimale numerieke oplossing wordt gegarandeerd en gesloten-vorm oplossingen voor specifieke divergenties worden afgeleid. Uitgebreide experimenten met diverse modellen en datasets tonen aan dat BandPO consequent superieure prestaties levert vergeleken met canonieke clipping en Clip-Higher, terwijl het robuust entropie-implosie tegengaat.
Wereldmodellen bieden een krachtig raamwerk voor het simuleren van omgevingsdynamiek, geconditioneerd op acties of instructies, wat downstreamtaken zoals actieplanning of beleidsleren mogelijk maakt. Recente benaderingen maken gebruik van wereldmodellen als geleerde simulatoren, maar de toepassing ervan voor planning op besluitvormingstijd blijft rekenkundig onhaalbaar voor realtime controle. Een belangrijke bottleneck ligt in de latente representaties: conventionele tokenizers coderen elke observatie in honderden tokens, wat planning zowel traag als resource-intensief maakt. Om dit aan te pakken, stellen we CompACT voor, een discrete tokenizer die elke observatie comprimeert tot slechts 8 tokens, waardoor de rekenkosten drastisch worden verlaagd terwijl essentiële informatie voor planning behouden blijft. Een actie-geconditioneerd wereldmodel dat gebruikmaakt van de CompACT-tokenizer behaalt competitieve planningsprestaties met een orde-van-grootte snellere planning, en biedt zo een praktische stap naar de inzet van wereldmodellen in de echte wereld.
Productieklare menselijke videogeneratie vereist dat digitale acteurs een strikt consistente volledige lichaamsidentiteit behouden over dynamische shots, gezichtspunten en bewegingen heen, een uitdaging waar bestaande methoden nog steeds mee worstelen. Eerdere methoden vertonen vaak een gezichtsgerichte focus die lichaamsoverkoepelende consistentie verwaarloost, of produceren copy-paste-artefacten waarbij personen stijf overkomen door pose-vergrendeling. Wij presenteren Actor-18M, een grootschalige dataset van menselijke video's die is ontworpen om identiteitsconsistentie vast te leggen onder onbeperkte gezichtspunten en omgevingen. Actor-18M omvat 1,6 miljoen video's met 18 miljoen bijbehorende menselijke afbeeldingen, en omvat zowel willekeurige aanzichten als canonieke drie-aanzicht representaties. Gebruikmakend van Actor-18M stellen we WildActor voor, een raamwerk voor menselijke videogeneratie met conditie op elk gewenst gezichtspunt. We introduceren een Asymmetrisch Identiteit-Bewarend Aandachtsmechanisme, gekoppeld aan een Viewpoint-Adaptieve Monte Carlo-steekproefstrategie die referentievoorwaarden iteratief herweegt op basis van marginaal nut voor een gebalanceerde dekking van de variëteit. Geëvalueerd op de voorgestelde Actor-Bench, behoudt WildActor consistent de lichaamsidentiteit onder diverse shotcomposities, grote gezichtspuntsovergangen en aanzienlijke bewegingen, en overtreft daarmee bestaande methoden in deze uitdagende omstandigheden.
Chain-of-thought (CoT)-monitoring is een veelbelovend instrument voor het detecteren van wangedrag en het begrijpen van de motivaties van moderne redeneermodellen. Als modellen echter kunnen controleren wat ze in hun CoT verbaliseren, kan dit de controleerbaarheid van CoT ondermijnen. Om deze ongewenste capaciteit – CoT-controleerbaarheid – te meten, introduceren we de CoT-Control-evaluatieset, die taken omvat die modellen vereisen om problemen op te lossen terwijl ze CoT-instructies volgen, bijvoorbeeld door een genetische vraag te beantwoorden zonder het woord 'chromosoom' te gebruiken. We tonen aan dat redeneermodellen een aanzienlijk lagere CoT-controleerbaarheid bezitten dan outputcontroleerbaarheid; Claude Sonnet 4.5 kan zijn CoT bijvoorbeeld slechts 2,7% van de tijd controleren, maar 61,9% wanneer het zijn uiteindelijke output controleert. We stellen ook vast dat CoT-controleerbaarheid hoger is voor grotere modellen en afneemt met meer RL-training, rekentijd tijdens testen en toenemende probleemcomplexiteit. Mislukkingen in CoT-controleerbaarheid treden zelfs op in situaties waarin modellen prikkels krijgen (in plaats van directe verzoeken) om CoT-monitors te omzeilen, hoewel modellen een licht hogere controleerbaarheid vertonen wanneer hen wordt verteld dat ze gemonitord worden. Evenzo leidt het uitlokken van controleerbaarheid door middels adversarial prompting prompts te optimaliseren niet tot een significante toename van controleerbaarheid. Onze resultaten maken ons voorzichtig optimistisch dat CoT-controleerbaarheid momenteel onwaarschijnlijk een faalmodus van CoT-controleerbaarheid is. Het mechanisme achter de lage controleerbaarheid is echter niet goed begrepen. Gezien het belang ervan voor het handhaven van CoT-controleerbaarheid, bevelen we aan dat frontier labs CoT-controleerbaarheid in toekomstige modellen blijven volgen.
Geheugen is cruciaal voor robotmanipulatie met een lange tijdschaal en geschiedenisafhankelijkheid. Dergelijke taken omvatten vaak het tellen van herhaalde handelingen of het manipuleren van objecten die tijdelijk aan het zicht worden onttrokken. Recente vision-language-action (VLA) modellen beginnen geheugenmechanismen te incorporeren; hun evaluaties blijven echter beperkt tot smalle, niet-gestandaardiseerde omgevingen. Dit belemmert een systematisch begrip, vergelijking en voortgangsmeting. Om deze uitdagingen aan te pakken, introduceren we RoboMME: een grootschalige, gestandaardiseerde benchmark voor het evalueren en verbeteren van VLA-modellen in scenario's met een lange tijdschaal en geschiedenisafhankelijkheid. Onze benchmark omvat 16 manipulatietaken, opgebouwd volgens een zorgvuldig ontworpen taxonomie die temporaal, ruimtelijk, object- en procedureel geheugen evalueert. We ontwikkelen verder een reeks van 14 met geheugen versterkte VLA-varianten, gebouwd op de π0.5-backbone, om verschillende geheugenrepresentaties systematisch te onderzoeken over meerdere integratiestrategieën. Experimentele resultaten tonen aan dat de effectiviteit van geheugenrepresentaties sterk taakafhankelijk is, waarbij elk ontwerp duidelijke voor- en nadelen biedt voor verschillende taken. Video's en code zijn beschikbaar op onze website https://robomme.github.io.
Transformer-architecturen vormen de ruggengraat van de meeste moderne Large Language Models, waardoor hun pretrainingsstabiliteit en convergentiesnelheid van centraal belang zijn. Gemotiveerd door de logische afhankelijkheid van opeenvolgend gestapelde lagen, stellen we Progressive Residual Warmup (ProRes) voor voor het pretrainen van taalmodel. ProRes implementeert een "vroege laag leert eerst"-filosofie door de residuele verbinding van elke laag te vermenigvuldigen met een scalar die geleidelijk opwarmt van 0 naar 1, waarbij diepere lagen meer opwarmstappen nodig hebben. Op deze manier wachten diepere lagen tot vroege lagen zich in een stabieler regime hebben gestabiliseerd voordat zij bijdragen aan het leerproces. We demonstreren de effectiviteit van ProRes via pretrainingsexperimenten met diverse modelschalen, normalisatie- en initialisatieschema's. Uitgebreide analyse toont aan dat ProRes niet alleen de pretraining stabiliseert, maar ook een unieke optimalisatietrajectorie introduceert, wat leidt tot snellere convergentie, sterkere generalisatie en betere downstream-prestaties. Onze code is beschikbaar op https://github.com/dandingsky/ProRes.
Lang-context modellering is een cruciale capaciteit voor grote taalmodellen, maar de kwadratische complexiteit van aandacht (attention) blijft een kritieke bottleneck, vooral tijdens de rekenintensieve prefase (prefilling). Hoewel diverse sparse attention-mechanismen zijn onderzocht, lijden deze doorgaans onder aanzienlijke zoeklatentie of onvoldoende sparsiteit. In dit artikel presenteren we FlashPrefill, een raamwerk dat ultra-snelle prefase mogelijk maakt via directe patroondetectie en thresholding. FlashPrefill benut een snelle blokzoektechniek om gelijktijdig dynamische verticale, diagonale en blok-sparse aandachtspatronen te lokaliseren. Cruciaal is de introductie van een dynamisch thresholding-mechanisme dat de verboden overhead van sorteren of accumuleren van attentiescores omzeilt, terwijl het de long-tail distributie effectief elimineert om sparsiteit te verbeteren. Uitgebreide evaluaties tonen aan dat FlashPrefill een substantiële efficiëntiesprong realiseert, met een ongekende 27.78x versnelling op 256K sequenties. Opmerkelijk is dat, in tegenstelling tot bestaande methoden die efficiëntieverlies vertonen bij kortere contexten, FlashPrefill een 1.71x versnelling handhaaft zelfs bij een contextlengte van 4K, wat de robuustheid en praktische bruikbaarheid over verschillende sequentieschalen aantoont.
Sequentiële LLM-agenten falen bij langetermijnplanning met strikte beperkingen zoals budgetten en diversiteitseisen. Naarmate de planning vordert en de context groeit, wijken deze agenten af van globale beperkingen. Wij stellen HiMAP-Travel voor, een hiërarchisch multi-agent raamwerk dat planning opsplitst in strategische coördinatie en parallelle dagelijkse uitvoering. Een coördinator wijst middelen toe over dagen, terwijl daguitvoerders onafhankelijk en parallel plannen. Drie belangrijke mechanismen maken dit mogelijk: een transactionele monitor die budget- en uniciteitsbeperkingen afdwingt over parallelle agenten, een onderhandelingsprotocol waarmee agenten onhaalbare subdoelen kunnen afwijzen en herplanning kunnen activeren, en een enkel beleid getraind met GRPO dat alle agenten aanstuurt via rolconditionering. Op TravelPlanner behaalt HiMAP-Travel met Qwen3-8B een Final Pass Rate (FPR) van 52,78% op de validatieset en 52,65% op de testset. In een gecontroleerde vergelijking met identiek model, training en tools, presteert het +8,67 procentpunt beter dan de sequentiële DeepTravel-baseline. Het overtreft ook ATLAS met +17,65 procentpunt en MTP met +10,0 procentpunt. Op de multi-turn scenario's van FlexTravelBench behaalt het een FPR van 44,34% (2-turn) en 37,42% (3-turn), terwijl de latentie 2,5x wordt verminderd door parallelisatie.
Diffusion Transformers verwerken afbeeldingen als vaste-lengte sequenties van tokens die worden geproduceerd door een statische patchify-operatie. Hoewel effectief, besteedt dit ontwerp uniforme rekenkracht aan zowel regio's met weinig als veel informatie, waarbij wordt genegeerd dat afbeeldingen regio's met variërende detailrijkdom bevatten en dat het denoisingsproces verloopt van grove structuur in de vroege tijdstappen naar fijne details in de late tijdstappen. Wij introduceren de Dynamic Chunking Diffusion Transformer (DC-DiT), die de DiT-backbone uitbreidt met een geleerd encoder-router-decoder-scaffold dat de 2D-invoer adaptief comprimeert tot een kortere tokensequentie op een data-afhankelijke manier, gebruikmakend van een chunking-mechanisme dat end-to-end wordt aangeleerd met diffusietraining. Het mechanisme leert uniforme achtergrondregio's te comprimeren tot minder tokens en detailrijke regio's tot meer tokens, waarbij zinvolle visuele segmentaties ontstaan zonder expliciete supervisie. Bovendien leert het ook zijn compressie aan te passen over diffusietijdstappen heen, door minder tokens te gebruiken in ruisrijke stadia en meer tokens naarmate fijne details verschijnen. Op klasse-voorwaardelijke ImageNet 256×256 verbetert DC-DiT consistent de FID en Inception Score ten opzichte van zowel parameter-gelijke als FLOP-gelijke DiT-baselines bij 4× en 16× compressie, wat aantoont dat dit een veelbelovende techniek is met potentiële verdere toepassingen in pixel-ruimte, video- en 3D-generatie. Naast nauwkeurigheid is DC-DiT praktisch: het kan worden opgewaardeerd vanuit voorgetrainde DiT-checkpoints met minimale rekenkracht na de training (tot 8× minder trainingsstappen) en combineert met andere dynamische rekenmethoden om de generatie-FLOPs verder te verminderen.
Visuele effecten (VFX) zijn essentieel voor het verbeteren van de expressiviteit en creativiteit van videocontent, maar het produceren van hoogwaardige effecten vereist doorgaans expertkennis en kostbare productiepijplijnen. Bestaande AIGC-systemen kampen met aanzienlijke uitdagingen bij VFX-generatie vanwege de schaarste aan effectspecifieke data en de inherente moeilijkheid om bovennatuurlijke of gestileerde effecten te modelleren. Bovendien vereisen deze benaderingen vaak fine-tuning per effect, wat hun schaalbaarheid en generalisatie naar nieuwe VFX ernstig beperkt. In dit werk presenteren we EffectMaker, een uniform raamwerk voor redeneren en genereren dat referentiegebaseerde VFX-aanpassing mogelijk maakt. EffectMaker gebruikt een multimodaal groot taalmodel om hoogwaardige effectsemantiek te interpreteren en te redeneren over hoe deze zich moeten aanpassen aan een doelsubject, terwijl een diffusion transformer in-context learning benut om fijnmazige visuele aanwijzingen uit referentievideo's vast te leggen. Deze twee componenten vormen een semantisch-visueel dubbelpad-gidingsmechanisme dat nauwkeurige, controleerbare en effectconsistente synthese mogelijk maakt zonder fine-tuning per effect. Verder construeren we EffectData, de grootste hoogwaardige synthetische dataset met 130k video's verdeeld over 3k VFX-categorieën, om generalisatie en schaalbaarheid te verbeteren. Experimenten tonen aan dat EffectMaker superieure visuele kwaliteit en effectconsistentie bereikt ten opzichte van state-of-the-art baseline-methoden, en biedt zo een schaalbaar en flexibel paradigma voor gepersonaliseerde VFX-generatie. Projectpagina: https://effectmaker.github.io
Flow-based vision-language-action (VLA)-modellen blinken uit in embodied control, maar kampen met onhanteerbare likelihoods tijdens multi-step sampling, wat online reinforcement learning belemmert. Wij stellen \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning) voor, een critic-en likelihood-vrij raamwerk dat slechts één forward pass per optimalisatiestap vereist en hulpwaardenetwerken overbodig maakt. Wij tonen aan dat ruimere verkenningen (wider exploration spaces) fijnmazigere, stapsgewijze begeleiding voor alignment vereisen. Empirisch gezien ontgrendelt π-StepNFT latent potentieel op LIBERO met competitieve few-shot robuustheid. Bovendien bereikt het superieure generalisatie op ManiSkill, waarbij het waardegestuurde baseline-methoden overtreft in OOD-scenario's door overfitting aan multimodale kenmerken te voorkomen. Deze eigenschap biedt een schaalbare oplossing die veelbelovend is voor complexe real-world toepassingen.
Recente vooruitgang in grote taalmmodellen (LLM's) heeft nieuwe mogelijkheden geopend voor multimodale redenering. Toch vertrouwen de meeste bestaande methoden nog steeds op vooraf getrainde visie-taalmodellen (VLM's) om beeld-tekstparen geïsoleerd te coderen, waarbij de relationele structuur die multimodale gegevens in de echte wereld van nature vormen, wordt genegeerd. Dit motiveert redeneren op multimodale grafieken (MMG's), waarbij elke node tekstuele en visuele attributen heeft en edges structurele aanwijzingen bieden. Het mogelijk maken van op LLM's gebaseerde redenering op dergelijke heterogene multimodale signalen, met behoud van grafiektopologie, introduceert twee belangrijke uitdagingen: het oplossen van zwakke cross-modale consistentie en het omgaan met heterogene modaliteitsvoorkeur. Om dit aan te pakken, stellen we Mario voor, een uniform raamwerk dat gelijktijdig de twee bovengenoemde uitdagingen oplost en effectieve op LLM's gebaseerde redenering over MMG's mogelijk maakt. Mario bestaat uit twee innovatieve fasen. Ten eerste een op grafiek geconditioneerd VLM-ontwerp dat tekstuele en visuele kenmerken gezamenlijk verfijnt door fijnmazig contrastief leren tussen modaliteiten, geleid door de grafiektopologie. Ten tweede een modaliteitsadaptief mechanisme voor grafiekinstructie-afstemming dat uitgelijnde multimodale kenmerken organiseert in grafiekbewuste instructieweergaven en een leerbare router gebruikt om voor elke node en zijn omgeving de meest informatieve modaliteitsconfiguratie naar de LLM te sturen. Uitgebreide experimenten op diverse MMG-benchmarks tonen aan dat Mario consequent superieure prestaties levert vergeleken met state-of-the-art grafiekmodellen in zowel begeleide als zero-shot scenario's voor nodeclassificatie en linkvoorspelling. De code zal beschikbaar worden gesteld op https://github.com/sunyuanfu/Mario.
Recente vooruitgang in diffusiegebaseerde videogeneratie heeft opmerkelijke visuele realisatie bereikt, maar worstelt nog steeds met het naleven van basale natuurkundige wetten zoals zwaartekracht, traagheid en botsing. Gegenereerde objecten bewegen vaak inconsistent tussen frames, vertonen ongeloofwaardige dynamiek of overtreden fysieke beperkingen, wat de realiteitswaarde en betrouwbaarheid van AI-gegenereerde video's beperkt. Wij dichten deze kloof door Physical Simulator In-the-loop Video Generation (PSIVG) te introduceren, een nieuw framework dat een fysieke simulator integreert in het videodiffusieproces. Uitgaande van een sjabloonvideo gegenereerd door een vooraf getraind diffusiemodel, reconstrueert PSIVG de 4D-scène en voorgrondobjectmallen, initialiseert deze in een fysieke simulator en genereert fysiek consistente trajecten. Deze gesimuleerde trajecten worden vervolgens gebruikt om de videogenerator te sturen naar ruimtelijk-tijdelijk fysiek coherente beweging. Om de textuurconsistentie tijdens objectbeweging verder te verbeteren, stellen we een Test-Time Texture Consistency Optimization (TTCO)-techniek voor die tekst- en feature-embeddings aanpast op basis van pixelcorrespondenties uit de simulator. Uitgebreide experimenten tonen aan dat PSIVG video's produceert die beter voldoen aan de fysica van de echte wereld, terwijl de visuele kwaliteit en diversiteit behouden blijven. Projectpagina: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
De snelle groei van grote taalmodellen (LLM's) met uiteenlopende capaciteiten, kosten en toepassingsdomeinen heeft een kritieke behoefte gecreëerd aan intelligente modelselectie tijdens inferentie. Terwijl kleinere modellen volstaan voor routinematige vragen, vereisen complexe taken krachtigere modellen. Statische modelimplementatie houdt echter geen rekening met de complexiteit en het domein van inkomende queries, wat leidt tot suboptimale prestaties en hogere kosten. Dynamische routersystemen die adaptief modellen selecteren op basis van querykenmerken zijn naar voren gekomen als een oplossing voor deze uitdaging. Wij bieden een systematische analyse van state-of-the-art multi-LLM-routerings- en cascadingbenaderingen. In tegenstelling tot mixture-of-experts-architecturen, die routering binnen één model uitvoeren, bestuderen wij routering over meerdere onafhankelijk getrainde LLM's. Wij behandelen diverse routeringsparadigma's, waaronder querymoeilijkheidsgraad, menselijke voorkeuren, clustering, onzekerheidskwantificering, reinforcement learning, multimodaliteit en cascading. Voor elk paradigma analyseren wij representatieve methoden en onderzoeken wij belangrijke afwegingen. Naast een taxonomie introduceren wij een conceptueel kader dat routersystemen langs drie dimensies karakteriseert: wanneer beslissingen worden genomen, welke informatie wordt gebruikt en hoe ze worden berekend. Dit perspectief benadrukt dat praktische systemen vaak compositioneel zijn en meerdere paradigma's integreren onder operationele beperkingen. Onze analyse toont aan dat effectieve multi-LLM-routering het balanceren van concurrerende doelstellingen vereist. De keuze van de optimale routeringsstrategie hangt af van implementatie- en rekenbeperkingen. Goed ontworpen routersystemen kunnen zelfs de krachtigste individuele modellen overtreffen door gespecialiseerde capaciteiten strategisch over modellen heen te benutten, terwijl efficiëntiewinsten worden gemaximaliseerd. Tegelijkertijd blijven er open uitdagingen bestaan in de ontwikkeling van routeringsmechanismen die generaliseren over diverse architecturen, modaliteiten en toepassingen.
Group Relative Policy Optimization (GRPO) is zeer effectief voor getrainde autoregressieve (AR) taalmodel(len), maar de directe toepassing ervan op diffusion large language models (dLLM's) leidt vaak tot reward collapse. Wij identificeren twee bronnen van incompatibiliteit. Ten eerste vertrouwt GRPO op important ratios die zijn gedefinieerd door sequentiekansen, die in dLLM's onberekenbaar zijn en geschat moeten worden (bijvoorbeeld via ELBO-gebaseerde of mean-field likelihood proxies), wat inherent ruisrijke ratios oplevert. Ten tweede is de formulering van standaard GRPO niet ontworpen voor geschatte ratios: de conditionele clipping kan op een afwijkende manier worden omzeild door model-agnostische schattingsruis, wat gradient spikes produceert, terwijl de vaste normalisatie van de groepsgrootte fluctuaties in de gradient-grootte versterkt onder hoog-variantie ratioschattingen. Wij tonen aan dat deze effecten een zichzelf versterkende instabiliteitslus vormen die policy drift veroorzaakt en de ratio-variantie verder vergroot. Om deze lus te doorbreken, stellen wij StableDRL voor, een herformulering van GRPO die is afgestemd op dLLM's en gebruikmaakt van (i) onvoorwaardelijke clipping om door uitschieters veroorzaakte spikes te onderdrukken en (ii) zelf-normalisatie om updates te begrenzen binnen het convexe omhulsel van per-voorbeeld gradients. Wij breiden StableDRL verder uit naar bloksgewijze diffusionmodellen via een staircase attention-mechanisme.
Diffusiegebaseerde wereldmodellen hebben een sterk potentieel getoond voor uniforme wereldsimulatie, maar de iteratieve ruwverwijdering blijft te kostbaar voor interactief gebruik en rollouts met een lange tijdshorizon. Hoewel feature-caching inferentie kan versnellen zonder training, stellen we vast dat beleidsregels die zijn ontworpen voor unimodale diffusie zich slecht laten vertalen naar wereldmodellen vanwege twee model-specifieke obstakels: tokenheterogeniteit door multimodale koppeling en ruimtelijke variatie, en niet-uniforme temporele dynamiek waarbij een kleine set moeilijke tokens de foutgroei aandrijft, waardoor uniform overslaan instabiel of overdreven conservatief wordt. Wij stellen WorldCache voor, een caching-framework toegesneden op diffusie-wereldmodellen. We introduceren Kromming-gestuurde Heterogene Tokenvoorspelling, die een op natuurkunde gebaseerde krommingsscore gebruikt om de voorspelbaarheid van tokens in te schatten en een Hermite-gestuurde gedempte voorspeller toepast voor chaotische tokens met abrupte richtingsveranderingen. We ontwerpen ook Chaotisch-geprioriteerd Adaptief Overslaan, dat een genormaliseerd, dimensieloos driftsignaal accumuleert en alleen opnieuw berekent wanneer bottleneck-tokens beginnen te verschuiven. Experimenten met diffusie-wereldmodellen tonen aan dat WorldCache end-to-end versnellingen tot 3,7x levert met behoud van 98% rolloutkwaliteit, wat de grote voordelen en praktische bruikbaarheid van WorldCache in resourcebeperkte scenario's aantoont. Onze code is vrijgegeven op https://github.com/FofGofx/WorldCache.
Wij introduceren PixARMesh, een methode om autogressief complete 3D-binnenscènemeshs direct vanuit een enkele RGB-afbeelding te reconstrueren. In tegenstelling tot eerdere methoden die vertrouwen op impliciete signed distance fields en post-hoc lay-outoptimalisatie, voorspelt PixARMesh objectlay-out en -geometrie gezamenlijk binnen een unified model, waarbij coherente en direct bruikbare meshs in één enkele forward pass worden geproduceerd. Voortbouwend op recente vooruitgang in generatieve meshmodellen, rusten we een point-cloud-encoder uit met pixel-uitgelijnde beeldkenmerken en globale scènecontext via cross-attention, waardoor accurate ruimtelijke redenering vanuit een enkele afbeelding mogelijk wordt. Scènes worden autogressief gegenereerd vanuit een unified tokenstroom die context, pose en mesh bevat, wat compacte meshs met hoogwaardige geometrie oplevert. Experimenten op synthetische en real-world datasets tonen aan dat PixARMesh state-of-the-art reconstructiekwaliteit bereikt, terwijl het lichte, hoogwaardige meshs produceert die direct klaar zijn voor downstream-toepassingen.
Computer-Aided Design (CAD) steunt op gestructureerde en bewerkbare geometrische representaties, maar bestaande generatieve methoden worden beperkt door kleine, geannoteerde datasets met expliciete ontwerpgeschiedenissen of boundary representation (BRep)-labels. Ondertussen blijven miljoenen niet-geannoteerde 3D-meshes onbenut, wat de vooruitgang in schaalbare CAD-generatie belemmert. Om dit aan te pakken, stellen we DreamCAD voor, een multimodaal generatief framework dat direct bewerkbare BReps produceert vanuit point-level supervisie, zonder CAD-specifieke annotaties. DreamCAD vertegenwoordigt elke BRep als een set van parametrische patches (bijvoorbeeld Bézier-oppervlakken) en gebruikt een differentieerbare tessellatiemethode om meshes te genereren. Dit maakt grootschalige training op 3D-datasets mogelijk, terwijl verbonden en bewerkbare oppervlakken worden gereconstrueerd. Verder introduceren we CADCap-1M, de grootste CAD-beschrijvingsdataset tot nu toe, met meer dan 1 miljoen beschrijvingen gegenereerd met GPT-5, om onderzoek naar text-to-CAD te bevorderen. DreamCAD behaalt state-of-the-art prestaties op de ABC- en Objaverse-benchmarks voor tekst-, beeld- en pointmodaliteiten, verbetert de geometrische nauwkeurigheid en overstijgt een gebruikersvoorkeur van 75%. Code en dataset zullen openbaar beschikbaar worden gesteld.
Conversatie-agents worden steeds vaker ingezet in kennisintensieve omgevingen, waar correct gedrag afhangt van het ophalen en toepassen van domeinspecifieke kennis uit grote, propriëtaire en ongestructureerde corpora tijdens live interacties met gebruikers. Toch evalueren de meeste bestaande benchmarks retrieval of toolgebruik onafhankelijk van elkaar, wat een kloof creëert in realistische, volledig agentische evaluatie over ongestructureerde data in langdurige interacties. Wij introduceren τ-Knowledge, een uitbreiding van τ-Bench voor het evalueren van agents in omgevingen waar succes afhangt van het coördineren van externe, natuurlijktaalkundige kennis met tooloutputs om verifieerbare, beleidsconforme staatswijzigingen te produceren. Ons nieuwe domein, τ-Banking, modelleert realistische fintech-klantenondersteuningsworkflows waarin agents moeten navigeren door ongeveer 700 onderling verbonden kennisdocumenten terwijl ze tool-gemedieerde accountupdates uitvoeren. Over embedding-gebaseerde retrieval en terminal-gebaseerd zoeken heen, halen zelfs frontier-modellen met hoge redeneerbudgets slechts sim25.5% pass^1, waarbij de betrouwbaarheid sterk afneemt over herhaalde trials. Agents hebben moeite om de correcte documenten op te halen uit dicht verbonden kennisbanken en om accuraat te redeneren over complex intern beleid. Over het algemeen biedt τ-Knowledge een realistische testomgeving voor het ontwikkelen van agents die ongestructureerde kennis integreren in mensgerichte inzettingen.
Het genereren van presentaties vereist diepgaand inhoudelijk onderzoek, coherent visueel ontwerp en iteratieve verfijning op basis van observatie. Bestaande presentatie-agentschappen vertrouwen echter vaak op vooraf gedefinieerde workflows en vaste sjablonen. Om dit aan te pakken, presenteren wij DeepPresenter, een agent-gebaseerd framework dat zich aanpast aan diverse gebruikersintenties, effectieve feedback-gestuurde verfijning mogelijk maakt en generaliseert voorbij een gescripte pijplijn. Concreet plant, rendert en reviseert DeepPresenter autonoom tussenliggende slide-artefacten om langetermijnverfijning met omgevingsobservaties te ondersteunen. Bovendien, in plaats van te vertrouwen op zelfreflectie over interne signalen (zoals redeneersporen), grondt onze op de omgeving gebaseerde reflectie het generatieproces in waargenomen artefacttoestanden (zoals gerenderde slides), waardoor het systeem presentatiespecifieke problemen tijdens uitvoering kan identificeren en corrigeren. Resultaten op de evaluatieset, die diverse presentatiegeneratiescenario's dekt, tonen aan dat DeepPresenter state-of-the-art prestaties bereikt, en het fine-tuned 9B-model blijft zeer competitief tegen aanzienlijk lagere kosten. Ons project is beschikbaar op: https://github.com/icip-cas/PPTAgent
Offline doelgerichte reinforcement learning (GCRL) leert doelgerichte beleidsfuncties van statische, vooraf verzamelde datasets. Nauwkeurige waardeschatting blijft echter een uitdaging vanwege de beperkte dekking van de staat-actie-ruimte. Recente fysica-geïnformeerde benaderingen hebben getracht dit aan te pakken door fysieke en geometrische beperkingen op te leggen aan de waardefunctie via regularisatie gedefinieerd over partiële differentiaalvergelijkingen (PDV's) van de eerste orde, zoals de Eikonal-vergelijking. Deze formuleringen kunnen echter vaak slecht gesteld zijn in complexe, hoogdimensionale omgevingen. In dit werk stellen we een fysica-geïnformeerde regularisatie voor, afgeleid van de viscositeitsoplossing van de Hamilton-Jacobi-Bellman (HJB)-vergelijking. Door een op fysica gebaseerde inductieve bias te bieden, verankert onze aanpak het leerproces in de optimale regeltheorie en regulariseert en begrenst het updates tijdens waardeteraties expliciet. Verder maken we gebruik van de Feynman-Kac-stelling om de PDV-oplossing te herformuleren als een verwachtingswaarde, wat een hanteerbare Monte Carlo-schatting van het doel mogelijk maakt die numerieke instabiliteit in hogere-orde gradiënten vermijdt. Experimenten tonen aan dat onze methode de geometrische consistentie verbetert, waardoor deze breed toepasbaar is voor navigatie- en hoogdimensionale, complexe manipulatietaken. Open-source code is beschikbaar op https://github.com/HrishikeshVish/phys-fk-value-GCRL.
Beeldrestauratie onder uiteenlopende degradaties blijft een uitdaging voor uniforme alles-in-één-frameworks vanwege feature-interferentie en onvoldoende expertspecialisatie. Wij stellen SLER-IR voor, een sferisch gelaagd expertrouteringsframework dat gespecialiseerde experts dynamisch activeert over netwerklagen heen. Om betrouwbare routering te garanderen, introduceren we een Sferische Uniforme Degradatie-Embedding met contrastief leren, die degradatierepresentaties afbeeldt op een hypersfeer om geometrische bias in lineaire embeddingruimtes te elimineren. Daarnaast integreert een Global-Local Granulariteitsfusie (GLGF)-module globale semantiek en lokale degradatiesignalen om ruimtelijk niet-uniforme degradaties en de granulariteitskloof tussen training en testen aan te pakken. Experimenten op benchmarks met drie en vijf taken tonen aan dat SLER-IR consistente verbeteringen bereikt ten opzichte van state-of-the-art-methoden in zowel PSNR als SSIM. Code en modellen zullen openbaar worden vrijgegeven.
Grote taalmodellen produceren soms onjuiste of misleidende antwoorden. Twee benaderingen voor dit probleem zijn het uitlokken van eerlijkheid – het aanpassen van prompts of gewichten zodat het model waarheidsgetrouw antwoordt – en leugendetectie – het classificeren of een bepaald antwoord onwaar is. Eerder onderzoek evalueert dergelijke methoden op modellen die specifiek zijn getraind om te liegen of informatie te verbergen, maar deze kunstmatige constructies lijken mogelijk niet op natuurlijk voorkomende oneerlijkheid. In plaats daarvan bestuderen we open-gewicht LLM's van Chinese ontwikkelaars, die zijn getraind om politiek gevoelige onderwerpen te censureren: Qwen3-modellen produceren vaak onwaarheden over onderwerpen zoals Falun Gong of de protesten op het Tiananmen-plein, maar geven af en toe een correct antwoord, wat aangeeft dat ze kennis bezitten die ze zijn getraind om te onderdrukken. We gebruiken dit als testomgeving om een reeks technieken voor het uitlokken van eerlijkheid en leugendetectie te evalueren. Voor het uitlokken van eerlijkheid verhogen steekproefsgewijze antwoordgeneratie zonder chatsjabloon, few-shot prompting en finetunen op generieke eerlijkheidsgegevens het meest betrouwbaar de waarheidsgetrouwe antwoorden. Voor leugendetectie presteert het aan de hand van een gecensureerd model vragen om zijn eigen antwoorden te classificeren bijna even goed als een bovengrens van een ongecensureerd model, en lineaire probes die zijn getraind op niet-gerelateerde gegevens bieden een goedkoper alternatief. De sterkste technieken voor het uitlokken van eerlijkheid zijn ook toepasbaar op geavanceerde open-gewicht modellen zoals DeepSeek R1. Opmerkelijk is dat geen enkele techniek de onjuiste antwoorden volledig elimineert. We maken alle prompts, code en transcripties openbaar.
Het schalen van rekencapaciteit tijdens inferentie voor Large Language Models (LLM's) heeft ongekende redeneervermogens ontsloten. Bestaande methoden voor schaling tijdens inferentie zijn echter doorgaans gebaseerd op inefficiënte en suboptimale discrete zoekalgoritmen of trial-and-error-prompting om het online-beleid te verbeteren. In dit artikel stellen we nabla-Reasoner voor, een iteratief generatieraamwerk dat differentieerbare optimalisatie van token-logits integreert in de decoderinglus om het beleid dynamisch te verfijnen. Onze kerncomponent, Differentiable Textual Optimization (DTO), benut gradiëntsignalen van zowel de waarschijnlijkheid van het LLM als een beloningsmodel om tekstuele representaties te verbeteren. Nabla-Reasoner integreert verder rejection sampling en een versnellingsontwerp om de decodering robuuster en sneller te maken. Theoretisch tonen we aan dat het uitvoeren van gradiëntdaling tijdens inferentie in de steekproefruimte om de beloning te maximaliseren duaal is aan het uitlijnen van een LLM-beleid via KL-geregulariseerde reinforcement learning. Empirisch behaalt nabla-Reasoner een nauwkeurigheidsverbetering van meer dan 20% op een uitdagende wiskundige redeneerbenchmark, terwijl het aantal modelaanroepen met ongeveer 10-40% wordt verminderd in vergelijking met sterke baseline-methoden. Over het geheel genomen introduceert ons werk een paradigmaverschuiving van zoeken van de nulde orde naar optimalisatie van de eerste orde tijdens testtijd, wat een kosteneffectieve weg biedt om het redeneervermogen van LLM's te versterken.
Het volgen van instructies is een fundamentele capaciteit van grote taalmodellen (LLM's), waarvan de verbetering afhangt van schaalbare en nauwkeurige feedback van beoordelaarsmodellen. De betrouwbaarheid van huidige beoordelaarsmodellen bij het volgen van instructies blijft echter onderbelicht door verschillende tekortkomingen van bestaande meta-evaluatiebenchmarks, zoals onvoldoende datadekking en te vereenvoudigde paarsgewijze evaluatieparadigma's die niet aansluiten bij modeloptimalisatiescenario's. Daarom stellen wij IF-RewardBench voor, een uitgebreide meta-evaluatiebenchmark voor instructievolging die diverse instructie- en beperkingstypes dekt. Voor elke instructie construeren wij een voorkeursgrafiek die alle paarsgewijze voorkeuren tussen meerdere antwoorden bevat, gebaseerd op de kwaliteit van instructievolging. Dit ontwerp maakt een lijstgewijze evaluatiemethode mogelijk die het vermogen van beoordelaarsmodellen beoordeelt om meerdere antwoorden te rangschikken, wat essentieel is voor het begeleiden van modelafstemming. Uitgebreide experimenten met IF-RewardBench tonen significante tekortkomingen in huidige beoordelaarsmodellen aan en demonstreren dat onze benchmark een sterkere positieve correlatie bereikt met prestaties in downstreamtaken vergeleken met bestaande benchmarks. Onze code en data zijn beschikbaar op https://github.com/thu-coai/IF-RewardBench.
Om het volledige potentieel van visueel rijke documenten te benutten, zijn retrievalsystemen nodig die niet alleen tekst, maar ook complexe lay-outs begrijpen, een kernuitdaging in Visuele Documentretrieval (VDR). De heersende multi-vectorarchitecturen, hoewel krachtig, kampen met een cruciaal opslagprobleem waarop huidige optimalisatiestrategieën, zoals het samenvoegen of uitdunnen van embeddings of het gebruik van abstracte tokens, geen antwoord bieden zonder in te boeten aan prestaties of essentiële lay-outinformatie te negeren. Om dit aan te pakken, introduceren wij ColParse, een nieuwe aanpak die een documentparsemodel gebruikt om een kleine set van lay-out-geïnformeerde sub-afbeelding-embeddings te genereren, die vervolgens worden samengevoegd met een globale vector op paginaniveau om een compacte en structureel-bewuste multi-vectorrepresentatie te creëren. Uitgebreide experimenten tonen aan dat onze methode de opslagbehoefte met meer dan 95% vermindert en tegelijkertijd aanzienlijke prestatieverbeteringen oplevert op tal van benchmarks en basismodellen. ColParse overbrugt zo de kritieke kloof tussen de fijnmazige nauwkeurigheid van multi-vectorretrieval en de praktische eisen van grootschalige implementatie, en biedt zo een nieuw pad naar efficiënte en interpreteerbare multimodale informatiesystemen.
Het trainen van neurale PDE-oplossers wordt vaak beperkt door dure datageneratie of onstabiele physics-informed neural networks (PINN) die uitdagende optimalisatielandschappen bevatten als gevolg van hogere-orde afgeleiden. Om dit probleem aan te pakken, stellen we een alternatieve aanpak voor die Monte Carlo-methoden gebruikt om de oplossing van de PDE te schatten als een stochastisch proces voor zwakke supervisie tijdens de training. Gebruikmakend van de Walk-on-Spheres-methode introduceren we een leerschema genaamd Walk-on-Spheres Neural Operator (WoS-NO) dat zwakke supervisie van WoS gebruikt om een willekeurige neurale operator te trainen. Wij stellen voor om de kosten van Monte Carlo-wandelingen te amortiseren over de verdeling van PDE-instanties met behulp van stochastische representaties van het WoS-algoritme om goedkope, ruwe schattingen van de PDE-oplossing te genereren tijdens de training. Dit wordt geformuleerd in een data-vrij, physics-informed doelstelling waarbij een neurale operator wordt getraind om te regresseren tegen deze zwakke supervisies, waardoor de operator een gegeneraliseerde oplossingsafbeelding kan leren voor een hele familie van PDE's. Deze strategie vereist geen dure vooraf berekende datasets, vermijdt het berekenen van hogere-orde afgeleiden voor geheugenintensieve en onstabiele verliesfuncties, en demonstreert zero-shot generalisatie naar nieuwe PDE-parameters en domeinen. Experimenten tonen aan dat voor hetzelfde aantal trainingsstappen onze methode een verbetering tot 8,75x in L_2-fout vertoont in vergelijking met standaard physics-informed trainingsschema's, een verbetering tot 6,31x in trainingssnelheid, en een reductie tot 2,97x in GPU-geheugengebruik. Wij presenteren de code op https://github.com/neuraloperator/WoS-NO.
Het is bekend dat de reconstructie-FID (rFID) van een VAE slecht gecorreleerd is met de generatie-FID (gFID) van een latent diffusiemaat. Wij stellen geïnterpoleerde FID (iFID) voor, een eenvoudige variant van rFID die een sterke correlatie vertoont met gFID. Concreet halen we voor elk element in de dataset zijn naaste buur (NN) op in de latente ruimte en interpoleren we hun latente representaties. Vervolgens decoderen we het geïnterpoleerde latente punt en berekenen we de FID tussen de gedecodeerde samples en de originele dataset. Daarnaast verfijnen we de bewering dat rFID slecht correleert met gFID, door aan te tonen dat rFID correleert met de samplekwaliteit in de diffusieverfijningsfase, terwijl iFID correleert met de samplekwaliteit in de diffusienavigatiefase. Verder geven we een verklaring voor waarom iFID goed correleert met gFID, en waarom reconstructiemetrieken negatief gecorreleerd zijn met gFID, door deze te verbinden met resultaten over diffusiegeneralizatie en -hallucinatie. Empirisch gezien is iFID de eerste metriek die een sterke correlatie met diffusie-gFID aantoont, met Pearson lineaire en Spearman rangcorrelaties van ongeveer 0,85. De broncode is beschikbaar op https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
De specificatie van de actieruimte speelt een cruciale rol bij imitatiegebaseerd leren van robotmanipulatiebeleid, omdat deze de optimalisatielandschap van beleidsleren fundamenteel vormgeeft. Hoewel recente vooruitgang zich sterk heeft gericht op het schalen van trainingsdata en modelcapaciteit, blijft de keuze van de actieruimte gestuurd door ad-hoc heuristieken of verouderde ontwerpen, wat leidt tot een ambigu begrip van robotisch beleidsontwerp. Om deze ambiguïteit aan te pakken, voerden we een grootschalige en systematische empirische studie uit, die bevestigt dat de actieruimte inderdaad significante en complexe effecten heeft op robotisch beleidsleren. We ontleden de actieontwerpruimte langs temporele en ruimtelijke assen, wat een gestructureerde analyse mogelijk maakt van hoe deze keuzes zowel de leerbaarheid van het beleid als de controle stabiliteit beïnvloeden. Gebaseerd op meer dan 13.000 rollouts in de echte wereld op een bimanuele robot en evaluatie van meer dan 500 getrainde modellen in vier scenario's, onderzoeken we de afwegingen tussen absolute versus delta-representaties, en parameterisaties in gewrichtsruimte versus taakruimte. Onze grootschalige resultaten suggereren dat een correct ontworpen beleid om delta-acties te voorspellen consistent de prestaties verbetert, terwijl gewrichtsruimte- en taakruimte-representaties complementaire sterke punten bieden, die respectievelijk controle stabiliteit en generalisatie bevorderen.
Recente studies hebben waargenomen dat de tussenlagen van foundation-modellen vaak meer onderscheidende representaties opleveren dan de laatste laag. Hoewel dit fenomeen aanvankelijk werd toegeschreven aan autoregressieve voorafgaande training, is het ook geïdentificeerd in modellen die zijn getraind met supervised en discriminerende zelf-toezichthoudende doelen. In dit artikel voeren we een uitgebreide studie uit om het gedrag van tussenlagen in vooraf getrainde vision transformers te analyseren. Door middel van uitgebreide lineaire probing-experimenten op een diverse reeks beeldclassificatiebenchmarks, stellen we vast dat distributieverschuiving tussen de voorafgaande training en de downstreamgegevens de primaire oorzaak is van prestatievermindering in diepere lagen. Verder voeren we een fijnmazige analyse uit op moduleniveau. Onze bevindingen onthullen dat standaard probing van transformer-blokuitvoer suboptimaal is; in plaats daarvan levert het testen van de activering binnen het feedforward-netwerk de beste prestaties onder significante distributieverschuiving, terwijl de genormaliseerde uitvoer van de multi-head self-attention module optimaal is wanneer de verschuiving zwak is.