Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multi-agent systemen (MAS) breiden grote taalmodelen (LLM's) uit van onafhankelijke, op één model gebaseerde redenering naar coördinerende, systeemniveau-intelligentie. Terwijl bestaande LLM-agenten afhankelijk zijn van op tekst gebaseerde bemiddeling voor redenering en communicatie, zetten wij een stap voorwaarts door modellen in staat te stellen rechtstreeks binnen de continue latente ruimte samen te werken. Wij introduceren LatentMAS, een end-to-end, trainingsvrij raamwerk dat pure latente samenwerking tussen LLM-agenten mogelijk maakt. In LatentMAS voert elke agent eerst autoregessieve generatie van latente gedachten uit via hidden embeddings uit de laatste laag. Een gedeeld latent werkgeheugen bewaart en transfert vervolgens de interne representaties van elke agent, wat een verliesvrije informatie-uitwisseling garandeert. Wij bieden theoretische analyses die aantonen dat LatentMAS een hogere expressiviteit en verliesvrije informatiebehoud bereikt met aanzienlijk lagere complexiteit dan klassieke op tekst gebaseerde MAS. Daarnaast tonen empirische evaluaties over 9 uitgebreide benchmarks, variërend van wiskundig en wetenschappelijk redeneren, begrip van gezond verstand, tot codegeneratie, aan dat LatentMAS consistent sterker presteert dan krachtige single-model- en op tekst gebaseerde MAS-baselines, met een tot 14,6% hogere nauwkeurigheid, een vermindering van het outputtokenverbruik met 70,8%-83,7%, en een 4x-4,3x snellere end-to-end inferentie. Deze resultaten tonen aan dat ons nieuwe latente samenwerkingsraamwerk de redeneerkwaliteit op systeemniveau verbetert en tegelijkertijd aanzienlijke efficiëntiewinsten biedt zonder enige aanvullende training. Code en data zijn volledig open source beschikbaar op https://github.com/Gen-Verse/LatentMAS.
Meertalige grote taalmodellen (MLLM's) bevinden zich momenteel in de schijnwerpers van het onderzoek en tonen een snelle vooruitgang in schaal en capaciteiten. Desalniettemin wordt hun intelligentie, beperkingen en risico's nog onvoldoende begrepen. Om deze kwesties aan te pakken, in het bijzonder voor de Russische taal waar momenteel geen meertalige benchmarks bestaan, introduceren wij Mera Multi, een open meertalig evaluatieraamwerk voor Russischtalige architecturen. De benchmark is instructiegebaseerd en omvat de standaard modaliteiten tekst, beeld, audio en video, bestaande uit 18 nieuw geconstrueerde evaluatietaken voor zowel algemene modellen als modale specifieke architecturen (beeld-naar-tekst, video-naar-tekst en audio-naar-tekst). Onze bijdragen omvatten: (i) een universele taxonomie van meertalige vermogens; (ii) 18 geheel vanaf nul gecreëerde datasets met aandacht voor Russische culturele en linguïstische specificiteit, gestandaardiseerde prompts en metrieken; (iii) basislijnresultaten voor zowel gesloten als opensource-modellen; (iv) een methodologie om benchmark-lekken te voorkomen, inclusief watermerken en licenties voor privéverzamelingen. Hoewel onze huidige focus op het Russisch ligt, biedt de voorgestelde benchmark een reproduceerbare methodologie voor het construeren van meertalige benchmarks in typologisch diverse talen, in het bijzonder binnen de斯拉夫ische taalfamilie.
Wereldmodellen fungeren als kernsimulatoren voor domeinen zoals agent-gebaseerde AI, embodied AI en gaming, en zijn in staat om lange, fysiek realistische en interactieve video's van hoge kwaliteit te genereren. Bovendien kan het opschalen van deze modellen emergente capaciteiten in visuele perceptie, begrip en redenering ontgrendelen, wat de weg effent voor een nieuw paradigma dat verder gaat dan de huidige LLM-gecentreerde visuele foundationmodellen. Een cruciale doorbraak die deze modellen mogelijk maakt, is het semi-autoregressieve (block-diffusion) decodeerparadigma. Dit paradigma combineert de kracht van diffusie- en autoregressieve methoden door videotokens in blokken te genereren, waarbij diffusie binnen elk blok wordt toegepast onder conditionering op voorgaande blokken, wat resulteert in coherentere en stabielere videosequenties. Cruciaal is dat het de beperkingen van standaard videodiffusie overwint door het opnieuw introduceren van LLM-stijl KV Cache-beheer, wat efficiënte, variabele-lengte en hoogwaardige generatie mogelijk maakt. Daarom is Inferix specifiek ontworpen als een next-generation inference-engine om immersive wereldsynthese mogelijk te maken via geoptimaliseerde semi-autoregressieve decodeerprocessen. Deze toegewijde focus op wereldsimulatie onderscheidt het duidelijk van systemen die zijn ontwikkeld voor scenario's met hoge gelijktijdigheid (zoals vLLM of SGLang) en van klassieke videodiffusiemodellen (zoals xDiTs). Inferix versterkt zijn aanbod verder met interactieve videostreaming en profiling, waardoor real-time interactie en realistische simulatie mogelijk worden om werelddynamiek nauwkeurig te modelleren. Bovendien ondersteunt het efficiënt benchmarken via naadloze integratie van LV-Bench, een nieuwe fijnmazige evaluatiestandaard die is toegesneden op minutenlange videogeneratiescenario's. We hopen dat de gemeenschap zal samenwerken om Inferix verder te ontwikkelen en de verkenning van wereldmodellen te bevorderen.
De synthese van gesynchroniseerde audiovisuele content is een centrale uitdaging in generatieve AI, waarbij open-source-modellen moeite hebben met robuuste audio-video-alignment. Onze analyse toont aan dat dit probleem geworteld is in drie fundamentele uitdagingen van het gezamenlijke diffusieproces: (1) Correspondence Drift, waarbij gelijktijdig evoluerende ruisige latenties een stabiel leren van alignment belemmeren; (2) inefficiënte globale aandachtmechanismen die geen fijngranulaire temporele signalen vastleggen; en (3) de intramodale bias van conventionele Classifier-Free Guidance (CFG), die conditionaliteit versterkt maar niet de cross-modale synchronisatie. Om deze uitdagingen te overwinnen, introduceren wij Harmony, een nieuw raamwerk dat audiovisuele synchronisatie mechanistisch afdwingt. Wij stellen eerst een Cross-Task Synergy-trainingsparadigma voor om drift te verminderen door gebruik te maken van sterke supervisiesignalen van audiogestuurde video- en videogestuurde audiogeneratietaken. Vervolgens ontwerpen we een Global-Local Decoupled Interaction Module voor efficiënte en precieze temporele-stijl-alignment. Ten slotte presenteren we een nieuwe Synchronization-Enhanced CFG (SyncCFG) die het alignmentsignaal tijdens inferentie expliciet isoleert en versterkt. Uitgebreide experimenten tonen aan dat Harmony een nieuwe state-of-the-art vestigt en bestaande methoden significant overtreft in zowel generatiefideliteit als, cruciaal, in het bereiken van fijngranulaire audiovisuele synchronisatie.
Wij introduceren Nemotron-Parse-1.1, een lichtgewicht model voor documentparsing en OCR dat de mogelijkheden van zijn voorganger, Nemoretriever-Parse-1.0, verder uitbreidt. Nemotron-Parse-1.1 biedt verbeterde prestaties op het gebied van algemene OCR, markdown-opmaak, het parsen van gestructureerde tabellen en tekstextractie uit afbeeldingen, grafieken en diagrammen. Het ondersteunt tevens een langere uitvoersequentielengte voor visueel complexe documenten. Net als zijn voorganger extraheert het begrenzingskaders van tekstsegmenten en de bijbehorende semantische klassen. Nemotron-Parse-1.1 volgt een encoder-decoderarchitectuur met 885M parameters, inclusief een compacte taaldecodeerder van 256M parameters. Het behaalt concurrerende nauwkeurigheid op publieke benchmarks, waardoor het een sterke lichtgewicht OCR-oplossing is. Wij publiceren de modelgewichten openbaar op Huggingface, evenals een geoptimaliseerde NIM-container, samen met een subset van de trainingsgegevens als onderdeel van de bredere Nemotron-VLM-v2-dataset. Daarnaast brengen wij Nemotron-Parse-1.1-TC uit, dat werkt met een verkorte visuele tokenlengte en een 20% snelheidsverbetering biedt met minimale kwaliteitsvermindering.
Unified Multimodal Models (UMM's) hebben indrukwekkende prestaties getoond in zowel begrip als generatie met een enkele architectuur. UMM's vertonen echter nog steeds een fundamentele inconsistentie: begrip heeft baat bij compacte embeddings, terwijl generatie voordeel haalt uit reconstructierijke representaties. Deze structurele afweging leidt tot niet-uitgelijnde beslissingsgrenzen, verminderde cross-modale coherentie en een grotere kwetsbaarheid onder distributionele en adversariële verschuivingen. In dit artikel presenteren we UniGame, een zelf-adversarieel post-training raamwerk dat rechtstreeks op deze inconsistenties mikt. Door een lichtgewicht perturber toe te passen op de gedeelde tokeninterface, stelt UniGame de generatietak in staat actief kwetsbaar begrip op te zoeken en uit te dagen, waardoor het model zelf zijn eigen tegenstander wordt. Experimenten tonen aan dat UniGame de consistentie aanzienlijk verbetert (+4,6%). Bovendien behaalt het ook substantiële verbeteringen in begrip (+3,6%), generatie (+0,02), out-of-distribution- en adversariële robuustheid (+4,8% en +6,2% op NaturalBench en AdVQA). Het raamwerk is architectuuronafhankelijk, introduceert minder dan 1% extra parameters en is complementair aan bestaande post-training methoden. Deze resultaten positioneren adversarial zelfspel als een algemeen en effectief principe voor het verbeteren van de coherentie, stabiliteit en verenigde competentie van toekomstige multimodale foundation-modellen. De officiële code is beschikbaar op: https://github.com/AIFrontierLab/UniGame
Wij onderzoeken in hoeverre grote taalmodellen (LLM's) generaliseren over verschillende niveaus van taakmoeilijkheid, een kernvraag voor effectieve datacuratie en evaluatie. Bestaand onderzoek toont tegenstrijdige resultaten over de vraag of training met gemakkelijkere of moeilijkere data tot betere resultaten leidt, en of die winst zich voordoet bij gemakkelijkere of moeilijkere testdata. Wij pakken deze vraag aan door een systematische evaluatie uit te voeren van de generalisatie van LLM's over modellen, datasets en fijnmazige groepen van voorbeelden met verschillende moeilijkheidsgraden. Wij rangschikken voorbeelden in zes datasets met behulp van de output van duizenden verschillende LLM's en Item Response Theory (IRT), een gevestigde moeilijkheidsmaatstaf in onderwijsonderzoek. In tegenstelling tot eerder werk worden onze moeilijkheidsclassificaties dus uitsluitend bepaald door de capaciteiten van vele verschillende LLM's, waarbij menselijke opvattingen over moeilijkheid worden uitgesloten. Met een meer objectieve, grootschaligere en fijnmazigere analyse tonen wij aan dat generalisatie over moeilijkheidsniveaus vaak beperkt is; training met ofwel gemakkelijke ofwel moeilijke data kan geen consistente verbeteringen over het volledige moeilijkheidsspectrum bereiken. Deze resultaten tonen het belang aan van een reeks moeilijkheidsgraden in zowel trainings- als evaluatiedata voor LLM's, en dat het nemen van shortcuts met betrekking tot moeilijkheid riskant is.
"Denken met beelden" is naar voren gekomen als een effectief paradigma voor het bevorderen van visueel redeneren, dat verder gaat dan tekstuele denkketens door visuele aanwijzingen in te brengen in tussenliggende redeneerstappen. Bestaande methoden schieten echter tekort in het nabootsen van menselijk abstract visueel denken, omdat hun flexibiliteit fundamenteel wordt beperkt door externe hulpmiddelen. In dit werk introduceren we Monet, een trainingsraamwerk dat multimodale grote taalmodellen (MLLM's) in staat stelt om direct te redeneren binnen de latente visuele ruimte door continue embeddings te genereren die fungeren als tussenliggende visuele gedachten. Wij identificeren twee kernuitdagingen bij het trainen van MLLM's voor latent visueel redeneren: hoge computationele kosten bij latent-visuele alignering en onvoldoende supervisie over latente embeddings, en pakken deze aan met een driedelige, op distillatie gebaseerde supervised fine-tuning (SFT) pijplijn. Verder leggen we een beperking bloot van het toepassen van GRPO op latent redeneren: het verbetert voornamelijk tekstgebaseerd redeneren in plaats van latent redeneren. Om dit te overwinnen, stellen we VLPO (Visual-latent Policy Optimization) voor, een reinforcement learning-methode die latent embeddings expliciet opneemt in policy gradient-updates. Ter ondersteuning van SFT construeren we Monet-SFT-125K, een hoogwaardige, door tekst en beeld afgewisselde CoT-dataset met 125K real-world, chart, OCR en geometry CoT's. Ons model, Monet-7B, laat consistente verbeteringen zien op diverse real-world perceptie- en redeneerbenchmarks en vertoont sterke generalisatie buiten de verdeling op uitdagende abstracte visuele redeneertaken. We analyseren ook empirisch de rol van elke trainingscomponent en bespreken onze eerdere niet-succesvolle pogingen, wat inzichten biedt voor toekomstige ontwikkelingen in visueel latent redeneren. Ons model, data en code zijn beschikbaar op https://github.com/NOVAglow646/Monet.
Wij stellen Terminal Velocity Matching (TVM) voor, een generalisatie van flow matching die hoogwaardige generatieve modellering in één of enkele stappen mogelijk maakt. TVM modelleert de overgang tussen twee willekeurige diffusietijdstappen en regulariseert het gedrag ervan op het eindtijdstip in plaats van op het begintijdstip. Wij bewijzen dat TVM een bovengrens biedt voor de 2-Wasserstein-afstand tussen data- en modelverdelingen wanneer het model Lipschitz-continu is. Omdat Diffusion Transformers deze eigenschap echter missen, introduceren we minimale architecturale aanpassingen die een stabiele, enkelvoudige training mogelijk maken. Om TVM in de praktijk efficiënt te maken, ontwikkelden we een gefuseerde attention-kernel die backward passes op Jacobiaan-Vectorproducten ondersteunt, wat goed schaalt met transformer-architecturen. Op ImageNet-256x256 behaalt TVM een FID van 3,29 met een enkele functie-evaluatie (NFE) en een FID van 1,99 met 4 NFE's. Evenzo behaalt het een 1-NFE FID van 4,32 en een 4-NFE FID van 2,94 op ImageNet-512x512, wat state-of-the-art prestaties vertegenwoordigt voor modellen met één/weinig stappen die from scratch zijn getraind.
Vision-Language Models (VLMs) vertonen nog steeds een gebrek aan robuustheid op het gebied van ruimtelijke intelligentie, waarbij ze zwakke prestaties leveren bij taken voor ruimtelijk begrip en redeneren. Wij schrijven deze kloof toe aan de afwezigheid van een leerproces voor visuele geometrie dat in staat is 3D-ruimte te reconstrueren uit 2D-beelden. Wij presenteren G²VLM, een geometrie-gegrond visueel-taalmodel dat twee fundamentele aspecten van ruimtelijke intelligentie met elkaar verbindt: ruimtelijke 3D-reconstructie en ruimtelijk begrip. G²VLM benut intrinsiek geleerde 3D visuele geometrie-kenmerken om direct 3D-attributen te voorspellen en ruimtelijke redeneertaken te verbeteren via in-context leren en interleaved reasoning. Onze uniforme ontwerpaanpak is zeer schaalbaar voor ruimtelijk begrip: het model traint op overvloedige multi-view beeld- en videogegevens, terwijl het tegelijkertijd profiteert van 3D visuele priors die doorgaans alleen afkomstig zijn uit moeilijk te verzamelen annotaties. Experimentele resultaten tonen aan dat G²VLM bedreven is in beide taken, met vergelijkbare resultaten als state-of-the-art feed-forward 3D-reconstructiemodellen en betere of competitieve resultaten behaalt op diverse taken voor ruimtelijk begrip en redeneren. Door een semantisch sterke VLM te verenigen met low-level 3D-visietaken, hopen wij dat G²VLM kan dienen als een sterke basislijn voor de onderzoeksgemeenschap en meer toekomstige toepassingen mogelijk maakt, zoals 3D-scènebewerking.
Blok-causale videogeneratie wordt geconfronteerd met een scherpe snelheid-kwaliteit afweging: kleine 1.3B-modellen halen slechts 16 FPS, terwijl grote 14B-modellen kruipen op 4.5 FPS, waardoor gebruikers moeten kiezen tussen responsiviteit en kwaliteit. Blok Cascadering verzacht deze afweging aanzienlijk via trainingsvrije parallelisatie. Onze kerninzicht: toekomstige videoblokken hebben geen volledig gedenoised huidige blokken nodig om te beginnen met genereren. Door de blokgeneratie te starten met gedeeltelijk gedenoised context van voorgangers, transformeren we sequentiële pijplijnen in parallelle cascades waarbij meerdere blokken gelijktijdig denoisen. Met 5 GPU's die temporele paralleliteit benutten, bereiken we een ~2x versnelling over alle modelschalen: 1.3B-modellen versnellen van 16 naar 30 FPS, 14B-modellen van 4.5 naar 12.5 FPS. Naast inferentiesnelheid elimineert Blok Cascadering de overhead van KV-hercaching (~200ms) tijdens contextswitches voor interactieve generatie. Uitgebreide evaluaties, gevalideerd tegen meerdere blok-causale pijplijnen, tonen geen significant kwaliteitsverlies aan wanneer wordt overgeschakeld van blok-causale naar Blok Cascaderingspijplijnen voor inferentie. Projectpagina: https://hmrishavbandy.github.io/block_cascading_page/
Het vertalen van natuurlijke-taalinstructies naar continue aansturing voor viervoetige robots blijft een fundamentele uitdaging in vision-language-action. Bestaande methoden slagen er niet in om hoogwaardige semantische redenering en laagwaardige actuering met elkaar te verbinden, wat leidt tot instabiele grounding en zwakke generalisatie in de echte wereld. Om deze problemen aan te pakken, presenteren we MobileVLA-R1, een uniform vision-language-action-framework dat expliciete redenering en continue aansturing voor viervoetige robots mogelijk maakt. We construeren MobileVLA-CoT, een grootschalige dataset met multi-granulariteit chain-of-thought (CoT) voor belichaamde trajecten, die gestructureerde redeneersupervisie biedt voor alignment. Gebaseerd op deze fundering introduceren we een tweefasentrainingsparadigma dat supervised CoT-alignment combineert met GRPO-versterkingsleren om de consistentie van redenering, stabiliteit van aansturing en uitvoering over lange tijdshorizonnen te verbeteren. Uitgebreide evaluaties op VLN- en VLA-taken tonen superieure prestaties aan ten opzichte van sterke baselines, met een verbetering van ongeveer 5%. Inzet in de echte wereld op een viervoetige robot valideert robuuste prestaties in complexe omgevingen. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
Timestep-distillatie is een effectieve aanpak om de generatie-efficiëntie van diffusiemodellen te verbeteren. Het Consistentiemodel (CM) toont als een trajectgebaseerd raamwerk aanzienlijk potentieel vanwege zijn sterke theoretische basis en hoogwaardige generatie in weinig stappen. Desalniettemin zijn huidige methoden voor continue-tijd consistentiedistillatie nog sterk afhankelijk van trainingsdata en rekenresources, wat hun inzet in resourcebeperkte scenario's belemmert en de schaalbaarheid naar diverse domeinen beperkt. Om dit probleem aan te pakken, stellen we het Trajectory-Backward Consistentiemodel (TBCM) voor, dat de afhankelijkheid van externe trainingsdata elimineert door latentie-representaties rechtstreeks uit het generatietraject van het leraarmodel te extraheren. In tegenstelling tot conventionele methoden die VAE-codering en grootschalige datasets vereisen, verbetert ons zelfvoorzienende distillatieparadigma zowel de efficiëntie als de eenvoud aanzienlijk. Bovendien overbruggen de traject-geëxtraheerde voorbeelden van nature de distributiekloof tussen training en inferentie, waardoor een effectievere kennisoverdracht mogelijk wordt. Empirisch behaalt TBCM een FID van 6,52 en een CLIP-score van 28,08 op MJHQ-30k onder één-staps generatie, terwijl de trainingstijd met ongeveer 40% wordt verminderd in vergelijking met Sana-Sprint en aanzienlijk veel GPU-geheugen wordt bespaard, wat superieure efficiëntie aantoont zonder kwaliteit in te leveren. We onthullen verder de discrepantie in de diffusie-generatieruimte bij continue-tijd consistentiedistillatie en analyseren hoe samplingstrategieën de distillatieprestatie beïnvloeden, wat inzichten biedt voor toekomstig distillatieonderzoek. GitHub-link: https://github.com/hustvl/TBCM.
Vision-Language-Action (VLA)-beleidsmodellen blinken uit in het afstemmen van taal, perceptie en robotbesturing. De meeste VLA's worden echter uitsluitend getraind via imitatie, wat leidt tot overfitting op de demonstraties en broos gedrag bij distributieverschuivingen. Reinforcement learning (RL) optimaliseert direct de taakbeloning en pakt dit misalignment aan, maar interactie met echte robots is kostbaar en conventionele simulators zijn moeilijk te ontwikkelen en over te dragen. Wij pakken zowel de data-efficiëntie als de optimalisatiestabiliteit aan bij VLA-natraining via een geleerd wereldmodel en een RL-procedure die is toegesneden op op stroming (flow) gebaseerde actiekoppen. Specifiek introduceren we Prophet, een geünificeerde actie-naar-video robotactuatie voorgetraind op grootschalige, heterogene robotdata om herbruikbare actie-uitkomst-dynamica te leren. Het kan met weinig voorbeelden (few-shot) adaptatie uitvoeren naar nieuwe robots, objecten en omgevingen, wat resulteert in een direct inzetbare simulator (rollout-ready). Gebaseerd op Prophet, versterken we actiebeleidsmodellen met Flow-action-GRPO (FA-GRPO), dat Flow-GRPO aanpast om op VLA-acties te werken, en met FlowScale, een stapsgewijze herweging die de gradienten per stap in de flow-kop herschaalt. Samen vormen Prophet, FA-GRPO en FlowScale ProphRL, een praktische, data- en rekenzuinige route voor VLA-natraining. Experimenten tonen verbeteringen van 5-17% in succespercentages op publieke benchmarks en 24-30% verbetering op echte robots voor verschillende VLA-varianten.
Vision Foundation Models (VFMs) extraheren ruimtelijk gedownsamplede representaties, wat uitdagingen oplevert voor pixelniveau-taken. Bestaande upsamplingbenaderingen kampen met een fundamentele afweging: klassieke filters zijn snel en breed toepasbaar maar steunen op vaste vormen, terwijl moderne upsamplers superieure nauwkeurigheid bereiken via leerbare, VFM-specifieke vormen ten koste van hertraining voor elke VFM. Wij introduceren Neighborhood Attention Filtering (NAF), dat deze kloof overbrugt door adaptieve ruimtelijk-inhoudelijke gewichten te leren via Cross-Scale Neighborhood Attention en Rotary Position Embeddings (RoPE), uitsluitend geleid door de hoogresolutie-invoerafbeelding. NAF opereert zero-shot: het upsamplet features van elke VFM zonder hertraining, waardoor het het eerste VFM-agnostische architectuur is dat VFM-specifieke upsamplers overtreft en state-of-the-art prestaties behaalt in meerdere downstreamtaken. Het behoudt hoge efficiëntie, schaalt naar 2K-featuremaps en reconstrueert intermediate-resolutiemaps met 18 FPS. Naast feature-upsampling toont NAF sterke prestaties in beeldrestoratie, wat zijn veelzijdigheid onderstreept. Code en checkpoints zijn beschikbaar op https://github.com/valeoai/NAF.
Wij presenteren Sphinx, een synthetische omgeving voor visuele perceptie en redenering die zich richt op kerncognitieve primitieven. Sphinx genereert procedureel puzzels met behulp van motieven, tegels, grafieken, iconen en geometrische primitieven, elk voorzien van verifieerbare grond-waarheidoplossingen, wat zowel precieze evaluatie als grootschalige datasetconstructie mogelijk maakt. De benchmark omvat 25 taaktypen, variërend van symmetriedetectie en geometrische transformaties tot ruimtelijk redeneren, grafiekinterpretatie en sequentievoorspelling. Evaluatie van recente grote visie-taalmodellen (LVLM's) toont aan dat zelfs de meest geavanceerde GPT-5 slechts 51,1% nauwkeurigheid bereikt, aanzienlijk lager dan menselijke prestaties. Ten slotte tonen we aan dat reinforcement learning met verifieerbare beloningen (RLVR) de modelnauwkeurigheid op deze taken aanzienlijk verbetert en winst oplevert op externe benchmarks voor visueel redeneren, wat de belofte ervan voor de vooruitgang van multimodaal redeneren benadrukt.
Reinforcement Learning from Human Feedback (RLHF) wordt veel gebruikt voor het afstemmen van grote taalmodellen, maar praktijkmensen worden geconfronteerd met een hardnekkig probleem: het verbeteren van veiligheid gaat vaak ten koste van rechtvaardigheid, het schalen naar diverse populaties wordt computationeel onhandelbaar, en het robuust maken van systemen versterkt vaak meerderheidsvooroordelen. Wij formaliseren deze spanning als het Alignment Trilemma: geen enkel RLHF-systeem kan gelijktijdig (i) epsilon-representativiteit over diverse menselijke waarden, (ii) polynomiale hanteerbaarheid in steekproef- en rekencomplexiteit, en (iii) delta-robuustheid tegen adversariële perturbaties en distributieverschuiving bereiken. Door middel van een complexiteitstheoretische analyse die statistische leertheorie en robuuste optimalisatie integreert, bewijzen wij dat het bereiken van zowel representativiteit (epsilon <= 0.01) als robuustheid (delta <= 0.001) voor populaties op mondiale schaal Omega(2^{d_context}) bewerkingen vereist, wat super-polynomiaal is in de contextdimensie. Wij tonen aan dat huidige RLHF-implementaties dit trilemma oplossen door in te leveren op representativiteit: zij verzamelen slechts 10^3–10^4 steekproeven van homogene beoordelaarsgroepen, terwijl 10^7–10^8 steekproeven nodig zijn voor echte mondiale representatie. Ons kader biedt een verenigende verklaring voor gedocumenteerde RLHF-pathologieën, waaronder voorkeurscollaps, sycofantie en systematische versterking van vooroordelen. Wij sluiten af met concrete richtingen voor het navigeren door deze fundamentele afwegingen via strategische versoepeling van afstemmingseisen.
Stadsomvattende 3D-generatie is van groot belang voor de ontwikkeling van embodied intelligence en wereldmodellen. Bestaande methoden kampen echter met aanzienlijke uitdagingen op het gebied van kwaliteit, nauwkeurigheid en schaalbaarheid bij 3D-wereldgeneratie. Daarom presenteren wij RAISECity, een Reality-Aligned Intelligent Synthesis Engine die gedetailleerde, stadsomvattende 3D-werelden creëert. Wij introduceren een agent-gebaseerd raamwerk dat diverse multimodale foundation tools benut om real-world kennis te verwerven, robuuste tussenrepresentaties te behouden en complexe 3D-scènes te construeren. Dit agent-ontwerp, met dynamische gegevensverwerking, iteratieve zelfreflectie en verfijning, en inzet van geavanceerde multimodale tools, minimaliseert cumulatieve fouten en verbetert de algehele prestaties. Uitgebreide kwantitatieve experimenten en kwalitatieve analyses valideren de superieure prestaties van RAISECity op het gebied van real-world alignering, vormnauwkeurigheid, textuurgetrouwheid en esthetisch niveau, met een win-rate van meer dan 90% ten opzichte van bestaande benchmarks voor algehele perceptuele kwaliteit. Deze combinatie van 3D-kwaliteit, realiteitsgetrouwheid, schaalbaarheid en naadloze compatibiliteit met computer graphics pipelines maakt RAISECity tot een veelbelovende basis voor toepassingen in immersive media, embodied intelligence en wereldmodellen.
Nauwkeurige voorspelling van de resterende levensduur (RUL) hangt af van de kwaliteit van gezondheidsindicatoren (HI's), maar bestaande methoden slagen er vaak niet in complexe degradatiemechanismen in multi-sensorsystemen te ontrafelen of de onzekerheid in de betrouwbaarheid van HI's te kwantificeren. Dit artikel introduceert een nieuw raamwerk voor HI-constructie, met drie belangrijke bijdragen. Ten eerste passen we Reconstruction along Projected Pathways (RaPP) voor het eerst aan als gezondheidsindicator (HI) voor RUL-voorspelling, en tonen aan dat deze traditionele reconstructiefoutmetingen overtreft. Ten tweede laten we zien dat het verrijken van RaPP-afgeleide HI's met aleatorische en epistemische onzekerheidskwantificering (UQ) via Monte Carlo dropout en probabilistische latente ruimtes de robuustheid van RUL-voorspelling aanzienlijk verbetert. Ten derde, en het meest cruciaal, stellen we indicatorgroepen voor, een paradigma dat sensorsubsets isoleert om systeemspecifieke degradaties te modelleren, wat leidt tot onze nieuwe methode, I-GLIDE, die interpreteerbare, mechanismespecifieke diagnostiek mogelijk maakt. Evaluatie op gegevens afkomstig uit lucht- en ruimtevaart- en productiesystemen toont aan dat onze aanpak aanzienlijke verbeteringen bereikt in nauwkeurigheid en generaliseerbaarheid in vergelijking met state-of-the-art HI-methoden, terwijl het actiegerichte inzichten biedt in systeemfaalwegen. Dit werk overbrugt de kloof tussen anomaliedetectie en prognostiek, en biedt een principieel raamwerk voor onzekerheidsbewust degradatiemodelleren in complexe systemen.
Hoewel 3D Gaussian Splatting (3DGS) in de meeste configuraties uitmunt, mist het generalisatievermogen over nieuwe gezichtspunten in een few-shot scenario omdat het overfit op de schaarse observaties. Wij benaderen de 3DGS-optimalisatie opnieuw vanuit een machine learning-perspectief en formuleren de synthese van nieuwe aanzichten als een generalisatieprobleem naar onbezochte gezichtspunten – een onderbelichte richting. Wij stellen Frequentie-Adaptieve Scherpteregularisatie (FASR) voor, die de 3DGS-trainingsdoelstelling herformuleert en daarbij 3DGS leidt naar een oplossing met beter generalisatievermogen. Hoewel Sharpness-Aware Minimization (SAM) eveneens de scherpte van het verlieslandschap reduceert om de generalisatie van classificatiemodellen te verbeteren, is directe toepassing op 3DGS suboptimaal vanwege het verschil tussen de taken. Concreet belemmert het de reconstructie van hoogfrequente details door overmatige regularisatie, terwijl het verminderen van de sterkte leidt tot een onvoldoende bestraffing van de scherpte. Om dit aan te pakken, laten we de lokale frequentie van beelden terugkomen bij het instellen van het regularisatiegewicht en de nabijheidsstraal bij het schatten van de lokale scherpte. Dit voorkomt zwevende artefacten in nieuwe gezichtspunten en reconstrueert fijne details die SAM geneigd is te veel glad te strijken. Over datasets met uiteenlopende configuraties verbetert onze methode consequent een breed scala aan basislijnen. Code zal beschikbaar zijn op https://bbangsik13.github.io/FASR.