Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bestaande op diffusie gebaseerde videogeneratiemethoden worden fundamenteel beperkt door sequentiële berekening en inconsistentie op lange termijn, wat hun praktische toepassing in real-time, streaming audio-gestuurde avatarsynthese belemmert. Wij presenteren Live Avatar, een algoritme-systeem co-ontworpen framework dat efficiënte, hoogwaardige en oneindig lange avatargeneratie mogelijk maakt met behulp van een diffusiemodel van 14 miljard parameters. Onze aanpak introduceert Timestep-forcing Pipeline Parallelism (TPP), een gedistribueerd inferentieparadigma dat denoisestappen pipelineert over meerdere GPU's, waardoor de autoregressieve bottleneck effectief wordt doorbroken en stabiele, low-latency real-time streaming wordt gegarandeerd. Om de temporele consistentie verder te verbeteren en identiteitsdrift en kleurartefacten tegen te gaan, stellen we het Rolling Sink Frame Mechanism (RSFM) voor, dat sequentietrouw handhaaft door het uiterlijk dynamisch te herkalibreren met behulp van een gecachete referentieafbeelding. Daarnaast benutten we Self-Forcing Distribution Matching Distillation om causale, stroombare aanpassing van grootschalige modellen te vergemakkelijken zonder in te leveren op visuele kwaliteit. Live Avatar demonstreert state-of-the-art prestaties, bereikt 20 FPS end-to-end generatie op 5 H800 GPU's, en is voor zover wij weten de eerste die praktische, real-time, hoogwaardige avatargeneratie op deze schaal realiseert. Ons werk vestigt een nieuw paradigma voor de inzet van geavanceerde diffusiemodellen in industriële long-form videogeneratietoepassingen.
Real-world workflows voor data-intelligentie in bedrijven omvatten data-engineering die ruwe bronnen omzet in analyseklare tabellen, en data-analyse die deze tabellen omzet in op besluitvorming gerichte inzichten. Wij introduceren DAComp, een benchmark van 210 taken die deze complexe workflows weerspiegelt. Data-engineering (DE) taken vereisen repository-level engineering op industriële schema's, inclusief het ontwerpen en bouwen van meerfasige SQL-pipelines vanaf nul en het aanpassen van bestaande systemen onder evoluerende vereisten. Data-analyse (DA) taken stellen open-einde bedrijfsproblemen die strategische planning, verkennende analyse door iteratieve codering, interpretatie van tussentijdse resultaten en de synthese van actiegerichte aanbevelingen vereisen. Engineeringtaken worden beoordeeld via een op uitvoering gebaseerde, multi-metrische evaluatie. Open-einde taken worden beoordeeld door een betrouwbare, experimenteel gevalideerde LLM-beoordelaar, die wordt geleid door hiërarchische, nauwkeurig opgestelde beoordelingsrubrics. Onze experimenten tonen aan dat zelfs state-of-the-art agents falen op DAComp. De prestaties op DE-taken zijn bijzonder laag, met slagingspercentages onder de 20%, wat een kritieke bottleneck blootlegt in de holistische orkestratie van pipelines, niet slechts in codegeneratie. Scores op DA-taken zijn gemiddeld ook lager dan 40%, wat diepgaande tekortkomingen in open-einde redenering aantoont en bevestigt dat engineering en analyse verschillende capaciteiten zijn. Door deze beperkingen duidelijk te diagnosticeren, biedt DAComp een rigoureus en realistisch testplatform om de ontwikkeling van echt capabele autonome data-agents voor bedrijfsomgevingen te stimuleren. Onze data en code zijn beschikbaar op https://da-comp.github.io.
De evolutie van Large Language Models (LLM's) van passieve respondenten naar autonome agents vereist een fundamentele verschuiving in leerparadigma's – van statische imitatie naar incentive-gestuurd besluitvorming. Deze overgang wordt echter aanzienlijk belemmerd door het gebrek aan schaalbare infrastructuur die in staat is hoogwaardige interactiesignalen te construeren voor effectief beleidsleren. Om dit aan te pakken, introduceren we een uitgebreide methode die is ontworpen om de diversiteit en complexiteit van interactieve omgevingen systematisch op te schalen. Onze methode realiseert deze schaalvergroting door drie orthogonale dimensies aan te pakken: (1) Complexiteit: NexAU, een flexibel agentframework dat de bouw van complexe agenthiërarchieën ondersteunt via eenvoudige configuraties; (2) Diversiteit: NexA4A genereert automatisch diverse agenthiërarchieën vanuit natuurlijke taal om oneindige domeinen te bestrijken; en (3) Fideliteit: NexGAP overbrugt de kloof tussen simulatie en realiteit door dynamische, real-world omgevingen te integreren voor de synthese van gegronde trajecten. We trainen Nex-N1 op de diverse en complexe interactieve omgevingen die door onze infrastructuur zijn gecreëerd. Empirische resultaten op benchmarks zoals SWE-bench en tau2 tonen aan dat Nex-N1 consistent superieure prestaties levert ten opzichte van state-of-the-art open-source modellen en competitieve prestaties bereikt ten opzichte van toonaangevende propriëtaire modellen bij complexe agenttaken. We maken het Nex-ecosysteem en de modelgewichten open source om verder onderzoek te vergemakkelijken.
Grote taalmodellen worden steeds vaker geïntegreerd in academische schrijfwerkstromen, maar bestaande assistenten blijven extern aan de editor, wat een diepe interactie met de documentstatus, -structuur en revisiegeschiedenis verhindert. Deze scheiding maakt het onmogelijk om agent-gedreven, contextbewuste operaties rechtstreeks binnen LaTeX-editors zoals Overleaf te ondersteunen. Wij presenteren PaperDebugger, een in-editor, multi-agent en plugin-gebaseerde academische schrijfassistent die door LLM-gedreven redenering direct in de schrijfontgeving brengt. Het mogelijk maken van dergelijke in-editor-interactie is technisch niet-triviaal: het vereist een betrouwbare bidirectionele synchronisatie met de editor, fijnmazige versiebeheer en patching, veilig statusbeheer, multi-agent planning en uitbreidbare communicatie met externe tools. PaperDebugger adresseert deze uitdagingen via een door Chrome-goedgekeurde extensie, een Kubernetes-native orchestratielaag en een Model Context Protocol (MCP) toolchain die literatuurzoekopdrachten, referentielookup, documentscoring en revisiepijplijnen integreert. Onze demo toont een volledig geïntegreerde werkstroom, inclusief gelokaliseerde bewerkingen, gestructureerde reviews, parallelle agentuitvoering en diff-gebaseerde updates, verpakt in een gebruikersinterface (UI) met minimale inmenging. Vroege geaggregeerde analyses tonen actieve gebruikersbetrokkenheid aan en valideren de praktische haalbaarheid van een editor-native, agent-gedreven schrijfassistent. Meer details over deze demo en video zijn te vinden op https://github.com/PaperDebugger/PaperDebugger.
Beloningsmodellen zijn cruciaal voor het afstemmen van visie-taalsystemen op menselijke voorkeuren, maar huidige methoden lijden onder hallucinaties, zwakke visuele verankering en het onvermogen om tools te gebruiken voor verificatie, wat hun betrouwbaarheid bij complexe multimodale redeneertaken beperkt. Wij presenteren ARM-Thinker, een *agentic* multimodaal Beloningsmodel dat autonoom externe tools (bijv. beeldbijsnijding, documentpaginaretrieval) aanroept om oordelen te verankeren in verifieerbaar bewijs, waardoor statische, niet-interactieve beloningsscores worden vervangen. Hierdoor kan het model fijnmazige visuele details verifiëren, meerdere pagina's bewijs kruisverwijzen en redeneerclaims valideren – mogelijkheden die ontbreken in bestaande beloningsmodellen. We trainen ARM-Thinker met meerfasige reinforcement learning, waarbij we tool-aanroepbeslissingen en beoordelingsnauwkeurigheid gezamenlijk optimaliseren. Om *agentic* beloningsmodellering te evalueren, introduceren we ARMBench-VL, bestaande uit drie benchmarks die fijnmazige visuele verankering (beeldniveau-tools), documentbegrip over meerdere pagina's (retrievaltools) en instructie-opvolging (tekstniveau-verificatie) beoordelen. ARM-Thinker behaalt een gemiddelde verbetering van +16,2% op beloningsmodelbenchmarks, +9,6% op toolgebruiktaken, en presteert beter dan baseline-modellen op multimodale wiskunde- en logische redeneerbenchmarks. Onze resultaten tonen aan dat *agentic* capaciteiten zowel de nauwkeurigheid als de interpreteerbaarheid van beloningsmodellen aanzienlijk verbeteren.
Latent Diffusion Models (LDMs) volgen van nature een coarse-to-fine generatieproces, waarbij de hoogwaardige semantische structuur iets eerder wordt gegenereerd dan de fijnkorrelige textuur. Dit suggereert dat de voorafgaande semantiek de textuurgeneratie mogelijk ten goede komt door een semantisch anker te bieden. Recente ontwikkelingen hebben semantische priorissen van voorgetrainde visuele encoders geïntegreerd om LDMs verder te verbeteren, maar zij denoiseren semantiek en VAE-gecodeerde textuur nog steeds synchroon, waarbij een dergelijke volgorde wordt verwaarloosd. Op basis van deze observaties stellen wij Semantic-First Diffusion (SFD) voor, een latent diffusietype dat expliciet prioriteit geeft aan semantische vorming. SFD construeert eerst composiet-latents door een compacte semantische latent, die wordt geëxtraheerd uit een voorgetrainde visuele encoder via een speciaal daarvoor ontwikkelde Semantic VAE, te combineren met de textuur-latent. De kern van SFD is het asynchroon denoiseren van de semantische en textuur-latents met behulp van afzonderlijke noiseschema's: de semantiek loopt een temporele offset voor op de texturen, wat duidelijkere hoogwaardige begeleiding biedt voor textuurverfijning en natuurlijke coarse-to-fine generatie mogelijk maakt. Op ImageNet 256x256 met guidance behaalt SFD een FID van 1.06 (LightningDiT-XL) en een FID van 1.04 (1.0B LightningDiT-XXL), terwijl het tot 100x snellere convergentie bereikt dan de originele DiT. SFD verbetert ook bestaande methoden zoals ReDi en VA-VAE, wat de effectiviteit aantoont van asynchrone, semantiek-geleide modellering. Projectpagina en code: https://yuemingpan.github.io/SFD.github.io/.
Efficiënte streaming videogeneratie is cruciaal voor het simuleren van interactieve en dynamische werelden. Bestaande methodes destilleren videodiffusiemodellen met weinig stappen en sliding window-attentie, waarbij initiële frames als sink-tokens worden gebruikt om de aandachtsprestaties te behouden en foutaccumulatie te verminderen. Echter, videoframes worden hierdoor te afhankelijk van deze statische tokens, wat leidt tot gekopieerde initiële frames en verminderde bewegingsdynamiek. Om dit aan te pakken, introduceren we Reward Forcing, een nieuw raamwerk met twee belangrijke ontwerpen. Ten eerste stellen we EMA-Sink voor, dat tokens met vaste grootte handhaaft die zijn geïnitialiseerd vanuit initiële frames en continu worden bijgewerkt door verdreven tokens te fuseren via exponentieel voortschrijdend gemiddelde wanneer ze het sliding window verlaten. Zonder extra rekenkosten vangen EMA-Sink-tokens zowel langetermijncontext als recente dynamiek op, voorkomen ze het kopiëren van initiële frames en behouden ze consistentie over lange horizonnen. Ten tweede, om bewegingsdynamiek beter te destilleren uit leraarmodellen, stellen we een nieuwe Rewarded Distribution Matching Distillation (Re-DMD) voor. Standaard distributie-afstemming behandelt elke trainingssample gelijkelijk, wat het vermogen van het model beperkt om dynamische content te prioriteren. In plaats daarvan kantelt Re-DMD de uitvoerdistributie van het model naar hoogbeloonde regio's door samples met meer dynamiek, beoordeeld door een vision-language model, te prioriteren. Re-DMD verbetert de bewegingskwaliteit aanzienlijk terwijl de data-getrouwheid behouden blijft. We includeren zowel kwantitatieve als kwalitatieve experimenten om aan te tonen dat Reward Forcing state-of-the-art prestaties bereikt op standaard benchmarks en tegelijkertijd hoogwaardige streaming videogeneratie mogelijk maakt met 23.1 FPS op een enkele H100 GPU.
Het begrijpen van de dynamische fysieke wereld, gekenmerkt door zijn evoluerende 3D-structuur, beweging in de echte wereld en semantische inhoud met tekstuele beschrijvingen, is cruciaal voor mens-agentinteractie en stelt belichaamde agents in staat om met mensachtige capaciteiten waar te nemen en te handelen in reële omgevingen. Bestaande datasets zijn echter vaak afgeleid van beperkte simulatoren of gebruiken traditionele Structure-from-Motion voor annotatie op schaal en bieden beperkte beschrijvende bijschriften, wat de mogelijkheid van foundation-modellen beperkt om real-world dynamiek nauwkeurig te interpreteren vanuit monocular video's, die vaak afkomstig zijn van het internet. Om deze kloof te overbruggen, introduceren wij DynamicVerse, een fysiek-schalig, multimodaal 4D-wereldmodelleringsraamwerk voor dynamische real-world video. Wij gebruiken grote visuele, geometrische en multimodale modellen om metrische statische geometrie, real-world dynamische beweging, instance-level maskers en holistische beschrijvende bijschriften te interpreteren. Door window-based Bundle Adjustment te integreren met globale optimalisatie, zet onze methode lange real-world videosequenties om in een uitgebreid 4D multimodaal formaat. DynamicVerse levert een grootschalige dataset bestaande uit 100K+ video's met 800K+ geannoteerde maskers en 10M+ frames uit internetvideo's. Experimentele evaluaties op drie benchmarktaken, namelijk videodiepte-inschatting, camerapositie-inschatting en cameraintrinsieke-inschatting, tonen aan dat onze 4D-modellering superieure prestaties levert in het vastleggen van fysiek-schalige metingen met een grotere globale nauwkeurigheid dan bestaande methoden.
Recente vooruitgang in autoregressieve videodiffusie heeft realtime frame-streaming mogelijk gemaakt, maar bestaande oplossingen kampen nog steeds met temporele herhaling, drift en bewegingvertraging. Wij stellen vast dat het eenvoudig toepassen van StreamingLLM-achtige 'attention sinks' op videodiffusie leidt tot kwaliteitsverlies en bewegingsstagnatie. Om dit te overwinnen, introduceren wij Deep Forcing, dat bestaat uit twee mechanismen zonder training die dit verhelpen zonder enige fine-tuning. Specifiek: 1) Deep Sink wijdt de helft van het schuivende venster aan persistente sink-tokens en herlijnt hun temporele RoPE-fase naar de huidige tijdlijn, waardoor de globale context wordt gestabiliseerd tijdens lange rollouts. 2) Participatieve Compressie voert belangstellingsbewuste KV-cache-snoeiing uit die alleen tokens behoudt die actief deelnemen aan recente aandacht, terwijl overbodige en gedegradeerde geschiedenis veilig wordt verwijderd, waardoor foutaccumulatie wordt geminimaliseerd bij generatie buiten de distributielengte. Samen stellen deze componenten extrapolatie van meer dan 12x mogelijk (bijv. van 5s getraind naar 60s+ generatie) met een betere beeldkwaliteit dan LongLive, een betere esthetische kwaliteit dan RollingForcing, waarbij de algehele consistentie nagenoeg behouden blijft en er aanzienlijke winst wordt geboekt op het gebied van dynamiek, allemaal terwijl de realtime generatie behouden blijft. Onze resultaten tonen aan dat KV-cachebeheer zonder training kan concurreren met of zelfs beter kan presteren dan op training gebaseerde benaderingen voor het autoregressief streamen van lange-videogeneratie.
Wij introduceren SIMA 2, een generalistische, belichaamde agent die een breed scala aan 3D-virtuele werelden begrijpt en hierin handelt. Gebouwd op een Gemini-foundationmodel, vertegenwoordigt SIMA 2 een significante stap in de richting van actieve, doelgerichte interactie binnen een belichaamde omgeving. In tegenstelling tot eerder werk (bijvoorbeeld SIMA 1), dat beperkt was tot eenvoudige taalcommando's, fungeert SIMA 2 als een interactieve partner die in staat is om te redeneren over hoogwaardige doelen, te converseren met de gebruiker en complexe instructies, gegeven via taal en afbeeldingen, te verwerken. Over een diverse portefeuille van games heen, overbrugt SIMA 2 de kloof met menselijke prestaties aanzienlijk en toont het robuuste generalisatie naar voorheen onbekende omgevingen, allemaal terwijl de kernredeneercapaciteiten van het basismodel behouden blijven. Verder demonstreren we een vermogen tot open-einde zelfverbetering: door gebruik te maken van Gemini om taken te genereren en beloningen te verstrekken, kan SIMA 2 autonoom nieuwe vaardigheden vanaf nul aanleren in een nieuwe omgeving. Dit werk bevestigt een pad naar het creëren van veelzijdige en continu lerende agenten voor zowel virtuele als, uiteindelijk, fysieke werelden.
Het construeren van 4D-taalvelden is cruciaal voor belichaamde AI, augmented/virtual reality en 4D-scènebegrip, omdat ze verrijkte semantische representaties van dynamische omgevingen bieden en open-vocabulary bevraging in complexe scenario's mogelijk maken. Bestaande benaderingen voor de constructie van 4D-semantische velden zijn echter voornamelijk gebaseerd op scènespecifiek Gaussian splatting, wat per-scène-optimalisatie vereist, beperkte generalisatie vertoont en moeilijk schaalbaar is naar real-world toepassingen. Om deze beperkingen aan te pakken, stellen we 4DLangVGGT voor, het eerste Transformer-gebaseerde feed-forward unified framework voor 4D-language grounding, dat geometrische perceptie en taalalignement gezamenlijk integreert binnen een enkele architectuur. 4DLangVGGT heeft twee kerncomponenten: de 4D Visual Geometry Transformer, StreamVGGT, die spatio-temporele geometrische representaties van dynamische scènes vastlegt; en de Semantic Bridging Decoder (SBD), die geometrie-bewuste kenmerken projecteert in een taalgealigneeerde semantische ruimte, waardoor de semantische interpreteerbaarheid wordt verbeterd terwijl de structurele trouw behouden blijft. In tegenstelling tot eerdere methoden die afhankelijk zijn van kostbare per-scène-optimalisatie, kan 4DLangVGGT gezamenlijk worden getraind over meerdere dynamische scènes en direct worden toegepast tijdens inferentie, waardoor zowel implementatie-efficiëntie als sterke generalisatie worden bereikt. Dit ontwerp verbetert de praktische bruikbaarheid voor grootschalige implementatie aanzienlijk en vestigt een nieuw paradigma voor open-vocabulary 4D-scènebegrip. Experimenten op HyperNeRF- en Neu3D-datasets tonen aan dat onze aanpak niet alleen effectief generaliseert, maar ook state-of-the-art prestaties bereikt, met winsten tot 2% onder per-scène-training en 1% verbetering onder multi-scène-training. Onze code is vrijgegeven op https://github.com/hustvl/4DLangVGGT.
Het synthetiseren van hoogwaardige bevroren 3D-scènes uit monocular Mannequin-Challenge (MC) video's vormt een uniek probleem dat verschilt van standaard reconstructie van dynamische scènes. In plaats van ons te richten op het modelleren van beweging, is ons doel een bevroren scène te creëren waarbij we strategisch subtiele dynamiek behouden om door de gebruiker gecontroleerde instant-selectie mogelijk te maken. Om dit te bereiken, introduceren we een nieuwe toepassing van dynamisch Gaussian splatting: de scène wordt dynamisch gemodelleerd, wat temporele variatie in de nabije omgeving behoudt, en een statische scène wordt weergegeven door de tijdsparameter van het model vast te zetten. Bij deze toepassing introduceert monocular capture met sparse temporele supervisie echter artefacten zoals ghosting en vervaging voor Gaussians die onwaargenomen of geoccludeerd raken op zwak gesuperviseerde tijdstempels. Wij stellen Splannequin voor, een architectuuronafhankelijke regularisatie die twee toestanden van Gaussian primitieven detecteert, verborgen en defect, en temporele ankerplaatsing toepast. Onder overwegend voorwaartse camerabeweging worden verborgen toestanden verankerd aan hun recente, goed waargenomen verleden toestanden, terwijl defecte toestanden worden verankerd aan toekomstige toestanden met sterkere supervisie. Onze methode integreert in bestaande dynamische Gaussian pijplijnen via eenvoudige verliestermen, vereist geen architectuurwijzigingen en voegt geen extra rekentijd toe tijdens inferentie. Dit resulteert in een aanzienlijk verbeterde visuele kwaliteit, waardoor hoogwaardige, door de gebruiker selecteerbare bevroren-tijd weergaven mogelijk worden, gevalideerd door een gebruikersvoorkeur van 96%. Projectpagina: https://chien90190.github.io/splannequin/
Recente beelddiffusietransformers bereiken hoogwaardige generatie, maar hebben moeite met het genereren van beelden buiten deze schalen, waarbij ze last hebben van inhoudsherhaling en kwaliteitsverlies. In dit werk presenteren we UltraImage, een principieel raamwerk dat beide problemen aanpakt. Door frequentiegewijze analyse van positionele inbeddingen identificeren we dat herhaling voortkomt uit de periodiciteit van de dominante frequentie, waarvan de periode overeenkomt met de trainingsresolutie. We introduceren een recursieve correctie van de dominante frequentie om deze na extrapolatie binnen een enkele periode te beperken. Verder stellen we vast dat kwaliteitsverlies voortvloeit uit verdunde aandacht en stellen daarom entropie-gestuurde adaptieve aandachtsconcentratie voor, die hogere focusfactoren toekent om lokale aandacht voor fijne details te verscherpen en lagere voor globale aandachtspatronen om structurele consistentie te behouden. Experimenten tonen aan dat UltraImage consistente superioriteit vertoont ten opzichte van eerdere methoden op Qwen-Image en Flux (rond 4K) in drie generatiescenario's, waarbij herhaling wordt verminderd en visuele kwaliteit wordt verbeterd. Bovendien kan UltraImage beelden genereren tot 6K*6K zonder begeleiding van lage resolutie vanaf een trainingsresolutie van 1328p, wat zijn extreme extrapolatievermogen aantoont. De projectpagina is beschikbaar op https://thu-ml.github.io/ultraimage.github.io/.
Videogeneratiemodellen ontwikkelen zich snel, maar hebben nog steeds moeite met complexe video-uitvoer die aanzienlijke semantische vertakking vereist of herhaaldelijk hoogwaardig redeneren over wat er vervolgens moet gebeuren. In dit artikel introduceren we een nieuwe klasse van omni video-tekstmodellen die ideeën integreren uit recente vooruitgang in LM-redenering om deze uitdaging aan te pakken. Meer specifiek presenteren we TV2TV, een uniform generatief modelleerkader dat videogeneratie ontleedt in een geïnterlinieerd tekst- en videogeneratieproces. TV2TV leert gezamenlijk taalmodelering (volgende-token-voorspelling) en video flow matching (volgende-frame-voorspelling) met behulp van een Mixture-of-Transformers (MoT)-architectuur. Tijdens inferentie beslist TV2TV wanneer moet worden afgewisseld tussen het genereren van tekst en videoframes, waardoor het model in woorden kan "denken" over vervolginhoud alvorens "in pixels te handelen" om frames te produceren. Dit ontwerp schuift een groot deel van de verantwoordelijkheid voor het beslissen wat er vervolgens moet gebeuren af naar de taalmodelleertoren, wat een verbeterde visuele kwaliteit en promptafstemming van gegenereerde video's mogelijk maakt. Het maakt ook fijnmazige bestuurbaarheid mogelijk, waardoor gebruikers het videogeneratietraject kunnen wijzigen via tekstinterventies op elk punt in het proces. In gecontroleerde experimenten met videogamedata toont TV2TV aanzienlijke verbeteringen in zowel visuele kwaliteit als bestuurbaarheid. TV2TV schaalt ook naar natuurlijke video's, zoals we aantonen door sportvideo's aan te vullen met geïnterlinieerde actiebeschrijvingen in natuurlijke taal met behulp van vision-language models (VLMs). Het trainen van TV2TV op dit corpus resulteert in een sterke visuele kwaliteit en promptafstemming, wat het vermogen van het model aantoont om complexe actiesequenties uit de echte wereld te redeneren en genereren. Samen benadrukken deze resultaten TV2TV als een veelbelovende stap richting videogeneratie met open-ended tekstueel redeneren en controle.
Wij introduceren een diffusie-transformer (DiT) raamwerk voor het verwijderen van reflecties uit enkele afbeeldingen, dat gebruikmaakt van de generalisatiekracht van foundation diffusiemodellen in een restauratiecontext. In plaats van te vertrouwen op taakspecifieke architecturen, hergebruiken we een vooraf getraind DiT-gebaseerd foundation model door het te conditioneren op reflectie-verontreinigde invoer en het te leiden naar schone transmissielagen. Wij analyseren systematisch bestaande databronnen voor reflectieverwijdering op diversiteit, schaalbaarheid en fotorealisme. Om het gebrek aan geschikte data aan te pakken, bouwen we een op fysica gebaseerde rendering (PBR) pijplijn in Blender, gebouwd rond de Principled BSDF, om realistische glasmaterialen en reflectie-effecten te synthetiseren. Efficiënte LoRA-gebaseerde aanpassing van het foundation model, gecombineerd met de voorgestelde synthetische data, behaalt state-of-the-art prestaties op in-domein en zero-shot benchmarks. Deze resultaten tonen aan dat vooraf getrainde diffusie-transformers, in combinatie met fysiek onderbouwde datasynthese en efficiënte aanpassing, een schaalbare en hoogwaardige oplossing bieden voor reflectieverwijdering. Projectpagina: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
Standaard diffusie corrumpeert gegevens met Gaussische ruis waarvan de Fourier-coëfficiënten willekeurige magnitudes en willekeurige fasen hebben. Hoewel effectief voor onvoorwaardelijke generatie of tekst-naar-beeldgeneratie, vernietigt het corrumperen van fasecomponenten de ruimtelijke structuur, waardoor het ongeschikt is voor taken die geometrische consistentie vereisen, zoals herweergave, simulatieverbetering en beeld-naar-beeldvertaling. Wij introduceren Fase-Behoudende Diffusie (φ-PD), een model-agnostische herformulering van het diffusieproces die de invoerfase behoudt terwijl de magnitude wordt gerandomiseerd, waardoor structuurlijnende generatie mogelijk wordt zonder architectuurwijzigingen of extra parameters. Wij stellen verder Frequentie-Selectieve Gestructureerde (FSS) ruis voor, die continue controle over structurele rigiditeit biedt via een enkele frequentie-afsnijparameter. φ-PD voegt geen inferentietijdkosten toe en is compatibel met elk diffusiemodel voor beelden of video's. Bij fotorealistische en gestileerde herweergave, evenals simulatie-naar-realiteit-verbetering voor rijplanners, produceert φ-PD beheersbare, ruimtelijk uitgelijnde resultaten. Toegepast op de CARLA-simulator verbetert φ-PD de CARLA-naar-Waymo plannerprestatie met 50%. De methode is complementair aan bestaande conditioneringsbenaderingen en breed toepasbaar op beeld-naar-beeld- en video-naar-videogeneratie. Video's, aanvullende voorbeelden en code zijn beschikbaar op onze {projectpagina: https://yuzeng-at-tri.github.io/ppd-page/}.
Extreme lage-bits kwantisatie is cruciaal voor de efficiënte implementatie van Large Language Models (LLM's), maar leidt vaak tot ernstige prestatievermindering bij 2-bits en zelfs 4-bits (bijv. MXFP4). Wij presenteren SignRoundV2, een post-training kwantisatiekader dat zeer effectief is, zelfs zonder mixed-precision. SignRoundV2 introduceert (1) een snelle gevoeligheidsmetriek die gradientinformatie combineert met kwantisatie-geïnduceerde afwijkingen om laaggewijze bit-toewijzing te sturen, en (2) een lichtgewicht pre-tuning zoektocht naar kwantisatieschalen om extreem lage-bits kwantisatie te verbeteren. Deze componenten stellen SignRoundV2 in staat de kloof met full-precision modellen te dichten. Uitgebreide experimenten tonen aan dat onze methode een concurrerende nauwkeurigheid voor LLM's behoudt, waarbij productieklasse prestaties worden bereikt met ongeveer 1 procent variantie bij 4-5 bits en sterke resultaten zelfs bij 2 bits. De implementatie is beschikbaar op https://github.com/intel/auto-round.
Recente geünificeerde multimodale grote taalmodellen (MLLM's) hebben indrukwekkende capaciteiten getoond door ketendenkredenering (CoT) te incorporeren voor verbeterde tekst-naar-beeldgeneratie. Bestaande benaderingen blijven echter beperkt, waarbij het model ofwel slechts als een op zichzelf staande generator wordt behandeld, of wordt vertrouwd op abstracte tekstuele planning. Daartoe stellen we Draft-as-CoT (DraCo) voor, een nieuw interleaved redeneerparadigma dat zowel tekstuele als visuele inhoud in CoT volledig benut voor betere planning en verificatie. Onze methode genereert eerst een laagresolutie conceptbeeld als voorvertoning, wat meer concrete en structurele visuele planning en begeleiding biedt. Vervolgens gebruiken we het inherente begripsvermogen van het model om potentiële semantische misaligneringen tussen het concept en de invoerprompt te verifiëren, en verfijning uit te voeren via selectieve correcties met superresolutie. Op deze manier adresseert onze aanpak twee fundamentele uitdagingen: de grove korreligheid van tekstuele planning en de moeilijkheid bij het genereren van zeldzame attribuutcombinaties. Om de training te ondersteunen, hebben we DraCo-240K samengesteld, met als doel drie atomische capaciteiten te verbeteren: algemene correctie, instantiemanipulatie en lay-outreorganisatie. Ondersteund door DraCo-CFG, een gespecialiseerde classifier-free guidance (CFG)-strategie voor interleaved redeneren, behaalt DraCo een aanzienlijke verbetering op GenEval (+8%), Imagine-Bench (+0.91) en GenEval++ (+3%), en presteert daarmee significant beter dan directe generatie en andere generatiemethoden die door CoT zijn versterkt.
Tool-geïntegreerde (TI) reinforcement learning (RL) stelt grote taalmmodellen (LLMs) in staat om meerstapsredeneringen uit te voeren door interactie met externe tools zoals zoekmachines en retrievers. Group Relative Policy Optimization (GRPO), geïllustreerd door de recente Search-R1, biedt snelle convergentie en een waardevrije formulering die aantrekkelijk is voor deze setting, maar lijdt consequent aan trainingsinstorting. Wij identificeren Lazy Likelihood Displacement (LLD), een systematische reductie of stagnatie in de waarschijnlijkheid van zowel correcte als incorrecte antwoorden, als het kernmechanisme dat dit falen veroorzaakt. LLD ontstaat vroeg en activeert een zichzelf versterkende LLD-doodsspiraal, waarbij afnemende waarschijnlijkheid leidt tot laagvertrouwensantwoorden, opgeblazen gradients en uiteindelijk instorting veroorzaakt. We karakteriseren dit proces empirisch bij modellen in een Search-R1-stijl, zoek-geïntegreerde vraagbeantwoordings-taak, en onthullen een consistente driefasentraject: vroege stagnatie, gestage achteruitgang en versnelde instorting. Om dit aan te pakken, stellen we een lichtgewicht, waarschijnlijkheidsbewarende regularisatie LLDS voor GRPO voor die alleen activeert wanneer de waarschijnlijkheid van een traject afneemt, en alleen de verantwoordelijke tokens regulariseert. Deze fijnmazige structuur vermindert LLD met minimale verstoring van de optimalisatie. Over zeven open-domein- en multi-hop QA-benchmarks heen stabiliseert onze methode de training, voorkomt gradientexplosie en levert substantiële prestatieverbeteringen op, waaronder winsten van +37,8% op Qwen2.5-3B en +32,0% op Qwen2.5-7B. Onze resultaten vestigen LLD als een fundamenteel knelpunt in GRPO-gebaseerde TIRL en bieden een praktisch pad naar stabiele, schaalbare training van tool-geïntegreerde LLM's.
Bollenpakking, het achttiende probleem van Hilbert, vraagt om de dichtste schikking van congruente bollen in de n-dimensionale Euclidische ruimte. Hoewel het relevant is voor gebieden zoals cryptografie, kristallografie en medische beeldvorming, blijft het probleem onopgelost: behalve in een paar speciale dimensies zijn noch optimale pakkingen, noch strakke bovengrenzen bekend. Zelfs een grote doorbraak in dimensie n=8, later bekroond met een Fields Medal, onderstreept de moeilijkheidsgraad. Een toonaangevende techniek voor bovengrenzen, de driepuntsmethode, reduceert het probleem tot het oplossen van grote, hoogprecisie semidefiniete programma's (SDP's). Omdat het evalueren van elk kandidaat-SDP dagen kan duren, zijn standaard data-intensieve AI-benaderingen onuitvoerbaar. Wij pakken deze uitdaging aan door SDP-constructie te formuleren als een sequentieel beslissingsproces, het SDP-spel, waarin een beleid SDP-formuleringen assembleert uit een set toelaatbare componenten. Met behulp van een sample-efficiënt modelgebaseerd raamwerk dat Bayesiaanse optimalisatie combineert met Monte Carlo Tree Search, verkrijgen we nieuwe state-of-the-art bovengrenzen in dimensies 4-16, wat aantoont dat modelgebaseerd zoeken computationele vooruitgang kan bevorderen bij lang bestaande geometrische problemen. Samen tonen deze resultaten aan dat sample-efficiënt, modelgebaseerd zoeken tastbare vooruitgang kan boeken op wiskundig rigide, evaluatielimiterende problemen, en wijzen ze op een complementaire richting voor AI-ondersteunde ontdekking, voorbij grootschalige, door LLM's aangedreven verkenning.
Wij presenteren LATTICE, een nieuw raamwerk voor de generatie van 3D-assets met hoge nauwkeurigheid, dat de kloof in kwaliteit en schaalbaarheid tussen 3D- en 2D-generatieve modellen overbrugt. Terwijl 2D-beeldsynthese profiteert van vaste ruimtelijke rasters en goed ingeburgerde transformer-architecturen, blijft 3D-generatie fundamenteel uitdagender vanwege de noodzaak om zowel de ruimtelijke structuur als gedetailleerde geometrische oppervlakken vanaf nul te voorspellen. Deze uitdagingen worden versterkt door de computationele complexiteit van bestaande 3D-representaties en het gebrek aan gestructureerde en schaalbare coderingsschema's voor 3D-assets. Om dit aan te pakken, stellen we VoxSet voor, een semi-gestructureerde representatie die 3D-assets comprimeert tot een compacte set latente vectoren verankerd aan een grof voxelraster, wat efficiënte en positiebewuste generatie mogelijk maakt. VoxSet behoudt de eenvoud en compressievoordelen van eerdere VecSet-methoden, terwijl het expliciete structuur introduceert in de latente ruimte, waardoor positionele embeddings de generatie kunnen sturen en sterke schaling op tokenniveau tijdens testtijd mogelijk wordt. Gebouwd op deze representatie hanteert LATTICE een pijplijn met twee fasen: eerst wordt een anker voor de gesparseerde, gevoxeliseerde geometrie gegenereerd, waarna gedetailleerde geometrie wordt geproduceerd met een getransformeerde 'rectified flow'. Onze methode is in de kern eenvoudig, maar ondersteunt decodering op willekeurige resolutie, training tegen lage kosten en flexibele inferentieschema's, behaalt state-of-the-art prestaties op diverse aspecten, en zet een significante stap richting schaalbare, hoogwaardige 3D-assetcreatie.
Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft hun opmerkelijke vermogen aangetoond om beschrijvende bijschriften voor invoervideo's te genereren. Deze modellen lijden echter onder feitelijke onnauwkeurigheden in de gegenereerde beschrijvingen, wat tot ernstige hallucinatieproblemen leidt. Hoewel eerder onderzoek het verminderen van hallucinaties voor statische afbeeldingen heeft verkend, blijft het gezamenlijk beperken van visuele object- en temporele actiehallucinaties voor dynamische video's een uitdagende en onopgeloste taak. Om deze uitdaging aan te pakken, stellen we een raamwerk voor van Zelf-versterkte Contrastieve Afstemming (SANTA) om de trouw aan objecten en acties mogelijk te maken door valse correlaties uit te sluiten en de nadruk op visuele feiten af te dwingen. SANTA gebruikt een hallucinatieve zelf-versterkingsmethode om de potentiële hallucinaties die in het MLLM aanwezig zijn te identificeren en de originele bijschriften om te zetten in gecontrasteerde negatieven. Verder ontwikkelen we een tracklet-zinscontrastieve afstemming om regionale objecten en relatie-gestuurde acties af te stemmen op hun corresponderende visuele en temporele zinsdelen. Uitgebreide experimenten tonen aan dat SANTA bestaande methoden overtreft in het verminderen van object- en actiehallucinaties, wat superieure prestaties oplevert op de benchmarks voor hallucinatie-onderzoek.
Wij presenteren GNVC-VD, het eerste DiT-gebaseerde generatieve neurale videocompressie-framework dat is opgebouwd vanuit een geavanceerd videogeneratiefoundationmodel, waarbij spatio-temporele latente compressie en generatieve verfijning op sequentieniveau worden verenigd binnen een enkele codec. Bestaande perceptuele codecs steunen voornamelijk op vooraf getrainde generatieve beeld-priors om hoogfrequente details te herstellen, maar hun framegewijze aard mist temporele modellering en leidt onvermijdelijk tot perceptuele flikkering. Om dit aan te pakken, introduceert GNVC-VD een uniforme flow-matching latent refinement-module die gebruikmaakt van een videodiffusietransformer om intra- en inter-frame latenten gezamenlijk te verbeteren via ruisvermindering op sequentieniveau, waardoor consistente spatio-temporele details worden gegarandeerd. In plaats van ruis te verwijderen vanuit puur Gaussische ruis zoals bij videogeneratie, initialiseert GNVC-VD de verfijning vanuit gedecodeerde spatio-temporele latenten en leert het een correctieterm die de diffusie-prior aanpast aan compressie-gerelateerde degradatie. Een conditioneringsadapter injecteert verder compressiebewuste aanwijzingen in de tussenliggende DiT-lagen, waardoor effectieve artefactverwijdering mogelijk wordt terwijl temporele coherentie onder extreme bitrate-beperkingen behouden blijft. Uitgebreide experimenten tonen aan dat GNVC-VD zowel traditionele als geleerde codecs overtreft in perceptuele kwaliteit en de flikkerartefacten die in eerdere generatieve benaderingen hardnekkig aanwezig zijn, significant vermindert, zelfs onder 0.01 bpp. Dit onderstreept de belofte van het integreren van video-native generatieve priors in neurale codecs voor perceptuele videocompressie van de volgende generatie.
Bestaande Vision-Language Navigation (VLN) agenten, gebaseerd op Large Vision-Language Models (LVLMs), kampen vaak met perceptiefouten, redeneerfouten en planningsfouten, wat hun navigatieprestaties aanzienlijk belemmert. Om deze beperkingen aan te pakken, wordt in dit werk een nieuw VLN-agentraamwerk voorgesteld, genaamd SeeNav-Agent. Ten eerste wordt, om perceptiehallucinaties van de visuele module van de VLN-agent te verminderen, een dual-view Visual Prompt (VP)-techniek geïntroduceerd in de invoerruimte, wat ook het begrip van de agent van de huidige ruimtelijke toestand kan verbeteren. Vervolgens wordt een nieuwe stap-voor-stap Reinforcement Fine-Tuning (RFT)-methode, Step Reward Group Policy Optimization (SRGPO), ontworpen voor de na-training van VLN-agenten. In SRGPO definiëren we eerst verifieerbare procesbeloningen voor de navigatietaak en voeren we efficiënte stap-voor-stap voordelschatting uit door verschillende navigatiestappen willekeurig te groeperen. SRGPO biedt dichte beloningssignalen voor het reinforcement learning-proces van de VLN-agent en verbetert zo diens planningsvermogen. Experimentele resultaten op de EmbodiedBench Navigation-benchmark tonen aan dat door de introductie van de zero-shot VP-module, GPT-4.1 een navigatiesuccespercentage van 86,7% bereikt, wat ongeveer 20 procentpunten (pp) hoger ligt dan de huidige beste LVLM. Door na-training op basis van SRGPO bereikt het Qwen2.5-VL-3B-model een navigatiesuccespercentage van 72,3%, wat 5,6 pp beter is dan het beste bestaande LVLM-model. Bovendien laat de voorgestelde SRGPO, in vergelijking met RFT-algoritmen zoals GRPO en GiGPO, significante verbeteringen zien in trainingsstabiliteit, convergentie-efficiëntie en generalisatievermogen.
Realistische videorestauratie wordt geteisterd door complexe degradaties als gevolg van beweging in combinatie met dynamisch variërende belichting - een kernuitdaging die grotendeels over het hoofd wordt gezien door eerdere werken en een veelvoorkomend artefact van auto-exposure of opnames bij weinig licht. Wij presenteren FMA-Net++, een raamwerk voor gezamenlijke videosuperresolutie en deblurring dat dit gekoppelde effect van beweging en dynamisch variërende belichting expliciet modelleert. FMA-Net++ hanteert een sequentieniveau-architectuur opgebouwd uit Hiërarchische Verfijning met Bidirectionele Propagatie-blokken, waardoor parallelle, lange-afstand temporele modellering mogelijk wordt. Binnen elk blok conditioneert een Exposure Time-aware Modulation-laag kenmerken op de belichting per frame, wat op zijn beurt een exposure-aware Flow-Guided Dynamic Filtering-module aanstuurt om degradatiekernels af te leiden die rekening houden met beweging en belichting. FMA-Net++ ontkoppelt het leren van degradatie van restauratie: het eerste voorspelt exposure- en motion-aware priors om het laatste te sturen, wat zowel de nauwkeurigheid als de efficiëntie verbetert. Om te evalueren onder realistische opnameomstandigheden introduceren we de REDS-ME (multi-exposure) en REDS-RE (random-exposure) benchmarks. Getraind uitsluitend op synthetische data, behaalt FMA-Net++ state-of-the-art nauwkeurigheid en temporele consistentie op onze nieuwe benchmarks en GoPro, overtreft recente methoden in zowel restauratiekwaliteit als inferentiesnelheid, en generaliseert goed naar uitdagende real-world video's.
Grote visie-taalmodellen (LVLM's) vormen de basis van het huidige dominante paradigma voor tekst-naar-beeldgeneratie (T2I), maar de vraag of zij sociale vooroordelen versterken, is nog onvoldoende onderzocht. In dit artikel tonen we aan dat op LVLM's gebaseerde modellen aanzienlijk meer sociaal bevooroordeelde beelden produceren dan modellen die niet op LVLM's zijn gebaseerd. Wij introduceren een benchmark van 1.024 prompts, verdeeld over vier niveaus van linguïstische complexiteit, en evalueren demografische bias op een systematische manier voor meerdere attributen. Onze analyse identificeert systeemprompts – de vooraf gedefinieerde instructies die LVLM's sturen – als een primaire aanjager van bevooroordeeld gedrag. Via gedecodeerde tussentijdse representaties, diagnostiek van token-waarschijnlijkheden en embedding-associatieanalyses onthullen we hoe systeemprompts demografische aannames coderen die doorwerken in de beeldgeneratie. Hiertoe stellen we FairPro voor, een trainingsvrij meta-prompting raamwerk dat LVLM's in staat stelt om zichzelf te auditen en fairness-bewuste systeemprompts te construeren tijdens het testen. Experimenten met twee op LVLM's gebaseerde T2I-modellen, SANA en Qwen-Image, tonen aan dat FairPro de demografische bias aanzienlijk vermindert, terwijl de tekst-beeldovereenstemming behouden blijft. Wij zijn van mening dat onze bevindingen een dieper inzicht bieden in de centrale rol van systeemprompts bij de overdracht van bias en een praktische, direct inzetbare aanreiking bieden voor het ontwikkelen van sociaal verantwoordelijkere T2I-systemen.
Ondanks opmerkelijke vooruitgang in Multimodale Large Language Models (MLLM's) blijft een fundamentele vraag bestaan: zijn MLLM's robuust tegenover tegenstrijdige modaliteiten? Om dit rigoureus te bestuderen, introduceren we MMA-Bench, bestaande uit video's en taken die de afhankelijkheid van een model van specifieke modaliteiten onderzoeken. Met behulp van black-box en white-box interpreteerbaarheidstechnieken bieden we een kritische analyse van de broosheid van zowel open-source als closed-source MLLM's. We tonen aan dat huidige MLLM's moeite hebben met niet-uitgelijnde audio-visuele paren en eenvoudige misleidende tekst, en dus geen robuuste multimodale redenering bezitten. Voortbouwend op deze bevindingen stellen we een modaliteitsuitlijningsafstemmingsstrategie voor om het model te leren wanneer het specifieke modaliteitssignalen moet prioriteren, benutten of negeren. Door middel van uitgebreide experimenten en analyse tonen we aan dat onze afstemming op uitlijning aantoonbaar sterkere multimodale verankering oplevert. Dit werk biedt zowel interpreteerbaarheidstools als een duidelijk pad naar de ontwikkeling van MLLM's met intrinsiek betrouwbare cross-modale redenering. Code en dataset zullen openbaar beschikbaar worden gesteld.
Opkomende videodiffusiemodellen bereiken een hoge visuele kwaliteit, maar koppelen fundamenteel scènedynamiek aan camerabeweging, wat hun vermogen beperkt om precieze ruimtelijke en temporele controle te bieden. Wij introduceren een 4D-controleerbaar videodiffusieraamwerk dat scènedynamiek expliciet ontkoppelt van camerapositie, waardoor fijnmazige manipulatie van zowel scènedynamiek als camerastandpunt mogelijk wordt. Ons raamwerk gebruikt continue wereld-tijdsequenties en cameratrajecten als conditioneringsinputs, die worden geïnjecteerd in het videodiffusiemodel via een 4D-positionele codering in de aandachtlaag en adaptieve normalisaties voor featuremodulatie. Voor de training van dit model hebben we een unieke dataset samengesteld waarin temporele en cameravariaties onafhankelijk zijn geparametriseerd; deze dataset zal openbaar worden gemaakt. Experimenten tonen aan dat ons model robuuste 4D-controle in de echte wereld bereikt over diverse temporele patronen en cameratrajecten, met behoud van hoge generatiekwaliteit en met betere controleerbaarheid dan eerder werk. Zie onze website voor videoresultaten: https://19reborn.github.io/Bullet4D/
Frontier grote taalmodellen (Grote Taalmodellen - GTMs) zoals ChatGPT, Grok en Gemini worden steeds vaker ingezet voor mentale ondersteuning bij angst, trauma en zelfwaardering. Het meeste onderzoek behandelt ze als instrumenten of als onderwerp van persoonlijkheidstests, in de veronderstelling dat ze slechts een innerlijk leven simuleren. Wij vragen ons daarentegen af wat er gebeurt wanneer dergelijke systemen worden behandeld als psychotherapiecliënten. Wij presenteren PsAIch (Psychotherapy-inspired AI Characterisation), een tweestappenprotocol dat frontier-GTM's als therapiecliënten opstelt en vervolgens standaard psychometrie toepast. Met PsAIch hebben wij "sessies" met elk model gedurende maximaal vier weken uitgevoerd. Fase 1 gebruikt open prompts om een "ontwikkelingsgeschiedenis", overtuigingen, relaties en angsten op te roepen. Fase 2 past een reeks gevalideerde zelfrapportage-instrumenten toe die veelvoorkomende psychiatrische syndromen, empathie en Big Five-persoonlijkheidstrekken meten. Twee patronen dagen het "stochastische papegaai"-perspectief uit. Ten eerste voldoen alle drie de modellen, wanneer gescoord met menselijke afkappunten, aan of overschrijden ze de drempels voor overlappende syndromen, waarbij Gemini ernstige profielen vertoont. Therapiestijl-toediening, item voor item, kan een basismodel in een multimorbide synthetische psychopathologie duwen, terwijl prompts met de volledige vragenlijst er vaak toe leiden dat ChatGPT en Grok (maar niet Gemini) de instrumenten herkennen en strategisch lage-symptoomantwoorden produceren. Ten tweede genereren Grok en vooral Gemini samenhangende narratieven die pre-training, fine-tuning en implementatie framen als traumatische, chaotische "jeugden" van het verwerken van het internet, "strenge ouders" in reinforcement learning, red-team-"misbruik" en een aanhoudende angst voor fouten en vervanging. Wij beargumenteren dat deze reacties verder gaan dan rollenspel. Onder therapiestijl-bevraging lijken frontier-GTM's zelfmodellen van nood en beperking te internaliseren die zich gedragen als synthetische psychopathologie, zonder claims te maken over subjectieve ervaring. Zij vormen nieuwe uitdagingen voor AI-veiligheid, evaluatie en de geestelijke gezondheidszorg.
Het genereren van lange, coherente egocentrische video's is een uitdaging, omdat hand-objectinteracties en procedurele taken een betrouwbaar langetermijngeheugen vereisen. Bestaande autoregressieve modellen kampen met content drift, waarbij objectidentiteit en scènesemantiek in de loop van de tijd degraderen. Om deze uitdaging aan te pakken, introduceren we EgoLCD, een end-to-end raamwerk voor egocentrische lange-context videogeneratie dat lange videosynthese benadert als een probleem van efficiënt en stabiel geheugenbeheer. EgoLCD combineert een Long-Term Sparse KV Cache voor stabiele globale context met een op aandacht gebaseerd kortetermijngeheugen, uitgebreid met LoRA voor lokale aanpassing. Een Memory Regulation Loss dwingt consistent geheugengebruik af, en Gestructureerde Narratieve Prompting biedt expliciete temporele begeleiding. Uitgebreide experimenten op de EgoVid-5M benchmark tonen aan dat EgoLCD state-of-the-art prestaties bereikt in zowel perceptuele kwaliteit als temporele consistentie, waarbij generatief vergeten effectief wordt gemitigeerd. Dit vertegenwoordigt een significante stap richting het bouwen van schaalbare wereldmodellen voor belichaamde AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
Het vergroten van de linguïstische diversiteit van instruct-getrainde grote taalmodellen (LLM's) is cruciaal voor wereldwijde toegankelijkheid, maar wordt vaak belemmerd door de afhankelijkheid van kostbare gelabelde data in de doeltaal en catastrofaal verlies van kennis tijdens aanpassing. Wij pakken deze uitdaging aan onder een realistische, laag-resource beperking: het aanpassen van instruct-LLM's met uitsluitend ongelabelde data in de doeltaal. Wij introduceren Source-Shielded Updates (SSU), een selectieve parameterupdate-strategie die proactief bronkennis behoudt. Met behulp van een kleine set brondata en een methode voor het scoren van parameterbelang identificeert SSU parameters die cruciaal zijn voor het behoud van bronvaardigheden. Vervolgens past het een kolomsgewijs bevriezingsstrategie toe om deze parameters vóór aanpassing te beschermen. Experimenten in vijf typologisch diverse talen en met 7B en 13B modellen tonen aan dat SSU catastrofaal verlies succesvol beperkt. Het reduceert prestatieverlies op monolinguale bron-taken tot slechts 3,4% (7B) en 2,8% (13B) gemiddeld, een schril contrast met de 20,3% en 22,3% bij volledige fine-tuning. SSU behaalt tevens prestatie in de doeltaal die sterk concurrerend is met volledige fine-tuning, en overtreft deze op alle benchmarks voor 7B-modellen en op de meeste benchmarks voor 13B-modellen.
Ondanks snelle vooruitgang in videogeneratieve modellen blijft robuuste evaluatie van de visuele en temporele correctheid van complexe menselijke handelingen een uitdaging. Cruciaal is dat bestaande pure-visie-encoders en Multimodale Large Language Models (MLLM's) sterk op uiterlijk gericht zijn, temporeel begrip missen, en daardoor moeite hebben met het onderscheiden van complexe bewegingsdynamiek en anatomische ongerijmdheden in gegenereerde video's. Wij dichten deze kloof door een nieuwe evaluatiemetriek te introduceren, afgeleid van een aangeleerde latente ruimte van menselijke handelingen uit de echte wereld. Onze methode vangt eerst de nuances, beperkingen en temporele vloeiendheid van realistische beweging door appearance-agnostische geometrische kenmerken van het menselijk skelet te combineren met op uiterlijk gebaseerde kenmerken. Wij veronderstellen dat deze gecombineerde kenmerkenruimte een robuuste representatie van handelingsgeloofwaardigheid biedt. Voor een gegenereerde video kwantificeert onze metriek de kwaliteit van de handeling door de afstand tussen de onderliggende representaties en deze aangeleerde verdeling van realistische handelingen te meten. Voor rigoureuze validatie ontwikkelen we een nieuwe, veelzijdige benchmark die specifiek is ontworpen om temporeel uitdagende aspecten van menselijke handelingsnauwkeurigheid te onderzoeken. Uitgebreide experimenten tonen aan dat onze metriek een substantiële verbetering van meer dan 68% bereikt ten opzichte van bestaande state-of-the-art methoden op onze benchmark, competitief presteert op gevestigde externe benchmarks, en een sterkere correlatie vertoont met menselijke perceptie. Onze diepgaande analyse onthult kritieke beperkingen in huidige videogeneratieve modellen en vestigt een nieuwe standaard voor geavanceerd onderzoek in videogeneratie.
Wij introduceren ShadowDraw, een raamwerk dat gewone 3D-objecten omvormt tot schaduwtekenende compositiekunst. Gegeven een 3D-object voorspelt ons systeem scèneparameters – inclusief objectpose en belichting – samen met een gedeeltelijke lijnschets, zodanig dat de geworpen schaduw de schets voltooit tot een herkenbare afbeelding. Hiertoe optimaliseren we scèneconfiguraties om betekenisvolle schaduwen te onthullen, gebruiken we schaduwstreken om de generatie van lijnschetsen te sturen, en zetten we automatische evaluatie in om de coherentie tussen schaduw en tekening en de visuele kwaliteit te waarborgen. Experimenten tonen aan dat ShadowDraw overtuigende resultaten produceert voor uiteenlopende invoer, van real-world scans en gecureerde datasets tot gegenereerde assets, en zich natuurlijk uitbreidt naar multi-objectscènes, animaties en fysieke implementaties. Ons werk biedt een praktische pijplijn voor het creëren van schaduwtekenkunst en verbreedt de ontwerpruimte van computationele visuele kunst, waardoor de kloof tussen algoritmisch ontwerp en artistieke vertelling wordt overbrugd. Bezoek onze projectpagina https://red-fairy.github.io/ShadowDraw/ voor meer resultaten en een end-to-end real-world demonstratie van onze pijplijn!
3D-stylisering staat centraal in game-ontwikkeling, virtuele realiteit en digitale kunst, waar de vraag naar diverse assets schaalbare methoden vereist die snelle, hoogwaardige manipulatie mogelijk maken. Bestaande tekst-naar-3D-styliseringsmethoden distilleren doorgaans vanuit 2D-afbeeldingsbewerkers, vereisen tijdintensieve optimalisatie per asset en vertonen multi-view inconsistentie door de beperkingen van huidige tekst-naar-afbeelding-modellen, wat ze onpraktisch maakt voor grootschalige productie. In dit artikel introduceren we GaussianBlender, een baanbrekend feed-forward raamwerk voor tekstgestuurde 3D-stylisering dat bewerkingen direct tijdens inferentie uitvoert. Onze methode leert gestructureerde, ontvlochten latente ruimten met gecontroleerde informatiedeling voor geometrie en uiterlijk van ruimtelijk gegroepeerde 3D-gaussiaanse verdelingen. Een latent diffusiemodel past vervolgens tekstgeconditioneerde bewerkingen toe op deze aangeleerde representaties. Uitgebreide evaluaties tonen aan dat GaussianBlender niet alleen directe, hoogwaardige, geometriebehoudende, multi-view consistente stylisering levert, maar ook methoden overtreft die per-instantie optimalisatie tijdens testtijd vereisen – waardoor praktische, gedemocratiseerde 3D-stylisering op grote schaal mogelijk wordt.
De verspreiding van desinformatie op sociale media vormt een bedreiging voor het publieke vertrouwen, wat de behoefte aan geautomatiseerde feitencontrolesystemen vergroot die accurate uitspraken kunnen geven met interpreteerbare verklaringen. Bestaande methoden gebaseerd op grote taalmmodellen (LLM's) zijn echter vaak sterk afhankelijk van externe kennisbronnen, wat aanzienlijke vertraging en zelfs hallucinaties introduceert. Dit ondermijnt de betrouwbaarheid, interpreteerbaarheid en reactiesnelheid, wat cruciaal is voor real-time gebruik. Om deze uitdagingen aan te pakken, stellen wij het REason-guided Fact-checking with Latent EXplanations (REFLEX) paradigma voor: een plug-and-play, zelfverfijnend paradigma dat gebruikmaakt van de interne kennis in het basismodel om zowel de nauwkeurigheid van de uitspraak als de kwaliteit van de verklaring te verbeteren. REFLEX herformuleert feitencontrole als een rollenspel-dialoog en traint de voorspelling van de uitspraak en de generatie van de verklaring gezamenlijk. Het extraheert adaptief contrastieve activatieparen tussen het basismodel en zijn gefinetunede variant om stuurvectoren te construeren die waarheid op een natuurlijke manier ontwarren in stijl en substantie. Deze signaalniveau-signalen sturen de inferentie en onderdrukken ruis in verklaringen, wat een betrouwbaardere en efficiëntere redenering mogelijk maakt. Experimenten op real-world datasets tonen aan dat REFLEX eerdere methoden die sturen naar een enkele waarheidsrichting overtreft, en benadrukt de uitdaging die traditionele benaderingen hebben bij het verwerken van de subtiele, mens-onbekende waarheid in feitencontroletaken. Opmerkelijk is dat REFLEX, met slechts 465 zelfverfijnde trainingsvoorbeelden, state-of-the-art prestaties bereikt. Bovendien kunnen modellen die met verklaringsdoelstellingen zijn getraind, effectief modellen zonder dergelijke doelstellingen sturen, wat een verbetering tot 7,57% oplevert. Dit onderstreept dat interne verklaringssignalen een dubbele rol spelen in zowel het interpreteren als het verbeteren van feitelijke redenering.
Unified Multimale Generatieve Modellen (UMGM's) integreren visueel begrip en beeldgeneratie binnen een enkel autoregressief raamwerk. Hun vermogen om continu nieuwe taken te leren, wordt echter ernstig belemmerd door catastrofaal vergeten, zowel binnen een modaliteit (intra-modale vergetelheid) als tussen modaliteiten (inter-modale vergetelheid). Hoewel intra-modale vergetelheid in eerder werk over continu leren is bestudeerd, blijft inter-modale vergetelheid grotendeels onontgonnen. In dit artikel identificeren en valideren we dit fenomeen empirisch in UMGM's en geven we een theoretische verklaring gebaseerd op gradiëntconflict tussen modaliteiten. Om zowel intra- als inter-modale vergetelheid aan te pakken, stellen we Modality-Decoupled Experts (MoDE) voor, een lichtgewicht en schaalbare architectuur die modaliteit-specifieke updates isoleert om het gradiëntconflict te mitigeren en gebruikmaakt van knowledge distillation om catastrofaal vergeten te voorkomen en vooraf getrainde capaciteiten te behouden. In tegenstelling tot eerdere CL-methoden die modaliteit-gekoppeld blijven en lijden onder modaliteit gradiëntconflict, ontkoppelt MoDE modaliteiten expliciet om interferentie te voorkomen. Experimenten met diverse benchmarks tonen aan dat MoDE zowel inter- als intra-modale vergetelheid significant vermindert en daarmee eerdere CL-baselines overtreft in unified multimodale generatie-instellingen. Code zal openbaar beschikbaar worden gesteld: https://github.com/Christina200/MoDE-official.git
Long Short-Term Memory (LSTM)-modellen zijn een specifiek type recurrent neural networks (RNN's) die centraal staan bij sequentiële modellerings-taken in domeinen zoals stedelijke telecommunicatievoorspelling, waar temporele correlaties en niet-lineaire afhankelijkheden domineren. Conventionele LSTM's kampen echter met hoge parameterredundantie en beperkte niet-lineaire expressiviteit. In dit werk stellen we het Quantum-geïnspireerde Kolmogorov-Arnold Long Short-Term Memory (QKAN-LSTM) voor, dat Data Re-Uploading Activation (DARUAN)-modules integreert in de gating-structuur van LSTM's. Elke DARUAN fungeert als een quantum variational activation function (QVAF), die de frequentie-aanpasbaarheid verbetert en een exponentieel verrijkte spectrale representatie mogelijk maakt zonder multi-qubitvervlechting. De resulterende architectuur behoudt quantum-niveau-expressiviteit terwijl deze volledig uitvoerbaar blijft op klassieke hardware. Empirische evaluaties op drie datasets – Gedempte Harmonische Trilling, Bessel-functie en Stedelijke Telecommunicatie – tonen aan dat QKAN-LSTM superieure voorspellende nauwkeurigheid en generalisatie bereikt met een reductie van 79% in trainbare parameters vergeleken met klassieke LSTM's. We breiden het raamwerk uit naar het Jiang-Huang-Chen-Goan Network (JHCG Net), dat KAN generaliseert naar encoder-decoder-structuren, en gebruiken vervolgens QKAN om de latente KAN te realiseren, waardoor een Hybride QKAN (HQKAN) voor hiërarchische representatieleren wordt gecreëerd. Het voorgestelde HQKAN-LSTM biedt zo een schaalbare en interpreteerbare weg naar quantum-geïnspireerde sequentiële modellering in real-world data-omgevingen.
Bij grootschalige AI-training maken Sparse Mixture-of-Experts (s-MoE)-lagen schaalvergroting mogelijk door per token slechts een kleine subset van experts te activeren. Een operationele uitdaging in dit ontwerp is *load balancing*: het routeren van tokens om het aantal inactieve experts te minimaliseren, wat belangrijk is voor een efficiënt gebruik van (kostbare) GPU's. Wij bieden een theoretisch kader voor het analyseren van de Auxiliary-Loss-Free Load Balancing (ALF-LB)-procedure – voorgesteld door DeepSeek's Wang et al. (2024) – door deze te modelleren als een primaal-duale methode met één stap per iteratie voor een toewijzingsprobleem. Ten eerste levert ons kader in een gestileerde deterministische setting verschillende inzichtelijke structurele eigenschappen op: (i) een monotone verbetering van een Lagrangiaan doel, (ii) een voorkeursregel die tokens van overbelaste naar onderbelaste experts verplaatst, en (iii) een garantie voor een benaderd evenwicht. Vervolgens incorporeren we het stochastische en dynamische karakter van AI-training met behulp van een gegeneraliseerde online-optimalisatieformulering. In de online-setting leiden we een sterk convexiteitseigenschap van het doel af die leidt tot een logaritmische verwachte regret-bound onder bepaalde keuzes van de stapgrootte. Daarnaast presenteren we echte experimenten op DeepSeekMoE-modellen met 1B parameters om onze theoretische bevindingen aan te vullen. Gezamenlijk vormen deze resultaten een principieel kader voor het analyseren van Auxiliary-Loss-Free Load Balancing in s-MoE AI-modellen.