Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel introduceren we NeoVerse, een veelzijdig 4D-wereldmodel dat in staat is tot 4D-reconstructie, videogeneratie langs nieuwe trajecten en diverse downstream-toepassingen. We identificeren eerst een algemene schaalbaarheidsbeperking in huidige 4D-wereldmodelleringsmethoden, veroorzaakt door dure en gespecialiseerde multi-view 4D-data of door omslachtige trainingsvoorbewerking. In tegenstelling hiermee is onze NeoVerse gebouwd op een kernfilosofie die de volledige pijplijn schaalbaar maakt voor diverse monovideo's uit de praktijk. Concreet kenmerkt NeoVerse zich door pose-vrije feed-forward 4D-reconstructie, online simulatie van monoculaire degradatiepatronen en andere goed afgestemde technieken. Deze ontwerpkeuzes geven NeoVerse veelzijdigheid en generalisatievermogen voor uiteenlopende domeinen. Tegelijkertijd behaalt NeoVerse state-of-the-art prestaties in standaard reconstructie- en generatiebenchmarks. Onze projectpagina is beschikbaar op https://neoverse-4d.github.io.
Bestaande raamwerken voor Large Language Model (LLM)-agenten kampen met twee grote uitdagingen: hoge configuratiekosten en statische capaciteiten. Het bouwen van een hoogwaardige agent vereist vaak aanzienlijke handmatige inspanning voor toolintegratie en prompt engineering, terwijl geïmplementeerde agenten moeite hebben zich aan te passen aan dynamische omgevingen zonder kostbare fine-tuning. Om deze problemen aan te pakken, stellen we Youtu-Agent voor, een modulair raamwerk ontworpen voor de automatische generatie en continue evolutie van LLM-agenten. Youtu-Agent beschikt over een gestructureerd configuratiesysteem dat uitvoeringsomgevingen, toolkits en contextbeheer ontkoppelt, waardoor flexibel hergebruik en geautomatiseerde synthese mogelijk worden. We introduceren twee generatieparadigma's: een Workflow-modus voor standaardtaken en een Meta-Agent-modus voor complexe, niet-standaard vereisten, die in staat is om automatisch toolcode, prompts en configuraties te genereren. Verder stelt Youtu-Agent een hybride beleidsoptimalisatiesysteem in: (1) een Agent Practice-module die agenten in staat stelt ervaring op te doen en prestaties te verbeteren door in-context optimalisatie zonder parameterupdates; en (2) een Agent RL-module die integreert met gedistribueerde trainingsraamwerken om schaalbare en stabiele reinforcement learning van willekeurige Youtu-Agents op een end-to-end, grootschalige manier mogelijk te maken. Experimenten tonen aan dat Youtu-Agent state-of-the-art prestaties bereikt op WebWalkerQA (71,47%) en GAIA (72,8%) met behulp van open-weight modellen. Onze geautomatiseerde generatiepijplijn behaalt een toolsynthesesuccespercentage van meer dan 81%, terwijl de Practice-module de prestaties op AIME 2024/2025 respectievelijk met +2,7% en +5,4% verbetert. Bovendien behaalt onze Agent RL-training een versnelling van 40% met gestage prestatieverbetering op 7B-LLM's, waarbij codeer-/redeneer- en zoekcapaciteiten respectievelijk tot 35% en 21% worden verbeterd op Maths en algemene/multi-hop QA-benchmarks.
Talking head-generatie creëert levensechte avatars vanuit statische portretten voor virtuele communicatie en contentcreatie. Huidige modellen slagen er echter nog niet in het gevoel van echt interactieve communicatie over te brengen, waarbij vaak eenrichtingsreacties worden gegenereerd die emotionele betrokkenheid missen. Wij identificeren twee belangrijke uitdagingen voor werkelijk interactieve avatars: het genereren van beweging in realtime onder causale beperkingen, en het aanleren van expressieve, levendige reacties zonder aanvullende gelabelde data. Om deze uitdagingen aan te pakken, stellen wij Avatar Forcing voor, een nieuw raamwerk voor interactieve hoofdavatar-generatie dat realtime gebruikers-avatar-interacties modelleert via diffusion forcing. Dit ontwerp stelt de avatar in staat om realtime multimodale invoer, waaronder audio en beweging van de gebruiker, met lage latentie te verwerken voor directe reacties op zowel verbale als non-verbale signalen zoals spraak, knikken en gelach. Verder introduceren wij een directe preference optimization-methode die gebruikmaakt van synthetische verliezende samples, geconstrueerd door gebruikerscondities weg te laten, waardoor labelvrij leren van expressieve interactie mogelijk wordt. Experimentele resultaten tonen aan dat ons raamwerk realtime interactie met lage latentie (ongeveer 500ms) mogelijk maakt, een 6,8x snellere verwerking bereikt vergeleken met de baseline, en reactieve en expressieve avatar-beweging produceert, die in meer dan 80% van de gevallen de voorkeur geniet boven de baseline.
Hoewel Vision-Language Models (VLMs) complexe taken kunnen oplossen via agent-gebaseerd redeneren, blijven hun capaciteiten grotendeels beperkt tot tekstgeoriënteerde chain-of-thought of geïsoleerde toolaanroepingen. Ze vertonen niet de mensachtige bekwaamheid die nodig is om dynamische toolmanipulatie naadloos te verweven met continu redeneren, vooral in kennisintensieve en visueel complexe scenario's die gecoördineerd gebruik van externe tools zoals zoekfuncties en beeldbijsnijden vereisen. In dit werk introduceren we SenseNova-MARS, een nieuw Multimodal Agentic Reasoning and Search raamwerk dat VLMs versterkt met verweven visueel redeneren en toolgebruikcapaciteiten via reinforcement learning (RL). Specifiek integreert SenseNova-MARS dynamisch de beeldzoek-, tekstzoek- en beeldbijsnijd-tools om fijnmazige en kennisintensieve visuele begripsuitdagingen aan te pakken. In de RL-fase stellen we het Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algoritme voor om de trainingsstabiliteit te verbeteren en het vermogen van het model om tools effectief aan te roepen en te redeneren te bevorderen. Om agentische VLMs uitgebreid te evalueren op complexe visuele taken, introduceren we de HR-MMSearch benchmark, de eerste zoekgeoriënteerde benchmark bestaande uit hoogwaardige afbeeldingen met kennisintensieve en zoekgedreven vragen. Experimenten tonen aan dat SenseNova-MARS state-of-the-art prestaties behaalt op open-source zoek- en fijnmazige beeldbegrip benchmarks. Specifiek scoort SenseNova-MARS-8B op zoekgeoriënteerde benchmarks 67.84 op MMSearch en 41.64 op HR-MMSearch, waarmee het propriëtaire modellen zoals Gemini-3-Flash en GPT-5 overtreft. SenseNova-MARS vertegenwoordigt een veelbelovende stap richting agentische VLMs door effectieve en robuuste toolgebruikcapaciteiten te bieden. Om verder onderzoek op dit gebied te vergemakkelijken, zullen we alle code, modellen en datasets vrijgeven.
Multimodale Large Language Models (MLLM's) hebben opmerkelijke vooruitgang geboekt in videobegrip. Ze lijden echter onder een kritieke kwetsbaarheid: een overmatige afhankelijkheid van taalpriors, wat kan leiden tot visueel ongegronde hallucinaties, vooral bij het verwerken van contrafeitelijke video's die de gezond verstand tarten. Deze beperking, die voortvloeit uit de intrinsieke data-onbalans tussen tekst en video, is moeilijk aan te pakken vanwege de aanzienlijke kosten van het verzamelen en annoteren van contrafeitelijke data. Om dit op te lossen, introduceren we DualityForge, een nieuw raamwerk voor de synthese van contrafeitelijke data dat gebruikmaakt van controleerbare, op diffusie gebaseerde videobewerking om real-world video's om te zetten in contrafeitelijke scenario's. Door gestructureerde contextuele informatie in te bedden in de videobewerkings- en QA-generatieprocessen, produceert het framework automatisch hoogwaardige QA-paren samen met origineel-bewerkte videoparen voor contrastieve training. Op basis hiervan bouwen we DualityVidQA, een grootschalige videodataset die is ontworpen om MLLM-hallucinaties te verminderen. Daarnaast stellen we, om het contrastieve karakter van onze gepaarde data ten volle te benutten, Duality-Normalized Advantage Training (DNA-Train) voor, een tweefasen SFT-RL-trainingsregime waarbij de RL-fase paarsgewijze ℓ₁-voordelnormalisatie toepast, waardoor een stabielere en efficiëntere beleidsoptimalisatie mogelijk wordt. Experimenten op DualityVidQA-Test tonen aan dat onze methode modelhallucinaties op contrafeitelijke video's aanzienlijk vermindert, wat een relatieve verbetering van 24,0% oplevert ten opzichte van de Qwen2.5-VL-7B-baseline. Bovendien behaalt onze aanpak significante winsten op zowel hallucinatie- als algemene benchmarks, wat wijst op een sterke generalisatiecapaciteit. We zullen onze dataset en code open source maken.
Het reconstrueren van dynamische 3D-scènes uit monovideo's vereist het gelijktijdig vastleggen van hoogfrequente uiterlijke details en temporeel continue beweging. Bestaande methoden die gebruikmaken van enkele Gauss-primitieven worden beperkt door hun laagdoorlaat-filterende aard, terwijl standaard Gabor-functies energie-instabiliteit introduceren. Bovendien leidt het ontbreken van temporele continuïteitsbeperkingen vaak tot bewegingsartefacten tijdens interpolatie. Wij presenteren AdaGaR, een uniform raamwerk dat zowel frequentie-adaptiviteit als temporele continuïteit aanpakt bij expliciete modellering van dynamische scènes. Wij introduceren Adaptieve Gabor-representatie, die Gauss-primitieven uitbreidt met leerbare frequentiegewichten en adaptieve energiecompensatie om detailvastlegging en stabiliteit in evenwicht te brengen. Voor temporele continuïteit zetten we Kubieke Hermite-splines in met Temporele Kromming Regularisatie om een vloeiende bewegingsontwikkeling te garanderen. Een Adaptief Initialisatiemechanisme dat diepteschatting, puntvolging en voorgrondmaskers combineert, legt stabiele puntenwolkverdelingen vast in de vroege trainingsfase. Experimenten op Tap-Vid DAVIS tonen state-of-the-art prestaties aan (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) en sterke generalisatie over frame-interpolatie, diepteconsistentie, videobewerking en stereoscopische viewsynthese. Projectpagina: https://jiewenchan.github.io/AdaGaR/
Ondanks de recente vooruitgang, met name in de ontwikkeling van taalmodellen, bestaan er fundamentele uitdagingen en onbeantwoorde vragen over hoe dergelijke modellen continu kunnen leren/onthouden, zichzelf kunnen verbeteren en effectieve oplossingen kunnen vinden. In dit artikel presenteren we een nieuw leerparadigma, genaamd Nested Learning (NL), dat een machine learning-model coherent weergeeft als een verzameling geneste, multi-level en/of parallelle optimalisatieproblemen, elk met een eigen contextstroom. Door de lens van NL bezien, leren bestaande deep learning-methoden van gegevens door hun eigen contextstroom te comprimeren, en in-context learning ontstaat vanzelf in grote modellen. NL suggereert een filosofie om expressievere leeralgorithmen te ontwerpen met meer niveaus, wat resulteert in in-context learning van een hogere orde en mogelijk effectieve continuële vermogens ontgrendelt. We bepleiten NL door drie kernbijdragen te presenteren: (1) Expressieve Optimalisatoren: We tonen aan dat bekende op gradienten gebaseerde optimalisatoren, zoals Adam, SGD met Momentum, enz., in feite associatieve geheugenmodules zijn die ernaar streven de informatie van gradienten te comprimeren (via gradient descent). Voortbouwend op dit inzicht presenteren we andere, expressievere optimalisatoren met een diep geheugen en/of krachtigere leerregels; (2) Zelfmodificerende Leermodule: Gebruikmakend van de inzichten van NL in leeralgorithmen, presenteren we een sequentiemodel dat leert hoe het zichzelf moet modificeren door zijn eigen update-algoritme te leren; en (3) Continuümgeheugensysteem: We presenteren een nieuwe formulering voor een geheugensysteem dat het traditionele perspectief van lang/kortetermijngeheugen generaliseert. Door ons zelfmodificerende sequentiemodel te combineren met het continuümgeheugensysteem, presenteren we een continuële leermodule, genaamd Hope, die veelbelovende resultaten laat zien in taalmodelleer-, kennisintegratie- en few-shot generalisatietaken, continuële leertaken en taken voor redeneren over lange contexten.
De effectiviteit van diepe residuele netwerken is fundamenteel gebaseerd op de identiteitsshortcut-verbinding. Hoewel dit mechanisme het verdwijnende-gradiëntprobleem effectief vermindert, legt het een strikt additieve inductieve bias op aan featuretransformaties, waardoor de capaciteit van het netwerk om complexe toestandsovergangen te modelleren wordt beperkt. In dit artikel introduceren we Deep Delta Learning (DDL), een nieuwe architectuur die de standaard residuele verbinding generaliseert door de identiteitsshortcut te moduleren met een leerbare, data-afhankelijke geometrische transformatie. Deze transformatie, de Delta-Operator genaamd, vormt een rang-1-verstoring van de identiteitsmatrix, geparameteriseerd door een reflectierichtingsvector k(X) en een gating-scalar β(X). Wij bieden een spectrale analyse van deze operator, waarin wordt aangetoond dat de gate β(X) dynamische interpolatie mogelijk maakt tussen identiteitsafbeelding, orthogonale projectie en geometrische reflectie. Verder herstructureren wij de residuele update als een synchrone rang-1-injectie, waarbij de gate fungeert als een dynamische stapgrootte die zowel het wissen van oude informatie als het schrijven van nieuwe features aanstuurt. Deze unificatie stelt het netwerk in staat om het spectrum van zijn laagsgewijze transitie-operator expliciet te controleren, waardoor het modelleren van complexe, niet-monotone dynamiek mogelijk wordt, terwijl de stabiele trainingskenmerken van gegatede residuele architecturen behouden blijven.
State-of-the-art pijplijnen voor grote taalmmodellen (LLM's) steunen op *bootstrapped* redeneerlussen: het bemonsteren van diverse gedachtegangen en het versterken van de hoogst-scorende, waarbij voornamelijk op correctheid wordt geoptimaliseerd. Wij analyseren hoe deze ontwerpkeuze gevoelig is voor het ineenstorten van de verdeling van het model over redeneerpaden, wat de semantische entropie doet kelderen en creatief probleemoplossen ondermijnt. Om dit falen te analyseren, introduceren wij *Distributional Creative Reasoning* (DCR), een uniforme variationele doelstelling die training modelleert als gradiëntstroom door kansmaten op oplossingstrajecten. STaR, GRPO en DPO, evenals entropiebonussen en andere methoden, zijn allemaal bijzondere gevallen van hetzelfde verlies. Het raamwerk levert drie kernresultaten op: (i) de *diversiteitsvervalstelling*, die beschrijft hoe op correctheid gebaseerde doelstellingen leiden tot verschillende modi van diversiteitsverval voor STaR, GRPO en DPO; (ii) ontwerpen die convergentie naar een stabiel en divers beleid garanderen, wat instorting effectief voorkomt; en (iii) eenvoudige, praktisch toepasbare recepten om dit in de praktijk te bereiken. DCR biedt zo het eerste principiële recept voor LLM's die zowel correct als creatief blijven.
Recente ontwikkelingen hebben aangetoond dat reinforcement learning (RL) de redeneervaardigheden van grote taalmodellen (LLM's) aanzienlijk kan verbeteren. De effectiviteit van dergelijke RL-training hangt echter cruciaal af van de verkenningsruimte die wordt gedefinieerd door de token-uitvoerdistributie van het vooraf getrainde model. In dit artikel herzien we de standaard cross-entropy loss en interpreteren we deze als een specifiek geval van policy gradient optimalisatie toegepast binnen een eenstaps-episode. Om systematisch te bestuderen hoe de voorgetrainde distributie het verkenningspotentieel voor daaropvolgende RL vormt, stellen we een gegeneraliseerd vooraf-trainingsdoel voor dat on-policy RL-principes toepast op supervised learning. Door next-token voorspelling te formuleren als een stochastisch beslissingsproces, introduceren we een reward-shaping strategie die expliciet diversiteit en precisie in evenwicht brengt. Onze methode gebruikt een positieve schaalfactor voor beloningen om de waarschijnlijkheidsconcentratie op ground-truth tokens te controleren en een rangbewust mechanisme dat hoge- en lage-rang negatieve tokens asymmetrisch behandelt. Hierdoor kunnen we de voorgetrainde token-uitvoerdistributie hervormen en onderzoeken hoe we een gunstigere verkenningsruimte voor RL kunnen bieden, wat uiteindelijk de end-to-end redeneerprestaties verbetert. In tegenstelling tot de intuïtie dat een hogere distributie-entropie effectieve verkenning vergemakkelijkt, constateren we dat het opleggen van een op precisie gerichte prior een superieure verkenningsruimte voor RL oplevert.
Sequence modeling-lagen in moderne taalmodellen worden doorgaans geconfronteerd met een afweging tussen opslagcapaciteit en computationele efficiëntie. Waar Softmax-attentie onbeperkte opslag biedt tegen prohibitief hoge kwadratische kosten, bieden lineaire varianten efficiëntie maar lijden onder een beperkte, vaste grootte van de opslag. Wij stellen Fast-weight Product Key Memory (FwPKM) voor, een nieuwe architectuur die deze spanning oplost door het spaarse Product Key Memory (PKM) te transformeren van een statische module naar een dynamisch, "fast-weight" episodisch geheugen. In tegenstelling tot PKM werkt FwPKM zijn parameters dynamisch bij, zowel tijdens training als inferentie, via lokale gradient descent op chunkniveau. Hierdoor kan het model snel nieuwe key-value paren uit invoersequenties onthouden en ophalen. Experimenten tonen aan dat FwPKM functioneert als een effectief episodisch geheugen dat het semantisch geheugen van standaardmodules aanvult, wat leidt tot significante perplexiteitsreducties op datasets met lange contexten. Opmerkelijk is dat FwPKM in Needle in a Haystack-evaluaties generaliseert naar contexten van 128K tokens, ondanks dat het enkel getraind is op sequenties van 4K tokens.
Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt op het gebied van redeneren en codegeneratie. Het efficiënt creëren van nieuwe benchmarks om deze capaciteiten te evalueren, blijft echter een uitdaging. Traditionele benchmarkcreatie steunt op menselijke handmatige inspanning, een proces dat zowel duur als tijdrovend is. Bovendien verontreinigen bestaande benchmarks vaak de trainingsdata van LLM's, wat de noodzaak voor nieuwe en diverse benchmarks benadrukt om hun werkelijke capaciteiten nauwkeurig te beoordelen. Dit werk introduceert InfoSynth, een nieuw raamwerk voor het automatisch genereren en evalueren van redeneerbenchmarks, geleid door informatie-theoretische principes. Wij stellen metrieken voor op basis van KL-divergentie en entropie om de nieuwheid en diversiteit van benchmarks te kwantificeren zonder afhankelijk te zijn van kostelijke modelevaluaties. Voortbordurend op dit raamwerk ontwikkelen wij een end-to-end pipeline die robuuste Python-codeerproblemen synthetiseert uit startdatasets met behulp van genetische algoritmen en iteratieve codefeedback. Onze methode genereert 97% van de tijd accurate testgevallen en oplossingen voor nieuwe problemen, en de gesynthetiseerde benchmarks vertonen consistent een hogere nieuwheid en diversiteit in vergelijking met hun startdatasets. Bovendien biedt ons algoritme een methode om de nieuwheid/diversiteit en moeilijkheidsgraad van gegenereerde problemen te controleren. InfoSynth biedt een schaalbare, zelfverificerende pipeline voor het construeren van hoogwaardige, nieuwe en diverse benchmarks voor LLM's. Projectpagina: https://ishirgarg.github.io/infosynth_web/
3D-morphing blijft een uitdaging vanwege de moeilijkheid om semantisch consistente en temporeel vloeiende vervormingen te genereren, vooral tussen categorieën. Wij presenteren MorphAny3D, een trainingsvrij raamwerk dat gestructureerde latente (SLAT) representaties benut voor hoogwaardige 3D-morphing. Onze belangrijkste inzicht is dat het intelligent mengen van bron- en doel-SAT-kenmerken binnen de aandachtmechanismen van 3D-generators op natuurlijke wijze geloofwaardige morphing-sequenties produceert. Hiertoe introduceren we Morphing Cross-Attention (MCA), dat bron- en doelinformatie versmelt voor structurele samenhang, en Temporal-Fused Self-Attention (TFSA), dat de temporele consistentie verbetert door kenmerken van voorgaande frames te incorporeren. Een oriëntatiecorrectiestrategie vermindert verder de houdingsambiguïteit binnen de morphing-stappen. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art morphing-sequenties genereert, zelfs voor uitdagende gevallen tussen categorieën. MorphAny3D ondersteunt verder geavanceerde toepassingen zoals ontkoppelde morphing en 3D-stijloverdracht, en kan worden gegeneraliseerd naar andere op SLAT gebaseerde generatieve modellen. Projectpagina: https://xiaokunsun.github.io/MorphAny3D.github.io/.