Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Yume heeft als doel om afbeeldingen, tekst of video's te gebruiken om een interactieve, realistische en dynamische wereld te creëren, die verkenning en controle mogelijk maakt met behulp van randapparatuur of neurale signalen. In dit rapport presenteren we een previewversie van \method, die een dynamische wereld creëert vanuit een invoerafbeelding en verkenning van de wereld mogelijk maakt met behulp van toetsenbordacties. Om deze hoogwaardige en interactieve videowereldgeneratie te bereiken, introduceren we een goed ontworpen framework, dat bestaat uit vier hoofdcomponenten: kwantisatie van camerabewegingen, videogeneratiearchitectuur, geavanceerde sampler en modelversnelling. Eerst kwantiseren we camerabewegingen voor stabiele training en gebruiksvriendelijke interactie met toetsenbordinvoer. Vervolgens introduceren we de Masked Video Diffusion Transformer~(MVDT) met een geheugenmodule voor oneindige videogeneratie op een autoregressieve manier. Daarna worden de trainingsvrije Anti-Artifact Mechanism (AAM) en Time Travel Sampling gebaseerd op stochastische differentiaalvergelijkingen (TTS-SDE) geïntroduceerd in de sampler voor betere visuele kwaliteit en preciezere controle. Bovendien onderzoeken we modelversnelling door synergetische optimalisatie van adversarial distillation en cachingmechanismen. We gebruiken de hoogwaardige wereldverkenningdataset \sekai om \method te trainen, en het behaalt opmerkelijke resultaten in diverse scènes en toepassingen. Alle data, codebase en modelgewichten zijn beschikbaar op https://github.com/stdstu12/YUME. Yume zal maandelijks worden bijgewerkt om zijn oorspronkelijke doel te bereiken. Projectpagina: https://stdstu12.github.io/YUME-Project/.
Het bereiken van mensachtige waarneming en redenering in Multimodale Grote Taalmodellen (MLLMs) blijft een centrale uitdaging in de kunstmatige intelligentie. Hoewel recent onderzoek zich voornamelijk heeft gericht op het verbeteren van de redeneervaardigheden in MLLMs, blijft een fundamentele vraag bestaan: Kunnen Multimodale Grote Taalmodellen de wereld echt waarnemen zoals mensen dat doen? Dit artikel verschuift de focus van redeneren naar waarneming. In plaats van benchmarks te construeren die specifiek gericht zijn op redeneren, introduceren we de Turing Eye Test (TET), een uitdagende, op waarneming gerichte benchmark die bestaat uit vier diagnostische taken die de prestaties van MLLMs evalueren op synthetische afbeeldingen die mensen intuïtief verwerken. Onze bevindingen onthullen dat state-of-the-art MLLMs catastrofale fouten vertonen op onze perceptuele taken die voor mensen triviaal zijn. Zowel in-context leren als training op de taalbackbone-effectief voor eerdere benchmarks-lukt er niet in om de prestaties op onze taken te verbeteren, terwijl fine-tuning van de visietoren snelle aanpassing mogelijk maakt, wat suggereert dat onze benchmark uitdagingen biedt voor de generalisatie van de visietoren in plaats van voor de kennis en redeneervaardigheden van de taalbackbone-een belangrijk gat tussen huidige MLLMs en menselijke waarneming. We geven een representatieve subset van TET-taken vrij in deze versie, en zullen in toekomstig werk meer diverse taken en methoden introduceren om visuele generalisatie te verbeteren.
Het ontwerpen van hoogwaardige presentatiedia's kan een uitdaging zijn voor niet-experts vanwege de complexiteit die gepaard gaat met het navigeren door verschillende ontwerpkeuzes. Talrijke geautomatiseerde tools kunnen lay-outs en kleurenschema's suggereren, maar missen vaak het vermogen om hun eigen output te verfijnen, wat een cruciaal aspect is in praktische workflows. Wij stellen DesignLab voor, dat het ontwerpproces opsplitst in twee rollen: de ontwerpbeoordelaar, die ontwerpgerelateerde problemen identificeert, en de ontwerpbijdrager die deze corrigeert. Deze decompositie maakt een iteratieve lus mogelijk waarin de beoordelaar continu problemen detecteert en de bijdrager deze corrigeert, waardoor een concept met elke iteratie verder wordt verfijnd en kwaliteiten bereikt die voorheen onhaalbaar waren. We fine-tunen grote taalmodel(len) voor deze rollen en simuleren tussentijdse concepten door gecontroleerde verstoringen in te voeren, waardoor de ontwerpbeoordelaar ontwerpfouten leert herkennen en de bijdrager leert hoe deze op te lossen. Onze experimenten tonen aan dat DesignLab bestaande ontwerp-generatiemethoden, inclusief een commercieel hulpmiddel, overtreft door het iteratieve karakter van ontwerpen te omarmen, wat kan resulteren in gepolijste, professionele dia's.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een krachtig paradigma om de redeneervaardigheden van LLM's te verbeteren. Bestaand onderzoek heeft zich voornamelijk gericht op geïsoleerde redeneerdomeinen, zoals wiskundig probleemoplossen, programmeertaken of logisch redeneren. Echter vereisen realistische redeneerscenario's van nature een geïntegreerde toepassing van meerdere cognitieve vaardigheden. Desondanks is de interactie tussen deze redeneervaardigheden onder reinforcement learning nog steeds slecht begrepen. Om deze kloof te overbruggen, presenteren we een systematisch onderzoek naar multi-domein redeneren binnen het RLVR-raamwerk, met expliciete focus op drie primaire domeinen: wiskundig redeneren, codegeneratie en het oplossen van logische puzzels. We voeren een uitgebreide studie uit bestaande uit vier belangrijke componenten: (1) Door gebruik te maken van het GRPO-algoritme en de Qwen-2.5-7B-modellenfamilie, evalueert onze studie grondig de in-domein verbeteringen en de cross-domein generalisatiecapaciteiten van de modellen wanneer ze getraind zijn op single-domein datasets. (2) Daarnaast onderzoeken we de complexe interacties, waaronder wederzijdse verbeteringen en conflicten, die ontstaan tijdens gecombineerde cross-domein training. (3) Om de invloed van SFT op RL verder te begrijpen, analyseren en vergelijken we ook prestatieverschillen tussen basis- en instructiemodellen onder identieke RL-configuraties. (4) Verder duiken we in kritische RL-trainingsdetails, waarbij we systematisch de impact onderzoeken van curriculumleerstrategieën, variaties in beloningsontwerp en taal-specifieke factoren. Door middel van uitgebreide experimenten bieden onze resultaten belangrijke inzichten in de dynamiek die domeininteracties beheerst, en onthullen we sleutelfactoren die zowel gespecialiseerde als generaliseerbare redeneerprestaties beïnvloeden. Deze bevindingen bieden waardevolle richtlijnen voor het optimaliseren van RL-methodologieën om uitgebreide, multi-domein redeneervaardigheden in LLM's te bevorderen.
Recente vooruitgang in sparse voxelrepresentaties heeft de kwaliteit van 3D-contentgeneratie aanzienlijk verbeterd, waardoor hoogwaardige modellering met fijnmazige geometrie mogelijk is geworden. Bestaande frameworks lijden echter onder ernstige computationele inefficiënties vanwege de kwadratische complexiteit van aandachtmechanismen in hun tweestaps diffusiepijplijnen. In dit werk presenteren we Ultra3D, een efficiënt 3D-generatieframework dat sparse voxelmodellering aanzienlijk versnelt zonder in te leveren op kwaliteit. Onze methode maakt gebruik van de compacte VecSet-representatie om in de eerste fase efficiënt een grove objectlay-out te genereren, waardoor het aantal tokens wordt verminderd en de voorspelling van voxelcoördinaten wordt versneld. Om per-voxel latente kenmerken in de tweede fase te verfijnen, introduceren we Part Attention, een geometrie-bewust lokaal aandachtmechanisme dat de aandachtberekening beperkt tot semantisch consistente deelregio's. Dit ontwerp behoudt structurele continuïteit terwijl onnodige globale aandacht wordt vermeden, wat resulteert in een versnelling van de latente generatie tot wel 6,7x. Om dit mechanisme te ondersteunen, bouwen we een schaalbare pijplijn voor deelannotatie die ruwe meshes omzet in sparse voxels met deel-labels. Uitgebreide experimenten tonen aan dat Ultra3D hoogwaardige 3D-generatie ondersteunt bij een resolutie van 1024 en state-of-the-art prestaties behaalt op het gebied van visuele kwaliteit en gebruikersvoorkeur.
Agentic search, als een meer autonoom en adaptief paradigma van retrieval-augmentatie, drijft de evolutie van intelligente zoeksystemen aan. Echter sluiten bestaande evaluatieframeworks niet goed aan bij de doelstellingen van agentic search. Ten eerste wijken de complexe queries die vaak worden gebruikt in huidige benchmarks vaak af van realistische gebruikerszoek-scenario's. Ten tweede introduceren eerdere benaderingen vaak ruis bij het extraheren van grondwaarheden voor end-to-end evaluaties, wat leidt tot vertekende beoordelingen op een fijnmazig niveau. Ten derde richten de meeste huidige frameworks zich uitsluitend op de kwaliteit van de uiteindelijke antwoorden, waarbij de evaluatie van het iteratieve proces dat inherent is aan agentic search wordt verwaarloosd. Om deze beperkingen aan te pakken, stellen we RAVine voor -- een Reality-Aligned eValuation-framework voor agentic LLM's met zoekfunctionaliteit. RAVine richt zich op multi-point queries en langere antwoorden die beter aansluiten bij gebruikersintenties, en introduceert een strategie voor het construeren van toeschrijfbare grondwaarheden om de nauwkeurigheid van fijnmazige evaluatie te verbeteren. Bovendien onderzoekt RAVine de interactie van het model met zoekgereedschappen gedurende het iteratieve proces en houdt het rekening met efficiëntiefactoren. We benchmarken een reeks modellen met behulp van RAVine en leiden verschillende inzichten af, die we hopen bij te dragen aan de verdere ontwikkeling van agentic search-systemen. De code en datasets zijn beschikbaar op https://github.com/SwordFaith/RAVine.
Bestaande informele taalgebaseerde (bijv. menselijke taal) Large Language Models (LLM's) die getraind zijn met Reinforcement Learning (RL) staan voor een aanzienlijke uitdaging: hun verificatieprocessen, die cruciale trainingssignalen leveren, zijn noch betrouwbaar noch schaalbaar. In feite kunnen de heersende grote propriëtaire modellen nauwelijks verifieerbare programma's genereren. Een veelbelovend maar grotendeels onontgonnen alternatief is formeel taalgebaseerd redeneren. Door LLM's te verankeren in rigoureuze formele systemen waar generatieve modellen opereren in formele taalruimtes (bijv. Dafny), wordt het mogelijk om hun redeneerprocessen en uitkomsten automatisch en wiskundig bewijsbaar te verifiëren. Deze mogelijkheid is cruciaal voor het bereiken van grootschalige, betrouwbare formele softwareverificatie. Het is een gangbare praktijk om door mensen geannoteerde chain-of-thought en andere menselijke voorkennis te gebruiken om de redeneer- en codeervaardigheden van LLM's te stimuleren. Helaas wordt het onacceptabel tijdrovend om dergelijke voorkennis te leveren voor het begeleiden van complexe programmeertaken. In dit werk verkennen we systematisch manieren om menselijke voorkennis te verminderen met de formele taal Dafny als de belangrijkste omgeving voor onze pilotstudie. Onze pijplijn bericht voornamelijk op het introduceren van een automatische en schaalbare datacuratiepijplijn, en zorgvuldige RL-ontwerpen geïntegreerd met feedback van de formele taalverifier. We introduceren DafnyComp, een benchmark van compositionele formele programma's met geautomatiseerde formele specificaties voor specificatieredenering. Onze supervised fine-tuning (SFT) fase stelt zelfs kleine modellen (bijv. 0,5B) in staat om syntactisch geldige en verifieerbare Dafny-code te genereren, wat propriëtaire modellen overtreft. RL met regularisatie verbetert de prestaties verder, wat resulteert in een sterkere generalisatie naar taken buiten het domein en alle sterke baselines overtreft op de uitdagende DafnyComp-benchmark.
Grote Taalmodellen (LLMs) presteren het beste met zorgvuldig opgestelde prompts, maar prompt engineering blijft handmatig, inconsistent en ontoegankelijk voor niet-experts. Wij introduceren Promptomatix, een automatisch promptoptimalisatiekader dat natuurlijke taalbeschrijvingen omzet in hoogwaardige prompts zonder handmatige afstemming of domeinkennis te vereisen. Promptomatix ondersteunt zowel een lichtgewicht meta-prompt-gebaseerde optimalisator als een DSPy-aangedreven compiler, met een modulair ontwerp dat toekomstige uitbreiding naar geavanceerdere kaders mogelijk maakt. Het systeem analyseert gebruikersintentie, genereert synthetische trainingsdata, selecteert promptstrategieën en verfijnt prompts met kostbewuste doelstellingen. Getest over 5 taakcategorieën, behaalt Promptomatix competitieve of superieure prestaties in vergelijking met bestaande bibliotheken, terwijl het promptlengte en rekenoverhead vermindert, waardoor promptoptimalisatie schaalbaar en efficiënt wordt.
Hoogwaardige 3D-assets zijn essentieel voor diverse toepassingen in computergraphics en 3D-visualisatie, maar blijven schaars vanwege de aanzienlijke verwervingskosten. Om dit tekort aan te pakken, introduceren we Elevate3D, een nieuw raamwerk dat gemakkelijk toegankelijke, laagwaardige 3D-assets transformeert naar hogere kwaliteit. De kern van Elevate3D is HFS-SDEdit, een gespecialiseerde methode voor textuurverbetering die de textuurkwaliteit aanzienlijk verbetert terwijl het uiterlijk en de geometrie behouden blijven en degradaties worden hersteld. Bovendien werkt Elevate3D op een beeld-voor-beeld-manier, waarbij afwisselend textuur- en geometrie-verfijning plaatsvindt. In tegenstelling tot eerdere methoden die grotendeels geometrie-verfijning hebben over het hoofd gezien, maakt ons raamwerk gebruik van geometrische aanwijzingen uit afbeeldingen die zijn verfijnd met HFS-SDEdit door state-of-the-art monokulaire geometrie-voorspellers in te zetten. Deze aanpak zorgt voor gedetailleerde en nauwkeurige geometrie die naadloos aansluit bij de verbeterde textuur. Elevate3D overtreft recente concurrenten door state-of-the-art kwaliteit te bereiken in 3D-modelverfijning, waardoor het tekort aan hoogwaardige open-source 3D-assets effectief wordt aangepakt.
De snelle vooruitgang van videodiffusiemodellen wordt belemmerd door fundamentele beperkingen in temporele modellering, met name de rigide synchronisatie van frame-evolutie die wordt opgelegd door conventionele scalaire tijdsstapvariabelen. Hoewel taakspecifieke aanpassingen en autoregressieve modellen hebben geprobeerd deze uitdagingen aan te pakken, blijven ze beperkt door computationele inefficiëntie, catastrofaal vergeten of een smalle toepasbaarheid. In dit werk presenteren we Pusa, een baanbrekend paradigma dat gebruikmaakt van 'vectorized timestep adaptation' (VTA) om fijnmazige temporele controle mogelijk te maken binnen een geünificeerd videodiffusiekader. Bovendien is VTA een niet-destructieve aanpassing, wat betekent dat het de mogelijkheden van het basismodel volledig behoudt. Door het SOTA Wan2.1-T2V-14B-model te finetunen met VTA, bereiken we een ongekende efficiëntie – de prestaties van Wan-I2V-14B worden overtroffen met ≤ 1/200 van de trainingskosten (\500 vs. ≥ 100.000) en ≤ 1/2500 van de datasetgrootte (4K vs. ≥ 10M samples). Pusa zet niet alleen een nieuwe standaard voor beeld-naar-video (I2V)-generatie, met een VBench-I2V-totaalscore van 87,32% (vs. 86,86% van Wan-I2V-14B), maar ontgrendelt ook veel zero-shot multitask-mogelijkheden, zoals start-eind frames en video-extensie – allemaal zonder taakspecifieke training. Tegelijkertijd kan Pusa nog steeds tekst-naar-video-generatie uitvoeren. Mechanistische analyses tonen aan dat onze aanpak de generatieve prioriteiten van het foundationmodel behoudt terwijl temporele dynamiek op een gerichte manier wordt geïnjecteerd, waardoor de combinatorische explosie die inherent is aan vectorized tijdsstappen wordt vermeden. Dit werk vestigt een schaalbaar, efficiënt en veelzijdig paradigma voor de volgende generatie van videosynthese, waardoor hoogwaardige videogeneratie wordt gedemocratiseerd voor zowel onderzoek als industrie. De code is open-source beschikbaar op https://github.com/Yaofang-Liu/Pusa-VidGen.
Text-to-image diffusiemodellen (DMs) hebben opmerkelijke successen geboekt in beeldgeneratie. Er bestaan echter zorgen over gegevensprivacy en intellectueel eigendom vanwege hun potentieel om onbedoeld trainingsgegevens te onthouden en te repliceren. Recente inspanningen om dit te mitigeren hebben zich gericht op het identificeren en verwijderen van gewichten die verantwoordelijk zijn voor het activeren van replicatie, gebaseerd op de aanname dat onthouden gelokaliseerd kan worden. Ons onderzoek beoordeelt de robuustheid van deze op snoeien gebaseerde benaderingen. We tonen aan dat zelfs na het snoeien, kleine aanpassingen aan de tekstembeddingen van invoerprompts voldoende zijn om gegevensreplicatie opnieuw te activeren, wat de kwetsbaarheid van deze verdedigingsmechanismen benadrukt. Bovendien betwisten we de fundamentele aanname van gelokaliseerd onthouden door aan te tonen dat replicatie vanuit diverse locaties binnen de tekstembeddingruimte kan worden geactiveerd en verschillende paden in het model volgt. Onze bevindingen geven aan dat bestaande mitigatiestrategieën ontoereikend zijn en benadrukken de noodzaak voor methoden die onthouden inhoud daadwerkelijk verwijderen, in plaats van te proberen de ophaling ervan te onderdrukken. Als eerste stap in deze richting introduceren we een nieuwe adversariële fine-tuningmethode die iteratief zoekt naar replicatietriggers en het model bijwerkt om de robuustheid te vergroten. Door ons onderzoek bieden we nieuwe inzichten in de aard van onthouden in text-to-image DMs en een basis voor het bouwen van betrouwbaardere en compliantere generatieve AI.