HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

11 papers found

Yume: Een Interactief Model voor Wereldgeneratie
Yume: An Interactive World Generation Model

Jul 23

ByXiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

Yume heeft als doel om afbeeldingen, tekst of video's te gebruiken om een interactieve, realistische en dynamische wereld te creëren, die verkenning en controle mogelijk maakt met behulp van randapparatuur of neurale signalen. In dit rapport presenteren we een previewversie van \method, die een dynamische wereld creëert vanuit een invoerafbeelding en verkenning van de wereld mogelijk maakt met behulp van toetsenbordacties. Om deze hoogwaardige en interactieve videowereldgeneratie te bereiken, introduceren we een goed ontworpen framework, dat bestaat uit vier hoofdcomponenten: kwantisatie van camerabewegingen, videogeneratiearchitectuur, geavanceerde sampler en modelversnelling. Eerst kwantiseren we camerabewegingen voor stabiele training en gebruiksvriendelijke interactie met toetsenbordinvoer. Vervolgens introduceren we de Masked Video Diffusion Transformer~(MVDT) met een geheugenmodule voor oneindige videogeneratie op een autoregressieve manier. Daarna worden de trainingsvrije Anti-Artifact Mechanism (AAM) en Time Travel Sampling gebaseerd op stochastische differentiaalvergelijkingen (TTS-SDE) geïntroduceerd in de sampler voor betere visuele kwaliteit en preciezere controle. Bovendien onderzoeken we modelversnelling door synergetische optimalisatie van adversarial distillation en cachingmechanismen. We gebruiken de hoogwaardige wereldverkenningdataset \sekai om \method te trainen, en het behaalt opmerkelijke resultaten in diverse scènes en toepassingen. Alle data, codebase en modelgewichten zijn beschikbaar op https://github.com/stdstu12/YUME. Yume zal maandelijks worden bijgewerkt om zijn oorspronkelijke doel te bereiken. Projectpagina: https://stdstu12.github.io/YUME-Project/.

Pixels, Patronen, maar geen Poëzie: De Wereld Zien zoals Mensen
Pixels, Patterns, but No Poetry: To See The World like Humans

Jul 21

ByHongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

Het bereiken van mensachtige waarneming en redenering in Multimodale Grote Taalmodellen (MLLMs) blijft een centrale uitdaging in de kunstmatige intelligentie. Hoewel recent onderzoek zich voornamelijk heeft gericht op het verbeteren van de redeneervaardigheden in MLLMs, blijft een fundamentele vraag bestaan: Kunnen Multimodale Grote Taalmodellen de wereld echt waarnemen zoals mensen dat doen? Dit artikel verschuift de focus van redeneren naar waarneming. In plaats van benchmarks te construeren die specifiek gericht zijn op redeneren, introduceren we de Turing Eye Test (TET), een uitdagende, op waarneming gerichte benchmark die bestaat uit vier diagnostische taken die de prestaties van MLLMs evalueren op synthetische afbeeldingen die mensen intuïtief verwerken. Onze bevindingen onthullen dat state-of-the-art MLLMs catastrofale fouten vertonen op onze perceptuele taken die voor mensen triviaal zijn. Zowel in-context leren als training op de taalbackbone-effectief voor eerdere benchmarks-lukt er niet in om de prestaties op onze taken te verbeteren, terwijl fine-tuning van de visietoren snelle aanpassing mogelijk maakt, wat suggereert dat onze benchmark uitdagingen biedt voor de generalisatie van de visietoren in plaats van voor de kennis en redeneervaardigheden van de taalbackbone-een belangrijk gat tussen huidige MLLMs en menselijke waarneming. We geven een representatieve subset van TET-taken vrij in deze versie, en zullen in toekomstig werk meer diverse taken en methoden introduceren om visuele generalisatie te verbeteren.

DesignLab: Presentaties Ontwerpen Door Iteratieve Detectie en Correctie
DesignLab: Designing Slides Through Iterative Detection and Correction

Jul 23

ByJooyeol Yun, Heng Wang, Yotaro Shimose, Jaegul Choo, Shingo Takamatsu

Het ontwerpen van hoogwaardige presentatiedia's kan een uitdaging zijn voor niet-experts vanwege de complexiteit die gepaard gaat met het navigeren door verschillende ontwerpkeuzes. Talrijke geautomatiseerde tools kunnen lay-outs en kleurenschema's suggereren, maar missen vaak het vermogen om hun eigen output te verfijnen, wat een cruciaal aspect is in praktische workflows. Wij stellen DesignLab voor, dat het ontwerpproces opsplitst in twee rollen: de ontwerpbeoordelaar, die ontwerpgerelateerde problemen identificeert, en de ontwerpbijdrager die deze corrigeert. Deze decompositie maakt een iteratieve lus mogelijk waarin de beoordelaar continu problemen detecteert en de bijdrager deze corrigeert, waardoor een concept met elke iteratie verder wordt verfijnd en kwaliteiten bereikt die voorheen onhaalbaar waren. We fine-tunen grote taalmodel(len) voor deze rollen en simuleren tussentijdse concepten door gecontroleerde verstoringen in te voeren, waardoor de ontwerpbeoordelaar ontwerpfouten leert herkennen en de bijdrager leert hoe deze op te lossen. Onze experimenten tonen aan dat DesignLab bestaande ontwerp-generatiemethoden, inclusief een commercieel hulpmiddel, overtreft door het iteratieve karakter van ontwerpen te omarmen, wat kan resulteren in gepolijste, professionele dia's.

Kan één domein anderen helpen? Een data-gerichte studie over redeneren over meerdere domeinen via reinforcement learning
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

Jul 23

ByYu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een krachtig paradigma om de redeneervaardigheden van LLM's te verbeteren. Bestaand onderzoek heeft zich voornamelijk gericht op geïsoleerde redeneerdomeinen, zoals wiskundig probleemoplossen, programmeertaken of logisch redeneren. Echter vereisen realistische redeneerscenario's van nature een geïntegreerde toepassing van meerdere cognitieve vaardigheden. Desondanks is de interactie tussen deze redeneervaardigheden onder reinforcement learning nog steeds slecht begrepen. Om deze kloof te overbruggen, presenteren we een systematisch onderzoek naar multi-domein redeneren binnen het RLVR-raamwerk, met expliciete focus op drie primaire domeinen: wiskundig redeneren, codegeneratie en het oplossen van logische puzzels. We voeren een uitgebreide studie uit bestaande uit vier belangrijke componenten: (1) Door gebruik te maken van het GRPO-algoritme en de Qwen-2.5-7B-modellenfamilie, evalueert onze studie grondig de in-domein verbeteringen en de cross-domein generalisatiecapaciteiten van de modellen wanneer ze getraind zijn op single-domein datasets. (2) Daarnaast onderzoeken we de complexe interacties, waaronder wederzijdse verbeteringen en conflicten, die ontstaan tijdens gecombineerde cross-domein training. (3) Om de invloed van SFT op RL verder te begrijpen, analyseren en vergelijken we ook prestatieverschillen tussen basis- en instructiemodellen onder identieke RL-configuraties. (4) Verder duiken we in kritische RL-trainingsdetails, waarbij we systematisch de impact onderzoeken van curriculumleerstrategieën, variaties in beloningsontwerp en taal-specifieke factoren. Door middel van uitgebreide experimenten bieden onze resultaten belangrijke inzichten in de dynamiek die domeininteracties beheerst, en onthullen we sleutelfactoren die zowel gespecialiseerde als generaliseerbare redeneerprestaties beïnvloeden. Deze bevindingen bieden waardevolle richtlijnen voor het optimaliseren van RL-methodologieën om uitgebreide, multi-domein redeneervaardigheden in LLM's te bevorderen.

Ultra3D: Efficiënte en hoogwaardige 3D-generatie met aandacht voor onderdelen
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

Jul 23

ByYiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin

Recente vooruitgang in sparse voxelrepresentaties heeft de kwaliteit van 3D-contentgeneratie aanzienlijk verbeterd, waardoor hoogwaardige modellering met fijnmazige geometrie mogelijk is geworden. Bestaande frameworks lijden echter onder ernstige computationele inefficiënties vanwege de kwadratische complexiteit van aandachtmechanismen in hun tweestaps diffusiepijplijnen. In dit werk presenteren we Ultra3D, een efficiënt 3D-generatieframework dat sparse voxelmodellering aanzienlijk versnelt zonder in te leveren op kwaliteit. Onze methode maakt gebruik van de compacte VecSet-representatie om in de eerste fase efficiënt een grove objectlay-out te genereren, waardoor het aantal tokens wordt verminderd en de voorspelling van voxelcoördinaten wordt versneld. Om per-voxel latente kenmerken in de tweede fase te verfijnen, introduceren we Part Attention, een geometrie-bewust lokaal aandachtmechanisme dat de aandachtberekening beperkt tot semantisch consistente deelregio's. Dit ontwerp behoudt structurele continuïteit terwijl onnodige globale aandacht wordt vermeden, wat resulteert in een versnelling van de latente generatie tot wel 6,7x. Om dit mechanisme te ondersteunen, bouwen we een schaalbare pijplijn voor deelannotatie die ruwe meshes omzet in sparse voxels met deel-labels. Uitgebreide experimenten tonen aan dat Ultra3D hoogwaardige 3D-generatie ondersteunt bij een resolutie van 1024 en state-of-the-art prestaties behaalt op het gebied van visuele kwaliteit en gebruikersvoorkeur.

RAVine: Realiteit-Gebonden Evaluatie voor Agentgericht Zoeken
RAVine: Reality-Aligned Evaluation for Agentic Search

Jul 22

ByYilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao

Agentic search, als een meer autonoom en adaptief paradigma van retrieval-augmentatie, drijft de evolutie van intelligente zoeksystemen aan. Echter sluiten bestaande evaluatieframeworks niet goed aan bij de doelstellingen van agentic search. Ten eerste wijken de complexe queries die vaak worden gebruikt in huidige benchmarks vaak af van realistische gebruikerszoek-scenario's. Ten tweede introduceren eerdere benaderingen vaak ruis bij het extraheren van grondwaarheden voor end-to-end evaluaties, wat leidt tot vertekende beoordelingen op een fijnmazig niveau. Ten derde richten de meeste huidige frameworks zich uitsluitend op de kwaliteit van de uiteindelijke antwoorden, waarbij de evaluatie van het iteratieve proces dat inherent is aan agentic search wordt verwaarloosd. Om deze beperkingen aan te pakken, stellen we RAVine voor -- een Reality-Aligned eValuation-framework voor agentic LLM's met zoekfunctionaliteit. RAVine richt zich op multi-point queries en langere antwoorden die beter aansluiten bij gebruikersintenties, en introduceert een strategie voor het construeren van toeschrijfbare grondwaarheden om de nauwkeurigheid van fijnmazige evaluatie te verbeteren. Bovendien onderzoekt RAVine de interactie van het model met zoekgereedschappen gedurende het iteratieve proces en houdt het rekening met efficiëntiefactoren. We benchmarken een reeks modellen met behulp van RAVine en leiden verschillende inzichten af, die we hopen bij te dragen aan de verdere ontwikkeling van agentic search-systemen. De code en datasets zijn beschikbaar op https://github.com/SwordFaith/RAVine.

Re:Form -- Het verminderen van menselijke aannames in schaalbare formele softwareverificatie met RL in LLMs: Een voorlopige studie over Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Jul 22

ByChuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Zhuangzhuang He, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu

Bestaande informele taalgebaseerde (bijv. menselijke taal) Large Language Models (LLM's) die getraind zijn met Reinforcement Learning (RL) staan voor een aanzienlijke uitdaging: hun verificatieprocessen, die cruciale trainingssignalen leveren, zijn noch betrouwbaar noch schaalbaar. In feite kunnen de heersende grote propriëtaire modellen nauwelijks verifieerbare programma's genereren. Een veelbelovend maar grotendeels onontgonnen alternatief is formeel taalgebaseerd redeneren. Door LLM's te verankeren in rigoureuze formele systemen waar generatieve modellen opereren in formele taalruimtes (bijv. Dafny), wordt het mogelijk om hun redeneerprocessen en uitkomsten automatisch en wiskundig bewijsbaar te verifiëren. Deze mogelijkheid is cruciaal voor het bereiken van grootschalige, betrouwbare formele softwareverificatie. Het is een gangbare praktijk om door mensen geannoteerde chain-of-thought en andere menselijke voorkennis te gebruiken om de redeneer- en codeervaardigheden van LLM's te stimuleren. Helaas wordt het onacceptabel tijdrovend om dergelijke voorkennis te leveren voor het begeleiden van complexe programmeertaken. In dit werk verkennen we systematisch manieren om menselijke voorkennis te verminderen met de formele taal Dafny als de belangrijkste omgeving voor onze pilotstudie. Onze pijplijn bericht voornamelijk op het introduceren van een automatische en schaalbare datacuratiepijplijn, en zorgvuldige RL-ontwerpen geïntegreerd met feedback van de formele taalverifier. We introduceren DafnyComp, een benchmark van compositionele formele programma's met geautomatiseerde formele specificaties voor specificatieredenering. Onze supervised fine-tuning (SFT) fase stelt zelfs kleine modellen (bijv. 0,5B) in staat om syntactisch geldige en verifieerbare Dafny-code te genereren, wat propriëtaire modellen overtreft. RL met regularisatie verbetert de prestaties verder, wat resulteert in een sterkere generalisatie naar taken buiten het domein en alle sterke baselines overtreft op de uitdagende DafnyComp-benchmark.

Promptomatix: Een Automatisch Promptoptimalisatiekader voor Grote Taalmodellen
Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Jul 17

ByRithesh Murthy, Ming Zhu, Liangwei Yang, Jielin Qiu, Juntao Tan, Shelby Heinecke, Caiming Xiong, Silvio Savarese, Huan Wang

Grote Taalmodellen (LLMs) presteren het beste met zorgvuldig opgestelde prompts, maar prompt engineering blijft handmatig, inconsistent en ontoegankelijk voor niet-experts. Wij introduceren Promptomatix, een automatisch promptoptimalisatiekader dat natuurlijke taalbeschrijvingen omzet in hoogwaardige prompts zonder handmatige afstemming of domeinkennis te vereisen. Promptomatix ondersteunt zowel een lichtgewicht meta-prompt-gebaseerde optimalisator als een DSPy-aangedreven compiler, met een modulair ontwerp dat toekomstige uitbreiding naar geavanceerdere kaders mogelijk maakt. Het systeem analyseert gebruikersintentie, genereert synthetische trainingsdata, selecteert promptstrategieën en verfijnt prompts met kostbewuste doelstellingen. Getest over 5 taakcategorieën, behaalt Promptomatix competitieve of superieure prestaties in vergelijking met bestaande bibliotheken, terwijl het promptlengte en rekenoverhead vermindert, waardoor promptoptimalisatie schaalbaar en efficiënt wordt.

Verbetering van 3D-modellen: Verfijning van hoogwaardige textuur en geometrie vanuit een model van lage kwaliteit
Elevating 3D Models: High-Quality Texture and Geometry Refinement from a Low-Quality Model

Jul 15

ByNuri Ryu, Jiyun Won, Jooeun Son, Minsu Gong, Joo-Haeng Lee, Sunghyun Cho

Hoogwaardige 3D-assets zijn essentieel voor diverse toepassingen in computergraphics en 3D-visualisatie, maar blijven schaars vanwege de aanzienlijke verwervingskosten. Om dit tekort aan te pakken, introduceren we Elevate3D, een nieuw raamwerk dat gemakkelijk toegankelijke, laagwaardige 3D-assets transformeert naar hogere kwaliteit. De kern van Elevate3D is HFS-SDEdit, een gespecialiseerde methode voor textuurverbetering die de textuurkwaliteit aanzienlijk verbetert terwijl het uiterlijk en de geometrie behouden blijven en degradaties worden hersteld. Bovendien werkt Elevate3D op een beeld-voor-beeld-manier, waarbij afwisselend textuur- en geometrie-verfijning plaatsvindt. In tegenstelling tot eerdere methoden die grotendeels geometrie-verfijning hebben over het hoofd gezien, maakt ons raamwerk gebruik van geometrische aanwijzingen uit afbeeldingen die zijn verfijnd met HFS-SDEdit door state-of-the-art monokulaire geometrie-voorspellers in te zetten. Deze aanpak zorgt voor gedetailleerde en nauwkeurige geometrie die naadloos aansluit bij de verbeterde textuur. Elevate3D overtreft recente concurrenten door state-of-the-art kwaliteit te bereiken in 3D-modelverfijning, waardoor het tekort aan hoogwaardige open-source 3D-assets effectief wordt aangepakt.

PUSA V1.0: Overstijgt Wan-I2V met $500 trainingskosten door vectorized timestep-aanpassing
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

Jul 22

ByYaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel

De snelle vooruitgang van videodiffusiemodellen wordt belemmerd door fundamentele beperkingen in temporele modellering, met name de rigide synchronisatie van frame-evolutie die wordt opgelegd door conventionele scalaire tijdsstapvariabelen. Hoewel taakspecifieke aanpassingen en autoregressieve modellen hebben geprobeerd deze uitdagingen aan te pakken, blijven ze beperkt door computationele inefficiëntie, catastrofaal vergeten of een smalle toepasbaarheid. In dit werk presenteren we Pusa, een baanbrekend paradigma dat gebruikmaakt van 'vectorized timestep adaptation' (VTA) om fijnmazige temporele controle mogelijk te maken binnen een geünificeerd videodiffusiekader. Bovendien is VTA een niet-destructieve aanpassing, wat betekent dat het de mogelijkheden van het basismodel volledig behoudt. Door het SOTA Wan2.1-T2V-14B-model te finetunen met VTA, bereiken we een ongekende efficiëntie – de prestaties van Wan-I2V-14B worden overtroffen met ≤ 1/200 van de trainingskosten (\500 vs. ≥ 100.000) en ≤ 1/2500 van de datasetgrootte (4K vs. ≥ 10M samples). Pusa zet niet alleen een nieuwe standaard voor beeld-naar-video (I2V)-generatie, met een VBench-I2V-totaalscore van 87,32% (vs. 86,86% van Wan-I2V-14B), maar ontgrendelt ook veel zero-shot multitask-mogelijkheden, zoals start-eind frames en video-extensie – allemaal zonder taakspecifieke training. Tegelijkertijd kan Pusa nog steeds tekst-naar-video-generatie uitvoeren. Mechanistische analyses tonen aan dat onze aanpak de generatieve prioriteiten van het foundationmodel behoudt terwijl temporele dynamiek op een gerichte manier wordt geïnjecteerd, waardoor de combinatorische explosie die inherent is aan vectorized tijdsstappen wordt vermeden. Dit werk vestigt een schaalbaar, efficiënt en veelzijdig paradigma voor de volgende generatie van videosynthese, waardoor hoogwaardige videogeneratie wordt gedemocratiseerd voor zowel onderzoek als industrie. De code is open-source beschikbaar op https://github.com/Yaofang-Liu/Pusa-VidGen.

Dori vinden: Memorisatie in tekst-naar-beeld diffusiemodellen is minder lokaal dan verondersteld
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed

Jul 22

ByAntoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch

Text-to-image diffusiemodellen (DMs) hebben opmerkelijke successen geboekt in beeldgeneratie. Er bestaan echter zorgen over gegevensprivacy en intellectueel eigendom vanwege hun potentieel om onbedoeld trainingsgegevens te onthouden en te repliceren. Recente inspanningen om dit te mitigeren hebben zich gericht op het identificeren en verwijderen van gewichten die verantwoordelijk zijn voor het activeren van replicatie, gebaseerd op de aanname dat onthouden gelokaliseerd kan worden. Ons onderzoek beoordeelt de robuustheid van deze op snoeien gebaseerde benaderingen. We tonen aan dat zelfs na het snoeien, kleine aanpassingen aan de tekstembeddingen van invoerprompts voldoende zijn om gegevensreplicatie opnieuw te activeren, wat de kwetsbaarheid van deze verdedigingsmechanismen benadrukt. Bovendien betwisten we de fundamentele aanname van gelokaliseerd onthouden door aan te tonen dat replicatie vanuit diverse locaties binnen de tekstembeddingruimte kan worden geactiveerd en verschillende paden in het model volgt. Onze bevindingen geven aan dat bestaande mitigatiestrategieën ontoereikend zijn en benadrukken de noodzaak voor methoden die onthouden inhoud daadwerkelijk verwijderen, in plaats van te proberen de ophaling ervan te onderdrukken. Als eerste stap in deze richting introduceren we een nieuwe adversariële fine-tuningmethode die iteratief zoekt naar replicatietriggers en het model bijwerkt om de robuustheid te vergroten. Door ons onderzoek bieden we nieuwe inzichten in de aard van onthouden in text-to-image DMs en een basis voor het bouwen van betrouwbaardere en compliantere generatieve AI.

Re:Form -- Het verminderen van menselijke aannames in schaalbare formele softwareverificatie met RL in LLMs: Een voorlopige studie over Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Jul 22

ByChuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Zhuangzhuang He, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu