HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

12 papers found

ScreenCoder: Vooruitgang in Visueel-naar-Code Generatie voor Front-End Automatisering via Modulaire Multimodale Agents
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Jul 30

ByYilei Jiang, Yaozhi Zheng, Yuxuan Wan, Jiaming Han, Qunzhong Wang, Michael R. Lyu, Xiangyu Yue

Het automatiseren van de transformatie van user interface (UI)-ontwerpen naar front-end code biedt aanzienlijke mogelijkheden om softwareontwikkeling te versnellen en ontwerpworkflows te democratiseren. Hoewel recente grote taalmodellen (LLMs) vooruitgang hebben geboekt in tekst-naar-code generatie, vertrouwen veel bestaande benaderingen uitsluitend op natuurlijke taalprompts, wat hun effectiviteit beperkt in het vastleggen van ruimtelijke lay-out en visueel ontwerpintentie. In tegenstelling hiermee is UI-ontwikkeling in de praktijk inherent multimodaal, vaak beginnend vanuit visuele schetsen of mockups. Om deze kloof te overbruggen, introduceren we een modulair multi-agent framework dat UI-naar-code generatie uitvoert in drie interpreteerbare fasen: grounding, planning en generatie. De grounding agent gebruikt een vision-language model om UI-componenten te detecteren en te labelen, de planning agent construeert een hiërarchische lay-out met behulp van front-end engineering priors, en de generatie agent produceert HTML/CSS-code via adaptieve prompt-gebaseerde synthese. Dit ontwerp verbetert robuustheid, interpreteerbaarheid en trouw ten opzichte van end-to-end black-box methoden. Bovendien breiden we het framework uit naar een schaalbare data-engine die automatisch grootschalige beeld-code paren produceert. Met behulp van deze synthetische voorbeelden fine-tunen en versterken we een open-source VLM, wat aanzienlijke verbeteringen oplevert in UI-begrip en codekwaliteit. Uitgebreide experimenten tonen aan dat onze aanpak state-of-the-art prestaties bereikt in lay-outnauwkeurigheid, structurele samenhang en codecorrectheid. Onze code is publiekelijk beschikbaar gemaakt op https://github.com/leigest519/ScreenCoder.

Falcon-H1: Een Familie van Hybride-Kop Taalmodellen die Efficiëntie en Prestaties Herdefiniëren
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

Jul 30

ByJingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha

In dit rapport introduceren we Falcon-H1, een nieuwe serie grote taalmodelen (LLMs) met hybride architectuurontwerpen die geoptimaliseerd zijn voor zowel hoge prestaties als efficiëntie in diverse gebruiksscenario's. In tegenstelling tot eerdere Falcon-modellen die uitsluitend waren gebaseerd op Transformer- of Mamba-architecturen, neemt Falcon-H1 een parallelle hybride aanpak die Transformer-gebaseerde aandacht combineert met State Space Models (SSMs), bekend om hun superieure langetermijngeheugen en computationele efficiëntie. We hebben het modelontwerp, de datastrategie en de trainingsdynamiek systematisch herzien, waarbij we conventionele praktijken in het veld uitdaagden. Falcon-H1 wordt uitgebracht in meerdere configuraties, waaronder basis- en instructie-afgestemde varianten met 0,5B, 1,5B, 1,5B-deep, 3B, 7B en 34B parameters. Ook gekwantiseerde instructie-afgestemde modellen zijn beschikbaar, wat in totaal meer dan 30 checkpoints op de Hugging Face Hub oplevert. Falcon-H1-modellen demonstreren state-of-the-art prestaties en uitzonderlijke parameter- en trainingsefficiëntie. Het vlaggenschip Falcon-H1-34B evenaart of overtreft modellen tot 70B schaal, zoals Qwen3-32B, Qwen2.5-72B en Llama3.3-70B, terwijl het minder parameters en minder data gebruikt. Kleinere modellen vertonen vergelijkbare trends: de Falcon-H1-1.5B-Deep rivaliseert met huidige toonaangevende 7B-10B modellen, en Falcon-H1-0.5B presteert vergelijkbaar met typische 7B modellen uit 2024. Deze modellen blinken uit in redeneren, wiskunde, meertalige taken, instructievolging en wetenschappelijke kennis. Met ondersteuning voor tot 256K contexttokens en 18 talen is Falcon-H1 geschikt voor een breed scala aan toepassingen. Alle modellen worden vrijgegeven onder een permissieve open-source licentie, wat onze inzet voor toegankelijk en impactvol AI-onderzoek onderstreept.

BANG: Het verdelen van 3D-assets via generatieve geëxplodeerde dynamiek
BANG: Dividing 3D Assets via Generative Exploded Dynamics

Jul 29

ByLongwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu

3D-creatie is altijd een unieke menselijke kracht geweest, aangedreven door ons vermogen om objecten te deconstrueren en weer samen te stellen met behulp van onze ogen, geest en handen. Huidige 3D-ontwerptools hebben echter moeite om dit natuurlijke proces na te bootsen, omdat ze aanzienlijke artistieke expertise en handmatig werk vereisen. Dit artikel introduceert BANG, een nieuwe generatieve aanpak die 3D-generatie en redenering verbindt, waardoor een intuïtieve en flexibele decompositie van 3D-objecten op onderdeelniveau mogelijk wordt. De kern van BANG is "Generative Exploded Dynamics", dat een vloeiende reeks geëxplodeerde toestanden creëert voor een ingevoerde geometrie, waarbij onderdelen geleidelijk worden gescheiden terwijl hun geometrische en semantische samenhang behouden blijft. BANG maakt gebruik van een vooraf getraind latent diffusiemodel op grote schaal, dat is afgestemd op geëxplodeerde dynamiek met een lichtgewicht geëxplodeerde weergave-adapter, waardoor nauwkeurige controle over het decompositieproces mogelijk is. Het bevat ook een temporele aandachtmodule om vloeiende overgangen en consistentie in de tijd te waarborgen. BANG verbetert de controle met ruimtelijke prompts, zoals begrenzingsvakken en oppervlaktegebieden, waardoor gebruikers kunnen specificeren welke onderdelen moeten worden gedecentreerd en hoe. Deze interactie kan worden uitgebreid met multimodale modellen zoals GPT-4, waardoor 2D-naar-3D-manipulaties mogelijk worden voor meer intuïtieve en creatieve workflows. De mogelijkheden van BANG strekken zich uit tot het genereren van gedetailleerde geometrie op onderdeelniveau, het koppelen van onderdelen aan functionele beschrijvingen, en het faciliteren van componentbewuste 3D-creatie en productieworkflows. Daarnaast biedt BANG toepassingen in 3D-printen, waarbij scheidbare onderdelen worden gegenereerd voor eenvoudig printen en opnieuw samenstellen. In essentie maakt BANG een naadloze transformatie mogelijk van creatieve concepten naar gedetailleerde 3D-assets, en biedt het een nieuw perspectief op creatie dat aansluit bij de menselijke intuïtie.

VL-Cogito: Progressief Curriculum Reinforcement Learning voor Geavanceerde Multimodale Redenering
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

Jul 30

ByRuifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong

Reinforcement learning heeft zijn effectiviteit bewezen in het verbeteren van de redeneervaardigheden van grote taalmodelen. Recente onderzoeksinspanningen hebben dit paradigma geleidelijk uitgebreid naar multimodale redeneertaken. Vanwege de inherente complexiteit en diversiteit van multimodale taken, met name in semantische inhoud en probleemformuleringen, vertonen bestaande modellen vaak instabiele prestaties over verschillende domeinen en moeilijkheidsgraden. Om deze beperkingen aan te pakken, stellen we VL-Cogito voor, een geavanceerd multimodaal redeneermodel getraind via een nieuw multi-staps Progressive Curriculum Reinforcement Learning (PCuRL) raamwerk. PCuRL begeleidt het model systematisch door taken van geleidelijk toenemende moeilijkheid, waardoor de redeneervaardigheden aanzienlijk worden verbeterd in diverse multimodale contexten. Het raamwerk introduceert twee belangrijke innovaties: (1) een online mechanisme voor zachte gewichtstoekenning van moeilijkheid, dat de trainingsmoeilijkheid dynamisch aanpast over opeenvolgende RL-trainingsfasen; en (2) een dynamisch lengtebeloningsmechanisme, dat het model aanmoedigt om zijn redeneerpadlengte adaptief te reguleren volgens de taakcomplexiteit, waardoor redeneerefficiëntie en correctheid in balans worden gebracht. Experimentele evaluaties tonen aan dat VL-Cogito consistent presteert op of beter is dan bestaande redeneergerichte modellen over mainstream multimodale benchmarks die wiskunde, wetenschap, logica en algemeen begrip omvatten, wat de effectiviteit van onze aanpak valideert.

MetaCLIP 2: Een Wereldwijd Schaalrecept
MetaCLIP 2: A Worldwide Scaling Recipe

Jul 29

ByYung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

Contrastive Language-Image Pretraining (CLIP) is een populair basismodel dat ondersteuning biedt voor taken variërend van zero-shot classificatie en retrieval tot encoders voor multimodale grote taalmodellen (MLLMs). Hoewel CLIP succesvol is getraind op miljarden schaalbare afbeelding-tekst paren uit de Engelstalige wereld, blijft het opschalen van CLIP's training naar het leren van wereldwijde webgegevens een uitdaging: (1) er is geen curatiemethode beschikbaar om gegevenspunten uit niet-Engelstalige werelden te verwerken; (2) de Engelse prestaties van bestaande meertalige CLIP-modellen zijn slechter dan hun Engelstalige tegenhangers, een fenomeen dat bekend staat als de "vloek van meertaligheid" en dat veel voorkomt in grote taalmodellen (LLMs). Hier presenteren we MetaCLIP 2, het eerste recept voor het trainen van CLIP vanaf nul op wereldwijde web-schaalbare afbeelding-tekst paren. Om onze bevindingen te generaliseren, voeren we rigoureuze ablatie-onderzoeken uit met minimale wijzigingen die nodig zijn om de bovenstaande uitdagingen aan te pakken en presenteren we een recept dat wederzijdse voordelen biedt van gegevens uit de Engelstalige en niet-Engelstalige wereld. In zero-shot ImageNet-classificatie overtreft MetaCLIP 2 ViT-H/14 zijn Engelstalige tegenhanger met 0,8% en mSigLIP met 0,7%, en verrast het door nieuwe state-of-the-art resultaten te behalen zonder systeemniveau verstorende factoren (bijv. vertaling, specifieke architectuurwijzigingen) op meertalige benchmarks, zoals CVQA met 57,4%, Babel-ImageNet met 50,2% en XM3600 met 64,3% op afbeelding-naar-tekst retrieval.

Stap 3 is Groot maar Betaalbaar: Model-systeem Co-ontwerp voor Kosteneffectief Decoderen
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25

ByStepFun, Bin Wang, Bojun Wang, Changyi Wan, Guanzhe Huang, Hanpeng Hu, Haonan Jia, Hao Nie, Mingliang Li, Nuo Chen, Siyu Chen, Song Yuan, Wuxun Xie, Xiaoniu Song, Xing Chen, Xingping Yang, Xuelin Zhang, Yanbo Yu, Yaoyu Wang, Yibo Zhu, Yimin Jiang, Yu Zhou, Yuanwei Lu, Houyi Li, Jingcheng Hu, Ka Man Lo, Ailin Huang, Binxing Jiao, Bo Li, Boyu Chen, Changxin Miao, Chang Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengyuan Yao, Daokuan Lv, Dapeng Shi, Deshan Sun, Ding Huang, Dingyuan Hu, Dongqing Pang, Enle Liu, Fajie Zhang, Fanqi Wan, Gulin Yan, Han Zhang, Han Zhou, Hanghao Wu, Hangyu Guo, Hanqi Chen, Hanshan Zhang, Hao Wu, Haocheng Zhang, Haolong Yan, Haoran Lv, Haoran Wei, Hebin Zhou, Heng Wang, Heng Wang, Hongxin Li, Hongyu Zhou, Hongyuan Wang, Huiyong Guo, Jia Wang, Jiahao Gong, Jialing Xie, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yan, Jie Yang, Jieyi Hou, Jinguang Zhang, Jinlan Cao, Jisheng Yin, Junfeng Liu, Junhao Huang, Junzhe Lin, Kaijun Tan, Kaixiang Li, Kang An, Kangheng Lin, Kenkun Liu, Lei Yang, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lin Zhang, Lina Chen, Liwen Huang, Liying Shi, Longlong Gu, Mei Chen, Mengqiang Ren, Ming Li, Mingzhe Chen, Na Wang, Nan Wu, Qi Han, Qian Zhao, Qiang Zhang, Qianni Liu, Qiaohui Chen, Qiling Wu, Qinglin He, Qinyuan Tan, Qiufeng Wang, Qiuping Wu, Qiuyan Liang, Quan Sun, Rui Li, Ruihang Miao, Ruosi Wan, Ruyan Guo, Shangwu Zhong, Shaoliang Pang, Shengjie Fan, Shijie Shang, Shilei Jiang, Shiliang Yang, Shiming Hao, Shuli Gao, Siming Huang, Siqi Liu, Tiancheng Cao, Tianhao Cheng, Tianhao Peng, Wang You, Wei Ji, Wen Sun, Wenjin Deng, Wenqing He, Wenzhen Zheng, Xi Chen, Xiangwen Kong, Xianzhen Luo, Xiaobo Yang, Xiaojia Liu, Xiaoxiao Ren, Xin Han, Xin Li, Xin Wu, Xu Zhao, Yanan Wei, Yang Li, Yangguang Li, Yangshijie Xu, Yanming Xu, Yaqiang Shi, Yeqing Shen, Yi Yang, Yifei Yang, Yifeng Gong, Yihan Chen, Yijing Yang, Yinmin Zhang, Yizhuang Zhou, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yue Peng, Yufan Lu, Yuhang Deng, Yuhe Yin, Yujie Liu, Yukun Chen, Yuling Zhao, Yun Mou, Yunlong Li, Yunzhou Ju, Yusheng Li, Yuxiang Yang, Yuxiang Zhang, Yuyang Chen, Zejia Weng, Zhe Xie, Zheng Ge, Zheng Gong, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhirui Wang, Zidong Yang, Zili Wang, Ziqi Wang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Xiangyu Zhang

Grote taalmmodellen (LLMs) kampen met een lage hardware-efficiëntie tijdens het decoderen, vooral bij taken die langetermijncontext vereisen. Dit artikel introduceert Step-3, een VLM met 321B parameters, waarbij een hardwarebewuste model-systeem co-design is toegepast om de decoderingkosten te minimaliseren. Step-3 introduceert innovaties op twee belangrijke vlakken: (1) Een nieuw Multi-Matrix Factorization Attention (MFA) mechanisme dat zowel de KV-cachegrootte als de rekenkracht aanzienlijk vermindert, terwijl het een hoge aandachtsexpressiviteit behoudt, en (2) Attention-FFN Disaggregation (AFD), een gedistribueerd inferentiesysteem dat aandacht- en Feed-Forward Network (FFN)-lagen ontkoppelt in gespecialiseerde subsystemen. Deze co-design bereikt een ongekende kostenefficiëntie: Step-3 vermindert de theoretische decoderingkosten aanzienlijk in vergelijking met modellen zoals DeepSeek-V3 en Qwen3 MoE 235B, waarbij de voordelen toenemen bij langere context. Step-3 behaalt lage kosten terwijl het 38B parameters per token activeert (meer dan DeepSeek-V3 en Qwen3 MoE 235B), wat aantoont dat hardware-afgestemde aandacht-aritmetische intensiteit, MoE-sparsity en AFD cruciaal zijn voor kosteneffectiviteit. We voeren een directe vergelijking uit met DeepSeek-V3 in gunstige scenario's. Onze implementatie op Hopper GPU's bereikt een decoderingdoorvoer van maximaal 4.039 tokens per seconde per GPU onder een 50ms TPOT SLA (4K context, FP8, geen MTP). Dit is hoger dan DeepSeek-V3's 2.324 in dezelfde opstelling en zet een nieuwe Pareto-grens voor LLM-decodering.

MixGRPO: Het ontgrendelen van Flow-based GRPO-efficiëntie met gemengde ODE-SDE
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Jul 29

ByJunzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong

Hoewel GRPO de flow matching-modellen aanzienlijk verbetert in de uitlijning van menselijke voorkeuren bij beeldgeneratie, vertonen methoden zoals FlowGRPO nog steeds inefficiëntie vanwege de noodzaak om te bemonsteren en te optimaliseren over alle denoising-stappen die zijn gespecificeerd door het Markov Decision Process (MDP). In dit artikel stellen we MixGRPO voor, een nieuw raamwerk dat gebruikmaakt van de flexibiliteit van gemengde bemonsteringsstrategieën door de integratie van stochastische differentiaalvergelijkingen (SDE) en gewone differentiaalvergelijkingen (ODE). Dit stroomlijnt het optimalisatieproces binnen het MDP om de efficiëntie te verbeteren en de prestaties te verhogen. Specifiek introduceert MixGRPO een schuifvenstermechanisme, waarbij SDE-bemonstering en GRPO-gestuurde optimalisatie alleen binnen het venster worden gebruikt, terwijl ODE-bemonstering buiten het venster wordt toegepast. Dit ontwerp beperkt de bemonsteringswillekeur tot de tijdstappen binnen het venster, waardoor de optimalisatie-overhead wordt verminderd en meer gerichte gradientupdates mogelijk zijn om de convergentie te versnellen. Bovendien, omdat tijdstappen buiten het schuifvenster niet betrokken zijn bij de optimalisatie, worden hogere-orde oplossers ondersteund voor bemonstering. Daarom presenteren we een snellere variant, genaamd MixGRPO-Flash, die de trainings efficiëntie verder verbetert terwijl vergelijkbare prestaties worden behaald. MixGRPO laat aanzienlijke verbeteringen zien op meerdere dimensies van menselijke voorkeursuitlijning, waarbij het zowel in effectiviteit als efficiëntie DanceGRPO overtreft, met bijna 50% kortere trainingstijd. Opmerkelijk is dat MixGRPO-Flash de trainingstijd verder reduceert met 71%. Codes en modellen zijn beschikbaar op https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.

Voertuigdetectoren aanpassen voor luchtfotografie naar onbekende domeinen met zwakke supervisie
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

Jul 28

ByXiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

Het detecteren van voertuigen in luchtbeelden is een cruciale taak met toepassingen in verkeersmonitoring, stadsplanning en defensie-inlichtingen. Deep learning-methoden hebben state-of-the-art (SOTA) resultaten geleverd voor deze toepassing. Een aanzienlijke uitdaging doet zich echter voor wanneer modellen die zijn getraind op gegevens uit één geografische regio, niet effectief generaliseren naar andere gebieden. Variabiliteit in factoren zoals omgevingsomstandigheden, stedelijke lay-outs, wegennetwerken, voertuigtypen en beeldacquisitieparameters (bijv. resolutie, belichting en hoek) leidt tot domeinverschuivingen die de modelprestaties verslechteren. Dit artikel stelt een nieuwe methode voor die generatieve AI gebruikt om hoogwaardige luchtbeelden en hun labels te synthetiseren, waardoor de training van detectoren wordt verbeterd door data-augmentatie. Onze belangrijkste bijdrage is de ontwikkeling van een multi-stage, multi-modale kennisoverdrachtsframework dat gebruikmaakt van fijn afgestelde latent diffusion models (LDMs) om de distributiekloof tussen de bron- en doelomgevingen te verkleinen. Uitgebreide experimenten in diverse domeinen van luchtbeelden laten consistente prestatieverbeteringen zien in AP50 ten opzichte van supervised learning op brondomeingegevens, zwak supervised adaptatiemethoden, unsupervised domeinadaptatiemethoden en open-set objectdetectoren met respectievelijk 4-23%, 6-10%, 7-40% en meer dan 50%. Bovendien introduceren we twee nieuw geannoteerde luchtbeelddatasets uit Nieuw-Zeeland en Utah om verder onderzoek op dit gebied te ondersteunen. De projectpagina is beschikbaar op: https://humansensinglab.github.io/AGenDA.

Efficiënte Differentieel Privé Fine-Tuning van LLM's via Reinforcement Learning
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

Jul 30

ByAfshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen

De spanning tussen gegevensprivacy en modelnuttigheid is het bepalende knelpunt geworden voor de praktische implementatie van grote taalmmodellen (LLM's) die zijn getraind op gevoelige corpora, waaronder gezondheidszorg. Differentieel private stochastische gradiëntdaling (DP-SGD) garandeert formele privacy, maar doet dit tegen een aanzienlijke prijs: gradiënten worden gedwongen afgekapt en verstoord met ruis, wat de steekproefficiëntie en uiteindelijke nauwkeurigheid aantast. Talrijke varianten zijn voorgesteld om deze afweging te verzachten, maar ze delen allemaal een beperking: hun instelmechanismen zijn vastgelegd, globaal en onbewust van het evoluerende optimalisatielandschap. Als gevolg daarvan worden beoefenaars gedwongen om ofwel te veel privacybudget uit te geven in de zoektocht naar nuttigheid, ofwel middelmatige modellen te accepteren om binnen de privacybeperkingen te blijven. Wij presenteren RLDP, het eerste raamwerk dat DP-optimalisatie zelf als een gesloten regelprobleem beschouwt dat geschikt is voor moderne diepe reinforcement learning (RL). RLDP neemt continu rijke statistieken van de leer dynamiek waar en handelt door fijnmazige gradiënt-afkappingsdrempels per parameter te selecteren, evenals de grootte van geïnjecteerde Gaussische ruis. Een soft actor-critic (SAC) hyper-beleid wordt online getraind tijdens het finetunen van het taalmodel; het leert van scratch hoe het privacybudget toe te wijzen waar en wanneer het ertoe doet. Over meer dan 1.600 ablatie-experimenten op GPT2-small, Llama-1B, Llama-3B en Mistral-7B, levert RLDP perplexiteitsreducties van 1,3-30,5% (gemiddeld 5,4%) en een gemiddelde nuttigheidswinst van 5,6% downstream. RLDP bereikt de uiteindelijke nuttigheid van elke baseline na slechts 13-43% van het gradiënt-updatebudget (gemiddelde versnelling 71%), allemaal terwijl het hetzelfde (epsilon, delta)-DP-contract respecteert en een gelijke of lagere gevoeligheid vertoont voor lidmaatschapsinferentie- en kanarie-extractieaanvallen.

Naar Omnimodale Expressies en Redenering in Refererende Audio-Visuele Segmentatie
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Jul 30

ByKaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang

Audio-visuele verwijzingssegmentatie (RAVS) heeft recentelijk aanzienlijke vooruitgang geboekt, maar er blijven uitdagingen bestaan in het integreren van multimodale informatie en het diepgaand begrijpen en redeneren over audio-visuele inhoud. Om de grenzen van RAVS te verleggen en toekomstig onderzoek op dit gebied te faciliteren, stellen we Omnimodale Verwijzende Audio-Visuele Segmentatie (OmniAVS) voor, een nieuwe dataset met 2.098 video's en 59.458 multimodale verwijzingsexpressies. OmniAVS onderscheidt zich door drie belangrijke innovaties: (1) 8 soorten multimodale expressies die tekst, spraak, geluid en visuele aanwijzingen flexibel combineren; (2) een nadruk op het begrijpen van audio-inhoud, verder dan alleen het detecteren van hun aanwezigheid; en (3) de integratie van complex redeneren en wereldkennis in expressies. Bovendien introduceren we de Omnimodale Geïnstrueerde Segmentatie-assistent (OISA), om de uitdagingen van multimodaal redeneren en fijnmazig begrip van audio-visuele inhoud in OmniAVS aan te pakken. OISA gebruikt MLLM om complexe aanwijzingen te begrijpen en op redenering gebaseerde segmentatie uit te voeren. Uitgebreide experimenten tonen aan dat OISA bestaande methoden op OmniAVS overtreft en competitieve resultaten behaalt op andere gerelateerde taken.

Repair-R1: Beter Testen Voordat Wordt Gerepareerd
Repair-R1: Better Test Before Repair

Jul 30

ByHaichuan Hu, Xiaochen Xie, Quanjun Zhang

APR (Automated Program Repair) heeft als doel om programmadefecten automatisch te lokaliseren, patches te genereren en de reparaties te valideren. Bestaande technieken voor APR worden vaak gecombineerd met LLMs (Large Language Models), waarbij de codegerelateerde kennis van LLMs wordt benut om de effectiviteit van de reparaties te verbeteren. Huidige LLM-gebaseerde APR-methoden maken typisch alleen gebruik van testgevallen tijdens de inferentiefase, waarbij een iteratieve aanpak wordt gehanteerd die eerst repareert en vervolgens de reparatie valideert door middel van testuitvoering. Dit conventionele paradigma negeert twee belangrijke aspecten: de potentiële bijdrage van testgevallen in de trainingsfase, en de mogelijkheid om testen te benutten vóór de reparatie. Om dit aan te pakken, stellen we Repair-R1 voor, dat testgevallen introduceert in de trainingsfase van het model en testgeneratie naar voren schuift om voorafgaand aan de reparatie plaats te vinden. Het model wordt verplicht om eerst discriminerende testgevallen te genereren die defectief gedrag kunnen onderscheiden, en vervolgens de reparatie uit te voeren op basis van deze tests. Hierdoor kan het model defecten beter lokaliseren en de onderliggende oorzaken van defecten beter begrijpen, wat de effectiviteit van de reparatie verbetert. We implementeren Repair-R1 met drie verschillende backbone-modellen, waarbij RL (reinforcement learning) wordt gebruikt om testgeneratie en bugreparatie gezamenlijk te optimaliseren. Experimentele resultaten op vier veelgebruikte benchmarks tonen de superioriteit van Repair-R1 aan. Specifiek, in vergelijking met standaardmodellen, verbetert Repair-R1 het reparatiesuccespercentage met 2,68\% tot 48,29\%, het testgeneratiesuccespercentage met 16,38\% tot 53,28\%, en de testdekking met 0,78\% tot 53,96\%. We publiceren de code en gewichten op https://github.com/Tomsawyerhu/APR-RL en https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.

DreamScene: 3D Gaussiaans-gebaseerde End-to-end Tekst-naar-3D Scène Generatie
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

Jul 18

ByHaoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou

Het genereren van 3D-scènes uit natuurlijke taal biedt veelbelovende mogelijkheden voor toepassingen in gaming, film en design. Bestaande methoden hebben echter moeite met automatisering, 3D-consistentie en gedetailleerde controle. Wij presenteren DreamScene, een end-to-end framework voor het genereren van hoogwaardige en bewerkbare 3D-scènes vanuit tekst of dialoog. DreamScene begint met een scenarioplanningmodule, waarbij een GPT-4-agent objectsemantiek en ruimtelijke beperkingen afleidt om een hybride grafiek te construeren. Een op grafieken gebaseerd plaatsingsalgoritme produceert vervolgens een gestructureerde, botsingsvrije lay-out. Gebaseerd op deze lay-out genereert Formation Pattern Sampling (FPS) objectgeometrie met behulp van multi-timestep sampling en reconstructieve optimalisatie, wat een snelle en realistische synthese mogelijk maakt. Om globale consistentie te waarborgen, gebruikt DreamScene een progressieve camerabemonsteringsstrategie die is afgestemd op zowel binnen- als buitenscènes. Tot slot ondersteunt het systeem gedetailleerde scènebewerkingen, waaronder objectverplaatsing, uiterlijkveranderingen en 4D-dynamische beweging. Experimenten tonen aan dat DreamScene eerdere methoden overtreft in kwaliteit, consistentie en flexibiliteit, en biedt zo een praktische oplossing voor open-domein 3D-contentcreatie. Code en demo's zijn beschikbaar op https://jahnsonblack.github.io/DreamScene-Full/.

Stap 3 is Groot maar Betaalbaar: Model-systeem Co-ontwerp voor Kosteneffectief Decoderen
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25