Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het automatiseren van de transformatie van user interface (UI)-ontwerpen naar front-end code biedt aanzienlijke mogelijkheden om softwareontwikkeling te versnellen en ontwerpworkflows te democratiseren. Hoewel recente grote taalmodellen (LLMs) vooruitgang hebben geboekt in tekst-naar-code generatie, vertrouwen veel bestaande benaderingen uitsluitend op natuurlijke taalprompts, wat hun effectiviteit beperkt in het vastleggen van ruimtelijke lay-out en visueel ontwerpintentie. In tegenstelling hiermee is UI-ontwikkeling in de praktijk inherent multimodaal, vaak beginnend vanuit visuele schetsen of mockups. Om deze kloof te overbruggen, introduceren we een modulair multi-agent framework dat UI-naar-code generatie uitvoert in drie interpreteerbare fasen: grounding, planning en generatie. De grounding agent gebruikt een vision-language model om UI-componenten te detecteren en te labelen, de planning agent construeert een hiërarchische lay-out met behulp van front-end engineering priors, en de generatie agent produceert HTML/CSS-code via adaptieve prompt-gebaseerde synthese. Dit ontwerp verbetert robuustheid, interpreteerbaarheid en trouw ten opzichte van end-to-end black-box methoden. Bovendien breiden we het framework uit naar een schaalbare data-engine die automatisch grootschalige beeld-code paren produceert. Met behulp van deze synthetische voorbeelden fine-tunen en versterken we een open-source VLM, wat aanzienlijke verbeteringen oplevert in UI-begrip en codekwaliteit. Uitgebreide experimenten tonen aan dat onze aanpak state-of-the-art prestaties bereikt in lay-outnauwkeurigheid, structurele samenhang en codecorrectheid. Onze code is publiekelijk beschikbaar gemaakt op https://github.com/leigest519/ScreenCoder.
In dit rapport introduceren we Falcon-H1, een nieuwe serie grote taalmodelen (LLMs) met hybride architectuurontwerpen die geoptimaliseerd zijn voor zowel hoge prestaties als efficiëntie in diverse gebruiksscenario's. In tegenstelling tot eerdere Falcon-modellen die uitsluitend waren gebaseerd op Transformer- of Mamba-architecturen, neemt Falcon-H1 een parallelle hybride aanpak die Transformer-gebaseerde aandacht combineert met State Space Models (SSMs), bekend om hun superieure langetermijngeheugen en computationele efficiëntie. We hebben het modelontwerp, de datastrategie en de trainingsdynamiek systematisch herzien, waarbij we conventionele praktijken in het veld uitdaagden. Falcon-H1 wordt uitgebracht in meerdere configuraties, waaronder basis- en instructie-afgestemde varianten met 0,5B, 1,5B, 1,5B-deep, 3B, 7B en 34B parameters. Ook gekwantiseerde instructie-afgestemde modellen zijn beschikbaar, wat in totaal meer dan 30 checkpoints op de Hugging Face Hub oplevert. Falcon-H1-modellen demonstreren state-of-the-art prestaties en uitzonderlijke parameter- en trainingsefficiëntie. Het vlaggenschip Falcon-H1-34B evenaart of overtreft modellen tot 70B schaal, zoals Qwen3-32B, Qwen2.5-72B en Llama3.3-70B, terwijl het minder parameters en minder data gebruikt. Kleinere modellen vertonen vergelijkbare trends: de Falcon-H1-1.5B-Deep rivaliseert met huidige toonaangevende 7B-10B modellen, en Falcon-H1-0.5B presteert vergelijkbaar met typische 7B modellen uit 2024. Deze modellen blinken uit in redeneren, wiskunde, meertalige taken, instructievolging en wetenschappelijke kennis. Met ondersteuning voor tot 256K contexttokens en 18 talen is Falcon-H1 geschikt voor een breed scala aan toepassingen. Alle modellen worden vrijgegeven onder een permissieve open-source licentie, wat onze inzet voor toegankelijk en impactvol AI-onderzoek onderstreept.
3D-creatie is altijd een unieke menselijke kracht geweest, aangedreven door ons vermogen om objecten te deconstrueren en weer samen te stellen met behulp van onze ogen, geest en handen. Huidige 3D-ontwerptools hebben echter moeite om dit natuurlijke proces na te bootsen, omdat ze aanzienlijke artistieke expertise en handmatig werk vereisen. Dit artikel introduceert BANG, een nieuwe generatieve aanpak die 3D-generatie en redenering verbindt, waardoor een intuïtieve en flexibele decompositie van 3D-objecten op onderdeelniveau mogelijk wordt. De kern van BANG is "Generative Exploded Dynamics", dat een vloeiende reeks geëxplodeerde toestanden creëert voor een ingevoerde geometrie, waarbij onderdelen geleidelijk worden gescheiden terwijl hun geometrische en semantische samenhang behouden blijft. BANG maakt gebruik van een vooraf getraind latent diffusiemodel op grote schaal, dat is afgestemd op geëxplodeerde dynamiek met een lichtgewicht geëxplodeerde weergave-adapter, waardoor nauwkeurige controle over het decompositieproces mogelijk is. Het bevat ook een temporele aandachtmodule om vloeiende overgangen en consistentie in de tijd te waarborgen. BANG verbetert de controle met ruimtelijke prompts, zoals begrenzingsvakken en oppervlaktegebieden, waardoor gebruikers kunnen specificeren welke onderdelen moeten worden gedecentreerd en hoe. Deze interactie kan worden uitgebreid met multimodale modellen zoals GPT-4, waardoor 2D-naar-3D-manipulaties mogelijk worden voor meer intuïtieve en creatieve workflows. De mogelijkheden van BANG strekken zich uit tot het genereren van gedetailleerde geometrie op onderdeelniveau, het koppelen van onderdelen aan functionele beschrijvingen, en het faciliteren van componentbewuste 3D-creatie en productieworkflows. Daarnaast biedt BANG toepassingen in 3D-printen, waarbij scheidbare onderdelen worden gegenereerd voor eenvoudig printen en opnieuw samenstellen. In essentie maakt BANG een naadloze transformatie mogelijk van creatieve concepten naar gedetailleerde 3D-assets, en biedt het een nieuw perspectief op creatie dat aansluit bij de menselijke intuïtie.
Reinforcement learning heeft zijn effectiviteit bewezen in het verbeteren van de redeneervaardigheden van grote taalmodelen. Recente onderzoeksinspanningen hebben dit paradigma geleidelijk uitgebreid naar multimodale redeneertaken. Vanwege de inherente complexiteit en diversiteit van multimodale taken, met name in semantische inhoud en probleemformuleringen, vertonen bestaande modellen vaak instabiele prestaties over verschillende domeinen en moeilijkheidsgraden. Om deze beperkingen aan te pakken, stellen we VL-Cogito voor, een geavanceerd multimodaal redeneermodel getraind via een nieuw multi-staps Progressive Curriculum Reinforcement Learning (PCuRL) raamwerk. PCuRL begeleidt het model systematisch door taken van geleidelijk toenemende moeilijkheid, waardoor de redeneervaardigheden aanzienlijk worden verbeterd in diverse multimodale contexten. Het raamwerk introduceert twee belangrijke innovaties: (1) een online mechanisme voor zachte gewichtstoekenning van moeilijkheid, dat de trainingsmoeilijkheid dynamisch aanpast over opeenvolgende RL-trainingsfasen; en (2) een dynamisch lengtebeloningsmechanisme, dat het model aanmoedigt om zijn redeneerpadlengte adaptief te reguleren volgens de taakcomplexiteit, waardoor redeneerefficiëntie en correctheid in balans worden gebracht. Experimentele evaluaties tonen aan dat VL-Cogito consistent presteert op of beter is dan bestaande redeneergerichte modellen over mainstream multimodale benchmarks die wiskunde, wetenschap, logica en algemeen begrip omvatten, wat de effectiviteit van onze aanpak valideert.
Contrastive Language-Image Pretraining (CLIP) is een populair basismodel dat ondersteuning biedt voor taken variërend van zero-shot classificatie en retrieval tot encoders voor multimodale grote taalmodellen (MLLMs). Hoewel CLIP succesvol is getraind op miljarden schaalbare afbeelding-tekst paren uit de Engelstalige wereld, blijft het opschalen van CLIP's training naar het leren van wereldwijde webgegevens een uitdaging: (1) er is geen curatiemethode beschikbaar om gegevenspunten uit niet-Engelstalige werelden te verwerken; (2) de Engelse prestaties van bestaande meertalige CLIP-modellen zijn slechter dan hun Engelstalige tegenhangers, een fenomeen dat bekend staat als de "vloek van meertaligheid" en dat veel voorkomt in grote taalmodellen (LLMs). Hier presenteren we MetaCLIP 2, het eerste recept voor het trainen van CLIP vanaf nul op wereldwijde web-schaalbare afbeelding-tekst paren. Om onze bevindingen te generaliseren, voeren we rigoureuze ablatie-onderzoeken uit met minimale wijzigingen die nodig zijn om de bovenstaande uitdagingen aan te pakken en presenteren we een recept dat wederzijdse voordelen biedt van gegevens uit de Engelstalige en niet-Engelstalige wereld. In zero-shot ImageNet-classificatie overtreft MetaCLIP 2 ViT-H/14 zijn Engelstalige tegenhanger met 0,8% en mSigLIP met 0,7%, en verrast het door nieuwe state-of-the-art resultaten te behalen zonder systeemniveau verstorende factoren (bijv. vertaling, specifieke architectuurwijzigingen) op meertalige benchmarks, zoals CVQA met 57,4%, Babel-ImageNet met 50,2% en XM3600 met 64,3% op afbeelding-naar-tekst retrieval.
Grote taalmmodellen (LLMs) kampen met een lage hardware-efficiëntie tijdens het decoderen, vooral bij taken die langetermijncontext vereisen. Dit artikel introduceert Step-3, een VLM met 321B parameters, waarbij een hardwarebewuste model-systeem co-design is toegepast om de decoderingkosten te minimaliseren. Step-3 introduceert innovaties op twee belangrijke vlakken: (1) Een nieuw Multi-Matrix Factorization Attention (MFA) mechanisme dat zowel de KV-cachegrootte als de rekenkracht aanzienlijk vermindert, terwijl het een hoge aandachtsexpressiviteit behoudt, en (2) Attention-FFN Disaggregation (AFD), een gedistribueerd inferentiesysteem dat aandacht- en Feed-Forward Network (FFN)-lagen ontkoppelt in gespecialiseerde subsystemen. Deze co-design bereikt een ongekende kostenefficiëntie: Step-3 vermindert de theoretische decoderingkosten aanzienlijk in vergelijking met modellen zoals DeepSeek-V3 en Qwen3 MoE 235B, waarbij de voordelen toenemen bij langere context. Step-3 behaalt lage kosten terwijl het 38B parameters per token activeert (meer dan DeepSeek-V3 en Qwen3 MoE 235B), wat aantoont dat hardware-afgestemde aandacht-aritmetische intensiteit, MoE-sparsity en AFD cruciaal zijn voor kosteneffectiviteit. We voeren een directe vergelijking uit met DeepSeek-V3 in gunstige scenario's. Onze implementatie op Hopper GPU's bereikt een decoderingdoorvoer van maximaal 4.039 tokens per seconde per GPU onder een 50ms TPOT SLA (4K context, FP8, geen MTP). Dit is hoger dan DeepSeek-V3's 2.324 in dezelfde opstelling en zet een nieuwe Pareto-grens voor LLM-decodering.
Hoewel GRPO de flow matching-modellen aanzienlijk verbetert in de uitlijning van menselijke voorkeuren bij beeldgeneratie, vertonen methoden zoals FlowGRPO nog steeds inefficiëntie vanwege de noodzaak om te bemonsteren en te optimaliseren over alle denoising-stappen die zijn gespecificeerd door het Markov Decision Process (MDP). In dit artikel stellen we MixGRPO voor, een nieuw raamwerk dat gebruikmaakt van de flexibiliteit van gemengde bemonsteringsstrategieën door de integratie van stochastische differentiaalvergelijkingen (SDE) en gewone differentiaalvergelijkingen (ODE). Dit stroomlijnt het optimalisatieproces binnen het MDP om de efficiëntie te verbeteren en de prestaties te verhogen. Specifiek introduceert MixGRPO een schuifvenstermechanisme, waarbij SDE-bemonstering en GRPO-gestuurde optimalisatie alleen binnen het venster worden gebruikt, terwijl ODE-bemonstering buiten het venster wordt toegepast. Dit ontwerp beperkt de bemonsteringswillekeur tot de tijdstappen binnen het venster, waardoor de optimalisatie-overhead wordt verminderd en meer gerichte gradientupdates mogelijk zijn om de convergentie te versnellen. Bovendien, omdat tijdstappen buiten het schuifvenster niet betrokken zijn bij de optimalisatie, worden hogere-orde oplossers ondersteund voor bemonstering. Daarom presenteren we een snellere variant, genaamd MixGRPO-Flash, die de trainings efficiëntie verder verbetert terwijl vergelijkbare prestaties worden behaald. MixGRPO laat aanzienlijke verbeteringen zien op meerdere dimensies van menselijke voorkeursuitlijning, waarbij het zowel in effectiviteit als efficiëntie DanceGRPO overtreft, met bijna 50% kortere trainingstijd. Opmerkelijk is dat MixGRPO-Flash de trainingstijd verder reduceert met 71%. Codes en modellen zijn beschikbaar op https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
Het detecteren van voertuigen in luchtbeelden is een cruciale taak met toepassingen in verkeersmonitoring, stadsplanning en defensie-inlichtingen. Deep learning-methoden hebben state-of-the-art (SOTA) resultaten geleverd voor deze toepassing. Een aanzienlijke uitdaging doet zich echter voor wanneer modellen die zijn getraind op gegevens uit één geografische regio, niet effectief generaliseren naar andere gebieden. Variabiliteit in factoren zoals omgevingsomstandigheden, stedelijke lay-outs, wegennetwerken, voertuigtypen en beeldacquisitieparameters (bijv. resolutie, belichting en hoek) leidt tot domeinverschuivingen die de modelprestaties verslechteren. Dit artikel stelt een nieuwe methode voor die generatieve AI gebruikt om hoogwaardige luchtbeelden en hun labels te synthetiseren, waardoor de training van detectoren wordt verbeterd door data-augmentatie. Onze belangrijkste bijdrage is de ontwikkeling van een multi-stage, multi-modale kennisoverdrachtsframework dat gebruikmaakt van fijn afgestelde latent diffusion models (LDMs) om de distributiekloof tussen de bron- en doelomgevingen te verkleinen. Uitgebreide experimenten in diverse domeinen van luchtbeelden laten consistente prestatieverbeteringen zien in AP50 ten opzichte van supervised learning op brondomeingegevens, zwak supervised adaptatiemethoden, unsupervised domeinadaptatiemethoden en open-set objectdetectoren met respectievelijk 4-23%, 6-10%, 7-40% en meer dan 50%. Bovendien introduceren we twee nieuw geannoteerde luchtbeelddatasets uit Nieuw-Zeeland en Utah om verder onderzoek op dit gebied te ondersteunen. De projectpagina is beschikbaar op: https://humansensinglab.github.io/AGenDA.
Audio-visuele verwijzingssegmentatie (RAVS) heeft recentelijk aanzienlijke vooruitgang geboekt, maar er blijven uitdagingen bestaan in het integreren van multimodale informatie en het diepgaand begrijpen en redeneren over audio-visuele inhoud. Om de grenzen van RAVS te verleggen en toekomstig onderzoek op dit gebied te faciliteren, stellen we Omnimodale Verwijzende Audio-Visuele Segmentatie (OmniAVS) voor, een nieuwe dataset met 2.098 video's en 59.458 multimodale verwijzingsexpressies. OmniAVS onderscheidt zich door drie belangrijke innovaties: (1) 8 soorten multimodale expressies die tekst, spraak, geluid en visuele aanwijzingen flexibel combineren; (2) een nadruk op het begrijpen van audio-inhoud, verder dan alleen het detecteren van hun aanwezigheid; en (3) de integratie van complex redeneren en wereldkennis in expressies. Bovendien introduceren we de Omnimodale Geïnstrueerde Segmentatie-assistent (OISA), om de uitdagingen van multimodaal redeneren en fijnmazig begrip van audio-visuele inhoud in OmniAVS aan te pakken. OISA gebruikt MLLM om complexe aanwijzingen te begrijpen en op redenering gebaseerde segmentatie uit te voeren. Uitgebreide experimenten tonen aan dat OISA bestaande methoden op OmniAVS overtreft en competitieve resultaten behaalt op andere gerelateerde taken.
APR (Automated Program Repair) heeft als doel om programmadefecten automatisch te lokaliseren, patches te genereren en de reparaties te valideren. Bestaande technieken voor APR worden vaak gecombineerd met LLMs (Large Language Models), waarbij de codegerelateerde kennis van LLMs wordt benut om de effectiviteit van de reparaties te verbeteren. Huidige LLM-gebaseerde APR-methoden maken typisch alleen gebruik van testgevallen tijdens de inferentiefase, waarbij een iteratieve aanpak wordt gehanteerd die eerst repareert en vervolgens de reparatie valideert door middel van testuitvoering. Dit conventionele paradigma negeert twee belangrijke aspecten: de potentiële bijdrage van testgevallen in de trainingsfase, en de mogelijkheid om testen te benutten vóór de reparatie. Om dit aan te pakken, stellen we Repair-R1 voor, dat testgevallen introduceert in de trainingsfase van het model en testgeneratie naar voren schuift om voorafgaand aan de reparatie plaats te vinden. Het model wordt verplicht om eerst discriminerende testgevallen te genereren die defectief gedrag kunnen onderscheiden, en vervolgens de reparatie uit te voeren op basis van deze tests. Hierdoor kan het model defecten beter lokaliseren en de onderliggende oorzaken van defecten beter begrijpen, wat de effectiviteit van de reparatie verbetert. We implementeren Repair-R1 met drie verschillende backbone-modellen, waarbij RL (reinforcement learning) wordt gebruikt om testgeneratie en bugreparatie gezamenlijk te optimaliseren. Experimentele resultaten op vier veelgebruikte benchmarks tonen de superioriteit van Repair-R1 aan. Specifiek, in vergelijking met standaardmodellen, verbetert Repair-R1 het reparatiesuccespercentage met 2,68\% tot 48,29\%, het testgeneratiesuccespercentage met 16,38\% tot 53,28\%, en de testdekking met 0,78\% tot 53,96\%. We publiceren de code en gewichten op https://github.com/Tomsawyerhu/APR-RL en https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
De spanning tussen gegevensprivacy en modelnuttigheid is het bepalende knelpunt geworden voor de praktische implementatie van grote taalmmodellen (LLM's) die zijn getraind op gevoelige corpora, waaronder gezondheidszorg. Differentieel private stochastische gradiëntdaling (DP-SGD) garandeert formele privacy, maar doet dit tegen een aanzienlijke prijs: gradiënten worden gedwongen afgekapt en verstoord met ruis, wat de steekproefficiëntie en uiteindelijke nauwkeurigheid aantast. Talrijke varianten zijn voorgesteld om deze afweging te verzachten, maar ze delen allemaal een beperking: hun instelmechanismen zijn vastgelegd, globaal en onbewust van het evoluerende optimalisatielandschap. Als gevolg daarvan worden beoefenaars gedwongen om ofwel te veel privacybudget uit te geven in de zoektocht naar nuttigheid, ofwel middelmatige modellen te accepteren om binnen de privacybeperkingen te blijven. Wij presenteren RLDP, het eerste raamwerk dat DP-optimalisatie zelf als een gesloten regelprobleem beschouwt dat geschikt is voor moderne diepe reinforcement learning (RL). RLDP neemt continu rijke statistieken van de leer dynamiek waar en handelt door fijnmazige gradiënt-afkappingsdrempels per parameter te selecteren, evenals de grootte van geïnjecteerde Gaussische ruis. Een soft actor-critic (SAC) hyper-beleid wordt online getraind tijdens het finetunen van het taalmodel; het leert van scratch hoe het privacybudget toe te wijzen waar en wanneer het ertoe doet. Over meer dan 1.600 ablatie-experimenten op GPT2-small, Llama-1B, Llama-3B en Mistral-7B, levert RLDP perplexiteitsreducties van 1,3-30,5% (gemiddeld 5,4%) en een gemiddelde nuttigheidswinst van 5,6% downstream. RLDP bereikt de uiteindelijke nuttigheid van elke baseline na slechts 13-43% van het gradiënt-updatebudget (gemiddelde versnelling 71%), allemaal terwijl het hetzelfde (epsilon, delta)-DP-contract respecteert en een gelijke of lagere gevoeligheid vertoont voor lidmaatschapsinferentie- en kanarie-extractieaanvallen.
Het genereren van 3D-scènes uit natuurlijke taal biedt veelbelovende mogelijkheden voor toepassingen in gaming, film en design. Bestaande methoden hebben echter moeite met automatisering, 3D-consistentie en gedetailleerde controle. Wij presenteren DreamScene, een end-to-end framework voor het genereren van hoogwaardige en bewerkbare 3D-scènes vanuit tekst of dialoog. DreamScene begint met een scenarioplanningmodule, waarbij een GPT-4-agent objectsemantiek en ruimtelijke beperkingen afleidt om een hybride grafiek te construeren. Een op grafieken gebaseerd plaatsingsalgoritme produceert vervolgens een gestructureerde, botsingsvrije lay-out. Gebaseerd op deze lay-out genereert Formation Pattern Sampling (FPS) objectgeometrie met behulp van multi-timestep sampling en reconstructieve optimalisatie, wat een snelle en realistische synthese mogelijk maakt. Om globale consistentie te waarborgen, gebruikt DreamScene een progressieve camerabemonsteringsstrategie die is afgestemd op zowel binnen- als buitenscènes. Tot slot ondersteunt het systeem gedetailleerde scènebewerkingen, waaronder objectverplaatsing, uiterlijkveranderingen en 4D-dynamische beweging. Experimenten tonen aan dat DreamScene eerdere methoden overtreft in kwaliteit, consistentie en flexibiliteit, en biedt zo een praktische oplossing voor open-domein 3D-contentcreatie. Code en demo's zijn beschikbaar op https://jahnsonblack.github.io/DreamScene-Full/.