Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit rapport introduceren we UltraShape 1.0, een schaalbaar 3D-diffusieraamwerk voor de generatie van hoogwaardige 3D-geometrie. De voorgestelde aanpak hanteert een tweestaps generatiepijplijn: eerst wordt een grove globale structuur gesynthetiseerd, die vervolgens wordt verfijnd om gedetailleerde, hoogkwalitatieve geometrie te produceren. Om betrouwbare 3D-generatie te ondersteunen, ontwikkelden we een uitgebreide gegevensverwerkingspijplijn die een nieuwe waterdichte verwerkingsmethode en hoogwaardige gegevensfiltering omvat. Deze pijplijn verbetert de geometrische kwaliteit van publiek beschikbare 3D-datasets door het verwijderen van kwalitatief ondermaaste samples, het opvullen van gaten en het verdikken van dunne structuren, waarbij fijne geometrische details behouden blijven. Om fijnmazige geometrieverfijning mogelijk te maken, ontkoppelen we ruimtelijke lokalisatie van geometrische detailsynthese in het diffusieproces. Dit bereiken we door op vaste ruimtelijke locaties op voxels gebaseerde verfijning uit te voeren, waarbij voxelquery's afgeleid van grove geometrie expliciete positionele ankers bieden die via RoPE worden gecodeerd. Hierdoor kan het diffusiemodel zich concentreren op het synthetiseren van lokale geometrische details binnen een gereduceerde, gestructureerde oplossingsruimte. Ons model is uitsluitend getraind op publiek beschikbare 3D-datasets en bereikt een sterke geometrische kwaliteit ondanks beperkte trainingsbronnen. Uitgebreide evaluaties tonen aan dat UltraShape 1.0 competitief presteert met bestaande open-source methoden, zowel op het gebied van gegevensverwerkingskwaliteit als geometriegeneratie. Alle code en getrainde modellen zullen worden vrijgegeven ter ondersteuning van toekomstig onderzoek.
Recentelijk hebben geünificeerde generatie- en bewerkingsmodellen opmerkelijke successen geboekt met hun indrukwekkende prestaties. Deze modellen vertrouwen voornamelijk op tekstprompts voor op instructies gebaseerde bewerking en generatie, maar taal slaagt er vaak niet in de beoogde bewerkingslocaties en fijnmazige visuele details van gebruikers vast te leggen. Daartoe stellen we twee taken voor: op krabbels gebaseerde bewerking en generatie, die een flexibelere creatie mogelijk maken op een grafische gebruikersinterface (GUI) door gebruikers tekst, afbeeldingen en vrije handgetekende schetsen te combineren. Wij introduceren DreamOmni3, dat twee uitdagingen aanpakt: datacreatie en frameworkontwerp. Onze datasynthesepijplijn omvat twee delen: op krabbels gebaseerde bewerking en generatie. Voor op krabbels gebaseerde bewerking definiëren we vier taken: bewerking op basis van krabbels en instructies, bewerking op basis van krabbels en multimodale instructies, beeldfusie en krabbelbewerking. Op basis van de DreamOmni2-dataset extraheren we bewerkbare regio's en leggen we handgetekende vierkanten, cirkels, krabbels of bijgesneden afbeeldingen over om trainingsdata te construeren. Voor op krabbels gebaseerde generatie definiëren we drie taken: generatie op basis van krabbels en instructies, generatie op basis van krabbels en multimodale instructies, en krabbelgeneratie, waarbij vergelijkbare datacreatiepijplijnen worden gevolgd. Voor het framework stellen we, in plaats van binaire maskers te gebruiken die moeite hebben met complexe bewerkingen met meerdere krabbels, afbeeldingen en instructies, een gezamenlijk invoerschema voor dat zowel de originele als de bekrabbelde bronafbeeldingen aan het model voert, waarbij verschillende kleuren worden gebruikt om regio's te onderscheiden en de verwerking te vereenvoudigen. Door dezelfde index- en positiecoderingen op beide afbeeldingen toe te passen, kan het model de bekrabbelde regio's nauwkeurig lokaliseren terwijl het precieze bewerking behoudt. Ten slotte stellen we uitgebreide benchmarks op voor deze taken om verder onderzoek te bevorderen. Experimentele resultaten tonen aan dat DreamOmni3 uitstekende prestaties levert, en modellen en code zullen openbaar worden vrijgegeven.
Wij formuleren taalmodellering met lange context als een continu leerprobleem in plaats van een kwestie van architectuurontwerp. Binnen deze formulering gebruiken we enkel een standaardarchitectuur – een Transformer met sliding-window attention. Ons model blijft echter leren tijdens de testfase via next-token prediction op de gegeven context, waarbij het de gelezen context comprimeert in zijn gewichten. Daarnaast verbeteren we de initialisatie van het model om leren tijdens de testfase mogelijk te maken via meta-leren tijdens de trainingsfase. Onze methode, een vorm van Test-Time Training (TTT), is End-to-End (E2E) zowel tijdens de testfase (via next-token prediction) als de trainingsfase (via meta-leren), in tegenstelling tot eerdere vormen. Wij voeren uitgebreide experimenten uit, met een focus op schaaleigenschappen. Voor 3B-modellen getraind met 164B tokens schaalt onze methode (TTT-E2E) met de contextlengte op dezelfde manier als een Transformer met volledige aandacht, terwijl andere methoden, zoals Mamba 2 en Gated DeltaNet, dat niet doen. Vergelijkbaar met RNN's heeft TTT-E2E echter een constante inferentielatentie, ongeacht de contextlengte, waardoor het 2,7 keer sneller is dan volledige aandacht voor een context van 128K. Onze code is openbaar beschikbaar.
Wij evalueren systematisch Parameter-Efficiënte Fine-Tuning (PEFT) methoden binnen het paradigma van Reinforcement Learning met Verifieerbare Beloningen (RLVR). RLVR stimuleert taalmodellen om hun redeneervermogen te verbeteren door middel van verifieerbare feedback; echter, hoewel methoden zoals LoRA algemeen gebruikt worden, blijft de optimale PEFT-architectuur voor RLVR onbekend. In dit werk voeren we de eerste uitgebreide evaluatie uit van meer dan 12 PEFT-methodologieën op de DeepSeek-R1-Distill families op wiskundige redeneerbenchmarks. Onze empirische resultaten dagen de standaardtoepassing van standaard LoRA uit met drie hoofdbevindingen. Ten eerste tonen we aan dat structurele varianten, zoals DoRA, AdaLoRA en MiSS, consistent beter presteren dan LoRA. Ten tweede leggen we een spectrale ineenstortingsfenomeen bloot in SVD-geïnformeerde initialisatiestrategieën (bijv. PiSSA, MiLoRA), waarbij we hun falen toeschrijven aan een fundamentele misalignering tussen principal-component-updates en RL-optimalisatie. Verder onthullen onze ablatiestudies dat extreme parameterreductie (bijv. VeRA, Rank-1) het redeneervermogen ernstig beperkt. Wij voeren verder ablatiestudies en schaalexperimenten uit om onze bevindingen te valideren. Dit werk biedt een definitieve richtlijn om te pleiten voor meer exploratie van parameter-efficiënte RL-methoden.
Het taak van issuelokalisatie heeft als doel de locaties in een softwarerepository te identificeren die wijziging vereisen op basis van een beschrijving van het probleem in natuurlijke taal. Deze taak is fundamenteel maar uitdagend binnen geautomatiseerde software-engineering vanwege de semantische kloof tussen probleembeschrijving en broncode-implementatie. Deze kloof manifesteert zich als twee mismatches: (1) symptoom-naar-oorzaak mismatches, waarbij beschrijvingen de onderliggende hoofdoorzaken niet expliciet onthullen; (2) één-op-veel mismatches, waarbij een enkel probleem correspondeert met meerdere onderling afhankelijke code-entiteiten. Om deze twee mismatches aan te pakken, stellen we GraphLocator voor, een benadering die symptoom-naar-oorzaak mismatches vermindert door causale structuurontdekking en één-op-veel mismatches oplost via dynamische probleemontrafeling. Het belangrijkste artefact is de causale probleemgraaf (CIG), waarin vertices de ontdekte subproblemen samen met hun bijbehorende code-entiteiten vertegenwoordigen, en edges de causale afhankelijkheden daartussen coderen. De workflow van GraphLocator bestaat uit twee fasen: lokalisatie van symptoomvertices en dynamische CIG-ontdekking; het identificeert eerst symptoomlocaties op de repositorygraaf, breidt vervolgens dynamisch de CIG uit door iteratief te redeneren over aangrenzende vertices. Experimenten op drie real-world datasets tonen de effectiviteit van GraphLocator aan: (1) Vergeleken met baseline-methoden behaalt GraphLocator nauwkeurigere lokalisatie met gemiddelde verbeteringen van +19,49% in recall op functieniveau en +11,89% in precisie. (2) GraphLocator overtreft de baseline-methoden in zowel symptoom-naar-oorzaak als één-op-veel mismatch-scenario's, met recallverbeteringen van respectievelijk +16,44% en +19,18%, en precisieverbeteringen van +7,78% en +13,23%. (3) De door GraphLocator gegenereerde CIG resulteert in de hoogste relatieve verbetering, wat leidt tot een prestatieverhoging van 28,74% bij de daaropvolgende oplossingstaak.
Mixture-of-Experts (MoE)-architecturen hebben de schaalvergroting van Large Language Models (LLM's) gevorderd door slechts een spaarse subset van parameters per invoer te activeren, wat state-of-the-art prestaties mogelijk maakt tegen lagere computationele kosten. Omdat deze modellen steeds vaker worden ingezet in kritieke domeinen, is het begrijpen en versterken van hun alignatiemechanismen essentieel om schadelijke outputs te voorkomen. Bestaand veiligheidsonderzoek naar LLM's heeft zich echter bijna uitsluitend gericht op dichte architecturen, waardoor de unieke veiligheidseigenschappen van MoE's grotendeels ononderzoekcht zijn gebleven. Het modulaire, spaarzaam geactiveerde ontwerp van MoE's suggereert dat veiligheidsmechanismen mogelijk anders functioneren dan in dichte modellen, wat vragen oproept over hun robuustheid. In dit artikel presenteren we GateBreaker, het eerste trainingsvrije, lichtgewicht en architectuuronafhankelijke aanvalsframework dat de veiligheidsalignment van moderne MoE-LLM's tijdens de inferentiefase compromitteert. GateBreaker opereert in drie fasen: (i) gate-level profilering, waarbij safety-experts worden geïdentificeerd die onevenredig vaak worden geroeid op schadelijke invoer, (ii) expert-level lokalisatie, waarbij de veiligheidsstructuur binnen safety-experts wordt gelokaliseerd, en (iii) gerichte veiligheidsverwijdering, waarbij de geïdentificeerde veiligheidsstructuur wordt uitgeschakeld om de veiligheidsalignment te compromitteren. Onze studie toont aan dat MoE-veiligheid geconcentreerd is binnen een kleine subset van neuronen die gecoördineerd worden door spaarse routering. Selectief uitschakelen van deze neuronen, ongeveer 3% van de neuronen in de doelwit-expertlagen, verhoogt de gemiddelde aanvalssuccesratio (ASR) significant van 7,4% naar 64,9% bij de acht nieuwste gealigneerde MoE-LLM's, met beperkte achteruitgang in bruikbaarheid. Deze veiligheidsneuronen zijn overdraagbaar tussen modellen binnen dezelfde familie, waarbij een one-shot transferaanval de ASR verhoogt van 17,9% naar 67,7%. Bovendien generaliseert GateBreaker naar vijf MoE Vision Language Models (VLM's) met een ASR van 60,9% op onveilige beeldinvoer.