Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit technisch rapport presenteert een kostenefficiënte strategie voor het trainen van een foundation model voor videogeneratie. We introduceren een middelgroot onderzoeksmodel met ongeveer 7 miljard parameters (7B), genaamd Seaweed-7B, dat vanaf nul is getraind met behulp van 665.000 H100 GPU-uren. Ondanks het feit dat het is getraind met matige rekenbronnen, toont Seaweed-7B een zeer competitieve prestaties in vergelijking met hedendaagse videogeneratiemodellen van aanzienlijk grotere omvang. Ontwerpkeuzes zijn vooral cruciaal in een omgeving met beperkte middelen. Dit technisch rapport belicht de belangrijkste ontwerpbeslissingen die de prestaties van het middelgrote diffusiemodel verbeteren. Empirisch maken we twee observaties: (1) Seaweed-7B bereikt prestaties die vergelijkbaar zijn met, of zelfs beter dan, grotere modellen die getraind zijn met aanzienlijk meer GPU-bronnen, en (2) ons model, dat een sterke generalisatiecapaciteit vertoont, kan effectief worden aangepast voor een breed scala aan downstream toepassingen, hetzij door lichtgewicht fine-tuning of door voortgezette training. Zie de projectpagina op https://seaweed.video/
Bij autoregressieve (AR) beeldgeneratie comprimeren visuele tokenizers afbeeldingen tot compacte discrete latente tokens, waardoor efficiënte training van downstream autoregressieve modellen voor visuele generatie via next-token voorspelling mogelijk wordt. Hoewel het opschalen van visuele tokenizers de kwaliteit van beeldreconstructie verbetert, verslechtert het vaak de kwaliteit van downstream generatie – een uitdaging die niet adequaat wordt aangepakt in bestaande literatuur. Om dit aan te pakken, introduceren we GigaTok, de eerste aanpak die tegelijkertijd beeldreconstructie, generatie en representatieleren verbetert bij het opschalen van visuele tokenizers. We identificeren de toenemende complexiteit van de latente ruimte als de belangrijkste factor achter het reconstructie vs. generatie dilemma. Om dit te verzachten, stellen we semantische regularisatie voor, waarbij tokenizer-functies worden afgestemd op semantisch consistente functies van een vooraf getrainde visuele encoder. Deze beperking voorkomt overmatige complexiteit van de latente ruimte tijdens het opschalen, wat resulteert in consistente verbeteringen in zowel reconstructie als downstream autoregressieve generatie. Voortbouwend op semantische regularisatie, verkennen we drie belangrijke praktijken voor het opschalen van tokenizers: (1) het gebruik van 1D-tokenizers voor betere schaalbaarheid, (2) het prioriteren van decoder-schaling bij het uitbreiden van zowel encoder als decoder, en (3) het inzetten van entropieverlies om de training te stabiliseren voor tokenizers op miljardenschaal. Door op te schalen naar 3 miljard parameters, behaalt GigaTok state-of-the-art prestaties in reconstructie, downstream AR-generatie en downstream AR-representatiekwaliteit.
Wereldmodellering is een cruciale taak om intelligente agents in staat te stellen effectief te interacteren met mensen en te opereren in dynamische omgevingen. In dit werk stellen we MineWorld voor, een real-time interactief wereldmodel op Minecraft, een open-ended sandbox-game die vaak wordt gebruikt als een gemeenschappelijke testomgeving voor wereldmodellering. MineWorld wordt aangedreven door een visueel-actie autoregressieve Transformer, die gepaarde gamescènes en bijbehorende acties als invoer neemt en daaropvolgende nieuwe scènes genereert na de acties. Specifiek transformeren we visuele gamescènes en acties in discrete token-ids met respectievelijk een beeld-tokenizer en een actie-tokenizer, en vormen we de modelinvoer door de concatenatie van deze twee soorten ids afgewisseld. Het model wordt vervolgens getraind met next token prediction om rijke representaties van spelstatussen te leren, evenals de voorwaarden tussen statussen en acties tegelijkertijd. Tijdens inferentie ontwikkelen we een nieuw parallel decodeeralgoritme dat de ruimtelijk redundante tokens in elk frame tegelijkertijd voorspelt, waardoor modellen op verschillende schaal 4 tot 7 frames per seconde genereren en real-time interacties met spelers mogelijk maken. Bij evaluatie introduceren we nieuwe metrieken om niet alleen de visuele kwaliteit te beoordelen, maar ook de capaciteit om acties te volgen bij het genereren van nieuwe scènes, wat cruciaal is voor een wereldmodel. Onze uitgebreide evaluatie toont de effectiviteit van MineWorld aan, die state-of-the-art open-source diffuus gebaseerde wereldmodellen significant overtreft. De code en het model zijn vrijgegeven.
Onlangs heeft DeepSeek R1 aangetoond dat reinforcement learning (RL) de redeneervaardigheden van Large Language Models (LLMs) aanzienlijk kan verbeteren door middel van een eenvoudig maar effectief ontwerp. De kern van R1 ligt in zijn regelgebaseerde beloningsformulering, die taken met deterministische grondwaarheid-antwoorden benut om nauwkeurige en stabiele beloningsberekening mogelijk te maken. In het visuele domein observeren we op vergelijkbare wijze dat een breed scala aan visuele begripstaken van nature zijn uitgerust met goed gedefinieerde grondwaarheid-annotaties. Deze eigenschap maakt ze van nature compatibel met regelgebaseerde beloningsmechanismen. Gemotiveerd door deze observatie onderzoeken we de uitbreiding van R1-stijl reinforcement learning naar Vision-Language Models (VLMs), met als doel hun visuele redeneervaardigheden te verbeteren. Hiertoe ontwikkelen we VLM-R1, een speciaal framework ontworpen om RL te benutten voor het verbeteren van de prestaties van VLMs op algemene visie-taaltaken. Met dit framework verkennen we verder de haalbaarheid van het toepassen van RL in het visuele domein. Experimentele resultaten geven aan dat het RL-gebaseerde model niet alleen competitieve prestaties levert op visuele begripstaken, maar ook Supervised Fine-Tuning (SFT) overtreft in generalisatievermogen. Bovendien voeren we uitgebreide ablatiestudies uit die een reeks opmerkelijke inzichten onthullen, waaronder de aanwezigheid van beloningsmanipulatie in objectdetectie, het ontstaan van het "OD aha-moment", de impact van de kwaliteit van trainingsdata en het schaalgedrag van RL bij verschillende modelgroottes. Door deze analyses willen we het begrip verdiepen van hoe reinforcement learning de capaciteiten van visie-taalmodelle verbetert, en we hopen dat onze bevindingen en open-source bijdragen de voortdurende vooruitgang in de visie-taal RL-gemeenschap zullen ondersteunen. Onze code en model zijn beschikbaar op https://github.com/om-ai-lab/VLM-R1.
Natural Language to SQL (NL2SQL) maakt intuïtieve interacties met databases mogelijk door natuurlijke taalvragen om te zetten in gestructureerde SQL-statements. Ondanks recente vooruitgang in het verbeteren van mens-computerinteractie binnen databaseapplicaties, blijven er aanzienlijke uitdagingen bestaan, met name wat betreft de inferentieprestaties in complexe scenario's waarbij multi-table joins en geneste queries betrokken zijn. Huidige methodologieën maken voornamelijk gebruik van supervised fine-tuning (SFT) om het NL2SQL-model te trainen, wat de aanpassings- en interpreteerbaarheid in nieuwe omgevingen (bijv. financiën en gezondheidszorg) kan beperken. Om de redeneerprestaties van het NL2SQL-model in de bovengenoemde complexe situaties te verbeteren, introduceren we SQL-R1, een nieuw NL2SQL-redeneermodel getraind met reinforcement learning (RL)-algoritmen. We ontwerpen een gespecialiseerde RL-gebaseerde beloningsfunctie die is afgestemd op NL2SQL-taken en bespreken de impact van een koude start op de effectiviteit van intensieve training. Daarnaast behalen we competitieve nauwkeurigheid met slechts een kleine hoeveelheid synthetische NL2SQL-gegevens voor augmented training en verkennen we verder data engineering voor RL. In bestaande experimenten behaalt SQL-R1 een uitvoeringsnauwkeurigheid van respectievelijk 88,6% en 66,6% op de benchmarks Spider en BIRD, waarbij alleen het 7B-basismodel wordt gebruikt.
Recente vooruitgang in generatieve modellen heeft de mogelijkheden voor beeldrestauratie aanzienlijk verbeterd, met name door krachtige diffusiemodellen die opmerkelijke herstelprestaties bieden op het gebied van semantische details en lokale nauwkeurigheid. Het inzetten van deze modellen op ultra-hoge resoluties stuit echter op een kritische afweging tussen kwaliteit en efficiëntie vanwege de rekenkundige eisen van aandachtmechanismen voor langeafstandsrelaties. Om dit aan te pakken, introduceren we ZipIR, een nieuw framework dat efficiëntie, schaalbaarheid en modellering van langeafstandsrelaties verbetert voor beeldrestauratie op hoge resolutie. ZipIR maakt gebruik van een sterk gecomprimeerde latente representatie die het beeld 32x comprimeert, waardoor het aantal ruimtelijke tokens effectief wordt verminderd en het gebruik van hoogwaardige modellen zoals de Diffusion Transformer (DiT) mogelijk wordt gemaakt. Om dit te bereiken, stellen we een Latent Pyramid VAE (LP-VAE) ontwerp voor dat de latente ruimte structureert in subbanden om diffusietraining te vergemakkelijken. Getraind op volledige beelden tot 2K-resolutie, overtreft ZipIR bestaande diffusiegebaseerde methoden en biedt het ongeëvenaarde snelheid en kwaliteit bij het herstellen van hoogwaardige beelden uit sterk gedegradeerde invoer.
We presenteren PixelFlow, een familie van beeldgeneratiemodellen die rechtstreeks in de ruwe pixelruimte werken, in tegenstelling tot de overheersende latent-ruimtemodellen. Deze aanpak vereenvoudigt het beeldgeneratieproces door de noodzaak van een vooraf getrainde Variational Autoencoder (VAE) te elimineren en het hele model end-to-end trainbaar te maken. Door efficiënte cascade flow-modellering bereikt PixelFlow een betaalbare rekencapaciteit in de pixelruimte. Het behaalt een FID van 1,98 op de 256x256 ImageNet klasse-conditionele beeldgeneratiebenchmark. De kwalitatieve tekst-naar-beeldresultaten tonen aan dat PixelFlow uitblinkt in beeldkwaliteit, artistieke waarde en semantische controle. We hopen dat dit nieuwe paradigma inspiratie zal bieden en nieuwe mogelijkheden zal openen voor de volgende generatie visuele generatiemodellen. Code en modellen zijn beschikbaar op https://github.com/ShoufaChen/PixelFlow.
Met de snelle vooruitgang van 2D-generatieve modellen is het behouden van subjectidentiteit terwijl diverse bewerkingen mogelijk worden gemaakt, een cruciaal onderzoeksfocus geworden. Bestaande methoden kampen doorgaans met inherente afwegingen tussen identiteitsbehoud en gepersonaliseerde manipulatie. Wij introduceren FlexIP, een nieuw raamwerk dat deze doelstellingen ontkoppelt via twee toegewijde componenten: een Personalisatie Adapter voor stilistische manipulatie en een Behoud Adapter voor identiteitsbehoud. Door beide controlemechanismen expliciet in het generatieve model te injecteren, maakt ons raamwerk flexibele geparametriseerde controle mogelijk tijdens inferentie door dynamische afstemming van de gewichtsadapter. Experimentele resultaten tonen aan dat onze aanpak de prestatiebeperkingen van conventionele methoden doorbreekt, waarbij superieur identiteitsbehoud wordt bereikt terwijl meer diverse gepersonaliseerde generatiemogelijkheden worden ondersteund (Projectpagina: https://flexip-tech.github.io/flexip/).
We presenteren een systeem dat gebruikmaakt van Multimodale LLM's (MLLMs) om een grote database met tientallen miljoenen afbeeldingen die op verschillende tijdstippen zijn vastgelegd te analyseren, met als doel patronen in temporele veranderingen te ontdekken. Specifiek streven we ernaar om veelvoorkomende gelijktijdige veranderingen ("trends") in een stad gedurende een bepaalde periode vast te leggen. In tegenstelling tot eerdere visuele analyses, beantwoordt onze analyse open-einde vragen (bijvoorbeeld "wat zijn de veelvoorkomende soorten veranderingen in de stad?") zonder vooraf bepaalde doelonderwerpen of trainingslabels. Deze eigenschappen maken eerder op leren gebaseerde of onbewaakte visuele analyse tools ongeschikt. We identificeren MLLMs als een nieuw hulpmiddel vanwege hun vermogen tot open-einde semantisch begrip. Echter, onze datasets zijn vier ordes van grootte te groot voor een MLLM om als context te verwerken. Daarom introduceren we een bottom-up procedure die het enorme visuele analyseprobleem opsplitst in meer behapbare subproblemen. We ontwerpen zorgvuldig MLLM-gebaseerde oplossingen voor elk subprobleem. Tijdens experimenten en ablatiestudies met ons systeem, ontdekken we dat het aanzienlijk beter presteert dan baseline-methoden en in staat is interessante trends te ontdekken uit afbeeldingen die in grote steden zijn vastgelegd (bijvoorbeeld "toevoeging van buitenruimtes voor dineren", "viaduct werd blauw geverfd", enz.). Bekijk meer resultaten en interactieve demo's op https://boyangdeng.com/visual-chronicles.
Wij introduceren een nieuw probleem, In-2-4D, voor generatieve 4D (d.w.z. 3D + beweging) inbetweening vanuit een minimalistische invoerinstelling: twee enkelvoudige beelden die een object vastleggen in twee verschillende bewegingsstatussen. Gegeven twee afbeeldingen die de begin- en eindstaat van een object in beweging weergeven, is ons doel om de beweging in 4D te genereren en te reconstrueren. We maken gebruik van een video-interpolatiemodel om de beweging te voorspellen, maar grote frame-naar-frame bewegingen kunnen leiden tot dubbelzinnige interpretaties. Om dit te overwinnen, hanteren we een hiërarchische aanpak om keyframes te identificeren die visueel dicht bij de invoerstatussen liggen en significante beweging vertonen, waarna we soepele fragmenten tussen deze keyframes genereren. Voor elk fragment construeren we de 3D-representatie van het keyframe met behulp van Gaussian Splatting. De temporele frames binnen het fragment sturen de beweging, waardoor ze worden omgezet in dynamische Gaussians via een vervormingsveld. Om de temporele consistentie te verbeteren en de 3D-beweging te verfijnen, breiden we de self-attention van multi-view diffusie uit over tijdstappen en passen we rigid transformation regularisatie toe. Ten slotte voegen we de onafhankelijk gegenereerde 3D-bewegingssegmenten samen door de grensvervormingsvelden te interpoleren en te optimaliseren om ze af te stemmen op de begeleidende video, waardoor soepele en flikkervrije overgangen worden gegarandeerd. Door uitgebreide kwalitatieve en kwantitatieve experimenten, evenals een gebruikersstudie, tonen we de effectiviteit van onze methode en de onderdelen ervan aan. De projectpagina is beschikbaar op https://in-2-4d.github.io/.
Ondanks hoge benchmarkscores falen Large Language Models (LLMs) vaak bij eenvoudige problemen, wat een kritische vraag oproept: Leren LLMs wiskundige principes of onthouden ze slechts patronen? In plaats van steeds complexere benchmarks te ontwerpen, zoals recente werken doen, onderzoeken we dit met behulp van elementaire optelling van twee gehele getallen (0 tot 2^{64}), waarbij we twee kern eigenschappen onderzoeken: commutativiteit (A+B=B+A) en compositionele generalisatie (via isomorfe symbolische mapping, bijvoorbeeld 7 → y). Hoewel state-of-the-art LLMs een nauwkeurigheid van 73,8-99,8% behalen bij numerieke optelling, stort de prestaties in tot ≤7,5% onder symbolische mapping, wat wijst op een gebrek aan generalisatie van geleerde regels. Niet-monotone prestatie schaling met het aantal cijfers en frequente schendingen van commutativiteit (meer dan 1.700 gevallen van A+B ≠ B+A) ondersteunen dit verder. Het expliciet verstrekken van optelregels vermindert de prestaties gemiddeld met 81,2%, terwijl zelfuitleg de basislijn nauwkeurigheid behoudt, wat suggereert dat de rekenkundige verwerking van LLMs niet overeenkomt met door mensen gedefinieerde principes. Onze bevindingen geven aan dat huidige LLMs vertrouwen op geheugenpatronen in plaats van op echt regel leren, wat architectonische beperkingen benadrukt en de noodzaak voor nieuwe benaderingen om echt wiskundig redeneren te bereiken.
Voorgetrainde transformer-encoder modellen zoals DeBERTaV3 en ModernBERT introduceren architectonische verbeteringen die gericht zijn op het verhogen van efficiëntie en prestaties. Hoewel de auteurs van ModernBERT verbeterde prestaties ten opzichte van DeBERTaV3 melden op verschillende benchmarks, maakt het ontbreken van vrijgegeven trainingsdata en het ontbreken van vergelijkingen met behulp van een gedeelde dataset het moeilijk om te bepalen of deze verbeteringen het gevolg zijn van architectonische innovaties of verschillen in trainingsdata. In dit werk voeren we een gecontroleerde studie uit door ModernBERT voor te trainen op dezelfde dataset als CamemBERTaV2, een Frans DeBERTaV3-model, om het effect van modelontwerp te isoleren. Onze resultaten laten zien dat de vorige modelgeneratie superieur blijft in steekproefefficiëntie en algehele benchmarkprestaties, waarbij het primaire voordeel van ModernBERT snellere training en inferentiesnelheid is. Desalniettemin biedt het nieuwe voorgestelde model nog steeds zinvolle architectonische verbeteringen in vergelijking met eerdere modellen zoals BERT en RoBERTa. Daarnaast observeren we dat hoogwaardige voorafgaande trainingsdata de convergentie versnelt, maar niet significant bijdraagt aan de uiteindelijke prestaties, wat wijst op mogelijke benchmarkverzadiging. Deze bevindingen benadrukken het belang van het ontwarren van voorafgaande trainingsdata en architectonische innovaties bij het evalueren van transformermodellen.
Retrieval-Augmented Generation (RAG)-modellen blinken uit in kennisintensieve taken, vooral onder beperkingen van few-shot learning. Wij introduceren CoRAG, een raamwerk dat RAG uitbreidt naar collaboratieve settings, waarbij clients gezamenlijk een gedeeld model trainen met behulp van een collaboratieve passagestore. Om CoRAG te evalueren, introduceren we CRAB, een benchmark voor collaboratieve homogene open-domein vraagbeantwoording. Onze experimenten tonen aan dat CoRAG consistent beter presteert dan zowel parametrische collaboratieve leermethoden als lokaal getrainde RAG-modellen in scenario’s met beperkte middelen. Verdere analyse onthult het cruciale belang van relevante passages binnen de gedeelde store, de verrassende voordelen van het opnemen van irrelevante passages, en het potentieel van hard negatives om de prestaties negatief te beïnvloeden. Dit introduceert een nieuwe overweging in collaboratieve RAG: de afweging tussen het benutten van een collectief verrijkte kennisbasis en het potentiële risico van het opnemen van schadelijke passages van andere clients. Onze bevindingen onderstrepen de haalbaarheid van CoRAG, terwijl ze ook belangrijke ontwerpuitdagingen en veelbelovende onderzoeksrichtingen voor de toekomst belichten.
Recente vooruitgang in tekst-naar-video (T2V) diffusiemodellen heeft de visuele kwaliteit van de gegenereerde video's aanzienlijk verbeterd. Toch vinden zelfs recente T2V-modellen het uitdagend om tekstbeschrijvingen nauwkeurig te volgen, vooral wanneer de prompt nauwkeurige controle van ruimtelijke lay-outs of objecttrajectories vereist. Een recente onderzoekslijn gebruikt lay-outbegeleiding voor T2V-modellen die fine-tuning of iteratieve manipulatie van de aandachtkaart tijdens de inferentietijd vereisen. Dit verhoogt de geheugenbehoefte aanzienlijk, waardoor het moeilijk wordt om een groot T2V-model als backbone te gebruiken. Om dit aan te pakken, introduceren we Video-MSG, een trainingsvrije begeleidingsmethode voor T2V-generatie gebaseerd op Multimodale planning en Gestructureerde ruisinitialisatie. Video-MSG bestaat uit drie stappen, waarbij in de eerste twee stappen Video-MSG een Video Schets maakt, een fijnmazig ruimtelijk-tijdelijk plan voor de uiteindelijke video, dat de achtergrond, voorgrond en objecttrajectories specificeert in de vorm van conceptvideoframes. In de laatste stap begeleidt Video-MSG een downstream T2V-diffusiemodel met de Video Schets door middel van ruisinversie en denoising. Opmerkelijk is dat Video-MSG geen fine-tuning of aandachtmanipulatie met extra geheugen tijdens de inferentietijd nodig heeft, waardoor het gemakkelijker wordt om grote T2V-modellen te gebruiken. Video-MSG toont zijn effectiviteit in het verbeteren van tekstuitlijning met meerdere T2V-backbones (VideoCrafter2 en CogVideoX-5B) op populaire T2V-generatiebenchmarks (T2VCompBench en VBench). We bieden uitgebreide ablatiestudies over ruisinversieverhouding, verschillende achtergrondgeneratoren, achtergrondobjectdetectie en voorgrondobjectsegmentatie.
In de medische beeldvorming is de grootste uitdaging het verzamelen van grootschalige gelabelde gegevens vanwege privacyzorgen, logistieke problemen en hoge labelkosten. In dit werk presenteren we de UK Biobank Organs and Bones (UKBOB), de grootste gelabelde dataset van lichaamsorganen, bestaande uit 51.761 MRI 3D-monsters (gelijk aan 17,9 miljoen 2D-beelden) en meer dan 1,37 miljard 2D-segmentatiemaskers van 72 organen, allemaal gebaseerd op de UK Biobank MRI-dataset. We maken gebruik van automatisch labelen, introduceren een geautomatiseerde labelreinigingspijplijn met orgaanspecifieke filters, en annoteren handmatig een subset van 300 MRI's met 11 abdominale klassen om de kwaliteit te valideren (aangeduid als UKBOB-manual). Deze aanpak maakt het mogelijk om de datasetverzameling op te schalen terwijl het vertrouwen in de labels behouden blijft. We bevestigen verder de geldigheid van de labels door zero-shot generalisatie van getrainde modellen op de gefilterde UKBOB naar andere kleine gelabelde datasets uit vergelijkbare domeinen (bijvoorbeeld abdominale MRI) aan te tonen. Om het effect van ruis in de labels verder te verminderen, stellen we een nieuwe methode voor genaamd Entropy Test-time Adaptation (ETTA) om de segmentatie-uitvoer te verfijnen. We gebruiken UKBOB om een foundation model, Swin-BOB, te trainen voor 3D-medische beeldsegmentatie op basis van de Swin-UNetr-architectuur, waarbij state-of-the-art resultaten worden behaald in verschillende benchmarks in 3D-medische beeldvorming, waaronder de BRATS hersen-MRI-tumoruitdaging (met een verbetering van 0,4%) en de BTCV abdominale CT-scan benchmark (met een verbetering van 1,3%). De vooraf getrainde modellen en de code zijn beschikbaar op https://emmanuelleb985.github.io/ukbob, en de gefilterde labels zullen beschikbaar worden gesteld met de UK Biobank.
3D-grafische bewerking is cruciaal in toepassingen zoals filmproductie en gamedesign, maar blijft een tijdrovend proces dat hooggespecialiseerde domeinkennis vereist. Het automatiseren van dit proces is uitdagend omdat grafische bewerking een verscheidenheid aan taken vereist, elk met een eigen set vaardigheden. Recentelijk zijn vision-language models (VLMs) naar voren gekomen als een krachtig raamwerk voor het automatiseren van het bewerkingsproces, maar hun ontwikkeling en evaluatie worden belemmerd door het ontbreken van een uitgebreide benchmark die menselijk niveau van perceptie vereist en real-world bewerkingscomplexiteit presenteert. In dit werk introduceren we BlenderGym, de eerste uitgebreide VLM-systeembenchmark voor 3D-grafische bewerking. BlenderGym evalueert VLM-systemen via code-gebaseerde 3D-reconstructietaken. We evalueren zowel gesloten als open-source VLM-systemen en observeren dat zelfs het state-of-the-art VLM-systeem moeite heeft met taken die relatief eenvoudig zijn voor menselijke Blender-gebruikers. Dankzij BlenderGym bestuderen we hoe inferentie-schaaltechnieken de prestaties van VLM's op grafische bewerkingstaken beïnvloeden. Opmerkelijk is dat onze bevindingen aantonen dat de verifier die wordt gebruikt om de schaling van generatie te begeleiden, zelf kan worden verbeterd door inferentie-schaling, wat recente inzichten over inferentie-schaling van LLM-generatie bij coderings- en rekentaken aanvult. We tonen verder aan dat inferentie-rekenkracht niet uniform effectief is en geoptimaliseerd kan worden door deze strategisch te verdelen tussen generatie en verificatie.
Dit onderzoek presenteert de Latent Diffusion Autoencoder (LDAE), een nieuw encoder-decoder raamwerk gebaseerd op diffusie voor efficiënt en betekenisvol ongesuperviseerd leren in medische beeldvorming, met een focus op de ziekte van Alzheimer (AD) waarbij hersen-MR van de ADNI-database als casestudy wordt gebruikt. In tegenstelling tot conventionele diffusie-autoencoders die in de beeldruimte werken, past LDAE het diffusieproces toe in een gecomprimeerde latente representatie, wat de computationele efficiëntie verbetert en het leren van representaties voor 3D-medische beeldvorming hanteerbaar maakt. Om de voorgestelde aanpak te valideren, onderzoeken we twee belangrijke hypothesen: (i) LDAE vangt effectief betekenisvolle semantische representaties op van 3D-hersen-MR die geassocieerd zijn met AD en veroudering, en (ii) LDAE bereikt hoogwaardige beeldgeneratie en -reconstructie terwijl het computationeel efficiënt blijft. Experimentele resultaten ondersteunen beide hypothesen: (i) lineaire-probe-evaluaties tonen veelbelovende diagnostische prestaties voor AD (ROC-AUC: 90%, ACC: 84%) en leeftijdsvoorspelling (MAE: 4,1 jaar, RMSE: 5,2 jaar); (ii) de geleerde semantische representaties maken attribuutmanipulatie mogelijk, wat anatomisch plausibele modificaties oplevert; (iii) semantische interpolatie-experimenten tonen een sterke reconstructie van ontbrekende scans, met een SSIM van 0,969 (MSE: 0,0019) voor een gat van 6 maanden. Zelfs voor langere gaten (24 maanden) behoudt het model robuuste prestaties (SSIM > 0,93, MSE < 0,004), wat wijst op een vermogen om temporele progressietrends vast te leggen; (iv) in vergelijking met conventionele diffusie-autoencoders verhoogt LDAE de inferentie-doorvoer aanzienlijk (20x sneller) terwijl ook de reconstructiekwaliteit wordt verbeterd. Deze bevindingen positioneren LDAE als een veelbelovend raamwerk voor schaalbare toepassingen in medische beeldvorming, met het potentieel om als een fundamenteel model te dienen voor medische beeldanalyse. Code beschikbaar op https://github.com/GabrieleLozupone/LDAE.
Recente vooruitgang in rekentijd tijdens inferentie heeft de prestaties op complexe taken aanzienlijk verbeterd door lange ketens van gedachten (CoTs) te genereren met behulp van Grote Redeneermodellen (LRMs). Deze verbeterde nauwkeurigheid gaat echter gepaard met hoge inferentielatentie vanwege de lengte van de gegenereerde redeneersequenties en het autoregressieve karakter van decodering. Onze belangrijkste inzicht bij het aanpakken van deze overheadkosten is dat LRM-inferentie, en het redeneren dat het omvat, zeer tolerant is voor benaderingen: complexe taken worden typisch opgedeeld in eenvoudigere stappen, waarvan elke stap nut heeft op basis van het semantische inzicht dat het biedt voor volgende stappen, in plaats van de exacte tokens die het genereert. Daarom introduceren we SpecReason, een systeem dat LRM-inferentie automatisch versnelt door een lichtgewicht model te gebruiken om (speculatief) eenvoudigere tussenliggende redeneerstappen uit te voeren en het kostbare basismodel alleen te reserveren om de gespeculeerde uitvoer te beoordelen (en eventueel te corrigeren). Belangrijk is dat SpecReason's focus op het benutten van de semantische flexibiliteit van denktokens bij het behouden van de nauwkeurigheid van het eindantwoord complementair is aan eerdere speculatietechnieken, met name speculatieve decodering, die token-level gelijkwaardigheid bij elke stap vereist. Over een verscheidenheid aan redeneerbenchmarks behaalt SpecReason een versnelling van 1,5-2,5 keer ten opzichte van standaard LRM-inferentie, terwijl de nauwkeurigheid met 1,0-9,9\% wordt verbeterd. In vergelijking met speculatieve decodering zonder SpecReason, levert hun combinatie een extra latentiereductie van 19,4-44,2\% op. We open-sourcen SpecReason op https://github.com/ruipeterpan/specreason.
We introduceren InteractVLM, een nieuwe methode om 3D-contactpunten op menselijke lichamen en objecten te schatten vanuit enkele afbeeldingen in natuurlijke omgevingen, wat nauwkeurige 3D-reconstructie van mens-object interacties mogelijk maakt. Dit is een uitdaging vanwege occlusies, diepteambiguïteiten en de grote variatie in objectvormen. Bestaande methoden zijn afhankelijk van 3D-contactannotaties die zijn verzameld via kostbare motion-capturesystemen of tijdrovende handmatige labeling, wat de schaalbaarheid en generalisatie beperkt. Om dit te overwinnen, maakt InteractVLM gebruik van de brede visuele kennis van grote Vision-Language Models (VLMs), die zijn verfijnd met beperkte 3D-contactgegevens. Het direct toepassen van deze modellen is echter niet eenvoudig, omdat ze alleen in 2D redeneren, terwijl mens-object contact inherent 3D is. Daarom introduceren we een nieuwe Render-Localize-Lift module die: (1) 3D-lichaams- en objectoppervlakken in 2D-ruimte inbedt via multi-view rendering, (2) een nieuw multi-view localisatiemodel (MV-Loc) traint om contacten in 2D af te leiden, en (3) deze naar 3D optilt. Daarnaast stellen we een nieuwe taak voor genaamd Semantic Human Contact Estimation, waarbij menselijke contactvoorspellingen expliciet worden geconditioneerd op object semantiek, wat rijkere interactiemodellering mogelijk maakt. InteractVLM overtreft bestaande werkzaamheden op het gebied van contactschatting en vergemakkelijkt ook 3D-reconstructie vanuit een afbeelding in een natuurlijke omgeving. Code en modellen zijn beschikbaar op https://interactvlm.is.tue.mpg.de.
Machine unlearning is een veelbelovende aanpak om de veiligheid van LLM's te verbeteren door ongewenste kennis uit het model te verwijderen. Echter, gangbare gradient-gebaseerde unlearning-methoden kampen met problemen zoals hoge rekenkosten, hyperparameter-instabiliteit, beperkte sequentiële unlearning-capaciteit, kwetsbaarheid voor herleer-aanvallen, lage data-efficiëntie en een gebrek aan interpreteerbaarheid. Hoewel Sparse Autoencoders geschikt zijn om deze aspecten te verbeteren door gerichte activatie-gebaseerde unlearning mogelijk te maken, presteren eerdere benaderingen slechter dan gradient-gebaseerde methoden. Dit werk toont aan dat, in tegenstelling tot deze eerdere bevindingen, SAE's unlearning aanzienlijk kunnen verbeteren wanneer ze dynamisch worden ingezet. We introduceren Dynamic DAE Guardrails (DSG), een nieuwe methode voor precisie-unlearning die gebruikmaakt van principiële feature-selectie en een dynamische classifier. Onze experimenten tonen aan dat DSG aanzienlijk beter presteert dan toonaangevende unlearning-methoden, met superieure afwegingen tussen vergeten en nut. DSG adresseert belangrijke nadelen van gradient-gebaseerde benaderingen voor unlearning – het biedt verbeterde rekenkundige efficiëntie en stabiliteit, robuuste prestaties bij sequentiële unlearning, sterkere weerstand tegen herleer-aanvallen, betere data-efficiëntie inclusief zero-shot-instellingen, en meer interpreteerbare unlearning.