Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Zelfsupervised leren belooft de noodzaak voor handmatige data-annotatie te elimineren, waardoor modellen moeiteloos kunnen schalen naar enorme datasets en grotere architecturen. Doordat deze trainingsparadigma niet is afgestemd op specifieke taken of domeinen, heeft het de potentie om visuele representaties te leren uit diverse bronnen, variërend van natuurlijke tot luchtfoto's -- met behulp van een enkel algoritme. Dit technische rapport introduceert DINOv3, een belangrijke mijlpaal in het realiseren van deze visie door eenvoudige maar effectieve strategieën te benutten. Ten eerste profiteren we van het schalen van zowel de dataset- als modelgrootte door zorgvuldige data-voorbereiding, ontwerp en optimalisatie. Ten tweede introduceren we een nieuwe methode genaamd Gram-verankering, die effectief het bekende maar onopgeloste probleem aanpakt van dichte kenmerkkaarten die tijdens lange trainingsschema's achteruitgaan. Tot slot passen we post-hoc strategieën toe die de flexibiliteit van onze modellen verder verbeteren met betrekking tot resolutie, modelgrootte en afstemming met tekst. Als resultaat presenteren we een veelzijdig visueel basis model dat de gespecialiseerde state-of-the-art overtreft in een breed scala van instellingen, zonder fine-tuning. DINOv3 produceert hoogwaardige dichte kenmerken die uitstekende prestaties leveren op diverse visuele taken, en daarbij eerdere zelf- en zwakgesuperviseerde basis modellen aanzienlijk overtreft. We delen ook de DINOv3-suite van visuele modellen, ontworpen om de state-of-the-art te bevorderen op een breed spectrum van taken en data door schaalbare oplossingen te bieden voor diverse resourcebeperkingen en implementatiescenario's.
We onderzoeken het potentieel van grote taalmodellen (LLMs) om te dienen als efficiënte simulatoren voor agent-gerichte zoektaken in reinforcement learning (RL), waardoor de afhankelijkheid van kostbare interacties met externe zoekmachines wordt verminderd. Hiertoe kwantificeren we eerst de intrinsieke zoekcapaciteit van LLMs via gestructureerde prompting en herhaalde bemonstering, wat we Self-Search noemen. Onze resultaten laten zien dat LLMs een sterke schaalbaarheid vertonen ten opzichte van het inferentiebudget, waarbij hoge pass@k-scores worden behaald op vraag-antwoordbenchmarks, inclusief de uitdagende BrowseComp-taak. Op basis van deze observaties introduceren we Self-Search RL (SSRL), dat de Self-Search-capaciteit van LLMs verbetert via op formaat en regels gebaseerde beloningen. SSRL stelt modellen in staat om hun kennisgebruik intern iteratief te verfijnen, zonder toegang tot externe tools nodig te hebben. Empirische evaluaties tonen aan dat met SSRL getrainde beleidsmodellen een kosteneffectieve en stabiele omgeving bieden voor zoekgedreven RL-training, waardoor de afhankelijkheid van externe zoekmachines wordt verminderd en robuuste sim-naar-real transfer wordt gefaciliteerd. We trekken de volgende conclusies: 1) LLMs beschikken over wereldkennis die effectief kan worden benut om hoge prestaties te bereiken; 2) SSRL toont het potentieel aan van het benutten van interne kennis om hallucinatie te verminderen; 3) met SSRL getrainde modellen integreren naadloos met externe zoekmachines zonder extra inspanning. Onze bevindingen benadrukken het potentieel van LLMs om meer schaalbare RL-agenttraining te ondersteunen.
Na de introductie van het concept "denken met afbeeldingen" door OpenAI, hebben recente inspanningen zich gericht op het stimuleren van het gebruik van visuele informatie in het redeneerproces om de modelprestaties in perceptie- en redeneertaken te verbeteren. Voor zover wij weten, biedt geen enkele open-source werkzaamheid momenteel een functieset die zo rijk is als die van propriëtaire modellen (O3), die diverse beeldmanipulaties kunnen uitvoeren en tegelijkertijd logische redeneervaardigheden kunnen verbeteren via code. In dit artikel doen we een eerste poging in deze richting door Thyme (Think Beyond Images) te introduceren, een nieuw paradigma dat MLLM's in staat stelt om bestaande "denken met afbeeldingen"-benaderingen te overstijgen door autonoom diverse beeldverwerkings- en rekenkundige operaties te genereren en uit te voeren via uitvoerbare code. Deze aanpak faciliteert niet alleen een rijke, dynamische set van beeldmanipulaties (bijvoorbeeld bijsnijden, roteren, contrastverbetering), maar maakt ook wiskundige berekeningen mogelijk, terwijl een hoge autonomie wordt behouden in het beslissen wanneer en hoe deze operaties toe te passen. We activeren deze mogelijkheid via een tweefasige trainingsstrategie: een initiële SFT op een gecureerde dataset van 500K samples om codegeneratie aan te leren, gevolgd door een RL-fase om besluitvorming te verfijnen. Voor de RL-fase verzamelen en ontwerpen we handmatig hoogwaardige vraag-antwoordparen om de leeruitdaging te vergroten, en we stellen GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) voor, een algoritme dat verschillende temperaturen toepast op tekst- en codegeneratie om redeneerverkenning te balanceren met precisie in code-uitvoering. We voeren uitgebreide experimentele analyses en ablatiestudies uit. Uitgebreide evaluaties op bijna 20 benchmarks tonen aan dat Thyme aanzienlijke en consistente prestatieverbeteringen oplevert, met name in uitdagende hoogwaardige perceptie- en complexe redeneertaken.
Recente ontwikkelingen in het vooraf trainen van grote taalmodellen (LLM) hebben aangetoond dat het simpelweg opschalen van de hoeveelheid data uiteindelijk leidt tot afnemende meeropbrengsten, waarbij een data-muur wordt bereikt. Als reactie hierop is het gebruik van synthetische data voor vooraf trainen naar voren gekomen als een veelbelovend paradigma om de grenzen van prestaties te verleggen. Desondanks zijn de factoren die de kwaliteit van synthetische data beïnvloeden nog steeds slecht begrepen. In dit werk introduceren we BeyondWeb, een raamwerk voor het genereren van synthetische data dat hoogwaardige synthetische data produceert voor vooraf trainen. BeyondWeb breidt de mogelijkheden van traditionele web-schaal datasets aanzienlijk uit en overtreft state-of-the-art synthetische vooraf train-datasets zoals Cosmopedia en de hoogwaardige synthetische subset van Nemotron-CC (Nemotron-Synth) met respectievelijk tot 5,1 procentpunten (pp) en 2,6 pp, gemiddeld over een reeks van 14 benchmark-evaluaties. Het levert tot 7,7x snellere training dan open web-data en 2,7x sneller dan Nemotron-Synth. Opmerkelijk is dat een 3B-model dat getraind is voor 180B tokens op BeyondWeb een 8B-model overtreft dat getraind is voor hetzelfde tokenbudget op Cosmopedia. We presenteren ook verschillende inzichten van BeyondWeb over synthetische data voor vooraf trainen: wat de voordelen drijft, welke data herschreven moet worden en hoe, en de impact van modelgrootte en -familie op de data-kwaliteit. Over het algemeen laat ons werk zien dat er geen wondermiddel is voor het genereren van hoogwaardige synthetische vooraf train-data. De beste resultaten vereisen het gezamenlijk optimaliseren van vele factoren, een uitdagende taak die rigoureuze wetenschap en praktische expertise vereist. Naïeve benaderingen kunnen bescheiden verbeteringen opleveren, mogelijk tegen hoge kosten, terwijl goed uitgevoerde methoden transformerende verbeteringen kunnen opleveren, zoals geïllustreerd door BeyondWeb.
Hoewel LLM-inferentie is opgekomen als een kritieke workload voor veel downstreamtoepassingen, is het efficiënt uitvoeren van LLM-inferentie uitdagend vanwege het aanzienlijke geheugenverbruik en de bandbreedtevereisten. Tegelijkertijd hebben rekenmogelijkheden de afgelopen decennia gestaag de geheugencapaciteit en bandbreedte overtroffen, een trend die duidelijk zichtbaar blijft in moderne GPU-hardware en de uitdaging van LLM-inferentie verergert. Als gevolg hiervan ontstaan er nieuwe algoritmen die meer rekenkracht inruilen voor minder geheugenoperaties. In dat kader presenteren we XQuant, dat gebruikmaakt van deze trend en een orde-van-grootte-reductie in geheugenverbruik mogelijk maakt door middel van low-bit-kwantisatie, met aanzienlijke nauwkeurigheidsvoordelen ten opzichte van state-of-the-art KV-cache-kwantisatiemethoden. Dit bereiken we door de laaginvoeractivaties X te kwantiseren en cachen, in plaats van standaard KV-caching te gebruiken, en vervolgens de Keys en Values on-the-fly te hermaterialiseren tijdens de inferentie. Dit resulteert direct in een 2x geheugenbesparing vergeleken met KV-caching. Door XQuant toe te passen, bereiken we tot ~7.7x geheugenbesparing met <0.1 perplexiteitsverslechtering vergeleken met de FP16-basislijn. Bovendien maakt onze aanpak gebruik van het feit dat X-waarden vergelijkbaar zijn over verschillende lagen. Op basis van deze observatie introduceren we XQuant-CL, dat de cross-layer gelijkenis in de X-embeddings benut voor extreme compressie. Over verschillende modellen behaalt XQuant-CL tot 10x geheugenbesparing ten opzichte van de FP16-basislijn met slechts 0.01 perplexiteitsverslechtering, en 12.5x geheugenbesparing met slechts 0.1 perplexiteitsverslechtering. XQuant maakt gebruik van de snel toenemende rekenmogelijkheden van hardwareplatforms om het geheugenknelpunt te elimineren, terwijl het state-of-the-art KV-cache-kwantisatiemethoden overtreft en bijna-FP16-nauwkeurigheid bereikt over een breed scala aan modellen.
Het zoeken naar wetenschappelijke artikelen is een belangrijke activiteit voor onderzoekers, waarbij doorgaans een zoekopdracht met een beschrijving van een onderwerp wordt gebruikt om relevante artikelen te vinden. Naarmate het onderzoek zich verdiept, kunnen de vereisten voor het zoeken naar artikelen flexibeler worden, waarbij soms specifieke details zoals moduleconfiguratie betrokken zijn, in plaats van beperkt te blijven tot grofkorrelige onderwerpen. Eerdere systemen voor het zoeken naar artikelen zijn echter niet in staat om aan deze flexibele vereisten te voldoen, aangezien deze systemen voornamelijk samenvattingen van artikelen verzamelen om een index van het corpus op te bouwen, waardoor gedetailleerde informatie ontbreekt die nodig is voor het ophalen van fijnkorrelige zoekopdrachten. In dit werk stellen we PaperRegister voor, dat bestaat uit offline hiërarchische indexering en online adaptieve ophaling, waarbij de traditionele op samenvattingen gebaseerde index wordt omgezet in een hiërarchische indexboom voor het zoeken naar artikelen, waardoor zoekopdrachten op flexibele granulariteit worden ondersteund. Experimenten met taken voor het zoeken naar artikelen over een reeks granulariteiten tonen aan dat PaperRegister de state-of-the-art prestaties bereikt, en met name uitblinkt in fijnkorrelige scenario's, wat het goede potentieel benadrukt als een effectieve oplossing voor flexibel korrelig zoeken naar artikelen in real-world toepassingen. De code voor dit werk is te vinden op https://github.com/Li-Z-Q/PaperRegister.
We introduceren TexVerse, een grootschalige 3D-dataset met hoogwaardige texturen. Hoewel recente vooruitgang in grootschalige 3D-datasets de generatie van hoogwaardige geometrie heeft verbeterd, blijft het end-to-end creëren van hoogwaardige texturen onderbelicht vanwege het gebrek aan geschikte datasets. TexVerse vult deze leemte met een zorgvuldig samengestelde collectie van meer dan 858K unieke hoogwaardige 3D-modellen afkomstig van Sketchfab, waaronder meer dan 158K modellen met fysiek gebaseerde rendering (PBR) materialen. Elk model omvat al zijn hoogwaardige varianten, wat het totaal brengt op 1,6 miljoen 3D-instanties. TexVerse bevat ook gespecialiseerde subsets: TexVerse-Skeleton, met 69K gerigde modellen, en TexVerse-Animation, met 54K geanimeerde modellen, beide met behoud van de originele skelet- en animatiegegevens die door de gebruiker zijn geüpload. We bieden ook gedetailleerde modelannotaties die de algemene kenmerken, structurele componenten en ingewikkelde details beschrijven. TexVerse biedt een hoogwaardige databron met brede toepassingsmogelijkheden in texturesynthese, PBR-materiaalontwikkeling, animatie en diverse 3D-visualisatie- en grafische taken.
Recente vooruitgang in audio-gestuurde portretanimatie heeft indrukwekkende mogelijkheden laten zien. Bestaande methoden hebben echter moeite om af te stemmen op fijnmazige menselijke voorkeuren op meerdere dimensies, zoals bewegingsnatuurlijkheid, lip-sync nauwkeurigheid en visuele kwaliteit. Dit komt door de moeilijkheid om te optimaliseren tussen concurrerende voorkeursdoelen, die vaak met elkaar in conflict zijn, en de schaarste aan grootschalige, hoogwaardige datasets met multidimensionale voorkeursannotaties. Om deze problemen aan te pakken, introduceren we eerst Talking-Critic, een multimodaal beloningsmodel dat menselijk afgestemde beloningsfuncties leert om te kwantificeren hoe goed gegenereerde video's voldoen aan multidimensionale verwachtingen. Gebruikmakend van dit model, stellen we Talking-NSQ samen, een grootschalige multidimensionale menselijke voorkeursdataset met 410K voorkeursparen. Ten slotte stellen we Timestep-Layer adaptieve multi-expert Preference Optimization (TLPO) voor, een nieuw raamwerk voor het afstemmen van diffusie-gebaseerde portretanimatiemodellen op fijnmazige, multidimensionale voorkeuren. TLPO ontkoppelt voorkeuren in gespecialiseerde expertmodules, die vervolgens worden samengevoegd over tijdstappen en netwerklagen, waardoor een uitgebreide, fijnmazige verbetering over alle dimensies mogelijk wordt zonder onderlinge interferentie. Experimenten tonen aan dat Talking-Critic bestaande methoden significant overtreft in het afstemmen op menselijke voorkeursbeoordelingen. Tegelijkertijd behaalt TLPO aanzienlijke verbeteringen ten opzichte van baseline-modellen in lip-sync nauwkeurigheid, bewegingsnatuurlijkheid en visuele kwaliteit, en vertoont het superieure prestaties in zowel kwalitatieve als kwantitatieve evaluaties. Onze projectpagina: https://fantasy-amap.github.io/fantasy-talking2/
We introduceren StyleMM, een nieuw framework dat een gestileerd 3D Morphable Model (3DMM) kan construeren op basis van door de gebruiker gedefinieerde tekstbeschrijvingen die een doelstijl specificeren. Gebaseerd op een vooraf getraind netwerk voor mesh-deformatie en een textuurgenerator voor originele 3DMM-gebaseerde realistische menselijke gezichten, verfijnt onze aanpak deze modellen met behulp van gestileerde gezichtsafbeeldingen die gegenereerd zijn via tekstgeleide beeld-naar-beeld (i2i) vertaling met een diffusiemodel. Deze afbeeldingen dienen als stileringsdoelen voor de gerenderde mesh. Om ongewenste veranderingen in identiteit, gezichtsuitlijning of expressies tijdens i2i-vertaling te voorkomen, introduceren we een stileringsmethode die expliciet de gezichtskenmerken van de bronafbeelding behoudt. Door deze kritieke kenmerken te behouden tijdens beeldstilering, zorgt de voorgestelde aanpak voor consistente 3D-stijloverdracht in de 3DMM-parameterruimte via beeldgebaseerde training. Eenmaal getraind, maakt StyleMM feed-forward generatie van gestileerde gezichtsmeshes mogelijk met expliciete controle over vorm, expressie en textuurparameters, wat meshes oplevert met consistente vertexconnectiviteit en animeerbaarheid. Kwantitatieve en kwalitatieve evaluaties tonen aan dat onze aanpak state-of-the-art methoden overtreft op het gebied van identiteitsniveau gezichtsdiversiteit en stileringsvermogen. De code en video's zijn beschikbaar op [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
Graph neural networks (GNNs) hebben state-of-the-art resultaten behaald in computervisie en medische beeldclassificatietaken door structurele afhankelijkheden tussen gegevensinstanties vast te leggen. Hun besluitvorming blijft echter grotendeels ondoorzichtig, wat hun betrouwbaarheid beperkt in klinische toepassingen met grote gevolgen, waar interpretatie essentieel is. Bestaande verklaringsmethoden voor GNNs zijn typisch post-hoc en globaal, wat beperkt inzicht biedt in individuele nodebeslissingen of lokaal redeneren. Wij introduceren X-Node, een zelfverklarend GNN-framework waarin elke node zijn eigen verklaring genereert als onderdeel van het voorspellingsproces. Voor elke node construeren we een gestructureerde contextvector die interpreteerbare aanwijzingen codeert, zoals graad, centraliteit, clustering, kenmerksalientie en labelovereenstemming binnen zijn lokale topologie. Een lichtgewicht Reasoner-module vertaalt deze context naar een compacte verklaringsvector, die drie doelen dient: (1) het reconstrueren van de latente embedding van de node via een decoder om trouwheid af te dwingen, (2) het genereren van een natuurlijke taalverklaring met behulp van een vooraf getraind LLM (bijv. Grok of Gemini), en (3) het begeleiden van de GNN zelf via een "text-injection"-mechanisme dat verklaringen terugvoert in de message-passing-pipeline. We evalueren X-Node op twee grafiekdatasets afgeleid van MedMNIST en MorphoMNIST, waarbij we het integreren met GCN-, GAT- en GIN-backbones. Onze resultaten tonen aan dat X-Node concurrerende classificatienauwkeurigheid behoudt terwijl het trouwe, per-node verklaringen produceert. Repository: https://github.com/basiralab/X-Node.
Naarmate Multimodale Grote Taalmodellen (MLLMs) steeds breder toepasbaar worden, wordt het steeds wenselijker om ze aan te passen aan diverse gebruikersbehoeften. In dit artikel bestuderen we de aanpassing van MLLMs via gecontroleerde decodering. Hiervoor introduceren we de eerste methode voor beloningsgestuurde decodering van MLLMs en demonstreren we de toepassing ervan in het verbeteren van hun visuele verankering. Onze methode omvat het bouwen van beloningsmodellen voor visuele verankering en het gebruiken ervan om het decoderingproces van het MLLM te sturen. Concreet bouwen we twee afzonderlijke beloningsmodellen om onafhankelijk de mate van objectprecisie en -recall in de uitvoer van het model te beheersen. Onze aanpak maakt realtime beheersbaarheid van het inferentieproces van een MLLM mogelijk op twee manieren: ten eerste door controle te geven over het relatieve belang van elke beloningsfunctie tijdens het decoderen, waardoor een gebruiker dynamisch objectprecisie kan inruilen voor recall in beeldbeschrijvingstaken; ten tweede door controle te geven over de breedte van de zoekactie tijdens het decoderen, waardoor de gebruiker de afweging kan beheersen tussen de hoeveelheid rekentijd tijdens het testen en de mate van visuele verankering. We evalueren onze methode op standaard benchmarks voor objecthallucinatie en tonen aan dat deze aanzienlijke beheersbaarheid biedt over MLLM-inferentie, terwijl hij consistent beter presteert dan bestaande methoden voor het beperken van hallucinaties.
Zelfsupervised leren biedt grote mogelijkheden voor remote sensing, maar standaardmethoden voor zelfsupervised leren moeten worden aangepast aan de unieke kenmerken van aardobservatiedata. We zetten een stap in deze richting door een uitgebreide benchmark uit te voeren van fusiestrategieën en normalisatieschema's voor reconstructiedoelen voor multimodale, multitemporele en multispectrale aardobservatiedata. Op basis van onze bevindingen stellen we MAESTRO voor, een nieuwe aanpassing van de Masked Autoencoder, met geoptimaliseerde fusiestrategieën en een op maat gemaakt normalisatieschema voor doelen dat een spectrale prior introduceert als een zelfsuperviserend signaal. Geëvalueerd op vier aardobservatiedatasets, vestigt MAESTRO een nieuwe state-of-the-art voor taken die sterk afhankelijk zijn van multitemporele dynamiek, terwijl het zeer competitief blijft voor taken die worden gedomineerd door een enkele monotemporele modaliteit. Code om al onze experimenten te reproduceren is beschikbaar op https://github.com/ignf/maestro.
Deep learning heeft een revolutie teweeggebracht in medische beeldvorming, maar de effectiviteit ervan wordt ernstig beperkt door onvoldoende gelabelde trainingsdata. Dit artikel introduceert een nieuw GAN-gebaseerd semi-supervised learning framework dat specifiek is ontworpen voor situaties met weinig gelabelde data, geëvalueerd in settings met 5 tot 50 gelabelde samples per klasse. Onze aanpak integreert drie gespecialiseerde neurale netwerken -- een generator voor klasse-geconditioneerde beeldvertaling, een discriminator voor authenticiteitsbeoordeling en classificatie, en een toegewijde classifier -- binnen een driedelig trainingsframework. De methode wisselt af tussen supervised training op beperkte gelabelde data en unsupervised learning dat gebruikmaakt van overvloedige ongelabelde afbeeldingen via beeld-naar-beeldvertaling in plaats van generatie vanuit ruis. We gebruiken ensemble-gebaseerde pseudo-labeling die vertrouwensgewogen voorspellingen van de discriminator en classifier combineert met temporele consistentie door exponentiële voortschrijdende gemiddelden, wat betrouwbare labelestimatie voor ongelabelde data mogelijk maakt. Een uitgebreide evaluatie over elf MedMNIST datasets toont aan dat onze aanpak statistisch significante verbeteringen bereikt ten opzichte van zes state-of-the-art GAN-gebaseerde semi-supervised methoden, met bijzonder sterke prestaties in de extreme 5-shot setting waar de schaarste aan gelabelde data het meest uitdagend is. Het framework behoudt zijn superioriteit in alle geëvalueerde settings (5, 10, 20 en 50 shots per klasse). Onze aanpak biedt een praktische oplossing voor medische beeldvormingstoepassingen waar annotatiekosten prohibitief zijn, waardoor robuuste classificatieprestaties mogelijk zijn zelfs met minimale gelabelde data. Code is beschikbaar op https://github.com/GuidoManni/SPARSE.