Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het creëren van meeslepende en speelbare 3D-werelden vanuit teksten of afbeeldingen blijft een fundamentele uitdaging in computervisie en grafische technologie. Bestaande benaderingen voor wereldgeneratie vallen doorgaans in twee categorieën: video-gebaseerde methoden die een rijke diversiteit bieden maar gebrek hebben aan 3D-consistentie en render-efficiëntie, en 3D-gebaseerde methoden die geometrische consistentie bieden maar worstelen met beperkte trainingsdata en geheugeninefficiënte representaties. Om deze beperkingen aan te pakken, presenteren we HunyuanWorld 1.0, een nieuw framework dat het beste van beide werelden combineert voor het genereren van meeslepende, verkennbare en interactieve 3D-scènes vanuit tekst- en afbeeldingscondities. Onze aanpak biedt drie belangrijke voordelen: 1) 360° meeslepende ervaringen via panoramische wereldproxies; 2) mesh-exportmogelijkheden voor naadloze compatibiliteit met bestaande computergrafische pijplijnen; 3) ontvlochten objectrepresentaties voor verhoogde interactiviteit. De kern van ons framework is een semantisch gelaagde 3D-meshrepresentatie die panoramische afbeeldingen gebruikt als 360° wereldproxies voor semantisch bewuste werelddecompositie en reconstructie, waardoor het genereren van diverse 3D-werelden mogelijk wordt. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt in het genereren van samenhangende, verkennbare en interactieve 3D-werelden, terwijl het veelzijdige toepassingen mogelijk maakt in virtual reality, fysieke simulatie, game-ontwikkeling en interactieve contentcreatie.
Talloze inspanningen zijn geleverd om het paradigma van 'volgende tokenvoorspelling' uit te breiden naar visuele inhoud, met als doel een geïntegreerde aanpak te creëren voor zowel beeldgeneratie als -begrip. Pogingen om beelden te genereren via autoregressieve modellering met discrete tokens zijn echter geplaagd door problemen zoals lage visuele kwaliteit, vervormde uitvoer en het niet kunnen volgen van complexe instructies bij het weergeven van ingewikkelde details. Deze tekortkomingen zijn waarschijnlijk toe te schrijven aan cumulatieve fouten tijdens autoregressieve inferentie of informatieverlies tijdens het discretisatieproces. Waarschijnlijk vanwege deze uitdaging is recent onderzoek steeds meer verschoven naar het gezamenlijk trainen van beeldgeneratie met diffusiedoelstellingen en taalgeneratie met autoregressieve doelstellingen, waarbij geïntegreerde modelleringsbenaderingen worden vermeden. In dit werk tonen we aan dat reinforcement learning effectief artefacten kan verminderen en de generatiekwaliteit van een discrete autoregressieve modelleringsmethode aanzienlijk kan verbeteren, waardoor een naadloze integratie van beeld- en taalgeneratie mogelijk wordt. Ons framework bestaat uit een semantische beeldtokenizer, een geïntegreerd autoregressief model voor zowel taal als beelden, en een offline diffusiedecoder voor beeldgeneratie, genaamd X-Omni. X-Omni behaalt state-of-the-art prestaties in beeldgeneratietaken met behulp van een 7B-taalmodel, waarbij beelden met hoge esthetische kwaliteit worden geproduceerd en sterke capaciteiten worden getoond in het volgen van instructies en het weergeven van lange teksten.
Hoewel grote taalmodellen (LLMs) indrukwekkende vooruitgang hebben geboekt, wordt hun toepassing in wetenschappelijke domeinen zoals scheikunde nog steeds belemmerd door een oppervlakkig domeinbegrip en beperkte redeneervaardigheden. In dit werk richten we ons op het specifieke vakgebied van scheikunde en ontwikkelen we een Chemical Reasoner LLM, genaamd ChemDFM-R. We construeren eerst een uitgebreide dataset van geatomiseerde kennispunten om het begrip van het model van de fundamentele principes en logische structuur van scheikunde te verbeteren. Vervolgens stellen we een mix-sourced distillatiestrategie voor die door experts samengestelde kennis integreert met algemene redeneervaardigheden, gevolgd door domeinspecifieke reinforcement learning om het chemisch redeneren te versterken. Experimenten op diverse chemische benchmarks tonen aan dat ChemDFM-R state-of-the-art prestaties bereikt terwijl het interpreteerbare, op redenering gebaseerde uitvoer biedt. Verdere casestudies illustreren hoe expliciete redeneerketens de betrouwbaarheid, transparantie en praktische bruikbaarheid van het model aanzienlijk verbeteren in realistische scenario's van mens-AI-samenwerking.
De exponentiële groei in de vraag naar GPU-rekenkracht, aangedreven door de snelle vooruitgang in Large Language Models, heeft een dringende behoefte gecreëerd aan geautomatiseerde CUDA-optimalisatiestrategieën. Hoewel recente ontwikkelingen in LLM's veelbelovend zijn voor codegeneratie, behalen huidige state-of-the-art modellen (bijv. R1, o1) lage slagingspercentages bij het verbeteren van CUDA-snelheid. In dit artikel introduceren we CUDA-L1, een geautomatiseerd reinforcement learning-framework voor CUDA-optimalisatie. CUDA-L1 behaalt prestatieverbeteringen op de CUDA-optimalisatietaak: getraind op NVIDIA A100, levert het een gemiddelde snelheidswinst van x17,7 op over alle 250 CUDA-kernels van KernelBench, met pieksnelheidswinsten tot x449. Bovendien toont het model ook uitstekende overdraagbaarheid over GPU-architecturen, met gemiddelde snelheidswinsten van x17,8 op H100, x19,0 op RTX 3090, x16,5 op L40, x14,7 op H800 en x13,9 op H20, ondanks dat het specifiek is geoptimaliseerd voor A100. Naast deze benchmarkresultaten demonstreert CUDA-L1 verschillende opmerkelijke eigenschappen: 1) Ontdekt een verscheidenheid aan CUDA-optimalisatietechnieken en leert deze strategisch te combineren voor optimale prestaties; 2) Legt fundamentele principes van CUDA-optimalisatie bloot; 3) Identificeert niet-voor de hand liggende prestatieknelpunten en verwerpt schijnbaar gunstige optimalisaties die de prestaties schaden. De mogelijkheden van CUDA-L1 tonen aan dat reinforcement learning een aanvankelijk slecht presterend LLM kan transformeren in een effectieve CUDA-optimalisator, uitsluitend gebaseerd op snelheidswinstsignalen, zonder menselijke expertise of domeinkennis. Belangrijker nog, het getrainde RL-model breidt de verworven redeneervaardigheden uit naar nieuwe kernels. Dit paradigma opent mogelijkheden voor geautomatiseerde optimalisatie van CUDA-operaties en belooft de GPU-efficiëntie aanzienlijk te bevorderen en de toenemende druk op GPU-rekenbronnen te verlichten.
Brain-computer interfaces (BCI's) maken directe communicatie mogelijk tussen het brein en externe apparaten. Recente EEG-foundationmodellen streven ernaar om gegeneraliseerde representaties te leren over diverse BCI-paradigma's. Deze benaderingen negeren echter fundamentele, paradigma-specifieke neurofysiologische verschillen, wat hun generalisatievermogen beperkt. Belangrijk is dat in praktische BCI-implementaties het specifieke paradigma, zoals motor imagery (MI) voor revalidatie na een beroerte of ondersteunende robotica, meestal al voorafgaand aan de data-acquisitie wordt bepaald. Dit artikel introduceert MIRepNet, het eerste EEG-foundationmodel dat specifiek is afgestemd op het MI-paradigma. MIRepNet omvat een hoogwaardige EEG-verwerkingspijplijn die een neurofysiologisch onderbouwde kanaalsjabloon bevat, aanpasbaar aan EEG-headsets met willekeurige elektrodeconfiguraties. Daarnaast introduceren we een hybride voorafgaande trainingsstrategie die zelfsupervised gemaskeerde token-reconstructie combineert met supervised MI-classificatie, wat een snelle aanpassing en nauwkeurige decodering mogelijk maakt bij nieuwe downstream MI-taken met minder dan 30 trials per klasse. Uitgebreide evaluaties over vijf openbare MI-datasets toonden aan dat MIRepNet consistent state-of-the-art prestaties behaalde en zowel gespecialiseerde als gegeneraliseerde EEG-modellen significant overtrof. Onze code zal beschikbaar zijn op GitHub: https://github.com/staraink/MIRepNet.
Naarmate het tijdperk van grote taalmodellen (LLMs) namens gebruikers zich ontvouwt, zijn Preference Optimization (PO) methoden een centrale aanpak geworden om LLMs af te stemmen op menselijke voorkeuren en de prestaties te verbeteren. Wij stellen Maximum a Posteriori Preference Optimization (MaPPO) voor, een raamwerk voor het leren van voorkeuren dat expliciet eerdere beloningskennis integreert in het optimalisatiedoel. Terwijl bestaande methoden zoals Direct Preference Optimization (DPO) en zijn varianten voorkeursleren behandelen als een Maximum Likelihood Estimation (MLE) probleem, breidt MaPPO dit paradigma uit door eerdere beloningsschattingen te integreren in een principieel Maximum a Posteriori (MaP) doel. Dit generaliseert niet alleen DPO en zijn varianten, maar verbetert ook de afstemming door de oversimplificatie van binaire classificatie van reacties te verminderen. Belangrijker nog, MaPPO introduceert geen extra hyperparameter en ondersteunt voorkeursoptimalisatie in zowel offline als online settings. Bovendien kan MaPPO worden gebruikt als een plugin met consistente verbetering op DPO-varianten, waaronder veelgebruikte SimPO, IPO, en CPO. Uitgebreide empirische evaluaties van verschillende modelgroottes en modelseries op drie standaard benchmarks, waaronder MT-Bench, AlpacaEval 2.0, en Arena-Hard, tonen consistente verbeteringen in afstemmingsprestaties zonder in te leveren op computationele efficiëntie.
Wildlife-observatie speelt een belangrijke rol in het behoud van biodiversiteit, wat robuuste methodologieën vereist voor het monitoren van wildpopulaties en interacties tussen soorten. Recente vooruitgang in computervisie heeft aanzienlijk bijgedragen aan het automatiseren van fundamentele wildlife-observatietaken, zoals dierdetectie en soortidentificatie. Het nauwkeurig identificeren van soorten op basis van indirecte aanwijzingen zoals voetafdrukken en uitwerpselen blijft echter relatief onderbelicht, ondanks het belang ervan voor wildlife-monitoring. Om deze kloof te overbruggen, introduceren we AnimalClue, de eerste grootschalige dataset voor soortidentificatie op basis van afbeeldingen van indirecte aanwijzingen. Onze dataset bestaat uit 159.605 begrenzingsvakken die vijf categorieën van indirecte aanwijzingen omvatten: voetafdrukken, uitwerpselen, eieren, botten en veren. Het bestrijkt 968 soorten, 200 families en 65 ordes. Elke afbeelding is geannoteerd met soort-specifieke labels, begrenzingsvakken of segmentatiemaskers, en gedetailleerde kenmerkinformatie, waaronder activiteitspatronen en habitatvoorkeuren. In tegenstelling tot bestaande datasets die zich vooral richten op directe visuele kenmerken (bijv. uiterlijk van dieren), stelt AnimalClue unieke uitdagingen voor classificatie-, detectie- en instantiesegmentatietaken vanwege de noodzaak om meer gedetailleerde en subtiele visuele kenmerken te herkennen. In onze experimenten evalueren we uitgebreid representatieve visuele modellen en identificeren we belangrijke uitdagingen bij het identificeren van dieren aan de hand van hun sporen. Onze dataset en code zijn beschikbaar op https://dahlian00.github.io/AnimalCluePage/.
Dit werk richt zich op motion-guided few-shot video object segmentation (FSVOS), wat als doel heeft dynamische objecten in video's te segmenteren op basis van een paar geannoteerde voorbeelden met dezelfde bewegingspatronen. Bestaande FSVOS-datasets en -methoden richten zich doorgaans op objectcategorieën, wat statische attributen zijn die de rijke temporele dynamiek in video's negeren, waardoor hun toepassing beperkt wordt in scenario's die bewegingsbegrip vereisen. Om deze leemte op te vullen, introduceren we MOVE, een grootschalige dataset die specifiek is ontworpen voor motion-guided FSVOS. Op basis van MOVE evalueren we uitgebreid 6 state-of-the-art methoden uit 3 verschillende gerelateerde taken in 2 experimentele settings. Onze resultaten laten zien dat huidige methoden moeite hebben met motion-guided FSVOS, wat ons aanzet tot een analyse van de bijbehorende uitdagingen en het voorstellen van een baseline-methode, het Decoupled Motion Appearance Network (DMA). Experimenten tonen aan dat onze aanpak superieure prestaties levert in few-shot bewegingsbegrip, wat een solide basis legt voor toekomstig onderzoek in deze richting.
Wildlife-populaties in Afrika worden geconfronteerd met ernstige bedreigingen, waarbij het aantal gewervelde dieren in de afgelopen vijf decennia met meer dan 65% is afgenomen. Als reactie hierop is beeldclassificatie met behulp van deep learning naar voren gekomen als een veelbelovend hulpmiddel voor biodiversiteitsmonitoring en -behoud. Dit artikel presenteert een vergelijkende studie van deep learning-modellen voor het automatisch classificeren van Afrikaanse wildlife-beelden, met een focus op transfer learning met bevroren feature extractors. Met behulp van een openbare dataset van vier soorten: buffel, olifant, neushoorn en zebra; evalueren we de prestaties van DenseNet-201, ResNet-152, EfficientNet-B4 en Vision Transformer ViT-H/14. DenseNet-201 behaalde de beste prestaties onder de convolutionele netwerken (67% nauwkeurigheid), terwijl ViT-H/14 de hoogste algehele nauwkeurigheid behaalde (99%), maar met aanzienlijk hogere rekenkosten, wat zorgen oproept over implementatie. Onze experimenten benadrukken de afwegingen tussen nauwkeurigheid, resourcebehoeften en implementeerbaarheid. Het best presterende CNN (DenseNet-201) werd geïntegreerd in een Hugging Face Gradio Space voor real-time gebruik in het veld, wat de haalbaarheid aantoont van het inzetten van lichtgewicht modellen in conservatieomgevingen. Dit werk draagt bij aan Afrika-gegrond AI-onderzoek door praktische inzichten te bieden in modelselectie, datasetvoorbereiding en verantwoorde inzet van deep learning-tools voor wildlife-conservatie.
Onlangs hebben Multimodale Grote Taalmodellen (MLLMs) aanzienlijke vooruitgang geboekt in visie-taaltaken, maar produceren ze mogelijk schadelijke of onbetrouwbare inhoud. Ondanks aanzienlijk onderzoek naar de betrouwbaarheid van taalmodellen, blijft het vermogen van MMLMs om eerlijk te handelen, vooral wanneer ze worden geconfronteerd met visueel onbeantwoordbare vragen, grotendeels onderbelicht. Dit werk presenteert de eerste systematische evaluatie van eerlijkheidsgedrag bij verschillende MLLMs. We verankeren eerlijkheid in de reactiegedragingen van modellen op onbeantwoordbare visuele vragen, definiëren vier representatieve typen van dergelijke vragen, en construeren MoHoBench, een grootschalige MMLM-eerlijkheidsbenchmark, bestaande uit 12k+ visuele vraagvoorbeelden, waarvan de kwaliteit wordt gewaarborgd door meerfasenfiltering en menselijke verificatie. Met behulp van MoHoBench hebben we de eerlijkheid van 28 populaire MMLMs gebenchmarkt en een uitgebreide analyse uitgevoerd. Onze bevindingen tonen aan dat: (1) de meeste modellen er niet in slagen om gepast te weigeren te antwoorden wanneer dat nodig is, en (2) de eerlijkheid van MMLMs niet alleen een taalmodelprobleem is, maar diep wordt beïnvloed door visuele informatie, wat de ontwikkeling van specifieke methoden voor multimodale eerlijkheidsafstemming noodzakelijk maakt. Daarom hebben we initiële afstemmingsmethoden geïmplementeerd met behulp van begeleid en voorkeursleren om het eerlijkheidsgedrag te verbeteren, wat een basis biedt voor toekomstig werk aan betrouwbare MLLMs. Onze data en code zijn te vinden op https://github.com/DSTTSD/MoHoBench.