Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vakgebied van vision-language modellen (VLMs), die afbeeldingen en teksten als invoer nemen en teksten als uitvoer produceren, ontwikkelt zich snel en heeft nog geen consensus bereikt over verschillende cruciale aspecten van de ontwikkelingspijplijn, waaronder data, architectuur en trainingsmethoden. Dit artikel kan worden gezien als een tutorial voor het bouwen van een VLM. We beginnen met een uitgebreid overzicht van de huidige state-of-the-art benaderingen, waarbij we de sterke en zwakke punten van elk belichten, de belangrijkste uitdagingen in het veld bespreken en veelbelovende onderzoeksrichtingen voor onderbelichte gebieden suggereren. Vervolgens lopen we de praktische stappen door om Idefics3-8B te bouwen, een krachtig VLM dat zijn voorganger Idefics2-8B aanzienlijk overtreft, terwijl het efficiënt wordt getraind, uitsluitend op open datasets en met een eenvoudige pijplijn. Deze stappen omvatten de creatie van Docmatix, een dataset voor het verbeteren van documentbegrip, die 240 keer groter is dan eerder beschikbare datasets. We geven het model vrij, samen met de datasets die voor de training zijn gemaakt.
3D-immersieve scènegeneratie is een uitdagende maar cruciale taak in computervisie en grafische technologie. Een gewenste virtuele 3D-scène moet 1) omnidirectionele consistentie in het zicht vertonen en 2) vrije verkenning mogelijk maken in complexe scènehiërarchieën. Bestaande methoden vertrouwen op opeenvolgende scène-uitbreiding via inpainting of gebruiken panoramarepresentatie om grote gezichtsveldscènes weer te geven. Echter, de gegenereerde scène lijdt aan semantische verschuiving tijdens de uitbreiding en kan occlusie tussen scènehiërarchieën niet goed hanteren. Om deze uitdagingen aan te pakken, introduceren we LayerPano3D, een nieuw framework voor het genereren van volledig verkennbare panoramische 3D-scènes vanuit een enkele tekstprompt. Onze belangrijkste inzicht is het ontbinden van een referentie-2D-panorama in meerdere lagen op verschillende diepteniveaus, waarbij elke laag de onzichtbare ruimte vanuit de referentieweergaven onthult via een diffusieprior. LayerPano3D omvat meerdere specifieke ontwerpen: 1) we introduceren een nieuwe tekstgeleide ankerweergave-synthesepijplijn voor hoogwaardige, consistente panoramageneratie. 2) We pionieren de Gelaagde 3D-Panorama als onderliggende representatie om complexe scènehiërarchieën te beheren en tillen deze op naar 3D-Gaussians om gedetailleerde 360-graden omnidirectionele scènes te splatten met onbeperkte kijkpaden. Uitgebreide experimenten tonen aan dat ons framework state-of-the-art 3D-panoramascènes genereert in zowel volledige zichtconsistentie als een immersieve verkenningsexperience. Wij geloven dat LayerPano3D veelbelovend is voor het bevorderen van 3D-panoramascènecreatie met talrijke toepassingen.
Een uitgebreide evaluatie van Multimodale Grote Taalmodellen (MLLMs) heeft onlangs brede aandacht gekregen in de onderzoeksgemeenschap. We merken echter op dat bestaande benchmarks verschillende veelvoorkomende barrières presenteren die het moeilijk maken om de significante uitdagingen te meten waarmee modellen in de echte wereld worden geconfronteerd, waaronder: 1) een kleine dataschaal leidt tot een grote prestatievariatie; 2) afhankelijkheid van modelgebaseerde annotaties resulteert in beperkte data kwaliteit; 3) onvoldoende taakmoeilijkheid, vooral veroorzaakt door de beperkte beeldresolutie. Om deze problemen aan te pakken, introduceren we MME-RealWorld. Specifiek verzamelen we meer dan 300K afbeeldingen uit openbare datasets en het internet, en filteren we 13.366 hoogwaardige afbeeldingen voor annotatie. Dit omvat de inspanningen van 25 professionele annotators en 7 experts in MLLMs, wat resulteert in 29.429 vraag-antwoordparen die 43 subtaken beslaan in 5 real-world scenario's, die zelfs voor mensen extreem uitdagend zijn. Voor zover wij weten, is MME-RealWorld de grootste handmatig geannoteerde benchmark tot nu toe, met de hoogste resolutie en een gerichte focus op real-world toepassingen. We voeren verder een grondige evaluatie uit met 28 prominente MLLMs, zoals GPT-4o, Gemini 1.5 Pro en Claude 3.5 Sonnet. Onze resultaten laten zien dat zelfs de meest geavanceerde modellen moeite hebben met onze benchmarks, waar geen van hen een nauwkeurigheid van 60% bereikt. De uitdagingen van het waarnemen van hoogwaardige afbeeldingen en het begrijpen van complexe real-world scenario's blijven urgente kwesties die moeten worden aangepakt. De data en evaluatiecode zijn vrijgegeven op https://mme-realworld.github.io/.
De kwadratische computationele complexiteit in het self-attention-mechanisme van populaire transformer-architecturen vormt aanzienlijke uitdagingen voor training en inferentie, met name wat betreft efficiëntie en geheugenvereisten. Om deze uitdagingen aan te pakken, introduceert dit artikel een nieuwe snelle berekeningsmethode voor gradientberekening in meerlaagse transformer-modellen. Onze aanpak maakt het mogelijk om de gradienten voor het volledige meerlaagse transformer-model te berekenen in bijna lineaire tijd n^{1+o(1)}, waarbij n de lengte van de invoerreeks is. Deze doorbraak vermindert de computationele bottleneck die gepaard gaat met de traditionele kwadratische tijdcomplexiteit aanzienlijk. Onze theorie geldt voor elke verliesfunctie en behoudt een begrensde benaderingsfout over het gehele model. Bovendien blijft onze analyse geldig wanneer het meerlaagse transformer-model veel praktische submodules bevat, zoals restverbindingen, causale maskers en multi-head attention. Door de efficiëntie van gradientberekening in grote taalmodelen te verbeteren, hopen we dat ons werk het effectiever trainen en implementeren van lang-context taalmodelle zal vergemakkelijken, gebaseerd op onze theoretische resultaten.
Onlangs hebben een breed scala aan geheugenefficiënte LLM-trainingsalgoritmen aanzienlijke populariteit verworven. Deze methoden maken gebruik van de low-rank structuur van gradiënten om optimizer-statussen te projecteren in een deelruimte met behulp van een projectiematrix die wordt gevonden via singuliere waardeontbinding (SVD). De convergentie van deze algoritmen is echter sterk afhankelijk van de update-regels van hun projectiematrix. In dit werk bieden we de eerste convergentiegarantie voor willekeurige update-regels van de projectiematrix. Deze garantie is algemeen toepasbaar op optimizers die kunnen worden geanalyseerd met Hamiltonian Descent, waaronder de meest gebruikelijke, zoals LION en Adam. Geïnspireerd door ons theoretisch inzicht, stellen we Online Subspace Descent voor, een nieuwe familie van subspace descent-optimizers zonder SVD. In plaats van de projectiematrix bij te werken met eigenvectoren, werkt Online Subspace Descent de projectiematrix bij met online PCA. Online Subspace Descent is flexibel en introduceert slechts minimale overhead tijdens het trainen. We laten zien dat voor de taak van het pretrainen van LLaMA-modellen variërend van 60M tot 7B parameters op de C4-dataset, Online Subspace Descent een lagere perplexiteit en betere prestaties op downstream taken bereikt dan state-of-the-art low-rank trainingsmethoden in verschillende instellingen, en de kloof met full-rank baselines verkleint.
Spraakgestuurde 3D-bewegingssynthese streeft ernaar levensechte animaties te creëren op basis van menselijke spraak, met mogelijke toepassingen in virtual reality, gaming en filmproductie. Bestaande benaderingen vertrouwen uitsluitend op spraakaudio voor bewegingsgeneratie, wat leidt tot onnauwkeurige en inflexibele syntheseresultaten. Om dit probleem te verlichten, introduceren we een nieuwe tekstgestuurde 3D-menselijke bewegingssynthesemethode, genaamd T3M. In tegenstelling tot traditionele benaderingen, maakt T3M nauwkeurige controle over bewegingssynthese mogelijk via tekstuele invoer, waardoor de mate van diversiteit en gebruikersaanpassing wordt vergroot. De experimentele resultaten tonen aan dat T3M de state-of-the-art methoden aanzienlijk kan overtreffen in zowel kwantitatieve metingen als kwalitatieve evaluaties. We hebben onze code openbaar vrijgegeven op https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}.
Gepersonaliseerde videogeneratie heeft als doel hoogwaardige video's te genereren die worden gestuurd door tekstprompts en referentiebeelden van het onderwerp. Omdat het echter alleen is getraind op statische beelden, verstoort het fine-tuningproces van onderwerpsleren de mogelijkheden van videodiffusiemodellen (VDM's) om concepten te combineren en bewegingen te genereren. Om deze mogelijkheden te herstellen, gebruiken sommige methoden aanvullende video's die vergelijkbaar zijn met de prompt om het model te fine-tunen of te sturen. Dit vereist frequente wijzigingen van sturende video's en zelfs her-tuning van het model bij het genereren van verschillende bewegingen, wat zeer onhandig is voor gebruikers. In dit artikel stellen we CustomCrafter voor, een nieuw framework dat de bewegingsgeneratie- en conceptcombinatiemogelijkheden van het model behoudt zonder aanvullende video's en fine-tuning voor herstel. Om de conceptcombinatiemogelijkheid te behouden, ontwerpen we een plug-and-play module om enkele parameters in VDM's bij te werken, waardoor het vermogen van het model om uiterlijke details vast te leggen en conceptcombinaties voor nieuwe onderwerpen te maken, wordt verbeterd. Voor bewegingsgeneratie hebben we geobserveerd dat VDM's de neiging hebben om de beweging van video's in de vroege fase van denoising te herstellen, terwijl ze zich in de latere fase richten op het herstel van onderwerpsdetails. Daarom stellen we de Dynamische Gewogen Video Sampling Strategie voor. Door de pluggability van onze onderwerpsleermodules te gebruiken, verminderen we de impact van deze module op bewegingsgeneratie in de vroege fase van denoising, waardoor het vermogen om bewegingen te genereren van VDM's behouden blijft. In de latere fase van denoising herstellen we deze module om de uiterlijke details van het gespecificeerde onderwerp te repareren, waardoor de trouw van het uiterlijk van het onderwerp wordt gewaarborgd. Experimentele resultaten tonen aan dat onze methode een significante verbetering laat zien in vergelijking met eerdere methoden.
High-Resolution Vision-Language Models (VLMs) worden veelvuldig gebruikt in multimodale taken om de nauwkeurigheid te verbeteren door gedetailleerde beeldinformatie te behouden. Deze modellen genereren echter vaak een overmaat aan visuele tokens doordat ze meerdere partities van het invoerbeeld coderen. Het verwerken van deze overmatige visuele tokens is computationeel uitdagend, vooral in omgevingen met beperkte middelen waar commodity GPU's worden gebruikt. Om hoge-resolutiebeelden te ondersteunen binnen de beperkingen van beschikbare middelen, stellen we High-Resolution Early Dropping (HiRED) voor, een token-dropping schema dat werkt binnen een vast tokenbudget vóór de Large Language Model (LLM)-fase. HiRED kan op een plug-and-play manier worden geïntegreerd met bestaande high-resolution VLMs, omdat het geen aanvullende training vereist en toch superieure nauwkeurigheid behoudt. We gebruiken strategisch de aandacht van de vision encoder in de initiële lagen om de visuele inhoud van elke beeldpartitie te beoordelen en het tokenbudget dienovereenkomstig toe te wijzen. Vervolgens gebruiken we de aandacht in de laatste laag om de belangrijkste visuele tokens uit elke partitie binnen het toegewezen budget te selecteren, waarbij de rest wordt weggegooid. Empirisch gezien, wanneer toegepast op LLaVA-Next-7B op een NVIDIA TESLA P40 GPU, verhoogt HiRED met een tokenbudget van 20% de doorvoer van token-generatie met 4,7, vermindert het de latentie van de eerste token-generatie met 15 seconden en bespaart het 2,3 GB GPU-geheugen voor een enkele inferentie.
Federated Learning (FL) biedt een veelbelovende aanpak voor collaboratieve machine learning over gedistribueerde apparaten. De adoptie ervan wordt echter belemmerd door de complexiteit van het bouwen van betrouwbare communicatiearchitecturen en de noodzaak van expertise in zowel machine learning als netwerkprogrammering. Dit artikel presenteert een uitgebreide oplossing die de coördinatie van FL-taken vereenvoudigt terwijl intent-gebaseerde automatisering wordt geïntegreerd. We ontwikkelen een gebruiksvriendelijke webapplicatie die het federated averaging (FedAvg) algoritme ondersteunt, waardoor gebruikers parameters kunnen configureren via een intuïtieve interface. De backend-oplossing beheert efficiënt de communicatie tussen de parameterserver en edge nodes. We implementeren ook modelcompressie en planningsalgoritmen om de FL-prestaties te optimaliseren. Daarnaast onderzoeken we intent-gebaseerde automatisering in FL met behulp van een fijn afgestemd Taalmodel (LLM) dat is getraind op een aangepaste dataset, waardoor gebruikers FL-taken kunnen uitvoeren met behulp van hoogwaardige prompts. We observeren dat de LLM-gebaseerde geautomatiseerde oplossing een vergelijkbare testnauwkeurigheid bereikt als de standaard webgebaseerde oplossing, terwijl het aantal overgedragen bytes met tot 64% en de CPU-tijd met tot 46% wordt verminderd voor FL-taken. Bovendien benutten we neurale architectuurzoekopdrachten (NAS) en hyperparameteroptimalisatie (HPO) met behulp van LLM om de prestaties te verbeteren. We observeren dat door deze aanpak de testnauwkeurigheid met 10-20% kan worden verbeterd voor de uitgevoerde FL-taken.
3D Gaussian Splatting (3DGS) bereikt snelle en hoogwaardige rendering door het gebruik van talrijke kleine Gaussians, wat leidt tot aanzienlijk geheugengebruik. Deze afhankelijkheid van een groot aantal Gaussians beperkt de toepassing van 3DGS-gebaseerde modellen op apparaten met beperkte geheugencapaciteit. Echter, het simpelweg verminderen van het aantal Gaussians om apparaten met minder geheugen te accommoderen, resulteert in een inferieure kwaliteit vergeleken met wat bereikt kan worden op high-end hardware. Om dit gebrek aan schaalbaarheid aan te pakken, stellen we voor om een Flexibel Detailniveau (FLoD) te integreren in 3DGS, zodat een scène op verschillende detailniveaus kan worden weergegeven afhankelijk van de hardwaremogelijkheden. Terwijl bestaande 3DGS-systemen met LoD zich richten op gedetailleerde reconstructie, biedt onze methode reconstructies met een klein aantal Gaussians voor verminderde geheugeneisen, en een groter aantal Gaussians voor meer detail. Experimenten demonstreren onze verschillende renderingopties met afwegingen tussen renderingkwaliteit en geheugengebruik, waardoor real-time rendering mogelijk is onder verschillende geheugenbeperkingen. Bovendien tonen we aan dat onze methode generaliseert naar verschillende 3DGS-frameworks, wat wijst op het potentieel voor integratie in toekomstige state-of-the-art ontwikkelingen. Projectpagina: https://3dgs-flod.github.io/flod.github.io/
Met de vooruitgang in Grote Taalmodellen (LLM's) is een belangrijke toepassing ontstaan: het bevragen van databases in gewoon Engels, waarbij gebruikersvragen worden vertaald naar uitvoerbare databasequery's, wat aanzienlijk is verbeterd. Echter, datasets in de praktijk bevatten vaak een breed scala aan attributen en complexe waarden, wat het voor LLM's moeilijk maakt om relevante kolommen of waarden nauwkeurig te identificeren op basis van natuurlijke taalvragen. Traditionele methoden kunnen de omvang en complexiteit van de dataset niet volledig overbrengen naar het LLM. Om deze uitdagingen aan te pakken, stellen we een nieuw raamwerk voor dat gebruikmaakt van Volledige Tekst Zoeken (FTS) op de invoertabel. Deze aanpak maakt niet alleen een nauwkeurige detectie van specifieke waarden en kolommen mogelijk, maar verkleint ook de zoekruimte voor taalmodel, waardoor de nauwkeurigheid van query's wordt verbeterd. Daarnaast ondersteunt het een aangepaste auto-complete functie die query's voorstelt op basis van de gegevens in de tabel. Deze integratie verfijnt de interactie tussen de gebruiker en complexe datasets aanzienlijk en biedt een geavanceerde oplossing voor de beperkingen van de huidige tabelbevragingsmogelijkheden. Dit werk wordt vergezeld door een applicatie voor zowel Mac- als Windows-platforms, die lezers zelf kunnen uitproberen met hun eigen gegevens.
Het conditioneren van beeldgeneratie maakt naadloze bewerking en het creëren van fotorealistische beelden mogelijk. Het conditioneren op ruisachtige of Out-of-Distribution (OoD) beelden brengt echter aanzienlijke uitdagingen met zich mee, vooral in het balanceren van trouw aan de invoer en realisme van de uitvoer. Wij introduceren Confident Ordinary Differential Editing (CODE), een nieuwe benadering voor beeldgeneratie die effectief omgaat met OoD-stuurbeelden. Door een diffusiemodel te gebruiken als een generatieve prior, verbetert CODE beelden via score-gebaseerde updates langs de waarschijnlijkheidsstroom van de Ordinary Differential Equation (ODE) traject. Deze methode vereist geen taakspecifieke training, geen handgemaakte modules en geen aannames over de corrupties die het conditionerende beeld beïnvloeden. Onze methode is compatibel met elk diffusiemodel. Geplaatst op het snijvlak van conditionele beeldgeneratie en blinde beeldrestauratie, opereert CODE op een volledig blinde manier, waarbij het enkel vertrouwt op een vooraf getraind generatief model. Onze methode introduceert een alternatieve benadering voor blinde restauratie: in plaats van te mikken op een specifiek grondwaarheidsbeeld gebaseerd op aannames over de onderliggende corruptie, streeft CODE ernaar de waarschijnlijkheid van het invoerbeeld te verhogen terwijl de trouw behouden blijft. Dit resulteert in het meest waarschijnlijke in-distributiebeeld rond de invoer. Onze bijdragen zijn tweeledig. Ten eerste introduceert CODE een nieuwe bewerkingsmethode gebaseerd op ODE, die verbeterde controle, realisme en trouw biedt in vergelijking met zijn SDE-gebaseerde tegenhanger. Ten tweede introduceren we een op betrouwbaarheidsintervallen gebaseerde clipping-methode, die de effectiviteit van CODE verbetert door het mogelijk te maken bepaalde pixels of informatie te negeren, waardoor het restauratieproces op een blinde manier wordt verbeterd. Experimentele resultaten tonen de effectiviteit van CODE aan ten opzichte van bestaande methoden, vooral in scenario's met ernstige degradatie of OoD-invoer.