Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel Transformers de belangrijkste architectuur zijn geweest achter het succes van deep learning in taalmodelering, is recentelijk aangetoond dat state-space modellen (SSMs) zoals Mampa Transformers kunnen evenaren of overtreffen op kleine tot middelgrote schaal. Wij laten zien dat deze families van modellen eigenlijk nauw verwant zijn, en ontwikkelen een rijk theoretisch kader van verbanden tussen SSMs en varianten van aandacht, verbonden via verschillende decomposities van een goed bestudeerde klasse van gestructureerde semiseparabele matrices. Ons state-space dualiteitskader (SSD) stelt ons in staat een nieuwe architectuur (Mamba-2) te ontwerpen waarvan de kernlaag een verfijning is van Mamba's selectieve SSM die 2-8 keer sneller is, terwijl deze competitief blijft met Transformers op het gebied van taalmodelering.
In de zoektocht naar kunstmatige algemene intelligentie zijn Multi-modale Grote Taalmodellen (MLLMs) een belangrijk aandachtspunt geworden in recente ontwikkelingen. Het huidige onderzoek richt zich echter vooral op het verbeteren van hun vermogen om statische afbeeldingen te begrijpen. Het potentieel van MLLMs voor het verwerken van sequentiële visuele gegevens is nog onvoldoende onderzocht, wat het ontbreken van een uitgebreide, hoogwaardige evaluatie van hun prestaties benadrukt. In dit artikel introduceren we Video-MME, de eerste volledige Multi-modale Evaluatiebenchmark voor MLLMs in video-analyse. Ons werk onderscheidt zich van bestaande benchmarks door vier belangrijke kenmerken: 1) Diversiteit in videotypen, met 6 primaire visuele domeinen en 30 subgebieden om brede scenario-generaliseerbaarheid te garanderen; 2) Duur in de tijdsdimensie, met korte-, middellange- en langetermijnvideo's, variërend van 11 seconden tot 1 uur, voor robuuste contextuele dynamiek; 3) Breedte in datamodaliteiten, waarbij naast videobeelden ook multi-modale invoer zoals ondertitels en audio wordt geïntegreerd om de alomvattende mogelijkheden van MLLMs te onthullen; 4) Kwaliteit in annotaties, met strikte handmatige labeling door expert-annotators om nauwkeurige en betrouwbare modelbeoordeling mogelijk te maken. 900 video's met een totale duur van 256 uur zijn handmatig geselecteerd en geannoteerd door herhaaldelijk alle video-inhoud te bekijken, wat resulteert in 2.700 vraag-antwoordparen. Met Video-MME evalueren we uitgebreid verschillende state-of-the-art MLLMs, waaronder de GPT-4-serie en Gemini 1.5 Pro, evenals open-source beeldmodellen zoals InternVL-Chat-V1.5 en videomodellen zoals LLaVA-NeXT-Video. Onze experimenten tonen aan dat Gemini 1.5 Pro het best presterende commerciële model is, dat de open-source modellen aanzienlijk overtreft. Onze dataset en deze bevindingen onderstrepen de noodzaak van verdere verbeteringen in het omgaan met langere sequenties en multi-modale gegevens. Projectpagina: https://video-mme.github.io
In dit onderzoek onderzoeken we of kleine taalmodelen hoogwaardige subsets van grootschalige tekstdatasets kunnen bepalen die de prestaties van grotere taalmodelen verbeteren. Hoewel bestaand werk heeft aangetoond dat selectie op basis van de perplexiteit van een groter model hoogwaardige data kan opleveren, onderzoeken we of kleinere modellen kunnen worden gebruikt voor perplexiteitsgebaseerde selectie en hoe selectie wordt beïnvloed door de domeinsamenstelling van de data die wordt geselecteerd. We tonen aan dat voor meerdere datasetsamenstellingen, perplexiteitsgebaseerde selectie van vooraf getrainde data de prestaties op downstream taken aanzienlijk kan verbeteren: selectie op basis van perplexiteiten berekend met een model van 125 miljoen parameters verbetert de gemiddelde prestatie op downstream taken van een model van 3 miljard parameters met maximaal 2,04 en bereikt tot een 1,45-voudige reductie in het aantal vooraf trainingsstappen om vergelijkbare basisprestaties te bereiken. Bovendien tonen we aan dat dergelijke perplexiteitsgebaseerde dataselectie ook prestatieverbeteringen oplevert in de overgetrainde en data-beperkte regimes.
Diffusiemodellen zijn naar voren gekomen als een krachtig hulpmiddel voor het genereren van hoogwaardige afbeeldingen op basis van tekstuele beschrijvingen. Ondanks hun successen vertonen deze modellen vaak beperkte diversiteit in de gegenereerde afbeeldingen, vooral bij het bemonsteren met een hoge classifier-free guidance weight. Om dit probleem aan te pakken, presenteren we Kaleido, een nieuwe aanpak die de diversiteit van de samples vergroot door het incorporeren van autoregressieve latente priors. Kaleido integreert een autoregressief taalmodel dat de originele beschrijving codeert en latente variabelen genereert, die dienen als abstracte en intermediaire representaties voor het begeleiden en faciliteren van het beeldgeneratieproces. In dit artikel verkennen we een verscheidenheid aan discrete latente representaties, waaronder tekstuele beschrijvingen, detectiebounding boxes, objectblobs en visuele tokens. Deze representaties diversifiëren en verrijken de invoervoorwaarden voor de diffusiemodellen, waardoor meer diverse uitvoer mogelijk wordt. Onze experimentele resultaten tonen aan dat Kaleido effectief de diversiteit van de gegenereerde afbeeldingssamples uit een gegeven tekstuele beschrijving vergroot, terwijl de hoge beeldkwaliteit behouden blijft. Bovendien laten we zien dat Kaleido nauw aansluit bij de begeleiding die wordt geboden door de gegenereerde latente variabelen, wat zijn vermogen aantoont om het beeldgeneratieproces effectief te controleren en te sturen.
Huidige 4D-generatiemethoden hebben opmerkelijke resultaten behaald met behulp van geavanceerde diffusiegeneratieve modellen. Deze methoden missen echter multi-view ruimtelijk-temporele modellering en ondervinden problemen bij het integreren van diverse voorkennis uit meerdere diffusiemodellen, wat resulteert in inconsistente temporele verschijning en flikkeringen. In dit artikel stellen we een nieuwe 4D-generatiepijplijn voor, genaamd 4Diffusion, die gericht is op het genereren van ruimtelijk-temporeel consistente 4D-inhoud vanuit een monovideo. We ontwerpen eerst een geünificeerd diffusiemodel dat is afgestemd op multi-view videogeneratie door een leerbare bewegingsmodule te integreren in een bevroren 3D-bewust diffusiemodel om multi-view ruimtelijk-temporele correlaties vast te leggen. Na training op een gecureerde dataset verkrijgt ons diffusiemodel redelijke temporele consistentie en behoudt het inherent de generaliseerbaarheid en ruimtelijke consistentie van het 3D-bewuste diffusiemodel. Vervolgens stellen we een 4D-bewuste Score Distillation Sampling-verlies voor, dat gebaseerd is op ons multi-view videodiffusiemodel, om 4D-representatie geoptimaliseerd door dynamische NeRF te verbeteren. Dit is gericht op het elimineren van discrepanties die ontstaan uit meerdere diffusiemodellen, waardoor ruimtelijk-temporeel consistente 4D-inhoud kan worden gegenereerd. Bovendien ontwikkelen we een ankerverlies om de verschijningsdetails te versterken en het leren van dynamische NeRF te vergemakkelijken. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat onze methode superieure prestaties behaalt in vergelijking met eerdere methoden.
Tweedegraads-optimalisatoren, die een matrix onderhouden die een preconditioner wordt genoemd, zijn zowel in theorie als praktijk superieur aan eerstegraads-optimalisatoren. De toestanden die de preconditioner en zijn inverse wortel vormen, beperken de maximale grootte van modellen die door tweedegraads-optimalisatoren getraind kunnen worden. Om dit aan te pakken, heeft het comprimeren van 32-bits optimalisatietoestanden naar lagere bitbreedtes veelbelovende resultaten laten zien in het verminderen van geheugengebruik. Huidige benaderingen zijn echter alleen van toepassing op eerstegraads-optimalisatoren. In dit artikel stellen we de eerste 4-bits tweedegraads-optimalisatoren voor, geïllustreerd door 4-bits Shampoo, die een vergelijkbare prestaties behouden als hun 32-bits tegenhangers. We tonen aan dat het kwantiseren van de eigenvectormatrix van de preconditioner in 4-bits Shampoo zowel theoretisch als experimenteel aanzienlijk beter is dan het kwantiseren van de preconditioner zelf. Door de orthogonaliteit van de gekwantiseerde eigenvectormatrix te corrigeren, verbeteren we de benadering van de eigenvectormatrix van de preconditioner, wat ook ten goede komt aan de berekening van zijn inverse 4-de wortel. Daarnaast vinden we dat lineaire kwadratische kwantisering lichtelijk beter presteert dan dynamische boomkwantisering bij het kwantiseren van tweedegraads-optimalisatietoestanden. Evaluatie op verschillende netwerken voor beeldclassificatie toont aan dat onze 4-bits Shampoo een vergelijkbare testnauwkeurigheid bereikt als zijn 32-bits tegenhanger, terwijl het geheugenefficiënter is. De broncode zal beschikbaar worden gesteld.