Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vorig jaar hebben multimodale architecturen een revolutie teweeggebracht in AI-gebaseerde benaderingen en oplossingen, waarbij de mogelijkheden van grote taalmmodellen (LLM) werden uitgebreid. Wij stellen een OmniFusion-model voor, gebaseerd op een vooraf getraind LLM en adapters voor de visuele modaliteit. We hebben verschillende architectuurontwerpprincipes geëvalueerd en vergeleken voor een betere koppeling van tekst- en visuele gegevens: MLP- en transformer-adapters, diverse CLIP ViT-gebaseerde encoders (SigLIP, InternVIT, etc.), hun fusiebenadering, de methode voor beeldcodering (gehele afbeelding of tegels coderen) en twee 7B LLM's (het propriëtaire model en het open-source Mistral). Experimenten op 8 visueel-taalkundige benchmarks tonen de hoogste score voor de beste OmniFusion-opstelling in termen van verschillende VQA-taken in vergelijking met open-source LLaVA-achtige oplossingen: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We stellen ook een verscheidenheid aan situaties voor waarin OmniFusion zeer gedetailleerde antwoorden biedt in verschillende domeinen: huishouden, sightseeing, cultuur, geneeskunde, herkenning van handgeschreven en gescande vergelijkingen, etc. Het Mistral-gebaseerde OmniFusion-model is een open-source oplossing met gewichten, trainings- en inferentiescripts beschikbaar op https://github.com/AIRI-Institute/OmniFusion.
Grote decoder-only taalmmodellen (LLM's) zijn de state-of-the-art modellen voor de meeste hedendaagse NLP-taken en benchmarks. Toch neemt de gemeenschap deze modellen slechts langzaam in gebruik voor tekstembeddingstaken, die rijke gecontextualiseerde representaties vereisen. In dit werk introduceren we LLM2Vec, een eenvoudige onbewaakte aanpak die elke decoder-only LLM kan omzetten in een sterke tekstencoder. LLM2Vec bestaat uit drie eenvoudige stappen: 1) het inschakelen van bidirectionele aandacht, 2) gemaskeerde voorspelling van het volgende token, en 3) onbewaakt contrastief leren. We demonstreren de effectiviteit van LLM2Vec door het toe te passen op 3 populaire LLM's met een bereik van 1,3B tot 7B parameters en evalueren de getransformeerde modellen op Engelse woord- en sequentieniveau taken. We overtreffen encoder-only modellen met een grote marge op woordniveau taken en bereiken een nieuwe onbewaakte state-of-the-art prestatie op de Massive Text Embeddings Benchmark (MTEB). Bovendien bereiken we, wanneer we LLM2Vec combineren met bewaakt contrastief leren, state-of-the-art prestaties op MTEB onder modellen die alleen trainen op publiek beschikbare data. Onze sterke empirische resultaten en uitgebreide analyse tonen aan dat LLM's effectief kunnen worden omgezet in universele tekstencoders op een parameter-efficiënte manier, zonder de noodzaak van dure aanpassingen of synthetische GPT-4 gegenereerde data.
Wij presenteren Eagle (RWKV-5) en Finch (RWKV-6), sequentiemodellen die voortbouwen op de RWKV (RWKV-4) architectuur. Onze architectonische ontwerpverbeteringen omvatten meerkoppige matrixwaardige toestanden en een dynamisch recurrentiemechanisme die de expressiviteit verbeteren terwijl de inferentie-efficiëntiekenmerken van RNN's behouden blijven. We introduceren een nieuw meertalig corpus met 1,12 biljoen tokens en een snelle tokenizer gebaseerd op gretige matching voor verbeterde meertaligheid. We hebben vier Eagle-modellen getraind, variërend van 0,46 tot 7,5 miljard parameters, en twee Finch-modellen met 1,6 en 3,1 miljard parameters, en constateren dat ze competitieve prestaties behalen op een breed scala aan benchmarks. We geven al onze modellen vrij op HuggingFace onder de Apache 2.0-licentie. Modellen zijn te vinden op: https://huggingface.co/RWKV Trainingscode is beschikbaar op: https://github.com/RWKV/RWKV-LM Inferentiecode is te vinden op: https://github.com/RWKV/ChatRWKV Tijd-parallelle trainingscode is beschikbaar op: https://github.com/RWKV/RWKV-infctx-trainer
Het vakgebied van Large Vision-Language Models (LVLM) heeft aanzienlijke vooruitgang geboekt, maar de voortgang is belemmerd door uitdagingen in het begrijpen van fijnmazige visuele inhoud vanwege beperkte resolutie. Recente inspanningen zijn gericht op het verbeteren van het vermogen om hoge resoluties te begrijpen in LVLM's, maar deze blijven beperkt tot ongeveer 1500 x 1500 pixels en zijn gebonden aan een relatief smal resolutiebereik. Dit artikel presenteert InternLM-XComposer2-4KHD, een baanbrekende verkenning naar het verhogen van de resolutiecapaciteiten van LVLM's tot 4K HD (3840 x 1600) en daarboven. Tegelijkertijd, rekening houdend met het feit dat ultra-hoge resolutie niet in alle scenario's nodig is, ondersteunt het een breed scala aan diverse resoluties van 336 pixels tot 4K-standaard, waardoor het toepassingsbereik aanzienlijk wordt verbreed. Specifiek bevordert dit onderzoek het paradigma van patchverdeling door een nieuwe uitbreiding te introduceren: dynamische resolutie met automatische patchconfiguratie. Het behoudt de beeldverhoudingen van de trainingsafbeeldingen terwijl het automatisch het aantal patches varieert en lay-outs configureert op basis van een vooraf getrainde Vision Transformer (ViT) (336 x 336), wat leidt tot een dynamische trainingsresolutie van 336 pixels tot 4K-standaard. Ons onderzoek toont aan dat het opschalen van de trainingsresolutie tot 4K HD leidt tot consistente prestatieverbeteringen zonder het plafond van mogelijke verbeteringen te bereiken. InternLM-XComposer2-4KHD toont uitstekende capaciteiten die in 10 van de 16 benchmarks overeenkomen of zelfs GPT-4V en Gemini Pro overtreffen. De InternLM-XComposer2-4KHD modelreeks met 7B parameters is publiekelijk beschikbaar op https://github.com/InternLM/InternLM-XComposer.
De groeiende interesse in het ontwikkelen van Large Language Models (LLMs) met tot wel biljoenen parameters wordt begeleid door zorgen over resource-efficiëntie en praktische kosten, vooral gezien de immense kosten van experimenten. Dit scenario benadrukt het belang van het verkennen van het potentieel van Small Language Models (SLMs) als een resource-efficiënt alternatief. In deze context introduceren we MiniCPM, specifiek de 1,2B en 2,4B non-embedding parameter varianten, die niet alleen uitblinken in hun respectievelijke categorieën, maar ook capaciteiten demonstreren die vergelijkbaar zijn met 7B-13B LLMs. Terwijl we ons richten op SLMs, toont onze aanpak schaalbaarheid in zowel model- als data-dimensies voor toekomstig LLM-onderzoek. Wat betreft modelschaling, gebruiken we uitgebreide model windtunnel experimenten voor stabiele en optimale schaling. Voor data-schaling introduceren we een Warmup-Stable-Decay (WSD) leerfasescheduler (LRS), die bevorderlijk is voor continue training en domeinaanpassing. We presenteren een diepgaande analyse van de intrigerende trainingsdynamiek die plaatsvond in de WSD LRS. Met WSD LRS zijn we nu in staat om efficiënt de data-model schaalwet te bestuderen zonder uitgebreide hertrainingsexperimenten op beide assen van model en data, waaruit we de veel hogere compute optimale data-model ratio afleiden dan de Chinchilla Optimal. Daarnaast introduceren we de MiniCPM familie, inclusief MiniCPM-DPO, MiniCPM-MoE en MiniCPM-128K, waarvan de uitstekende prestaties de basis van MiniCPM verder versterken in diverse SLM-toepassingen. MiniCPM-modellen zijn publiekelijk beschikbaar op https://github.com/OpenBMB/MiniCPM.
Instruction tuning is naar voren gekomen als de sleutel om grote taalmodellen (LLMs) af te stemmen op specifieke taakinstructies, waardoor de discrepantie tussen het voorspellen van het volgende token en de daadwerkelijke doelen van gebruikers wordt verminderd. Om de arbeids- en tijdskosten voor het verzamelen of annoteren van gegevens door mensen te verminderen, beginnen onderzoekers het gebruik van LLMs te verkennen om synthetische gegevens te genereren die zijn afgestemd op instructies. Recente werken richten zich op het genereren van diverse instructies en het toepassen van LLM om de complexiteit van instructies te vergroten, waarbij downstream gebruiksscenario's vaak worden verwaarloosd. Het blijft onduidelijk hoe hoogwaardige gegevens kunnen worden afgestemd om betere instructievolgbare vaardigheden te stimuleren in verschillende doel-instructieverdelingen en LLMs. Daarom introduceren we CodecLM, een algemeen raamwerk voor het adaptief genereren van hoogwaardige synthetische gegevens voor de afstemming van LLMs met verschillende downstream instructieverdelingen en LLMs. Gebaseerd op de Encode-Decode principes, gebruiken we LLMs als codecs om het gegevensgeneratieproces te begeleiden. We coderen eerst zaadinstructies in metadata, wat beknopte trefwoorden zijn die on-the-fly worden gegenereerd om de doel-instructieverdeling vast te leggen, en decoderen vervolgens metadata om op maat gemaakte instructies te creëren. We introduceren ook Self-Rubrics en Contrastive Filtering tijdens het decoderen om gegevensefficiënte voorbeelden op maat te maken. Uitgebreide experimenten op vier open-domein instructievolgbare benchmarks valideren de effectiviteit van CodecLM ten opzichte van de huidige state-of-the-art methoden.
In dit artikel onderzoeken we de toepassing van Large Language Models (LLMs) op het vooraf trainen van muziek. Hoewel het gebruik van MIDI in muziekmodellering algemeen ingeburgerd is, suggereren onze bevindingen dat LLMs inherent beter compatibel zijn met ABC-notatie, wat meer aansluit bij hun ontwerp en sterke punten, waardoor de prestaties van het model in muzikale compositie worden verbeterd. Om de uitdagingen aan te pakken die gepaard gaan met niet-uitgelijnde maten van verschillende sporen tijdens de generatie, stellen we de ontwikkeling voor van een Gesynchroniseerde Multi-Track ABC-notatie (SMT-ABC-notatie), die gericht is op het behoud van samenhang over meerdere muzikale sporen. Onze bijdragen omvatten een reeks modellen die tot 8192 tokens aankunnen, waarmee 90\% van de symbolische muziekgegevens in onze trainingsset wordt gedekt. Daarnaast onderzoeken we de implicaties van de Symbolic Music Scaling Law (SMS Law) op de modelprestaties. De resultaten wijzen op een veelbelovende richting voor toekomstig onderzoek in muziekgeneratie, waarbij we uitgebreide bronnen bieden voor door de gemeenschap geleid onderzoek via onze open-source bijdragen.
De evolutie van 3D-generatieve modellering is aanzienlijk versneld door de adoptie van 2D-diffusiemodellen. Ondanks deze vooruitgang vormt het omslachtige optimalisatieproces zelf een kritieke hindernis voor de efficiëntie. In dit artikel introduceren we Hash3D, een universele versnelling voor 3D-generatie zonder modeltraining. Centraal in Hash3D staat het inzicht dat redundantie in feature-maps veel voorkomt in afbeeldingen die worden gerenderd vanuit cameraposities en diffusie-tijdstappen die dicht bij elkaar liggen. Door deze feature-maps effectief te hashen en te hergebruiken over naburige tijdstappen en camerahoeken, voorkomt Hash3D aanzienlijk overbodige berekeningen, waardoor de inferentie van het diffusiemodel in 3D-generatietaken wordt versneld. Dit bereiken we door middel van een adaptief rastergebaseerd hashen. Verrassend genoeg verbetert dit mechanisme voor het delen van features niet alleen de snelheid van de generatie, maar ook de gladheid en consistentie van het gezichtspunt van de gesynthetiseerde 3D-objecten. Onze experimenten, die 5 tekst-naar-3D en 3 beeld-naar-3D modellen omvatten, demonstreren de veelzijdigheid van Hash3D om optimalisatie te versnellen, waardoor de efficiëntie met 1,3 tot 4 keer wordt verbeterd. Bovendien versnelt de integratie van Hash3D met 3D Gaussian splatting de creatie van 3D-modellen aanzienlijk, waardoor tekst-naar-3D-verwerking wordt teruggebracht tot ongeveer 10 minuten en beeld-naar-3D-conversie tot ongeveer 30 seconden. De projectpagina is te vinden op https://adamdad.github.io/hash3D/.
Ondanks de brede beschikbaarheid van LLM's (Large Language Models), bestaat er nog steeds een aanzienlijke kloof in hun mogelijkheden en beschikbaarheid voor diverse talen. Een benadering om deze problemen aan te pakken, is het nemen van een bestaande, vooraf getrainde LLM en deze verder te trainen op nieuwe talen. Hoewel eerdere werken hebben geëxperimenteerd met taaladaptatie, zijn veel vragen over beste praktijken en methodologie nog niet behandeld. In dit artikel presenteren we een uitgebreid onderzoek naar de aanpassing van LLM's aan nieuwe talen. Onze studie behandelt de belangrijkste componenten in dit proces, waaronder vocabulaire-uitbreiding, directe voorkeursoptimalisatie en het probleem van dataschaarste voor menselijke afstemming in talen met beperkte bronnen. We schalen deze experimenten op over 9 talen en 2 parameterschalen (7B en 70B). We vergelijken onze modellen met Llama 2, Aya-101, XGLM, BLOOM en bestaande taalspecialisten, waarbij we alle eerder gepubliceerde referentiemodellen overtreffen. Daarnaast wordt alle evaluatiecode en checkpoints openbaar gemaakt om toekomstig onderzoek te vergemakkelijken.
Text-naar-3D-generatie heeft opmerkelijke successen geboekt dankzij grootschalige text-naar-beeld diffusiemodellen. Desalniettemin ontbreekt een paradigma om deze methodologie op te schalen naar stedelijke schaal. Stedelijke scènes, gekenmerkt door talrijke elementen, complexe rangschikkingsrelaties en enorme schaal, vormen een aanzienlijke barrière voor de interpreteerbaarheid van dubbelzinnige tekstuele beschrijvingen voor effectieve modeloptimalisatie. In dit werk overwinnen we deze beperkingen door een compositorische 3D-layoutrepresentatie te introduceren in het text-naar-3D-paradigma, die dient als een aanvullende prior. Deze bestaat uit een set van semantische primitieven met eenvoudige geometrische structuren en expliciete rangschikkingsrelaties, die tekstuele beschrijvingen aanvullen en stuurbare generatie mogelijk maken. Hierop voortbouwend stellen we twee aanpassingen voor -- (1) We introduceren Layout-Gegeleide Variational Score Distillation om tekortkomingen in modeloptimalisatie aan te pakken. Dit conditioneert het score-distillatiebemonsteringsproces met geometrische en semantische beperkingen van 3D-layouts. (2) Om de onbegrensde aard van stedelijke scènes te hanteren, representeren we de 3D-scène met een schaalbare hash-gridstructuur, die zich geleidelijk aanpast aan de groeiende schaal van stedelijke scènes. Uitgebreide experimenten ondersteunen de capaciteit van ons framework om text-naar-3D-generatie op te schalen naar grootschalige stedelijke scènes die voor het eerst een rijafstand van meer dan 1000 meter beslaan. We presenteren ook diverse scènebewerkingsdemonstraties, die de kracht van stuurbare stedelijke scènegeneratie tonen. Website: https://urbanarchitect.github.io.
In dit artikel behandelen we de beperkingen van Adaptive Density Control (ADC) in 3D Gaussian Splatting (3DGS), een scèneweergavemethode die hoogwaardige, fotorealistische resultaten behaalt voor de synthese van nieuwe gezichtspunten. ADC is geïntroduceerd voor het automatisch beheren van 3D-puntprimitieven, waarbij verdichting en snoei worden gereguleerd, maar met bepaalde beperkingen in de verdichtingslogica. Onze belangrijkste bijdrage is een meer principiële, pixel-foutgestuurde formulering voor dichtheidscontrole in 3DGS, waarbij een aanvullende, per-pixel foutfunctie wordt gebruikt als criterium voor verdichting. We introduceren verder een mechanisme om het totale aantal gegenereerde primitieven per scène te controleren en corrigeren een bias in de huidige strategie voor het omgaan met doorzichtigheid van ADC tijdens kloningsoperaties. Onze aanpak leidt tot consistente kwaliteitsverbeteringen over een verscheidenheid aan benchmarkscènes, zonder de efficiëntie van de methode op te offeren.
Profiterend van de snelle ontwikkeling van 2D-diffusiemodellen, heeft de creatie van 3D-inhoud recentelijk aanzienlijke vooruitgang geboekt. Een veelbelovende oplossing omvat het fine-tunen van vooraf getrainde 2D-diffusiemodellen om hun vermogen te benutten voor het produceren van multi-view afbeeldingen, die vervolgens worden omgezet in nauwkeurige 3D-modellen via methoden zoals fast-NeRFs of grote reconstructiemodellen. Echter, vanwege de nog bestaande inconsistenties en de beperkte gegenereerde resolutie, ontbreekt het de generatieresultaten van dergelijke methoden nog steeds aan gedetailleerde texturen en complexe geometrieën. Om dit probleem op te lossen, stellen we Magic-Boost voor, een multi-view geconditioneerd diffusiemodel dat ruwe generatieresultaten aanzienlijk verfijnt door middel van een korte periode van SDS-optimalisatie (sim15min). In vergelijking met eerdere tekst- of single image gebaseerde diffusiemodellen, toont Magic-Boost een robuust vermogen om afbeeldingen met hoge consistentie te genereren vanuit pseudo gesynthetiseerde multi-view afbeeldingen. Het biedt nauwkeurige SDS-begeleiding die goed aansluit bij de identiteit van de invoerafbeeldingen, waardoor de lokale details in zowel geometrie als textuur van de initiële generatieresultaten worden verrijkt. Uitgebreide experimenten tonen aan dat Magic-Boost de ruwe invoer aanzienlijk verbetert en hoogwaardige 3D-assets genereert met rijke geometrische en textuurdetails. (Projectpagina: https://magic-research.github.io/magic-boost/)
Objecten die door de hand worden gemanipuleerd (d.w.z. manipulanda) zijn bijzonder uitdagend om te reconstrueren uit RGB-afbeeldingen of video's in natuurlijke omgevingen. Niet alleen bedekt de hand een groot deel van het object, maar het object is vaak ook slechts zichtbaar in een klein aantal beeldpixels. Tegelijkertijd ontstaan er in deze setting twee sterke ankerpunten: (1) geschatte 3D-handen helpen om de locatie en schaal van het object te verduidelijken, en (2) de set van manipulanda is klein in verhouding tot alle mogelijke objecten. Met deze inzichten in gedachten presenteren we een schaalbaar paradigma voor de reconstructie van handvastgehouden objecten, dat voortbouwt op recente doorbraken in grote taal/visie-modellen en 3D-objectdatasets. Ons model, MCC-Hand-Object (MCC-HO), reconstrueert gezamenlijk de geometrie van de hand en het object op basis van een enkele RGB-afbeelding en een afgeleide 3D-hand als invoer. Vervolgens gebruiken we GPT-4(V) om een 3D-objectmodel op te halen dat overeenkomt met het object in de afbeelding en dit model rigide uit te lijnen met de door het netwerk afgeleide geometrie; we noemen deze uitlijning Retrieval-Augmented Reconstruction (RAR). Experimenten tonen aan dat MCC-HO state-of-the-art prestaties behaalt op lab- en internetdatasets, en we laten zien hoe RAR kan worden gebruikt om automatisch 3D-labels te verkrijgen voor afbeeldingen van hand-objectinteracties in natuurlijke omgevingen.
Hoewel velen hebben aangetoond hoe Large Language Models (LLMs) kunnen worden toegepast op een diverse reeks taken, worden de kritieke kwesties van datacontaminatie en memorisering vaak over het hoofd gezien. In dit werk gaan we deze zorg aan voor tabulaire data. Specifiek introduceren we een verscheidenheid aan technieken om te beoordelen of een taalmodel een tabulaire dataset tijdens de training heeft gezien. Dit onderzoek onthult dat LLMs veel populaire tabulaire datasets letterlijk hebben gememoriseerd. Vervolgens vergelijken we de few-shot leerprestaties van LLMs op datasets die tijdens de training zijn gezien met de prestaties op datasets die na de training zijn vrijgegeven. We constateren dat LLMs beter presteren op datasets die tijdens de training zijn gezien, wat erop wijst dat memorisering leidt tot overfitting. Tegelijkertijd tonen LLMs niet-triviale prestaties op nieuwe datasets en zijn ze verrassend robuust tegen datatransformaties. Daarna onderzoeken we de in-context statistische leervermogens van LLMs. Zonder fine-tuning vinden we deze beperkt. Dit suggereert dat een groot deel van de few-shot prestaties op nieuwe datasets te danken is aan de wereldkennis van het LLM. Over het geheel genomen benadrukken onze resultaten het belang van het testen of een LLM een evaluatiedataset tijdens de pre-training heeft gezien. We maken de ontwikkelde exposure tests beschikbaar als het tabmemcheck Python-pakket op https://github.com/interpretml/LLM-Tabular-Memorization-Checker.