Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De snelle ontwikkeling van grote taal- en visuele modellen (LLVMs) is gedreven door vooruitgang in visuele instructieafstemming. Recentelijk hebben open-source LLVMs hoogwaardige datasets voor visuele instructieafstemming samengesteld en aanvullende visuele encoders of meerdere computervisiemodellen gebruikt om de prestatiekloof met krachtige closed-source LLVMs te verkleinen. Deze vooruitgang is te danken aan de veelzijdige informatie die nodig is voor diverse capaciteiten, waaronder fundamenteel beeldbegrip, kennis van de echte wereld over alledaagse en niet-objectgerelateerde concepten (bijv. grafieken, diagrammen, symbolen, tekens en wiskundige problemen), en stapsgewijze procedures voor het oplossen van complexe vragen. Gebaseerd op deze veelzijdige informatie presenteren we een nieuwe efficiënte LLVM, Mamba-based traversal of rationales (Meteor), die gebruikmaakt van veelzijdige redeneringen om het begrip en antwoordvermogen te verbeteren. Om uitgebreide redeneringen met veel informatie in te bedden, gebruiken we de Mamba-architectuur, die sequentiële gegevens kan verwerken met lineaire tijdcomplexiteit. We introduceren een nieuw concept van 'traversal of rationale' dat een efficiënte inbedding van redeneringen mogelijk maakt. Vervolgens wordt het multimodale taalmodel (MLM) getraind om antwoorden te genereren met behulp van redeneringen. Door deze stappen behaalt Meteor aanzienlijke verbeteringen in visuele taalprestaties op meerdere evaluatiebenchmarks die diverse capaciteiten vereisen, zonder het model te vergroten of aanvullende visuele encoders en computervisiemodellen te gebruiken.
High-resolution Large Multimodal Models (LMMs) worden geconfronteerd met de uitdagingen van overmatige visuele tokens en kwadratische visuele complexiteit. Huidige high-resolution LMMs pakken de kwadratische complexiteit aan, maar genereren nog steeds te veel visuele tokens. De redundantie in visuele tokens is echter het kernprobleem, omdat dit leidt tot aanzienlijk meer rekenkracht. Om dit probleem te verlichten, stellen we ConvLLaVA voor, dat ConvNeXt, een hiërarchische backbone, gebruikt als de visuele encoder van LMM ter vervanging van Vision Transformer (ViT). ConvLLaVA comprimeert high-resolution afbeeldingen tot informatie-rijke visuele kenmerken, waardoor effectief wordt voorkomen dat er te veel visuele tokens worden gegenereerd. Om de mogelijkheden van ConvLLaVA te verbeteren, stellen we twee cruciale optimalisaties voor. Omdat de low-resolution vooraf getrainde ConvNeXt onderpresteert wanneer deze direct op hoge resolutie wordt toegepast, werken we deze bij om de kloof te overbruggen. Bovendien is de oorspronkelijke compressieverhouding van ConvNeXt ontoereikend voor veel hogere resolutie-inputs, dus trainen we een opeenvolgende fase om de visuele tokens verder te comprimeren, waardoor redundantie wordt verminderd. Deze optimalisaties stellen ConvLLaVA in staat om inputs van 1536x1536 resolutie te ondersteunen met slechts 576 visuele tokens, waardoor het afbeeldingen met willekeurige beeldverhoudingen kan verwerken. Experimentele resultaten tonen aan dat onze methode concurrerende prestaties bereikt met state-of-the-art modellen op mainstream benchmarks. De ConvLLaVA modelreeks is publiekelijk beschikbaar op https://github.com/alibaba/conv-llava.
We onderzoeken of transformers kunnen leren om impliciet te redeneren over parametrische kennis, een vaardigheid waar zelfs de meest capabele taalmodelen moeite mee hebben. Door ons te richten op twee representatieve redeneertypes, compositie en vergelijking, vinden we consistent dat transformers impliciet redeneren kunnen leren, maar alleen door middel van grokking, d.w.z. uitgebreide training ver voorbij overfitting. De niveaus van generalisatie variëren ook tussen redeneertypes: wanneer ze worden geconfronteerd met voorbeelden buiten de distributie, slagen transformers er niet in om systematisch te generaliseren voor compositie, maar wel voor vergelijking. We duiken in de interne werking van het model gedurende de training, waarbij we analytische experimenten uitvoeren die het volgende onthullen: 1) het mechanisme achter grokking, zoals de vorming van het generaliserende circuit en de relatie met de relatieve efficiëntie van generaliserende en memoriserende circuits, en 2) de verbinding tussen systematiciteit en de configuratie van het generaliserende circuit. Onze bevindingen begeleiden de opzet van data en training om impliciet redeneren beter te induceren en suggereren mogelijke verbeteringen aan de transformer-architectuur, zoals het stimuleren van kennisuitwisseling tussen lagen. Bovendien tonen we aan dat voor een uitdagende redeneertaak met een grote zoekruimte, GPT-4-Turbo en Gemini-1.5-Pro, gebaseerd op niet-parametrisch geheugen, slecht presteren ongeacht de promptstijlen of retrieval-augmentatie, terwijl een volledig gegrokked transformer bijna perfecte nauwkeurigheid kan bereiken, wat de kracht van parametrisch geheugen voor complex redeneren aantoont.
Dit technisch rapport introduceert Aya 23, een familie van meertalige taalmodelen. Aya 23 bouwt voort op de recente release van het Aya-model (\"Ust\"un et al., 2024), met een focus op het combineren van een hoogpresterend voorgetraind model met de onlangs vrijgegeven Aya-collectie (Singh et al., 2024). Het resultaat is een krachtig meertalig groot taalmodel dat 23 talen ondersteunt, waarmee de state-of-the-art mogelijkheden op het gebied van taalmodeling worden uitgebreid tot ongeveer de helft van de wereldbevolking. Het Aya-model omvatte 101 talen, terwijl Aya 23 een experiment is in diepte versus breedte, waarbij wordt onderzocht wat het effect is van het toewijzen van meer capaciteit aan minder talen die tijdens het vooraf trainen worden meegenomen. Aya 23 presteert beter dan zowel eerdere massaal meertalige modellen zoals Aya 101 voor de talen die het ondersteunt, als veelgebruikte modellen zoals Gemma, Mistral en Mixtral op een breed scala aan discriminerende en generatieve taken. We maken de open gewichten beschikbaar voor zowel de 8B- als de 35B-modellen, als onderdeel van onze voortdurende inzet om de toegang tot meertalige vooruitgang te vergroten.
LLM's zijn computationeel kostbaar om voor te trainen vanwege hun grote schaal. Modelgroei komt naar voren als een veelbelovende aanpak door kleinere modellen te gebruiken om de training van grotere modellen te versnellen. Echter, de haalbaarheid van deze modelgroei-methoden voor efficiënte LLM-voorpretraining blijft onderbelicht. Dit werk identificeert drie kritieke textit{O}bstakels: (O1) gebrek aan uitgebreide evaluatie, (O2) ongeteste haalbaarheid voor schaalbaarheid, en (O3) gebrek aan empirische richtlijnen. Om O1 aan te pakken, vatten we bestaande benaderingen samen in vier atomaire groei-operators en evalueren we deze systematisch in een gestandaardiseerde LLM-voorpretrainingsomgeving. Onze bevindingen tonen aan dat een dieptewaartse stapeloperator, genaamd G_{stack}, een opmerkelijke versnelling in de training laat zien, wat leidt tot een verminderd verlies en verbeterde algehele prestaties op acht standaard NLP-benchmarks in vergelijking met sterke baselines. Gemotiveerd door deze veelbelovende resultaten, voeren we uitgebreide experimenten uit om dieper in te gaan op G_{stack} om O2 en O3 aan te pakken. Voor O2 (ongeteste schaalbaarheid) toont onze studie aan dat G_{stack} schaalbaar is en consistent goed presteert, met experimenten tot 7B LLM's na groei en voorpretraining van LLM's met 750B tokens. Bijvoorbeeld, in vergelijking met een conventioneel getraind 7B-model met 300B tokens, convergeert ons G_{stack}-model naar hetzelfde verlies met 194B tokens, wat resulteert in een versnelling van 54,6\%. We pakken O3 (gebrek aan empirische richtlijnen) verder aan door richtlijnen te formaliseren om het groeitijdstip en de groeifactor voor G_{stack} te bepalen, waardoor het praktisch toepasbaar wordt in algemene LLM-voorpretraining. We bieden ook diepgaande discussies en uitgebreide ablatiestudies van G_{stack}. Onze code en voorgetrainde modellen zijn beschikbaar op https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
We introduce AutoCoder, the first Large Language Model to surpass GPT-4 Turbo (April 2024) and GPT-4o in pass@1 on the Human Eval benchmark test (90.9% vs. 90.2%). In addition, AutoCoder offers a more versatile code interpreter compared to GPT-4 Turbo and GPT-4o. It's code interpreter can install external packages instead of limiting to built-in packages. AutoCoder's training data is a multi-turn dialogue dataset created by a system combining agent interaction and external code execution verification, a method we term \textsc{AIEV-Instruct} (Instruction Tuning with Agent-Interaction and Execution-Verified). Compared to previous large-scale code dataset generation methods, AIEV-Instruct reduces dependence on proprietary large models and provides execution-validated code dataset. The code and the demo video is available in https://github.com/bin123apple/AutoCoder.
Bestaande leersnelheidsschema's die geen specificatie vereisen van de optimalisatiestopstap T, worden sterk overtroffen door leersnelheidsschema's die afhankelijk zijn van T. Wij stellen een aanpak voor die de noodzaak van deze stopstap vermijdt door het gebruik van schema's volledig achterwege te laten, terwijl het state-of-the-art prestaties vertoont in vergelijking met schema's voor een breed scala aan problemen, van convexe problemen tot grootschalige deep learning-problemen. Onze Schedule-Free aanpak introduceert geen extra hyperparameters bovenop standaard optimalisatie-algoritmen met momentum. Onze methode is een direct gevolg van een nieuwe theorie die wij ontwikkelen en die schema's en iteratiegemiddelden verenigt. Een open source implementatie van onze methode is beschikbaar (https://github.com/facebookresearch/schedule_free).
We presenteren een nieuw generatief 3D-modelleersysteem, genaamd CraftsMan, dat hoogwaardige 3D-geometrieën kan genereren met zeer uiteenlopende vormen, regelmatige maashtopologieën en gedetailleerde oppervlakken, en dat bovendien mogelijkheden biedt om de geometrie op een interactieve manier te verfijnen. Ondanks de aanzienlijke vooruitgang in 3D-generatie, worstelen bestaande methoden nog steeds met langdurige optimalisatieprocessen, onregelmatige maashtopologieën, ruwe oppervlakken en moeilijkheden bij het aanpassen van gebruikersbewerkingen, wat hun brede adoptie en implementatie in 3D-modelleersoftware belemmert. Ons werk is geïnspireerd door de ambachtsman, die meestal eerst de algehele vorm van het werk schetst en vervolgens de oppervlaktedetails uitwerkt. Specifiek maken we gebruik van een 3D-native diffusiemodel, dat opereert op een latente ruimte die is geleerd uit latente set-gebaseerde 3D-representaties, om grove geometrieën met regelmatige maashtopologie in seconden te genereren. Dit proces neemt als invoer een tekstprompt of een referentiebeeld en maakt gebruik van een krachtig multi-view (MV) diffusiemodel om meerdere aanzichten van de grove geometrie te genereren, die vervolgens worden ingevoerd in ons MV-geconditioneerde 3D-diffusiemodel voor het genereren van de 3D-geometrie, wat de robuustheid en generaliseerbaarheid aanzienlijk verbetert. Daarna wordt een op normaal gebaseerde geometrie-verfijner gebruikt om de oppervlaktedetails aanzienlijk te verbeteren. Deze verfijning kan automatisch worden uitgevoerd, of interactief met door de gebruiker aangeleverde bewerkingen. Uitgebreide experimenten tonen aan dat onze methode een hoge effectiviteit bereikt in het produceren van hoogwaardige 3D-assets in vergelijking met bestaande methoden. HomePage: https://craftsman3d.github.io/, Code: https://github.com/wyysf-98/CraftsMan
Wereldmodellen stellen modelgebaseerde agents in staat om interactief te verkennen, redeneren en plannen binnen verbeeldde omgevingen voor besluitvorming in de echte wereld. De hoge vraag naar interactiviteit brengt echter uitdagingen met zich mee bij het benutten van recente vooruitgang in videogeneratieve modellen voor de ontwikkeling van wereldmodellen op grote schaal. Dit werk introduceert Interactive VideoGPT (iVideoGPT), een schaalbaar autoregressief transformer-raamwerk dat multimodale signalen—visuele waarnemingen, acties en beloningen—integreert in een reeks tokens, waardoor een interactieve ervaring van agents mogelijk wordt gemaakt via next-token voorspelling. iVideoGPT beschikt over een innovatieve compressieve tokenisatietechniek die hoogdimensionale visuele waarnemingen efficiënt discretiseert. Door gebruik te maken van de schaalbare architectuur kunnen we iVideoGPT vooraf trainen op miljoenen menselijke en robotische manipulatietrajecten, waardoor een veelzijdige basis wordt gecreëerd die aanpasbaar is om te dienen als interactieve wereldmodellen voor een breed scala aan downstream taken. Deze omvatten actie-geconditioneerde videovoorspelling, visuele planning en modelgebaseerde reinforcement learning, waarbij iVideoGPT competitieve prestaties behaalt in vergelijking met state-of-the-art methoden. Ons werk bevordert de ontwikkeling van interactieve algemene wereldmodellen en overbrugt de kloof tussen generatieve videomodellen en praktische modelgebaseerde reinforcement learning-toepassingen.
Zelfgesuperviseerde kenmerken vormen de hoeksteen van moderne machine learning-systemen. Ze worden doorgaans voorgetraind op gegevensverzamelingen waarvan de constructie en curatie meestal uitgebreide menselijke inspanning vereisen. Dit handmatige proces kent enkele beperkingen die vergelijkbaar zijn met die in gesuperviseerd leren, zoals de kostbare en tijdrovende crowdsourced selectie van gegevens, wat het opschalen van de datasetgrootte belemmert. In dit werk beschouwen we het probleem van de automatische curatie van hoogwaardige datasets voor zelfgesuperviseerde voorpretraining. We stellen dat dergelijke datasets groot, divers en gebalanceerd moeten zijn, en stellen een op clustering gebaseerde aanpak voor om datasets te bouwen die aan al deze criteria voldoen. Onze methode omvat opeenvolgende en hiërarchische toepassingen van k-means op een grote en diverse gegevensrepository om clusters te verkrijgen die uniform verdeeld zijn over gegevensconcepten, gevolgd door een hiërarchische, gebalanceerde steekproef uit deze clusters. Uitgebreide experimenten op drie verschillende gegevensdomeinen, waaronder webbased afbeeldingen, satellietafbeeldingen en tekst, tonen aan dat kenmerken die zijn getraind op onze automatisch gecureerde datasets beter presteren dan die getraind op ongecureerde gegevens, terwijl ze vergelijkbaar of beter zijn dan die getraind op handmatig gecureerde gegevens.
Taalmmodellen (LMs) worden al lang gebruikt om de resultaten van automatische spraakherkenning (ASR) systemen te verbeteren, maar ze zijn zich niet bewust van de fouten die ASR-systemen maken. Foutcorrectiemodellen zijn ontworpen om ASR-fouten te corrigeren, maar ze lieten weinig verbetering zien ten opzichte van traditionele LMs, voornamelijk door het gebrek aan begeleide trainingsdata. In dit artikel presenteren we Denoising LM (DLM), een opgeschaald foutcorrectiemodel getraind met enorme hoeveelheden synthetische data, dat eerdere pogingen aanzienlijk overtreft en tegelijkertijd nieuwe state-of-the-art ASR-prestaties bereikt. We gebruiken text-to-speech (TTS) systemen om audio te synthetiseren, die vervolgens in een ASR-systeem wordt gevoerd om ruwe hypotheses te produceren, die dan worden gekoppeld aan de originele teksten om de DLM te trainen. DLM heeft verschillende belangrijke ingrediënten: (i) opgeschaald model en data; (ii) gebruik van multi-speaker TTS-systemen; (iii) combinatie van meerdere ruis-augmentatiestrategieën; en (iv) nieuwe decodeertechnieken. Met een Transformer-CTC ASR bereikt DLM een woordfoutpercentage (WER) van 1,5% op test-clean en 3,3% WER op test-other op Librispeech, wat voor zover wij weten de beste gerapporteerde resultaten zijn in de setting waar geen externe audiodata worden gebruikt en zelfs overeenkomen met zelf-begeleide methoden die externe audiodata gebruiken. Bovendien is een enkele DLM toepasbaar op verschillende ASRs en overtreft het de prestaties van conventionele LM-gebaseerde beam-search herscoren aanzienlijk. Deze resultaten geven aan dat goed onderzochte foutcorrectiemodellen het potentieel hebben om conventionele LMs te vervangen, wat de sleutel vormt naar een nieuw niveau van nauwkeurigheid in ASR-systemen.
Grote taalmodellen vertonen uitzonderlijke generalisatiecapaciteiten, voornamelijk toegeschreven aan het gebruik van divers samengestelde gegevensbronnen. Echter, conventionele praktijken bij het integreren van deze diverse gegevens zijn sterk afhankelijk van heuristische schema's, waarbij theoretische onderbouwing ontbreekt. Dit onderzoek gaat deze beperkingen te lijf door strategieën te onderzoeken die gebaseerd zijn op kosteneffectieve proxies voor gegevensmengsels, met als doel het stroomlijnen van gegevenscuratie om de trainings efficiëntie te verbeteren. Specifiek stellen we een uniforme schaalwet voor, genaamd BiMix, die nauwkeurig de bivariate schaalgedragingen van zowel gegevenshoeveelheid als mengverhoudingen modelleert. We voeren systematische experimenten uit en leveren empirisch bewijs voor de voorspellende kracht en fundamentele principes van BiMix. Opmerkelijk is dat onze bevindingen aantonen dat entropie-gestuurde, trainingsvrije gegevensmengsels vergelijkbare of zelfs betere prestaties kunnen bereiken dan meer resource-intensieve methoden. We hopen dat onze kwantitatieve inzichten verder verstandig onderzoek en ontwikkeling kunnen stimuleren op het gebied van kosteneffectieve taalmodellering.
High dynamic range (HDR) novel view synthesis (NVS) heeft als doel fotorealistische beelden te creëren vanuit nieuwe gezichtspunten met behulp van HDR-beeldtechnieken. De gerenderde HDR-beelden vangen een breder bereik van helderheidsniveaus op en bevatten meer details van de scène dan normale low dynamic range (LDR)-beelden. Bestaande HDR NVS-methoden zijn voornamelijk gebaseerd op NeRF. Deze hebben last van lange trainingstijden en trage inferentiesnelheden. In dit artikel stellen we een nieuw framework voor, High Dynamic Range Gaussian Splatting (HDR-GS), dat efficiënt nieuwe HDR-beelden kan renderen en LDR-beelden kan reconstrueren met een door de gebruiker ingevoerde belichtingstijd. Specifiek ontwerpen we een Dual Dynamic Range (DDR) Gaussian point cloud-model dat sferische harmonischen gebruikt om HDR-kleuren te benaderen en een MLP-gebaseerde tone-mapper inzet om LDR-kleuren te renderen. De HDR- en LDR-kleuren worden vervolgens ingevoerd in twee Parallelle Differentieerbare Rasterisatie (PDR)-processen om HDR- en LDR-beelden te reconstrueren. Om de datafundering te leggen voor het onderzoek naar 3D Gaussian splatting-gebaseerde methoden in HDR NVS, kalibreren we de cameraparameters opnieuw en berekenen we de initiële posities voor Gaussian point clouds. Experimenten tonen aan dat onze HDR-GS de state-of-the-art NeRF-gebaseerde methode overtreft met 3,84 en 1,91 dB op LDR- en HDR NVS, terwijl het een 1000x snellere inferentiesnelheid biedt en slechts 6,3% van de trainingstijd vereist.