Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De groeiende interesse in vision-language models (VLMs) wordt aangedreven door verbeteringen in grote taalmodellen en vision transformers. Ondanks de overvloed aan literatuur over dit onderwerp, merken we op dat cruciale beslissingen met betrekking tot het ontwerp van VLMs vaak niet worden onderbouwd. Wij stellen dat deze ongefundeerde beslissingen de vooruitgang in het veld belemmeren door het moeilijk te maken om te identificeren welke keuzes de modelprestaties verbeteren. Om dit probleem aan te pakken, voeren we uitgebreide experimenten uit rond vooraf getrainde modellen, architectuurkeuze, data en trainingsmethoden. Onze consolidatie van bevindingen omvat de ontwikkeling van Idefics2, een efficiënt foundation VLM met 8 miljard parameters. Idefics2 behaalt state-of-the-art prestaties binnen zijn groottecategorie op verschillende multimodale benchmarks, en is vaak vergelijkbaar met modellen die vier keer zo groot zijn. We geven het model vrij (basis, geïnstrueerd en chat) samen met de datasets die zijn gemaakt voor de training ervan.
In dit technisch rapport presenteren we de workflow van Online Iteratieve Reinforcement Learning from Human Feedback (RLHF), waarvan in de recente literatuur over grote taalmodellen (LLM) wordt gemeld dat het zijn offline tegenhanger met een grote marge overtreft. Bestaande open-source RLHF-projecten zijn echter nog grotendeels beperkt tot de offline leeromgeving. Met dit technisch rapport willen we deze kloof opvullen en een gedetailleerd recept bieden dat eenvoudig te reproduceren is voor online iteratieve RLHF. Aangezien online menselijke feedback meestal niet haalbaar is voor open-source gemeenschappen met beperkte middelen, beginnen we met het construeren van voorkeursmodellen met behulp van een diverse set open-source datasets en gebruiken we het geconstrueerde proxy-voorkeursmodel om menselijke feedback te benaderen. Vervolgens bespreken we de theoretische inzichten en algoritmische principes achter online iteratieve RLHF, gevolgd door een gedetailleerde praktische implementatie. Ons getrainde LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, behaalt indrukwekkende prestaties op LLM-chatbot benchmarks, waaronder AlpacaEval-2, Arena-Hard en MT-Bench, evenals andere academische benchmarks zoals HumanEval en TruthfulQA. We hebben aangetoond dat supervised fine-tuning (SFT) en iteratieve RLHF state-of-the-art prestaties kunnen bereiken met volledig open-source datasets. Bovendien hebben we onze modellen, gecureerde datasets en uitgebreide stapsgewijze codehandleidingen openbaar gemaakt. Raadpleeg https://github.com/RLHFlow/RLHF-Reward-Modeling en https://github.com/RLHFlow/Online-RLHF voor meer gedetailleerde informatie.
In dit artikel introduceren we SUTRA, een architectuur voor meertalige Large Language Models die tekst kan begrijpen, redeneren en genereren in meer dan 50 talen. Het ontwerp van SUTRA ontkoppelt op unieke wijze het kernconceptuele begrip van taalspecifieke verwerking, wat schaalbare en efficiënte meertalige uitlijning en leren bevordert. Door gebruik te maken van een Mixture of Experts-framework in zowel taal- als conceptverwerking, toont SUTRA zowel computationele efficiëntie als responsiviteit. Uit uitgebreide evaluaties blijkt dat SUTRA bestaande modellen zoals GPT-3.5 en Llama2 met 20-30% overtreft op toonaangevende Massive Multitask Language Understanding (MMLU) benchmarks voor meertalige taken. SUTRA-modellen zijn ook online LLM's die kennis van het internet kunnen gebruiken om hallucinatievrije, feitelijke en actuele antwoorden te geven, terwijl ze hun meertalige capaciteiten behouden. Bovendien onderzoeken we de bredere implicaties van de architectuur voor de toekomst van meertalige AI, waarbij we het potentieel benadrukken om toegang tot AI-technologie wereldwijd te democratiseren en de gelijkheid en bruikbaarheid van AI te verbeteren in regio's waar voornamelijk niet-Engelse talen worden gesproken. Onze bevindingen suggereren dat SUTRA niet alleen cruciale lacunes in meertalige modelcapaciteiten opvult, maar ook een nieuwe standaard vestigt voor operationele efficiëntie en schaalbaarheid in AI-toepassingen.
Monolithische grote taalmodellen (LLM's) zoals GPT-4 hebben de weg geëffend voor moderne generatieve AI-toepassingen. Het trainen, serveren en onderhouden van monolithische LLM's op schaal blijft echter buitengewoon kostbaar en uitdagend. De onevenredige toename in de compute-to-memory-ratio van moderne AI-accelerators heeft een geheugenmuur gecreëerd, wat nieuwe methoden vereist om AI te implementeren. Composition of Experts (CoE) is een alternatieve modulaire aanpak die de kosten en complexiteit van trainen en serveren verlaagt. Deze aanpak brengt echter twee belangrijke uitdagingen met zich mee bij het gebruik van conventionele hardware: (1) zonder gefuseerde operaties hebben kleinere modellen een lagere operationele intensiteit, wat het bereiken van een hoge benutting moeilijker maakt; en (2) het hosten van een groot aantal modellen kan buitengewoon kostbaar of traag zijn bij het dynamisch schakelen tussen hen. In dit artikel beschrijven we hoe de combinatie van CoE, streaming dataflow en een drie-lagen geheugensysteem de AI-geheugenmuur schaalbaar maakt. We beschrijven Samba-CoE, een CoE-systeem met 150 experts en een totaal van een biljoen parameters. We implementeren Samba-CoE op de SambaNova SN40L Reconfigurable Dataflow Unit (RDU) – een commerciële dataflow-acceleratorarchitectuur die mede is ontworpen voor enterprise-inferentie- en trainingsapplicaties. De chip introduceert een nieuw drie-lagen geheugensysteem met on-chip gedistribueerde SRAM, on-package HBM en off-package DDR DRAM. Een toegewijd inter-RDU-netwerk maakt schaalbaarheid mogelijk over meerdere sockets. We demonstreren snelheidswinsten variërend van 2x tot 13x op verschillende benchmarks die draaien op acht RDU-sockets in vergelijking met een niet-gefuseerde baseline. We laten zien dat voor CoE-inferentie-implementaties de 8-socket RDU Node de machinefootprint tot 19x verkleint, de modelwisseltijd met 15x tot 31x versnelt en een algehele snelheidswinst van 3.7x behaalt ten opzichte van een DGX H100 en 6.6x ten opzichte van een DGX A100.
Recente doorbraken in grote modellen hebben het cruciale belang van dataschaal, labels en modaliteiten benadrukt. In dit artikel introduceren we MS MARCO Web Search, de eerste grootschalige, informatieve webdataset, met miljoenen echte geklikte query-documentlabels. Deze dataset bootst de verdeling van webdocumenten en queries uit de echte wereld nauwkeurig na, biedt rijke informatie voor verschillende soorten downstream taken en stimuleert onderzoek op diverse gebieden, zoals generieke end-to-end neurale indexeringsmodellen, generieke embeddingmodellen en de volgende generatie informatiesystemen met grote taalmmodellen. MS MARCO Web Search biedt een retrievalbenchmark met drie webretrieval-uitdagingstaken die innovaties vereisen op het gebied van zowel machine learning als informatie-retrievalsystemen. Als de eerste dataset die voldoet aan de eisen van grote, echte en rijke data, effent MS MARCO Web Search de weg voor toekomstige vooruitgang in AI- en systeemonderzoek. De MS MARCO Web Search-dataset is beschikbaar op: https://github.com/microsoft/MS-MARCO-Web-Search.
De opmerkelijke vooruitgang van Multi-modale Large Language Models (MLLMs) heeft aanzienlijke aandacht getrokken vanwege hun superieure prestaties in visuele contexten. Hun vermogen om visuele figuren om te zetten in uitvoerbare code is echter nog niet grondig geëvalueerd. Om dit aan te pakken, introduceren we Plot2Code, een uitgebreide visuele codeerbenchmark die is ontworpen voor een eerlijke en diepgaande beoordeling van MLLMs. We hebben zorgvuldig 132 handmatig geselecteerde hoogwaardige matplotlib-plots verzameld, verdeeld over zes plottypes, afkomstig uit openbaar beschikbare matplotlib-galerijen. Voor elke plot bieden we zorgvuldig de broncode en een beschrijvende instructie samengevat door GPT-4. Deze aanpak stelt Plot2Code in staat om de codeervaardigheden van MLLMs uitgebreid te evalueren over verschillende invoermodaliteiten. Bovendien stellen we drie automatische evaluatiemetrics voor, waaronder de code-slaagratio, de tekst-matchratio en de GPT-4V-algemene beoordeling, voor een gedetailleerde beoordeling van de uitvoercode en gerenderde afbeeldingen. In plaats van simpelweg te oordelen of de code slaagt of faalt, gebruiken we GPT-4V om een algemeen oordeel te vellen tussen de gegenereerde en referentie-afbeeldingen, wat consistent is gebleken met menselijke evaluatie. De evaluatieresultaten, waaronder analyses van 14 MLLMs zoals de propriëtaire GPT-4V, Gemini-Pro en de open-source Mini-Gemini, benadrukken de aanzienlijke uitdagingen die Plot2Code biedt. Met Plot2Code onthullen we dat de meeste bestaande MLLMs moeite hebben met visueel coderen voor tekstrijke plots, waarbij ze sterk afhankelijk zijn van tekstuele instructies. We hopen dat de evaluatieresultaten van Plot2Code op het gebied van visueel coderen de toekomstige ontwikkeling van MLLMs zullen sturen. Alle gegevens die bij Plot2Code betrokken zijn, zijn beschikbaar op https://huggingface.co/datasets/TencentARC/Plot2Code.
In dit rapport introduceren we Piccolo2, een embeddingmodel dat andere modellen overtreft in de uitgebreide evaluatie over 6 taken op de CMTEB-benchmark, waarmee een nieuwe state-of-the-art wordt gevestigd. Piccolo2 maakt voornamelijk gebruik van een efficiënte multi-task hybride verliesfunctie tijdens de training, waarbij tekstuele gegevens en labels van diverse downstreamtaken effectief worden benut. Daarnaast schaalt Piccolo2 de embeddingdimensie op en gebruikt het MRL-training om flexibelere vectordimensies te ondersteunen. De meest recente informatie over Piccolo-modellen is beschikbaar via: https://huggingface.co/sensenova/
Geanimeerde logo's zijn een boeiende en alomtegenwoordige manier waarop individuen en merken zichzelf online vertegenwoordigen. Het handmatig ontwerpen van deze logo's kan aanzienlijke artistieke vaardigheid en inspanning vereisen. Om beginnende ontwerpers te helpen bij het animeren van logo's, bieden ontwerptools momenteel sjablonen en animatievoorinstellingen. Deze oplossingen kunnen echter beperkt zijn in hun expressieve bereik. Grote taalmodellen hebben het potentieel om beginnende ontwerpers te helpen bij het creëren van geanimeerde logo's door animatiecode te genereren die is afgestemd op hun inhoud. In dit artikel introduceren we LogoMotion, een op grote taalmodellen gebaseerd systeem dat een gelaagd document als invoer neemt en geanimeerde logo's genereert via visueel onderbouwde programma-synthese. We introduceren technieken om een HTML-representatie van een canvas te creëren, primaire en secundaire elementen te identificeren, animatiecode te synthetiseren en visueel animatiefouten te debuggen. In vergelijking met een industriestandaard tool, constateren we dat LogoMotion animaties produceert die meer inhoudsbewust zijn en qua kwaliteit op hetzelfde niveau liggen. We sluiten af met een bespreking van de implicaties van door grote taalmodellen gegenereerde animatie voor motion design.
Het ontwikkelen van domeinmodellen is een van de weinige overgebleven gebieden die handmatige menselijke arbeid vereisen binnen AI-planning. Om planning daarom toegankelijker te maken, is het wenselijk om het proces van domeinmodelgeneratie te automatiseren. Hiertoe onderzoeken we of grote taalmodellen (LLMs) kunnen worden gebruikt om planningsdomeinmodellen te genereren vanuit eenvoudige tekstuele beschrijvingen. Specifiek introduceren we een raamwerk voor de geautomatiseerde evaluatie van door LLM gegenereerde domeinen door de sets van plannen voor domeininstanties te vergelijken. Tot slot voeren we een empirische analyse uit van 7 grote taalmodellen, waaronder coderings- en chatmodellen, over 9 verschillende planningsdomeinen en onder drie klassen van natuurlijke taalbeschrijvingen van domeinen. Onze resultaten geven aan dat LLMs, met name die met een hoog aantal parameters, een matig niveau van vaardigheid vertonen in het genereren van correcte planningsdomeinen vanuit natuurlijke taalbeschrijvingen. Onze code is beschikbaar op https://github.com/IBM/NL2PDDL.