Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opmerkelijke multimodale capaciteiten en interactieve ervaring van GPT-4o benadrukken hun noodzaak in praktische toepassingen, terwijl open-source modellen zelden uitblinken in beide aspecten. In dit artikel introduceren we VITA, het allereerste open-source Multimodale Taalmodel (MLLM) dat geschikt is voor de gelijktijdige verwerking en analyse van Video, Afbeelding, Tekst en Audio, en tegelijkertijd een geavanceerde multimodale interactieve ervaring biedt. Beginnend met Mixtral 8x7B als taalbasis, breiden we de Chinese woordenschat uit, gevolgd door tweetalige instructieafstemming. We voorzien het taalmodel verder van visuele en auditieve capaciteiten door middel van tweefasen multitask-leren van multimodale afstemming en instructieafstemming. VITA toont robuuste basisvaardigheden in meertaligheid, visueel en auditief begrip, zoals blijkt uit de sterke prestaties op een reeks zowel unimodale als multimodale benchmarks. Naast basisvaardigheden hebben we aanzienlijke vooruitgang geboekt in het verbeteren van de natuurlijke multimodale mens-computerinteractie-ervaring. Voor zover wij weten, zijn wij de eersten die niet-ontwaakinteractie en audio-onderbreking in MLLM benutten. VITA is de eerste stap voor de open-source gemeenschap om de naadloze integratie van multimodaal begrip en interactie te verkennen. Hoewel er nog veel werk aan VITA moet worden verricht om dicht bij closed-source tegenhangers te komen, hopen we dat zijn rol als pionier kan dienen als hoeksteen voor vervolgonderzoek. Projectpagina: https://vita-home.github.io.
Sparse autoencoders (SAE's) zijn een onbewaakte methode voor het leren van een sparse decompositie van de latente representaties van een neuraal netwerk in schijnbaar interpreteerbare kenmerken. Ondanks de recente opwinding over hun potentieel, worden onderzoeksapplicaties buiten de industrie beperkt door de hoge kosten van het trainen van een uitgebreide set SAE's. In dit werk introduceren we Gemma Scope, een open suite van JumpReLU SAE's getraind op alle lagen en sublagen van Gemma 2 2B en 9B en geselecteerde lagen van Gemma 2 27B basismodellen. We trainen voornamelijk SAE's op de vooraf getrainde Gemma 2-modellen, maar geven daarnaast ook SAE's vrij die zijn getraind op de instructie-getunede Gemma 2 9B voor vergelijking. We evalueren de kwaliteit van elke SAE aan de hand van standaardmetrieken en publiceren deze resultaten. We hopen dat door het vrijgeven van deze SAE-gewichten, we ambitieuzer onderzoek naar veiligheid en interpreteerbaarheid voor de gemeenschap kunnen vergemakkelijken. Gewichten en een tutorial zijn te vinden op https://huggingface.co/google/gemma-scope en een interactieve demo is beschikbaar op https://www.neuronpedia.org/gemma-scope.
Multi-modale Large Language Models (MLLMs) hebben opmerkelijke capaciteiten getoond bij het uitvoeren van instructies voor een verscheidenheid aan taken met één afbeelding. Ondanks deze vooruitgang blijven er aanzienlijke uitdagingen bestaan bij het modelleren van lange beeldsequenties. In dit werk introduceren we het veelzijdige multi-modale large language model, mPLUG-Owl3, dat het vermogen verbetert voor het begrijpen van lange beeldsequenties in scenario's die opgehaalde beeld-tekstkennis, afgewisselde beeld-tekst en lange video's omvatten. Specifiek stellen we nieuwe hyper attention blocks voor om visie en taal efficiënt te integreren in een gemeenschappelijke taalgeleide semantische ruimte, waardoor de verwerking van uitgebreide multi-beeldscenario's wordt vergemakkelijkt. Uitgebreide experimentele resultaten suggereren dat mPLUG-Owl3 state-of-the-art prestaties behaalt onder modellen van vergelijkbare grootte op benchmarks voor één afbeelding, meerdere afbeeldingen en video's. Bovendien stellen we een uitdagende evaluatie van lange visuele sequenties voor, genaamd Distractor Resistance, om het vermogen van modellen te beoordelen om focus te behouden te midden van afleidingen. Ten slotte toont mPLUG-Owl3 met de voorgestelde architectuur uitstekende prestaties op ultra-lange visuele sequentie-invoeren. We hopen dat mPLUG-Owl3 kan bijdragen aan de ontwikkeling van efficiëntere en krachtigere multimodale large language models.
Aanzienlijke onderzoeksinspanningen zijn geleverd om de schaal en verbetering van trainingsbenaderingen voor vision-language modellen (VLM) te vergroten. Echter, met een steeds groeiend aantal benchmarks worden onderzoekers geconfronteerd met de zware last van het implementeren van elk protocol, het dragen van een niet-triviale rekenkundige kost, en het begrijpen van hoe al deze benchmarks vertaald worden in betekenisvolle assen van vooruitgang. Om een systematische evaluatie van VLM-vooruitgang te vergemakkelijken, introduceren we UniBench: een geïntegreerde implementatie van 50+ VLM-benchmarks die een uitgebreid scala aan zorgvuldig gecategoriseerde vaardigheden omvatten, van objectherkenning tot ruimtelijk bewustzijn, tellen, en nog veel meer. We demonstreren het nut van UniBench voor het meten van vooruitgang door bijna 60 publiek beschikbare vision-language modellen te evalueren, getraind op schalen van tot wel 12,8 miljard samples. We constateren dat hoewel het schalen van trainingsdata of modelgrootte veel vision-language modelvaardigheden kan verbeteren, schalen weinig voordeel biedt voor redeneren of relaties. Verrassend genoeg ontdekken we ook dat de beste VLMs van vandaag moeite hebben met eenvoudige cijferherkenning en telopdrachten, zoals MNIST, die veel eenvoudigere netwerken kunnen oplossen. Waar schaal tekortschiet, vinden we dat meer precieze interventies, zoals data-kwaliteit of op maat gemaakte leerdoelen, meer belofte bieden. Voor praktijkmensen bieden we ook richtlijnen voor het selecteren van een geschikt VLM voor een bepaalde toepassing. Tot slot geven we een eenvoudig te gebruiken UniBench-codebase vrij met de volledige set van 50+ benchmarks en vergelijkingen over 59 modellen, evenals een gedistilleerde, representatieve set benchmarks die in 5 minuten op een enkele GPU draait.
Recente vooruitgang in grote taalmodellen (LLMs) heeft een groeiende onderzoeksinteresse gewekt in het oplossen van real-world uitdagingen met behulp van tool-geassisteerde LLMs, wat een uitgebreide evaluatie van tool-gebruikscapaciteiten vereist. Terwijl eerdere werken zich richtten op het evalueren van stateless webservices (RESTful API), gebaseerd op een enkele gebruikersprompt, of een off-policy dialoogtraject, omvat ToolSandbox stateful tool-uitvoering, impliciete staat-afhankelijkheden tussen tools, een ingebouwde gebruikerssimulator die on-policy conversatie-evaluatie ondersteunt, en een dynamische evaluatiestrategie voor tussenliggende en finale mijlpalen over een willekeurig traject. We tonen aan dat open-source en propriëtaire modellen een aanzienlijk prestatieverschil vertonen, en complexe taken zoals State Dependency, Canonicalization en Insufficient Information, zoals gedefinieerd in ToolSandbox, zelfs de meest capabele state-of-the-art LLMs uitdagen, wat nieuwe inzichten biedt in de tool-gebruikscapaciteiten van LLMs. Het ToolSandbox evaluatieframework is vrijgegeven op https://github.com/apple/ToolSandbox.
Ondanks de veelbelovende vooruitgang in superresolutie van gezichtsafbeeldingen, blijft superresolutie van gezichten in video's relatief onderbelicht. Bestaande benaderingen passen ofwel algemene superresolutienetwerken voor video's aan op gezichtsdatasets, ofwel passen gevestigde superresolutiemodellen voor gezichtsafbeeldingen onafhankelijk toe op individuele videoframes. Deze paradigma's kampen met uitdagingen bij het reconstrueren van gezichtsdetails of het behouden van temporele consistentie. Om deze problemen aan te pakken, introduceren we een nieuw raamwerk genaamd Kalman-inspired Feature Propagation (KEEP), ontworpen om een stabiele gezichtsvoorkennis in de tijd te behouden. De principes van Kalman-filtering bieden onze methode een terugkerend vermogen om informatie van eerder herstelde frames te gebruiken om het herstelproces van het huidige frame te begeleiden en te reguleren. Uitgebreide experimenten tonen de effectiviteit van onze methode aan in het consistent vastleggen van gezichtsdetails over videoframes. Code en videodemo zijn beschikbaar op https://jnjaby.github.io/projects/KEEP.
Textual Inversion blijft een populaire methode voor het personaliseren van diffusiemodellen, om modellen nieuwe onderwerpen en stijlen aan te leren. We merken op dat textual inversion nog onvoldoende is onderzocht met alternatieven voor de UNet, en experimenteren met textual inversion in combinatie met een vision transformer. We streven er ook naar om textual inversion te optimaliseren met een strategie die geen expliciet gebruik vereist van de UNet en zijn eigenaardige lagen, dus voegen we bonus-tokens toe en handhaven we orthogonaliteit. We ontdekken dat het gebruik van het bonus-token de trouw aan de bronafbeeldingen verbetert en dat het gebruik van de vision transformer de trouw aan de prompt verhoogt. Code is beschikbaar op https://github.com/jamesBaker361/tex_inv_plus.
Voice conversion heeft als doel de stem van de bronspreker aan te passen om te lijken op die van de doelspreker, terwijl de oorspronkelijke spraakinhoud behouden blijft. Ondanks aanzienlijke vooruitgang in voice conversion de laatste tijd, is meertalige voice conversion (inclusief zowel eentalige als cross-linguale scenario's) nog niet uitgebreid bestudeerd. Het wordt geconfronteerd met twee belangrijke uitdagingen: 1) de aanzienlijke variabiliteit in prosodie en articulatiegewoonten tussen talen; en 2) de schaarste van gepaarde meertalige datasets van dezelfde spreker. In dit artikel stellen we MulliVC voor, een nieuw voice conversion-systeem dat alleen de timbre converteert en de oorspronkelijke inhoud en prosodie van de brontaal behoudt zonder gebruik te maken van meertalige gepaarde data. Specifiek bestaat elke trainingsstap van MulliVC uit drie substappen: in stap één wordt het model getraind met eentalige spraakdata; vervolgens nemen stappen twee en drie inspiratie van back translation en construeren een cyclisch proces om de timbre en andere informatie (inhoud, prosodie en andere taalgerelateerde informatie) te ontwarren bij afwezigheid van meertalige data van dezelfde spreker. Zowel objectieve als subjectieve resultaten geven aan dat MulliVC andere methoden aanzienlijk overtreft in zowel eentalige als cross-linguale contexten, wat de effectiviteit van het systeem en de haalbaarheid van de driestapsaanpak met cyclusconsistentie aantoont. Audiovoorbeelden zijn te vinden op onze demopagina (mullivc.github.io).
In dit artikel presenteren we MooER, een op LLM gebaseerd grootschalig model voor automatische spraakherkenning (ASR) / automatische spraakvertaling (AST) van Moore Threads. Voor de training wordt gebruikgemaakt van een pseudo-gelabelde dataset van 5000 uur, bestaande uit open source en zelf verzamelde spraakdata. We behalen prestaties die vergelijkbaar zijn met andere open source modellen die getraind zijn met tot honderdduizenden uren aan gelabelde spraakdata. Tegelijkertijd suggereren experimenten uitgevoerd op de Covost2 Zh2en-testset dat ons model andere open source Speech LLMs overtreft. Een BLEU-score van 25,2 kan worden behaald. De belangrijkste bijdragen van dit artikel zijn als volgt samengevat. Ten eerste presenteert dit artikel een trainingsstrategie voor encoders en LLMs voor spraakgerelateerde taken (inclusief ASR en AST) met behulp van een kleine hoeveelheid pseudo-gelabelde data, zonder extra handmatige annotatie en selectie. Ten tweede geven we onze ASR- en AST-modellen vrij en zijn we van plan onze trainingscode en strategie in de nabije toekomst open source te maken. Bovendien is het de bedoeling om later een model dat getraind is op 8wh-schaal trainingsdata vrij te geven.
Neurale netwerktaalmodellen (LMs) zijn effectief gebleken in het vastleggen van complexe linguïstische kennis. Hun nut voor het begrijpen van taalverwerving blijft echter onderwerp van discussie. Wij dragen bij aan deze discussie door een casestudy te presenteren waarin we LMs gebruiken als gesimuleerde leerders om nieuwe experimentele hypothesen af te leiden die vervolgens met mensen kunnen worden getest. We passen dit paradigma toe om cross-datieve generalisatie (CDG) te bestuderen: de productieve generalisatie van nieuwe werkwoorden over dative constructies (ze pilkte me de bal/ze pilkte de bal naar mij) – waarvan bekend is dat de verwerving ervan een grote ruimte aan contextuele kenmerken omvat – met behulp van LMs die getraind zijn op kindgerichte spraak. We vragen specifiek: "welke eigenschappen van de trainingsblootstelling faciliteren de generalisatie van een nieuw werkwoord naar de (niet-gemodelleerde) alternatieve constructie?" Om dit te beantwoorden, variëren we systematisch de blootstellingscontext waarin een nieuw datiefwerkwoord voorkomt, in termen van de eigenschappen van het thema en de ontvanger, en analyseren we vervolgens het gebruik van het nieuwe werkwoord door de LMs in de niet-gemodelleerde datiefconstructie. We constateren dat LMs bekende patronen van CDG bij kinderen repliceren, als voorwaarde voor het verkennen van nieuwe hypothesen. Latere simulaties onthullen een genuanceerde rol van de kenmerken van de blootstellingscontext van de nieuwe werkwoorden op de CDG van de LMs. We vinden dat CDG wordt gefaciliteerd wanneer het eerste postverbale argument van de blootstellingscontext pronominaal, definitief, kort is en voldoet aan de prototypische animacy-verwachtingen van de blootgestelde datief. Deze patronen zijn kenmerkend voor harmonische uitlijning in datieven, waarbij het argument met kenmerken die hoger scoren op de schaal van discoursprominentie de neiging heeft het andere argument vooraf te gaan. Dit leidt tot een nieuwe hypothese dat CDG wordt gefaciliteerd voor zover de kenmerken van de blootstellingscontext – met name het eerste postverbale argument – harmonisch zijn uitgelijnd. We sluiten af met het voorstellen van toekomstige experimenten die deze hypothese bij kinderen kunnen testen.