Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Denoising diffusion probabilistische modellen (DDPM's) hebben veelbelovende prestaties getoond voor spraaksynthese. Er zijn echter een groot aantal iteratieve stappen nodig om een hoge samplekwaliteit te bereiken, wat de inferentiesnelheid beperkt. Het behouden van de samplekwaliteit terwijl de sample-snelheid wordt verhoogd, is een uitdagende taak geworden. In dit artikel stellen we een "Co"nsistency "Mo"del-gebaseerde "Speech" synthese methode voor, CoMoSpeech, die spraaksynthese realiseert via een enkele diffusie-sample stap terwijl een hoge audiokwaliteit wordt bereikt. De consistentiebeperking wordt toegepast om een consistentiemodel te destilleren uit een goed ontworpen diffusie-gebaseerd leraarmodel, wat uiteindelijk superieure prestaties oplevert in het gedistilleerde CoMoSpeech. Onze experimenten tonen aan dat door het genereren van audio-opnames via een enkele sample stap, CoMoSpeech een inferentiesnelheid bereikt die meer dan 150 keer sneller is dan real-time op een enkele NVIDIA A100 GPU, wat vergelijkbaar is met FastSpeech2, waardoor diffusie-sample gebaseerde spraaksynthese echt praktisch wordt. Tegelijkertijd tonen objectieve en subjectieve evaluaties van tekst-naar-spraak en zangstem-synthese aan dat de voorgestelde leraarmodellen de beste audiokwaliteit opleveren, en dat de op één stap gebaseerde CoMoSpeech de beste inferentiesnelheid bereikt met een betere of vergelijkbare audiokwaliteit ten opzichte van andere conventionele multi-stap diffusie-model referenties. Audio samples zijn beschikbaar op https://comospeech.github.io/.
We presenteren Region-aware Open-vocabulary Vision Transformers (RO-ViT) - een contrastief beeld-tekst vooraf trainingsrecept om de kloof te overbruggen tussen beeldniveau vooraf trainen en open-vocabulary objectdetectie. Tijdens de vooraf trainingsfase stellen we voor om willekeurig regio's van positionele embeddings bij te snijden en te herschalen in plaats van de volledige positionele embeddings van het beeld te gebruiken. Dit sluit beter aan bij het gebruik van positionele embeddings op regioniveau in de detectie fine-tuningfase. Daarnaast vervangen we het gebruikelijke softmax kruis entropie verlies in contrastief leren door focal loss om de informatieve maar moeilijke voorbeelden beter te leren. Ten slotte benutten we recente vooruitgang in nieuwe objectvoorstellen om de open-vocabulary detectie fine-tuning te verbeteren. We evalueren ons volledige model op de LVIS en COCO open-vocabulary detectie benchmarks en zero-shot transfer. RO-ViT behaalt een state-of-the-art 32.1 AP_r op LVIS, wat het beste bestaande benadering met +5.8 punten overtreft, naast competitieve zero-shot transfer detectie. Verrassend genoeg verbetert RO-ViT ook de beeldniveau representatie en behaalt het de state of the art op 9 van de 12 metrieken op COCO en Flickr beeld-tekst retrieval benchmarks, waarbij het competitieve benaderingen met grotere modellen overtreft.
Algemene taalmodelen die verschillende taken in het taaldomein kunnen oplossen, zijn ontstaan dankzij de pipeline van vooraf trainen en instructie-afstemming. Het bouwen van algemene visueel-taalmodelen is echter uitdagend vanwege de grotere taakdiscrepantie die wordt geïntroduceerd door de extra visuele input. Hoewel visueel-taal vooraf trainen uitgebreid is bestudeerd, blijft visueel-taal instructie-afstemming relatief onderbelicht. In dit artikel voeren we een systematisch en uitgebreid onderzoek uit naar visueel-taal instructie-afstemming gebaseerd op de vooraf getrainde BLIP-2-modellen. We verzamelen een breed scala aan 26 publiekelijk beschikbare datasets, transformeren deze naar het instructie-afstemmingsformaat en categoriseren ze in twee clusters voor ingebedde instructie-afstemming en uitgehouden zero-shot evaluatie. Daarnaast introduceren we instructiebewuste visuele kenmerkextractie, een cruciale methode die het model in staat stelt informatieve kenmerken te extraheren die zijn afgestemd op de gegeven instructie. De resulterende InstructBLIP-modellen behalen state-of-the-art zero-shot prestaties op alle 13 uitgehouden datasets, waarbij ze BLIP-2 en het grotere Flamingo aanzienlijk overtreffen. Onze modellen leiden ook tot state-of-the-art prestaties wanneer ze worden afgestemd op individuele downstream taken (bijvoorbeeld 90,7% nauwkeurigheid op ScienceQA IMG). Bovendien tonen we kwalitatief de voordelen van InstructBLIP aan ten opzichte van gelijktijdige multimodale modellen. Alle InstructBLIP-modellen zijn open-source gemaakt op https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
We presenteren een nieuwe aanpak om voorkennis die is vastgelegd in vooraf getrainde tekst-naar-beeld diffusiemodellen te benutten voor blinde superresolutie (SR). Specifiek kunnen we, door gebruik te maken van onze tijdgevoelige encoder, veelbelovende herstelresultaten bereiken zonder het vooraf getrainde synthesemodel aan te passen, waardoor de generatieve voorkennis behouden blijft en de trainingskosten worden geminimaliseerd. Om het verlies van nauwkeurigheid veroorzaakt door de inherente stochastiek van diffusiemodellen te verhelpen, introduceren we een controleerbare feature wrapping module die gebruikers in staat stelt om kwaliteit en nauwkeurigheid in balans te brengen door simpelweg een scalaire waarde aan te passen tijdens het inferentieproces. Bovendien ontwikkelen we een progressieve aggregatie samplingstrategie om de vaste groottebeperkingen van vooraf getrainde diffusiemodellen te overwinnen, waardoor aanpassing aan resoluties van elke grootte mogelijk wordt. Een uitgebreide evaluatie van onze methode met behulp van zowel synthetische als real-world benchmarks toont de superioriteit aan ten opzichte van de huidige state-of-the-art benaderingen.
Vision transformers hebben grote successen geboekt dankzij hun hoge modelcapaciteiten. Hun opmerkelijke prestaties gaan echter gepaard met zware rekenkosten, waardoor ze ongeschikt zijn voor realtime toepassingen. In dit artikel introduceren we een familie van snelle vision transformers genaamd EfficientViT. We constateren dat de snelheid van bestaande transformermodellen vaak wordt beperkt door geheugeninefficiënte operaties, met name het hervormen van tensoren en elementgewijze functies in MHSA. Daarom ontwerpen we een nieuw bouwblok met een sandwichopbouw, waarbij een enkele geheugengebonden MHSA wordt gebruikt tussen efficiënte FFN-lagen, wat de geheugenefficiëntie verbetert en tegelijkertijd de kanaalcommunicatie versterkt. Bovendien ontdekken we dat de aandachtkaarten een hoge gelijkenis vertonen tussen de verschillende koppen, wat leidt tot rekenkundige redundantie. Om dit aan te pakken, presenteren we een gecascadeerde groepsaandachtsmodule die aandachtskoppen voedt met verschillende splitsingen van de volledige feature, wat niet alleen rekenkosten bespaart, maar ook de diversiteit van de aandacht verbetert. Uitgebreide experimenten tonen aan dat EfficientViT bestaande efficiënte modellen overtreft en een goede balans vindt tussen snelheid en nauwkeurigheid. Zo overtreft onze EfficientViT-M5 MobileNetV3-Large met 1,9% in nauwkeurigheid, terwijl het 40,4% en 45,2% hogere doorvoer behaalt op respectievelijk een Nvidia V100 GPU en een Intel Xeon CPU. Vergeleken met het recente efficiënte model MobileViT-XXS, behaalt EfficientViT-M2 1,8% betere nauwkeurigheid, terwijl het 5,8x/3,7x sneller draait op de GPU/CPU, en 7,4x sneller wanneer het wordt geconverteerd naar ONNX-formaat. Code en modellen zijn beschikbaar op https://github.com/microsoft/Cream/tree/main/EfficientViT.
CLIP, het eerste foundation-model dat afbeeldingen en tekst verbindt, heeft veel recente doorbraken in computervisie mogelijk gemaakt. De bijbehorende trainingskosten zijn echter extreem hoog, wat een aanzienlijke barrière vormt voor wijdverbreid onderzoek. In dit artikel presenteren we een verrassende bevinding: er bestaat een omgekeerde schaalwet voor CLIP-training, waarbij grotere beeld-/tekstencoders leiden tot kortere sequentielengtes van beeld-/teksttokens die tijdens de training kunnen worden gebruikt. Bovendien laten we zien dat de strategie voor het verkorten van de beeld-/teksttokenlengte een cruciale rol speelt bij het bepalen van de kwaliteit van deze schaalwet. Als gevolg van deze bevinding zijn we in staat om CLIP succesvol te trainen, zelfs met academische middelen. Op een A100-server met acht GPU's behalen onze CLIP-modellen bijvoorbeeld zero-shot top-1 nauwkeurigheden van 63,2% in ~2 dagen, 67,8% in ~3 dagen en 69,3% in ~4 dagen op ImageNet. Door de rekenkundige barrière van CLIP te verlagen, hopen we meer onderzoek in dit veld te inspireren, met name vanuit academische hoek. Onze code is beschikbaar op https://github.com/UCSC-VLAA/CLIPA.
Grote taalmmodellen (LLMs) hebben verrassend goede prestaties getoond in meertalige neurale machinaalvertaling (MNMT), zelfs wanneer ze getraind zijn zonder parallelle data. Desondanks, ondanks het feit dat de hoeveelheid trainingsdata gigantisch is, hebben ze nog steeds moeite met het vertalen van zeldzame woorden, vooral voor talen met weinig bronnen. Nog erger is dat het meestal onrealistisch is om relevante demonstraties te vinden voor in-context leren met talen met weinig bronnen op LLMs, wat het praktische gebruik van LLMs voor vertaling beperkt – hoe moeten we dit probleem aanpakken? Hiertoe presenteren we een nieuwe methode, CoD, die LLMs versterkt met voorkennis door middel van ketens van meertalige woordenboeken voor een subset van invoerwoorden om vertaalvaardigheden bij LLMs te stimuleren. Uitgebreide experimenten tonen aan dat het versterken van ChatGPT met CoD grote verbeteringen oplevert, tot wel 13x ChrF++ punten voor MNMT (3.08 tot 42.63 voor Engels naar Servisch geschreven in Cyrillisch schrift) op de volledige FLORES-200 devtest set. We demonstreren verder het belang van het ketenen van meertalige woordenboeken, evenals de superioriteit van CoD ten opzichte van few-shot demonstratie voor talen met weinig bronnen.
Het vermogen om te beoordelen of een bijschrift een afbeelding correct beschrijft, is een cruciaal onderdeel van visueel-taalkundig begrip. State-of-the-art modellen interpreteren echter vaak de correctheid van fijnmazige details verkeerd, wat leidt tot fouten in uitvoeren, zoals het hallucineren van objecten in gegenereerde bijschriften of slecht compositioneel redeneren. In dit werk onderzoeken we Token-Level Confidence, of TLC, als een eenvoudige maar verrassend effectieve methode om de correctheid van bijschriften te beoordelen. Specifiek fine-tunen we een visueel-taalkundig model op beeldbeschrijving, voeren een afbeelding en een voorgesteld bijschrift in het model in, en aggregeren algebraïsche of geleerde token-vertrouwenswaarden over woorden of sequenties om de consistentie tussen afbeelding en bijschrift te schatten. Vergeleken met sequentieniveau-scores van vooraf getrainde modellen, behaalt TLC met algebraïsche vertrouwensmaten een relatieve verbetering in nauwkeurigheid van 10% op werkwoordbegrip in SVO-Probes en overtreft het eerdere state-of-the-art in beeld- en groepsscores voor compositioneel redeneren in Winoground met respectievelijk 37% en 9%. Wanneer trainingsdata beschikbaar zijn, biedt een geleerde vertrouwensschatter een verdere verbeterde prestatie, waardoor de hallucinatiefrequentie van objecten in MS COCO Captions met een relatieve 30% wordt verminderd ten opzichte van het originele model en een nieuwe state-of-the-art wordt gevestigd.
We presenteren een op fysica gebaseerde humanoïde controller die hoogwaardige bewegingsimitatie en fouttolerante gedragingen bereikt in de aanwezigheid van ruwige invoer (bijvoorbeeld pose-schattingen uit video of gegenereerd uit taal) en onverwachte valpartijen. Onze controller schaalt op tot het leren van tienduizend bewegingsclips zonder gebruik te maken van externe stabiliserende krachten en leert om natuurlijk te herstellen van een fouttoestand. Gegeven een referentiebeweging, kan onze controller gesimuleerde avatars voortdurend besturen zonder dat resets nodig zijn. In de kern stellen we het progressieve multiplicatieve controlebeleid (PMCP) voor, dat dynamisch nieuwe netwerkcapaciteit toewijst om steeds moeilijkere bewegingssequenties te leren. PMCP maakt efficiënte schaalbaarheid mogelijk voor het leren van grootschalige bewegingsdatabases en het toevoegen van nieuwe taken, zoals herstel van fouttoestanden, zonder catastrofaal vergeten. We demonstreren de effectiviteit van onze controller door deze te gebruiken om ruwe poses te imiteren van op video gebaseerde pose-schatters en op taal gebaseerde bewegingsgeneratoren in een live en real-time multi-persoon avatar gebruiksscenario.
Grote taalmodellen (LLMs) tonen indrukwekkende meertalige capaciteiten, maar hun prestaties variëren aanzienlijk tussen verschillende talen. In dit werk introduceren we een eenvoudige maar effectieve methode, genaamd cross-lingual-thought prompting (XLT), om de meertalige capaciteit van LLMs systematisch te verbeteren. Specifiek is XLT een generieke sjabloonprompt die cross-linguale en logische redeneervaardigheden stimuleert om de taakprestaties over verschillende talen te verbeteren. We voeren uitgebreide evaluaties uit op 7 typische benchmarks gerelateerd aan redeneren, begrijpen en generatietaken, waarbij zowel hoog- als laag-resourcetalen worden bestreken. Experimentele resultaten tonen aan dat XLT niet alleen de prestaties van diverse meertalige taken aanzienlijk verbetert, maar ook de kloof tussen de gemiddelde prestaties en de beste prestaties van elke taak in verschillende talen significant verkleint. Opmerkelijk is dat XLT een gemiddelde verbetering van meer dan 10 punten oplevert in rekenkundig redeneren en open-domein vraag-antwoordtaken.
Levenslang leren (LL) is een belangrijke vaardigheid voor NLP-modellen om continu nieuwe taken te leren. Architectuurgebaseerde benaderingen blijken effectieve implementaties te zijn voor LL-modellen. Het is echter niet eenvoudig om eerdere benaderingen uit te breiden naar domein-incrementele LL-scenario's, omdat ze ofwel toegang vereisen tot taakidentiteiten in de testfase, ofwel niet om kunnen gaan met voorbeelden van onbekende taken. In dit artikel stellen we Diana voor: een dynamisch architectuurgebaseerd levenslang leermodel dat probeert een reeks taken te leren met een prompt-versterkt taalmodel. Vier typen hiërarchisch georganiseerde prompts worden gebruikt in Diana om kennis op verschillende granulariteiten vast te leggen. Specifiek wijden we taakniveau-prompts toe om taakspecifieke kennis vast te leggen om hoge LL-prestaties te behouden en behouden we instantieniveau-prompts om kennis die wordt gedeeld tussen invoervoorbeelden te leren, om de generalisatieprestaties van het model te verbeteren. Bovendien wijden we aparte prompts toe om onbekende taken expliciet te modelleren en introduceren we een set prompt-sleutelvectoren om kennisdeling tussen taken te vergemakkelijken. Uitgebreide experimenten tonen aan dat Diana state-of-the-art LL-modellen overtreft, vooral in het omgaan met onbekende taken. We hebben de code en data vrijgegeven op https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
Grote Taalmodellen (LLMs) hebben uitzonderlijke capaciteiten getoond in het generaliseren naar nieuwe taken op een zero-shot of few-shot manier. Echter, de mate waarin LLMs gebruikersvoorkeuren kunnen begrijpen op basis van hun eerdere gedrag blijft een opkomende en nog onduidelijke onderzoeksvraag. Traditioneel is Collaborative Filtering (CF) de meest effectieve methode geweest voor deze taken, waarbij voornamelijk wordt vertrouwd op de uitgebreide hoeveelheid beoordelingsgegevens. Daarentegen vereisen LLMs aanzienlijk minder gegevens terwijl ze een uitgebreide wereldkennis behouden over elk item, zoals films of producten. In dit artikel voeren we een grondig onderzoek uit naar zowel CF als LLMs binnen de klassieke taak van gebruikersbeoordelingsvoorspelling, waarbij het gaat om het voorspellen van de beoordeling van een gebruiker voor een kandidaat-item op basis van hun eerdere beoordelingen. We onderzoeken verschillende LLMs in verschillende groottes, variërend van 250M tot 540B parameters, en evalueren hun prestaties in zero-shot, few-shot en fine-tuning scenario's. We voeren een uitgebreide analyse uit om LLMs te vergelijken met sterke CF-methoden, en ontdekken dat zero-shot LLMs achterblijven bij traditionele aanbevelingsmodellen die toegang hebben tot gebruikersinteractiegegevens, wat het belang van gebruikersinteractiegegevens aangeeft. Echter, door fine-tuning bereiken LLMs vergelijkbare of zelfs betere prestaties met slechts een klein deel van de trainingsgegevens, wat hun potentieel aantoont door middel van data-efficiëntie.
Tekst-embeddings zijn nuttige kenmerken voor verschillende NLP-toepassingen, zoals zinsgelijkheid, tekstclustering en semantisch zoeken. In dit artikel presenteren we een Low-rank Adaptation met een contrastief doel bovenop een 8-bit Siamese-BLOOM, een meertalig groot taalmodel dat is geoptimaliseerd om semantisch betekenisvolle woord-embeddings te produceren. De innovatie is drievoudig. Ten eerste converteren we de BLOOM-gewichten naar 8-bit waarden. Ten tweede fine-tunen we BLOOM met een schaalbare adapter (LoRA) en een 8-bit Adam-optimalisator voor zinsgelijkheidsclassificatie. Ten derde passen we een Siamese-architectuur toe op het BLOOM-model met een contrastief doel om het tekort aan meertalige gelabelde gegevens te verlichten. De experimentele resultaten tonen aan dat de kwaliteit van de geleerde embeddings van LACoS-BLOOM evenredig is met het aantal modelparameters en de hoeveelheid ongelabelde trainingsgegevens. Met het parameter-efficiënte fine-tuning-ontwerp kunnen we BLOOM met 7,1 miljard parameters end-to-end uitvoeren op een enkele GPU-machine met 32GB geheugen. In vergelijking met de vorige oplossing Sentence-BERT behalen we een aanzienlijke verbetering op zowel Engelse als meertalige STS-taken.
Grote taalmodellen zoals ChatGPT hebben recent indrukwekkende capaciteiten getoond op het gebied van natuurlijke taalverwerking en -generatie, wat verschillende toepassingen mogelijk maakt, waaronder vertaling, essay schrijven en informeel gesprek. Er is echter een zorg dat ze misbruikt kunnen worden voor kwaadaardige doeleinden, zoals fraude of denial-of-service-aanvallen. Daarom is het cruciaal om methoden te ontwikkelen om te detecteren of de partij die betrokken is bij een gesprek een bot of een mens is. In dit artikel stellen we een raamwerk voor genaamd FLAIR, Finding Large language model Authenticity via a single Inquiry and Response, om conversatiebots op een online manier te detecteren. Specifiek richten we ons op een scenario met één vraag dat effectief menselijke gebruikers van bots kan onderscheiden. De vragen zijn verdeeld in twee categorieën: vragen die gemakkelijk zijn voor mensen maar moeilijk voor bots (bijvoorbeeld tellen, substitutie, positionering, ruisfiltering en ASCII-kunst), en vragen die gemakkelijk zijn voor bots maar moeilijk voor mensen (bijvoorbeeld memorisatie en berekening). Onze aanpak toont verschillende sterke punten van deze vragen in hun effectiviteit, wat een nieuwe manier biedt voor online dienstverleners om zichzelf te beschermen tegen schadelijke activiteiten en ervoor te zorgen dat ze echte gebruikers bedienen. We hebben onze dataset openbaar gemaakt op https://github.com/hongwang600/FLAIR en verwelkomen bijdragen van de gemeenschap om dergelijke detectiedatasets te verrijken.
Het genereren van hoogwaardige muziek die de visuele inhoud van een video aanvult, is een uitdagende taak. De meeste bestaande systemen voor visueel geconditioneerde muziekgeneratie produceren symbolische muziekdata, zoals MIDI-bestanden, in plaats van ruide audiogolven. Gezien de beperkte beschikbaarheid van symbolische muziekdata kunnen dergelijke methoden alleen muziek genereren voor een beperkt aantal instrumenten of voor specifieke soorten visuele invoer. In dit artikel presenteren we een nieuwe aanpak genaamd V2Meow, die hoogwaardige muziekaudio kan genereren die goed aansluit bij de visuele semantiek van een diverse reeks video-invoertypen. Specifiek is het voorgestelde muziekgeneratiesysteem een multi-staps autoregressief model dat is getraind met een groot aantal (O(100K)) muziekaudioclips gepaard met videobeelden, die zijn verzameld uit muziekvideo's uit de echte wereld, en waarbij geen parallelle symbolische muziekdata betrokken is. V2Meow is in staat om hoogwaardige muziekaudiogolven te synthetiseren die uitsluitend zijn geconditioneerd op vooraf getrainde visuele kenmerken die zijn geëxtraheerd uit een willekeurige stille videoclip, en het biedt ook hoogwaardige controle over de muziekstijl van gegenereerde voorbeelden door het ondersteunen van tekstprompts naast de conditionering op videobeelden. Door zowel kwalitatieve als kwantitatieve evaluaties tonen we aan dat ons model verschillende bestaande muziekgeneratiesystemen overtreft wat betreft zowel visueel-auditieve overeenstemming als audiokwaliteit.