Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De afgelopen jaren hebben we de sterke kracht gezien van grote tekst-naar-beeld diffusiemodellen vanwege hun indrukwekkende generatieve vermogen om hoogwaardige afbeeldingen te creëren. Het is echter erg lastig om gewenste afbeeldingen te genereren met alleen een tekstprompt, omdat dit vaak complexe prompt engineering vereist. Een alternatief voor een tekstprompt is een beeldprompt, zoals het gezegde luidt: "een beeld zegt meer dan duizend woorden". Hoewel bestaande methoden van directe fine-tuning van vooraf getrainde modellen effectief zijn, vereisen ze grote rekenbronnen en zijn ze niet compatibel met andere basismodellen, tekstprompts en structurele controles. In dit artikel presenteren we IP-Adapter, een effectieve en lichtgewicht adapter om beeldpromptmogelijkheden te realiseren voor vooraf getrainde tekst-naar-beeld diffusiemodellen. De belangrijkste ontwerpkeuze van onze IP-Adapter is het ontkoppelde cross-attention mechanisme dat cross-attention lagen scheidt voor tekstkenmerken en beeldkenmerken. Ondanks de eenvoud van onze methode, kan een IP-Adapter met slechts 22M parameters een vergelijkbare of zelfs betere prestaties bereiken dan een volledig gefinetuned beeldpromptmodel. Omdat we het vooraf getrainde diffusiemodel bevriezen, kan de voorgestelde IP-Adapter niet alleen worden gegeneraliseerd naar andere aangepaste modellen die zijn gefinetuned van hetzelfde basismodel, maar ook naar controleerbare generatie met behulp van bestaande controleerbare tools. Met het voordeel van de ontkoppelde cross-attention strategie, kan de beeldprompt ook goed samenwerken met de tekstprompt om multimodale beeldgeneratie te bereiken. De projectpagina is beschikbaar op https://ip-adapter.github.io.
Het finetunen van grote taalmmodellen (LLMs) op instructies leidt tot aanzienlijke prestatieverbeteringen bij natuurlijke-taaltaken. We passen instructie-tuning toe met behulp van code, waarbij we gebruikmaken van de natuurlijke structuur van Git-commits, die codewijzigingen koppelen aan menselijke instructies. We stellen CommitPack samen: 4 terabyte aan Git-commits in 350 programmeertalen. We vergelijken CommitPack met andere natuurlijke en synthetische code-instructies (xP3x, Self-Instruct, OASST) op het StarCoder-model met 16B parameters, en behalen state-of-the-art prestaties onder modellen die niet zijn getraind op OpenAI-outputs, op de HumanEval Python-benchmark (46,2% pass@1). We introduceren verder HumanEvalPack, dat de HumanEval-benchmark uitbreidt naar in totaal 3 codeertaken (Codeherstel, Code-uitleg, Codesynthese) in 6 talen (Python, JavaScript, Java, Go, C++, Rust). Onze modellen, OctoCoder en OctoGeeX, behalen de beste prestaties op HumanEvalPack onder alle permissieve modellen, wat de voordelen van CommitPack aantoont bij het generaliseren naar een bredere set talen en natuurlijke codeertaken. Code, modellen en data zijn vrij beschikbaar op https://github.com/bigcode-project/octopack.
Recente vooruitgang in generatieve spraakmodellen gebaseerd op audio-tekst prompts heeft opmerkelijke innovaties mogelijk gemaakt, zoals hoogwaardige zero-shot tekst-naar-spraak. Bestaande modellen kampen echter nog steeds met beperkingen in het omgaan met diverse audio-tekst spraakgeneratietaken, zoals het transformeren van ingevoerde spraak en het verwerken van audio die onder ongunstige akoestische omstandigheden is opgenomen. Dit artikel introduceert SpeechX, een veelzijdig spraakgeneratiemodel dat in staat is tot zero-shot TTS en diverse spraaktransformatietaken, waarbij zowel schone als ruisige signalen worden verwerkt. SpeechX combineert neurale codec-taalmodellering met multi-task learning door gebruik te maken van taakafhankelijke prompting, wat een uniforme en uitbreidbare modellering mogelijk maakt en een consistente manier biedt om tekstuele invoer te benutten bij spraakverbetering en transformatietaken. Experimentele resultaten tonen de effectiviteit van SpeechX in verschillende taken, waaronder zero-shot TTS, ruisonderdrukking, extractie van doelsprekers, spraakverwijdering en spraakbewerking met of zonder achtergrondruis, waarbij het vergelijkbare of superieure prestaties bereikt ten opzichte van gespecialiseerde modellen voor verschillende taken. Zie https://aka.ms/speechx voor demosamples.
We presenteren Platypus, een familie van fijn afgestelde en samengevoegde Large Language Models (LLMs) die de sterkste prestaties behaalt en momenteel op de eerste plaats staat in HuggingFace's Open LLM Leaderboard vanaf de releasedatum van dit werk. In dit werk beschrijven we (1) onze gecureerde dataset Open-Platypus, die een subset is van andere open datasets en die we vrijgeven aan het publiek, (2) ons proces van fijn afstellen en samenvoegen van LoRA-modules om het sterke voorafgaande kennisbehoud van vooraf getrainde LLMs te behouden, terwijl specifieke domeinkennis naar voren wordt gebracht, (3) onze inspanningen om te controleren op lekken van testgegevens en contaminatie in de trainingsgegevens, wat toekomstig onderzoek kan informeren. Specifiek behaalt de Platypus-familie sterke prestaties in kwantitatieve LLM-metingen over verschillende modelgroottes, en staat bovenaan de globale Open LLM-leaderboard terwijl slechts een fractie van de fijn afstelgegevens en totale rekenkracht wordt gebruikt die vereist zijn voor andere state-of-the-art fijn afgestelde LLMs. In het bijzonder kan een 13B Platypus-model worden getraind op een enkele A100 GPU met 25k vragen in 5 uur. Dit is een bewijs van de kwaliteit van onze Open-Platypus dataset, en opent mogelijkheden voor verdere verbeteringen in het veld. Projectpagina: https://platypus-llm.github.io
Recente empirische bevindingen geven aan dat in-context leren op basis van transformers beter presteert bij gebruik van een prefix-taalmodel (prefixLM), waarbij in-context voorbeelden allemaal naar elkaar kunnen 'attenteren', vergeleken met causale taalmodelen (causalLM), die gebruikmaken van auto-regressieve aandacht die voorkomt dat in-context voorbeelden naar toekomstige voorbeelden kunnen 'attenteren'. Hoewel dit resultaat intuïtief is, wordt het niet begrepen vanuit een theoretisch perspectief. In dit artikel nemen we een theoretische benadering en analyseren we het convergentiegedrag van prefixLM en causalLM onder een bepaalde parameterconstructie. Onze analyse toont aan dat beide LM-types lineair convergeren naar hun stationaire punten, maar dat terwijl prefixLM convergeert naar de optimale oplossing van lineaire regressie, de convergentiedynamiek van causalLM die van een online gradient descent-algoritme volgt, wat niet gegarandeerd optimaal is, zelfs niet als het aantal voorbeelden oneindig toeneemt. We ondersteunen onze theoretische beweringen met empirische experimenten op synthetische en echte taken en met verschillende soorten transformers. Onze experimenten bevestigen dat causalLM consistent onderpresteert ten opzichte van prefixLM in alle instellingen.
Blind face restoration heeft als doel hoogwaardige gezichtsafbeeldingen te herstellen uit afbeeldingen met onbekende degradaties. Huidige algoritmen introduceren voornamelijk priors om hoogwaardige details aan te vullen en boeken indrukwekkende vooruitgang. De meeste van deze algoritmen negeren echter de overvloedige contextuele informatie in het gezicht en de interactie met de priors, wat leidt tot suboptimale prestaties. Bovendien besteden ze minder aandacht aan de kloof tussen synthetische en realistische scenario's, wat de robuustheid en generalisatie naar realistische toepassingen beperkt. In dit werk stellen we RestoreFormer++ voor, dat enerzijds volledig ruimtelijke aandachtmechanismen introduceert om de contextuele informatie en de interactie met de priors te modelleren, en anderzijds een uitgebreid degradatiemodel verkent om meer realistische gedegradeerde gezichtsafbeeldingen te genereren, waardoor de kloof tussen synthetische en realistische scenario's wordt verkleind. Vergeleken met huidige algoritmen heeft RestoreFormer++ verschillende cruciale voordelen. Ten eerste introduceren we, in plaats van een multi-head self-attention mechanisme te gebruiken zoals de traditionele visuele transformer, multi-head cross-attention over multi-schaal kenmerken om ruimtelijke interacties tussen beschadigde informatie en hoogwaardige priors volledig te verkennen. Op deze manier kan RestoreFormer++ gezichtsafbeeldingen herstellen met een hogere realiteit en trouw. Ten tweede leren we, in tegenstelling tot het herkenningsgerichte woordenboek, een reconstructiegericht woordenboek als priors, dat meer diverse hoogwaardige gezichtsdetails bevat en beter aansluit bij het hersteldoel. Ten derde introduceren we een uitgebreid degradatiemodel dat meer realistische gedegradeerde scenario's bevat voor het synthetiseren van trainingsdata, en helpt zo de robuustheid en generalisatie van ons RestoreFormer++ model te verbeteren. Uitgebreide experimenten tonen aan dat RestoreFormer++ state-of-the-art algoritmen overtreft op zowel synthetische als realistische datasets.
Met een diepgaand begrip van het doeldomein vanuit natuurlijke taal, leveren we veelbelovende resultaten op bij het vertalen over grote domeinkloven en brengen we skeletten weer tot leven. In dit werk gebruiken we tekstgestuurde latente diffusiemodellen voor zero-shot beeld-naar-beeld vertaling (I2I) over grote domeinkloven (longI2I), waarbij grote hoeveelheden nieuwe visuele kenmerken en nieuwe geometrie gegenereerd moeten worden om het doeldomein te betreden. Het kunnen uitvoeren van vertalingen over grote domeinkloven heeft een breed scala aan praktische toepassingen in de criminologie, astrologie, milieubescherming en paleontologie. In dit werk introduceren we een nieuwe taak, Skull2Animal, voor het vertalen tussen schedels en levende dieren. Bij deze taak ontdekken we dat ongestuurde Generative Adversarial Networks (GANs) niet in staat zijn om over grote domeinkloven te vertalen. In plaats van deze traditionele I2I-methoden, onderzoeken we het gebruik van gestuurde diffusie- en beeldbewerkingsmodellen en presenteren we een nieuw benchmarkmodel, Revive-2I, dat in staat is om zero-shot I2I uit te voeren via tekstgestuurde latente diffusiemodellen. We ontdekken dat sturing noodzakelijk is voor longI2I omdat, om de grote domeinkloof te overbruggen, voorkennis over het doeldomein nodig is. Daarnaast vinden we dat prompting de beste en meest schaalbare informatie over het doeldomein biedt, aangezien classifier-gestuurde diffusiemodellen hertraining vereisen voor specifieke use cases en sterkere beperkingen aan het doeldomein ontberen vanwege de grote verscheidenheid aan afbeeldingen waarop ze getraind zijn.
We introduceren VisIT-Bench (Visual InsTruction Benchmark), een benchmark voor de evaluatie van instructievolgende visie-taalmodellen voor gebruik in de praktijk. Ons uitgangspunt is het samenstellen van 70 'instructiefamilies' waarvan we vinden dat instructiegetrainde visie-taalmodellen deze moeten kunnen aanpakken. Naast evaluaties zoals VQAv2 en COCO omvatten taken basisherkenning tot spelletjes spelen en creatieve generatie. Na het samenstellen bestaat onze dataset uit 592 testvragen, elk met een door mensen geschreven instructie-afhankelijke beschrijving. Deze beschrijvingen brengen instructiespecifieke factoren naar voren, bijvoorbeeld voor een instructie die vraagt naar de toegankelijkheid van een winkelpand voor rolstoelgebruikers, beschrijft de instructie-afhankelijke beschrijving hellingen/mogelijke obstakels. Deze beschrijvingen maken het mogelijk om 1) door mensen geverifieerde referentie-uitvoeringen voor elk geval te verzamelen; en 2) automatische evaluatie van kandidaat-multimodale generaties met behulp van een tekst-only LLM, in lijn met menselijk oordeel. We kwantificeren kwaliteitsverschillen tussen modellen en referenties met zowel menselijke als automatische evaluaties; bijvoorbeeld wint het best presterende instructievolgende model in slechts 27% van de vergelijkingen tegen de GPT-4-referentie. VisIT-Bench is dynamisch om aan deel te nemen, beoefenaars hoeven alleen maar de reactie van hun model in te dienen op de projectwebsite; Data, code en een leaderboard zijn beschikbaar op visit-bench.github.io.
Automatische evaluatie van machinaal vertalen (MT) is een cruciaal hulpmiddel dat de snelle iteratieve ontwikkeling van MT-systemen aanstuurt. Hoewel aanzienlijke vooruitgang is geboekt bij het schatten van een enkele scalaire kwaliteitsscore, missen huidige metrieken de informatiewaarde van meer gedetailleerde schema's die individuele fouten annoteren, zoals Multidimensional Quality Metrics (MQM). In dit artikel helpen we deze kloof te dichten door AutoMQM voor te stellen, een prompttechniek die gebruikmaakt van de redeneer- en in-context-leermogelijkheden van grote taalmodelen (LLM's) en hen vraagt om fouten in vertalingen te identificeren en te categoriseren. We beginnen met het evalueren van recente LLM's, zoals PaLM en PaLM-2, via eenvoudige prompttechnieken voor scorevoorspelling, en we bestuderen de impact van gelabelde gegevens via in-context leren en finetuning. Vervolgens evalueren we AutoMQM met PaLM-2-modellen, en we ontdekken dat het de prestaties verbetert in vergelijking met alleen het vragen om scores (met name grote verbeteringen voor grotere modellen) terwijl het interpreteerbaarheid biedt door middel van foutspans die overeenkomen met menselijke annotaties.