Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLMs) worden tegenwoordig in het dagelijks leven ingezet en zijn in staat om in het komende decennium grote hoeveelheden tekst te produceren. Machinaal gegenereerde tekst kan mensgeschreven tekst op internet verdringen en heeft het potentieel om voor kwaadaardige doeleinden te worden gebruikt, zoals spearphishing-aanvallen en social media-bots. Watermerken zijn een eenvoudige en effectieve strategie om dergelijke schade te beperken door het mogelijk te maken om LLM-gegenereerde tekst te detecteren en te documenteren. Toch blijft een cruciale vraag: Hoe betrouwbaar is watermerken in realistische omstandigheden in de praktijk? Daar kan gemerkte tekst worden gemengd met andere tekstbronnen, geparafraseerd door menselijke schrijvers of andere taalmodellen, en gebruikt worden voor toepassingen in een breed scala aan domeinen, zowel sociaal als technisch. In dit artikel verkennen we verschillende detectieschema's, kwantificeren we hun vermogen om watermerken te detecteren, en bepalen we hoeveel machinaal gegenereerde tekst in elk scenario moet worden waargenomen om het watermerk betrouwbaar te kunnen detecteren. We benadrukken vooral onze menselijke studie, waarin we de betrouwbaarheid van watermerken onderzoeken wanneer ze worden geconfronteerd met menselijke parafrasering. We vergelijken op watermerken gebaseerde detectie met andere detectiestrategieën en concluderen over het algemeen dat watermerken een betrouwbare oplossing zijn, vooral vanwege hun steekproefcomplexiteit - voor alle aanvallen die we overwegen, stapelt het bewijs van het watermerk zich op naarmate er meer voorbeelden worden gegeven, en wordt het watermerk uiteindelijk gedetecteerd.
Instruction-tuned grote taalmodellen hebben een revolutie teweeggebracht in natuurlijke taalverwerking en hebben groot potentieel getoond in toepassingen zoals conversatie-agents. Deze modellen, zoals GPT-4, kunnen niet alleen taal beheersen, maar ook complexe taken oplossen op gebieden zoals wiskunde, programmeren, geneeskunde en recht. Ondanks hun indrukwekkende mogelijkheden is er nog steeds een gebrek aan een uitgebreid begrip van hun volledige potentieel, voornamelijk vanwege de black-box aard van veel modellen en het ontbreken van holistische evaluatiestudies. Om deze uitdagingen aan te pakken, presenteren we INSTRUCTEVAL, een uitgebreidere evaluatiesuite die specifiek is ontworpen voor instruction-tuned grote taalmodellen. In tegenstelling tot eerdere werken omvat onze evaluatie een rigoureuze beoordeling van modellen op basis van probleemoplossend vermogen, schrijfvaardigheid en afstemming op menselijke waarden. We nemen een holistische benadering om verschillende factoren te analyseren die de modelprestaties beïnvloeden, waaronder de pretrainingsbasis, de instruction-tuning gegevens en de trainingsmethoden. Onze bevindingen onthullen dat de kwaliteit van de instructiegegevens de meest cruciale factor is bij het schalen van modelprestaties. Hoewel open-source modellen indrukwekkende schrijfvaardigheden demonstreren, is er aanzienlijke ruimte voor verbetering in probleemoplossing en afstemming. We worden aangemoedigd door de snelle ontwikkeling van modellen door de open-source gemeenschap, maar we benadrukken ook de noodzaak van rigoureuze evaluatie om claims over deze modellen te ondersteunen. Met INSTRUCTEVAL streven we ernaar een dieper begrip van instruction-tuned modellen en vooruitgang in hun mogelijkheden te bevorderen. INSTRUCTEVAL is publiekelijk beschikbaar op https://github.com/declare-lab/instruct-eval.
Het afstemmen van grote taalmodellen (LLMs) op instructies blijft een uitdagende taak, vanwege de complexiteit van hyperparameterkeuze en de moeilijkheden bij het evalueren van de afgestemde modellen. Om de optimale hyperparameters te bepalen, is een automatisch, robuust en betrouwbaar evaluatiebenchmark essentieel. Het opzetten van zo'n benchmark is echter geen triviale taak vanwege de uitdagingen die gepaard gaan met evaluatienauwkeurigheid en privacybescherming. Als antwoord op deze uitdagingen introduceren we een beoordelend groot taalmodel, genaamd PandaLM, dat is getraind om het superieure model te onderscheiden uit meerdere LLMs. PandaLM richt zich niet alleen op de objectieve correctheid van antwoorden, wat de focus is van traditionele evaluatiedatasets, maar behandelt ook cruciale subjectieve factoren zoals relatieve beknoptheid, duidelijkheid, naleving van instructies, volledigheid en formaliteit. Om de betrouwbaarheid van PandaLM te waarborgen, verzamelen we een divers, door mensen geannoteerd testdataset, waarbij alle contexten door mensen zijn gegenereerd en de labels zijn afgestemd op menselijke voorkeuren. Onze resultaten tonen aan dat PandaLM-7B 93,75% van de evaluatiecapaciteit van GPT-3,5 en 88,28% van die van GPT-4 bereikt in termen van F1-score op onze testdataset. PandaLM maakt de evaluatie van LLMs eerlijker maar tegen lagere kosten, wat blijkt uit significante verbeteringen die worden bereikt door modellen die zijn afgestemd via PandaLM in vergelijking met hun tegenhangers die zijn getraind met de standaard hyperparameters van Alpaca. Bovendien is PandaLM niet afhankelijk van API-gebaseerde evaluaties, waardoor potentiële datalekken worden vermeden. Alle bronnen van PandaLM zijn vrijgegeven op https://github.com/WeOpenML/PandaLM.
Wij bieden nieuwe schattingen van een asymptotische bovengrens voor de entropie van het Engels, waarbij we het grote taalmodel LLaMA-7B gebruiken als voorspeller voor het volgende token gegeven een venster van voorgaande tokens. Deze schatting is aanzienlijk kleiner dan de momenteel beschikbare schattingen in cover1978convergent en lutati2023focus. Een natuurlijk bijproduct is een algoritme voor verliesvrije compressie van Engelse tekst, dat de voorspelling van het grote taalmodel combineert met een verliesvrij compressieschema. Voorlopige resultaten van beperkte experimenten suggereren dat ons schema state-of-the-art tekstcompressieschema's zoals BSC, ZPAQ en paq8h overtreft.
In dit werk onderzoeken we recente vooruitgang in het instructie-afstemmen van taalmodelen op een reeks open datasets voor instructievolging. Ondanks recente beweringen dat open modellen gelijkwaardig kunnen zijn aan state-of-the-art propriëtaire modellen, gaan deze beweringen vaak gepaard met beperkte evaluatie, waardoor het moeilijk is om modellen breed te vergelijken en de bruikbaarheid van verschillende bronnen te bepalen. Wij bieden een grote set instructie-afgestemde modellen aan, variërend van 6,7B tot 65B parameters, getraind op 12 instructiedatasets die variëren van handmatig samengestelde (bijv. OpenAssistant) tot synthetische en gedistilleerde (bijv. Alpaca), en evalueren deze systematisch op hun feitelijke kennis, redeneervermogen, meertaligheid, programmeervaardigheden en vermogen om open instructies te volgen via een verzameling automatische, modelgebaseerde en menselijke evaluatiemethoden. We introduceren verder T\"ulu, onze best presterende suite van instructie-afgestemde modellen, afgestemd op een combinatie van hoogwaardige open bronnen. Onze experimenten tonen aan dat verschillende instructie-afstemmingsdatasets specifieke vaardigheden kunnen onthullen of verbeteren, terwijl geen enkele dataset (of combinatie) de beste prestaties levert in alle evaluaties. Interessant genoeg vinden we dat evaluaties gebaseerd op model- en menselijke voorkeuren geen weerspiegeling bieden van de verschillen in modelcapaciteiten die worden blootgelegd door benchmarkgebaseerde evaluaties, wat de noodzaak suggereert van het type systemische evaluatie dat in dit werk wordt uitgevoerd. Onze evaluaties laten zien dat het beste model in een bepaalde evaluatie gemiddeld 83% van de prestaties van ChatGPT en 68% van de prestaties van GPT-4 bereikt, wat suggereert dat verdere investeringen in het bouwen van betere basismodellen en instructie-afstemmingsdata nodig zijn om de kloof te dichten. We geven onze instructie-afgestemde modellen vrij, inclusief een volledig afgestemd 65B T\"ulu-model, samen met onze code, data en evaluatieraamwerk op https://github.com/allenai/open-instruct om toekomstig onderzoek te faciliteren.
Het schatten van 3D-gearticuleerde vormen zoals dierenlichamen uit monoscopische afbeeldingen is inherent uitdagend vanwege de ambiguïteiten van camerastandpunt, houding, textuur, belichting, enz. Wij stellen ARTIC3D voor, een zelfgesuperviseerd raamwerk om per-instantie 3D-vormen te reconstrueren uit een spaarzame verzameling afbeeldingen in het wild. Specifiek is ARTIC3D gebouwd op een skeletgebaseerde oppervlakteweergave en wordt het verder geleid door 2D-diffusiepriors van Stable Diffusion. Ten eerste verbeteren we de invoerafbeeldingen met occlusies/afsnijdingen via 2D-diffusie om schonere maskerschattingen en semantische kenmerken te verkrijgen. Ten tweede voeren we diffusie-geleide 3D-optimalisatie uit om vorm en textuur te schatten die van hoge kwaliteit zijn en trouw aan de invoerafbeeldingen. We stellen ook een nieuwe techniek voor om stabielere beeldniveau-gradiënten te berekenen via diffusiemodellen in vergelijking met bestaande alternatieven. Tot produceren we realistische animaties door de gerenderde vorm en textuur te verfijnen onder rigide deeltransformaties. Uitgebreide evaluaties op meerdere bestaande datasets, evenals nieuw geïntroduceerde rommelige webafbeeldingsverzamelingen met occlusies en afsnijdingen, tonen aan dat ARTIC3D-uitvoer robuuster is tegen rommelige afbeeldingen, hogere kwaliteit heeft in termen van vorm- en textuurdetails, en realistischer is wanneer geanimeerd. Projectpagina: https://chhankyao.github.io/artic3d/
Het implementeren van NMT-modellen (Neural Machine Translation) op mobiele apparaten is essentieel voor privacy, lage latentie en offline scenario's. Voor een hoge modelcapaciteit zijn NMT-modellen echter vrij groot. Het uitvoeren van deze modellen op apparaten is uitdagend vanwege beperkte opslag, geheugen, rekenkracht en energieverbruik. Bestaande werkwijzen richten zich vaak slechts op één enkele metriek, zoals FLOPs, of op een algemene engine die niet optimaal is voor auto-regressieve decodering. In dit artikel presenteren we MobileNMT, een systeem dat kan vertalen in 15MB en 30ms op apparaten. We stellen een reeks principes voor voor modelcompressie in combinatie met kwantisatie. Daarnaast implementeren we een engine die vriendelijk is voor INT8 en decodering. Door de co-design van model en engine versnellen we, vergeleken met bestaande systemen, met een factor 47,0 en besparen we 99,5% van het geheugen, met slechts 11,6% verlies in BLEU-score. De code is openbaar beschikbaar op https://github.com/zjersey/Lightseq-ARM.
De toenemende afhankelijkheid van Large Language Models (LLMs) in zowel de academische wereld als de industrie vereist een grondig begrip van hun robuustheid tegen prompts. Als antwoord op deze cruciale behoefte introduceren we PromptBench, een robuustheidsbenchmark die is ontworpen om de veerkracht van LLMs tegen adversariële prompts te meten. Deze studie maakt gebruik van een veelvoud aan adversariële tekstuele aanvallen die gericht zijn op prompts op verschillende niveaus: karakter, woord, zin en semantiek. Deze prompts worden vervolgens ingezet bij diverse taken, zoals sentimentanalyse, natuurlijke taal inferentie, leesbegrip, machinaal vertalen en het oplossen van wiskundige problemen. Onze studie genereert 4.032 adversariële prompts, die zorgvuldig worden geëvalueerd over 8 taken en 13 datasets, met in totaal 567.084 testmonsters. Onze bevindingen tonen aan dat hedendaagse LLMs kwetsbaar zijn voor adversariële prompts. Bovendien presenteren we een uitgebreide analyse om het mysterie achter prompt robuustheid en de overdraagbaarheid ervan te begrijpen. Vervolgens bieden we inzichtelijke robuustheidsanalyses en praktische aanbevelingen voor het samenstellen van prompts, die zowel onderzoekers als alledaagse gebruikers ten goede komen. We stellen onze code, prompts en methodologieën om adversariële prompts te genereren publiekelijk beschikbaar, waardoor samenwerking in dit cruciale veld wordt gefaciliteerd en aangemoedigd: https://github.com/microsoft/promptbench.
StableDiffusion is een revolutionaire tekst-naar-beeldgenerator die opschudding veroorzaakt in de wereld van beeldgeneratie en -bewerking. In tegenstelling tot traditionele methoden die een diffusiemodel leren in de pixelruimte, leert StableDiffusion een diffusiemodel in de latente ruimte via een VQGAN, wat zowel efficiëntie als kwaliteit waarborgt. Het ondersteunt niet alleen beeldgeneratietaken, maar maakt ook beeldbewerking mogelijk voor echte afbeeldingen, zoals beeldinpainting en lokale bewerking. We hebben echter geobserveerd dat de standaard VQGAN die in StableDiffusion wordt gebruikt, leidt tot aanzienlijk informatieverlies, wat vervormingsartefacten veroorzaakt, zelfs in niet-bewerkte beeldregio's. Daarom stellen we een nieuwe asymmetrische VQGAN voor met twee eenvoudige ontwerpen. Ten eerste bevat de decoder, naast de invoer van de encoder, een conditionele tak die informatie integreert van taakspecifieke priors, zoals de niet-gemaskerde beeldregio bij inpainting. Ten tweede is de decoder veel zwaarder dan de encoder, wat een gedetailleerdere reconstructie mogelijk maakt terwijl de totale inferentiekosten slechts licht toenemen. De trainingskosten van onze asymmetrische VQGAN zijn laag, en we hoeven alleen een nieuwe asymmetrische decoder te hertrainen terwijl de standaard VQGAN-encoder en StableDiffusion ongewijzigd blijven. Onze asymmetrische VQGAN kan breed worden toegepast in StableDiffusion-gebaseerde inpainting- en lokale bewerkingsmethoden. Uitgebreide experimenten tonen aan dat het de inpainting- en bewerkingsprestaties aanzienlijk kan verbeteren, terwijl de oorspronkelijke tekst-naar-beeldcapaciteit behouden blijft. De code is beschikbaar op https://github.com/buxiangzhiren/Asymmetric_VQGAN.
Om de ontwikkeling van Vision-Language Pre-training (VLP) en multimodale Large Language Models (LLM) in de Chinese gemeenschap te bevorderen, brengen we als eerste het grootste openbare Chinese hoogwaardige video-taaldataset uit, genaamd Youku-mPLUG. Dit dataset is verzameld van Youku, een bekende Chinese video-sharingwebsite, met strikte criteria voor veiligheid, diversiteit en kwaliteit. Youku-mPLUG bevat 10 miljoen Chinese video-tekstparen, gefilterd uit 400 miljoen ruwe video's, verdeeld over een breed scala van 45 diverse categorieën voor grootschalige pre-training. Daarnaast hebben we zorgvuldig de grootste door mensen geannoteerde Chinese benchmarks opgebouwd, die drie populaire video-taal taken omvatten: cross-modale retrieval, video captioning en video categorieclassificatie. Youku-mPLUG stelt onderzoekers in staat om diepgaander multimodaal onderzoek uit te voeren en betere toepassingen te ontwikkelen in de toekomst. Verder brengen we populaire video-taal pre-trainingmodellen uit, ALPRO en mPLUG-2, en ons voorgestelde gemodulariseerde decoder-only model mPLUG-video, getraind op Youku-mPLUG. Experimenten tonen aan dat modellen die zijn getraind op Youku-mPLUG een verbetering van tot wel 23,1% behalen in video categorieclassificatie. Bovendien behaalt mPLUG-video een nieuw state-of-the-art resultaat op deze benchmarks met een top-1 nauwkeurigheid van 80,5% in video categorieclassificatie en een CIDEr score van 68,9 in video captioning. Ten slotte schalen we mPLUG-video op op basis van de bevroren Bloomz met slechts 1,7% trainbare parameters als Chinese multimodale LLM, en demonstreren indrukwekkende instructie- en videobegripvaardigheden. Het zero-shot instructiebegrip experiment geeft aan dat pre-training met Youku-mPLUG het vermogen kan verbeteren om algemene en gedetailleerde visuele semantiek te begrijpen, scènetekst te herkennen en open-domeinkennis te benutten.