Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren PaLM 2, een nieuw state-of-the-art taalmodel met betere meertalige en redeneervaardigheden en een hogere reken-efficiëntie dan zijn voorganger PaLM. PaLM 2 is een Transformer-gebaseerd model dat is getraind met een mix van doelen. Door uitgebreide evaluaties op Engelse en meertalige taal- en redeneertaken tonen we aan dat PaLM 2 een significant verbeterde kwaliteit heeft voor downstream-taken over verschillende modelgroottes, terwijl het tegelijkertijd snellere en efficiëntere inferentie vertoont in vergelijking met PaLM. Deze verbeterde efficiëntie maakt een bredere inzet mogelijk en stelt het model in staat sneller te reageren, voor een natuurlijker interactietempo. PaLM 2 toont robuuste redeneervaardigheden, geïllustreerd door grote verbeteringen ten opzichte van PaLM op BIG-Bench en andere redeneertaken. PaLM 2 vertoont stabiele prestaties op een reeks verantwoorde AI-evaluaties en maakt inferentie-tijdcontrole over toxiciteit mogelijk zonder extra overhead of impact op andere capaciteiten. Over het algemeen behaalt PaLM 2 state-of-the-art prestaties over een diverse set taken en capaciteiten. Bij het bespreken van de PaLM 2-familie is het belangrijk om onderscheid te maken tussen vooraf getrainde modellen (van verschillende groottes), fijn afgestemde varianten van deze modellen, en de gebruikersgerichte producten die deze modellen gebruiken. In het bijzonder omvatten gebruikersgerichte producten doorgaans extra voor- en nabewerkingsstappen. Bovendien kunnen de onderliggende modellen in de loop van de tijd evolueren. Daarom moet men niet verwachten dat de prestaties van gebruikersgerichte producten exact overeenkomen met de resultaten die in dit rapport worden gerapporteerd.
Tekstbewerking of revisie is een essentiële functie van het menselijke schrijfproces. Het begrijpen van de mogelijkheden van LLM's (Large Language Models) voor het maken van hoogwaardige revisies en het samenwerken met menselijke schrijvers is een cruciale stap naar het ontwikkelen van effectieve schrijfassistenten. Met het eerdere succes van LLM's en instructieafstemming, benutten wij instructie-afgestemde LLM's voor tekstbewerking om de kwaliteit van door gebruikers gegenereerde tekst te verbeteren en de efficiëntie van het proces te verhogen. Wij introduceren CoEdIT, een state-of-the-art tekstbewerkingsmodel voor schrijfondersteuning. CoEdIT neemt instructies van de gebruiker aan die de kenmerken van de gewenste tekst specificeren, zoals "Maak de zin eenvoudiger" of "Schrijf het in een neutralere stijl," en geeft de bewerkte tekst uit. Wij presenteren een groot taalmodel dat is afgestemd op een diverse verzameling taakspecifieke instructies voor tekstbewerking (in totaal 82K instructies). Ons model (1) behaalt state-of-the-art prestaties op verschillende tekstbewerkingsbenchmarks, (2) is concurrerend met de grootste beschikbare LLM's die zijn getraind op instructies, terwijl het ongeveer 60x kleiner is, (3) is in staat om te generaliseren naar onbekende bewerkingsinstructies, en (4) vertoont compositionele begripsvaardigheden om te generaliseren naar instructies die verschillende combinaties van bewerkingsacties bevatten. Door uitgebreide kwalitatieve en kwantitatieve analyses tonen wij aan dat schrijvers de bewerkingen die door CoEdIT worden voorgesteld verkiezen, in vergelijking met andere state-of-the-art tekstbewerkingsmodellen. Onze code en dataset zijn publiekelijk beschikbaar.
Leren van menselijke feedback is effectief gebleken bij het afstemmen van taalmodelen op menselijke voorkeuren. Eerder werk heeft vaak vertrouwd op Reinforcement Learning from Human Feedback (RLHF), waarbij het taalmodel wordt geoptimaliseerd met behulp van beloningsscores toegekend door een beloningsmodel dat is getraind op menselijke voorkeursdata. In dit werk laten we zien hoe de recent geïntroduceerde Sequence Likelihood Calibration (SLiC) ook effectief kan worden gebruikt om te leren van menselijke voorkeuren (SLiC-HF). Bovendien demonstreren we dat dit kan worden gedaan met menselijke feedbackdata die is verzameld voor een ander model, vergelijkbaar met off-policy, offline RL-data. Experimenten met automatische en menselijke evaluatie op de TL;DR-samenvattings-taak laten zien dat SLiC-HF de supervised fine-tuning-baselines aanzienlijk verbetert. Daarnaast biedt SLiC-HF een competitief alternatief voor de PPO RLHF-implementatie die in eerder werk is gebruikt, terwijl het veel eenvoudiger te implementeren is, gemakkelijker af te stemmen en in de praktijk computationeel efficiënter.
De mengverhoudingen van domeinen in de vooraf getrainde data (bijv. Wikipedia, boeken, webtekst) hebben een grote invloed op de prestaties van taalmodel (LM). In dit artikel stellen we Domain Reweighting with Minimax Optimization (DoReMi) voor, waarbij eerst een klein proxy-model wordt getraind met behulp van group distributionally robust optimization (Group DRO) over domeinen om domeingewichten (mengverhoudingen) te produceren zonder kennis van downstream taken. Vervolgens hermonsteren we een dataset met deze domeingewichten en trainen we een groter, volledig model. In onze experimenten gebruiken we DoReMi op een proxy-model met 280M parameters om domeingewichten te vinden voor het trainen van een model met 8B parameters (30x groter) op een efficiëntere manier. Op The Pile verbetert DoReMi de perplexiteit in alle domeinen, zelfs wanneer het een domein onderwaardeert. DoReMi verbetert de gemiddelde few-shot downstream nauwkeurigheid met 6,5% ten opzichte van een basismodel dat is getraind met de standaard domeingewichten van The Pile en bereikt de baseline-nauwkeurigheid met 2,6x minder trainingsstappen. Op de GLaM-dataset, waarbij DoReMi geen kennis heeft van downstream taken, komt het zelfs overeen met de prestaties van het gebruik van domeingewichten die zijn afgestemd op downstream taken.
In dit artikel introduceren we zelfdistillatie en online clustering voor zelfgesuperviseerd leren van spraakrepresentaties (DinoSR), dat gemaskeerd taalmodeleren, zelfdistillatie en online clustering combineert. We laten zien dat deze concepten elkaar aanvullen en resulteren in een krachtig model voor het leren van representaties voor spraak. DinoSR extraheert eerst contextuele embeddings uit de invoeraudio met een leraarnetwerk, voert vervolgens een online clusteringsysteem uit op de embeddings om een door de machine ontdekt telefoonbestand te verkrijgen, en gebruikt ten slotte de gediscretiseerde tokens om een studentennetwerk te begeleiden. We tonen aan dat DinoSR de prestaties van eerdere state-of-the-art modellen overtreft in verschillende downstream taken, en bieden een gedetailleerde analyse van het model en de geleerde discrete eenheden. De broncode zal beschikbaar worden gesteld na de anonimiteitsperiode.
Automatische spraakherkenningssystemen op apparaten staan voor verschillende uitdagingen in vergelijking met servergebaseerde systemen. Ze moeten voldoen aan strengere beperkingen op het gebied van snelheid, schijfruimte en geheugen, terwijl ze dezelfde nauwkeurigheid behouden. Vaak moeten ze meerdere toepassingen met verschillende distributies tegelijkertijd bedienen, zoals communiceren met een virtuele assistent en spraak-naar-tekst. De eenvoudigste oplossing om meerdere toepassingen te bedienen, is het bouwen van toepassingsspecifieke (taal)modellen, maar dit leidt tot een toename van het geheugengebruik. Daarom onderzoeken we verschillende data- en architectuurgedreven benaderingen voor taalmodellering om een enkel toepassingsagnostisch model te bouwen. We stellen twee nieuwe feed-forward-architecturen voor die een optimale balans vinden tussen verschillende beperkingen op apparaten. In vergelijking met de toepassingsspecifieke oplossing, reduceert een van onze nieuwe benaderingen de schijfruimte met de helft, terwijl de snelheid en nauwkeurigheid van het oorspronkelijke model behouden blijven.
Grote taalmodelen (LLMs) hebben opmerkelijke voorspellingsprestaties getoond voor een groeiend aantal taken. Hun snelle verspreiding en toenemende ondoorzichtigheid hebben echter een groeiende behoefte aan interpreteerbaarheid gecreëerd. Hier onderzoeken we of we automatisch natuurlijke taalverklaringen kunnen verkrijgen voor black box tekstmodules. Een "tekstmodule" is elke functie die tekst afbeeldt op een scalaire continue waarde, zoals een submodule binnen een LLM of een aangepast model van een hersengebied. "Black box" geeft aan dat we alleen toegang hebben tot de invoer/uitvoer van de module. We introduceren Summarize and Score (SASC), een methode die een tekstmodule als invoer neemt en een natuurlijke taalverklaring retourneert van de selectiviteit van de module, samen met een score voor de betrouwbaarheid van de verklaring. We bestuderen SASC in drie contexten. Ten eerste evalueren we SASC op synthetische modules en ontdekken dat het vaak de grondwaarheidverklaringen herstelt. Ten tweede gebruiken we SASC om modules binnen een vooraf getraind BERT-model te verklaren, waardoor inspectie van de interne werking van het model mogelijk wordt. Tot slot tonen we aan dat SASC verklaringen kan genereren voor de respons van individuele fMRI-voxels op taalprikkels, met potentiële toepassingen voor gedetailleerde hersenkartering. Alle code voor het gebruik van SASC en het reproduceren van resultaten is beschikbaar gesteld op Github.
Het verbeteren van woordgebruik is een gewenste functie voor schrijfondersteuning. Om het onderzoek op dit gebied verder te bevorderen, introduceert dit artikel de taak en benchmark "Smart Word Suggestions" (SWS). In tegenstelling tot ander werk, legt SWS de nadruk op end-to-end evaluatie en presenteert het een realistischer scenario voor schrijfondersteuning. Deze taak omvat het identificeren van woorden of zinsdelen die verbetering behoeven en het geven van vervangingssuggesties. De benchmark omvat door mensen gelabelde gegevens voor testen, een grote dataset met indirect toezicht voor training en het raamwerk voor evaluatie. De testgegevens bestaan uit 1.000 zinnen geschreven door Engelse studenten, vergezeld van meer dan 16.000 vervangingssuggesties die zijn geannoteerd door 10 moedertaalsprekers. De trainingsdataset bestaat uit meer dan 3,7 miljoen zinnen en 12,7 miljoen suggesties die zijn gegenereerd via regels. Onze experimenten met zeven basislijnen tonen aan dat SWS een uitdagende taak is. Op basis van experimentele analyse suggereren we mogelijke richtingen voor toekomstig onderzoek naar SWS. De dataset en gerelateerde code zijn beschikbaar op https://github.com/microsoft/SmartWordSuggestions.
Dit werk werd gepresenteerd op de IEEE International Conference on Robotics and Automation 2023 Workshop on Unconventional Spatial Representations. Neurale stralingsvelden (NeRFs) zijn een klasse van impliciete scène-representaties die 3D-omgevingen modelleren op basis van kleurenbeelden. NeRFs zijn expressief en kunnen de complexe en multi-schaal geometrie van echte wereldomgevingen modelleren, wat ze potentieel een krachtig hulpmiddel maakt voor robotica-toepassingen. Moderne NeRF-trainingsbibliotheken kunnen een fotorealistisch NeRF genereren vanuit een statische dataset in slechts enkele seconden, maar zijn ontworpen voor offline gebruik en vereisen een langzame pose-optimalisatie voorafgaande berekeningsstap. In dit werk stellen we NerfBridge voor, een open-source brug tussen het Robot Operating System (ROS) en de populaire Nerfstudio-bibliotheek voor real-time, online training van NeRFs vanuit een stroom van beelden. NerfBridge maakt snelle ontwikkeling mogelijk van onderzoek naar toepassingen van NeRFs in robotica door een uitbreidbare interface te bieden naar de efficiënte trainingspijplijnen en modelbibliotheken die door Nerfstudio worden aangeboden. Als voorbeeldgebruik beschrijven we een hardwareopstelling die NerfBridge kan gebruiken om een NeRF te trainen vanuit beelden die zijn vastgelegd door een camera gemonteerd op een quadrotor, zowel in binnen- als buitenomgevingen. Voor begeleidende video https://youtu.be/EH0SLn-RcDg en code https://github.com/javieryu/nerf_bridge.
Grote, meertalige taalmodellen vertonen verrassend goede zero-shot of few-shot machinevertalingen, ondanks dat ze nooit de opzettelijk toegevoegde vertaalvoorbeelden hebben gezien die typische neurale vertaalsystemen krijgen. We onderzoeken de rol van incidentele tweetaligheid — de onbedoelde blootstelling aan tweetalige signalen, inclusief vertaalvoorbeelden — bij het verklaren van de vertaalcapaciteiten van grote taalmodellen, waarbij we het Pathways Language Model (PaLM) als casestudy nemen. We introduceren een gemengde methode om incidentele tweetaligheid op grote schaal te meten en te begrijpen. We tonen aan dat PaLM wordt blootgesteld aan meer dan 30 miljoen vertaalparen in ten minste 44 talen. Bovendien is de hoeveelheid incidenteel tweetalige inhoud sterk gecorreleerd met de hoeveelheid eentalige inhoud in de betreffende taal voor niet-Engelse talen. We koppelen incidenteel tweetalige inhoud aan zero-shot prompts en laten zien dat deze kan worden gebruikt om nieuwe prompts te genereren om de zero-shot vertaalkwaliteit van PaLM uit het Engels te verbeteren. Tot slot tonen we in een reeks kleinschalige ablatiestudies aan dat de aanwezigheid ervan een aanzienlijke impact heeft op de vertaalcapaciteiten, hoewel deze impact afneemt met de schaal van het model.
De kern van Multi-view Stereo (MVS) is het matchingproces tussen referentie- en bronpixels. Kostenaggregatie speelt een belangrijke rol in dit proces, terwijl eerdere methoden zich vooral richtten op het afhandelen ervan via CNN's. Dit kan de inherente beperking van CNN's overnemen, namelijk het onvermogen om repetitieve of incorrecte matches te onderscheiden vanwege beperkte lokale receptieve velden. Om dit probleem aan te pakken, streven we ernaar om Transformer te betrekken bij kostenaggregatie. Echter, een ander probleem kan ontstaan door de kwadratisch toenemende rekencomplexiteit veroorzaakt door Transformer, wat resulteert in geheugenoverloop en inferentielatentie. In dit artikel overwinnen we deze beperkingen met een efficiënt Transformer-gebaseerd kostenaggregatienetwerk, genaamd CostFormer. De Residual Depth-Aware Cost Transformer (RDACT) wordt voorgesteld om langeafstandsfeatures op het kostenvolume te aggregeren via self-attention-mechanismen langs de diepte- en ruimtelijke dimensies. Bovendien wordt de Residual Regression Transformer (RRT) voorgesteld om ruimtelijke aandacht te versterken. De voorgestelde methode is een universele plug-in om op leren gebaseerde MVS-methoden te verbeteren.
We onderzoeken of meerdere grote taalmodellen (LLMs) elkaar autonoom kunnen verbeteren in een onderhandelingsspel door te spelen, reflecteren en bekritiseren. We zijn geïnteresseerd in deze vraag omdat, als LLMs elkaar zouden kunnen verbeteren, dit de mogelijkheid zou impliceren om sterke AI-agenten te creëren met minimale menselijke interventie. We laten twee LLMs met elkaar onderhandelen, waarbij ze respectievelijk de rollen van koper en verkoper spelen. Ze streven ernaar een deal te sluiten, waarbij de koper een lagere prijs nastreeft en de verkoper een hogere. Een derde taalmodel, dat de rol van criticus speelt, geeft feedback aan een speler om diens onderhandelingsstrategieën te verbeteren. We laten de twee agenten meerdere rondes spelen, waarbij ze eerdere onderhandelingsgeschiedenis en AI-feedback gebruiken als in-context demonstraties om het onderhandelingsmodel iteratief te verbeteren. We gebruiken verschillende LLMs (GPT en Claude) voor verschillende rollen en gebruiken de dealprijs als evaluatiemetric. Onze experimenten onthullen meerdere intrigerende bevindingen: (1) Slechts een subset van de taalmodellen die we beschouwen, kan zelf spelen en de dealprijs verbeteren op basis van AI-feedback; zwakkere modellen begrijpen de spelregels niet of kunnen de AI-feedback niet gebruiken voor verdere verbetering. (2) De vaardigheden van modellen om van de feedback te leren verschillen wanneer ze verschillende rollen spelen. Zo is het voor Claude-instant bijvoorbeeld moeilijker om zich te verbeteren als koper dan als verkoper. (3) Wanneer het spel over meerdere rondes wordt uitgerold, kunnen sterkere agenten hun prestaties consistent verbeteren door zinvol gebruik te maken van eerdere ervaringen en iteratieve AI-feedback, maar lopen ze een hoger risico om de deal te verbreken. We hopen dat ons werk inzichtelijke eerste verkenningen biedt van het autonoom laten verbeteren van modellen door middel van spel en AI-feedback.
Fijnmazige classificatie is een uitdagende taak die het identificeren van subtiele verschillen tussen objecten binnen dezelfde categorie omvat. Deze taak is vooral moeilijk in scenario's waar weinig data beschikbaar is. Visuele transformers (ViT) zijn recent naar voren gekomen als een krachtig hulpmiddel voor beeldclassificatie, dankzij hun vermogen om zeer expressieve representaties van visuele data te leren met behulp van self-attention-mechanismen. In dit werk onderzoeken we Semi-ViT, een ViT-model dat is afgestemd met semi-gesuperviseerde leertechnieken, geschikt voor situaties waarin we een gebrek hebben aan geannoteerde data. Dit komt vooral veel voor in e-commerce, waar afbeeldingen ruimschoots beschikbaar zijn, maar labels onnauwkeurig, afwezig of duur om te verkrijgen zijn. Onze resultaten tonen aan dat Semi-ViT traditionele convolutionele neurale netwerken (CNN) en ViT's overtreft, zelfs wanneer het wordt afgestemd met beperkte geannoteerde data. Deze bevindingen geven aan dat Semi-ViT's veelbelovend zijn voor toepassingen die een precieze en fijnmazige classificatie van visuele data vereisen.
Multimediale inhoud, zoals advertenties en verhalende video's, vertoont een rijke mix van creativiteit en meerdere modaliteiten. Ze bevatten elementen zoals tekst, beeldmateriaal, audio en verteltechnieken, waarbij gebruik wordt gemaakt van middelen zoals emoties, symboliek en slogans om betekenis over te brengen. Hoewel eerder onderzoek op het gebied van multimedia-begrip zich voornamelijk heeft gericht op video's met specifieke handelingen zoals koken, is er een gebrek aan grote, geannoteerde trainingsdatasets, wat de ontwikkeling van supervised learning-modellen met bevredigende prestaties voor real-world toepassingen belemmert. De opkomst van grote taalmodellen (LLMs) heeft echter opmerkelijke zero-shot prestaties laten zien in verschillende taken binnen natuurlijke taalverwerking (NLP), zoals emotieclassificatie, vraag-antwoordtaken en onderwerpsclassificatie. Om deze prestatiekloof in multimedia-begrip te overbruggen, stellen we voor om verhalende video's te verbaliseren en hun beschrijvingen in natuurlijke taal te genereren, waarna video-begriptaken worden uitgevoerd op het gegenereerde verhaal in plaats van op de originele video. Door middel van uitgebreide experimenten op vijf video-begriptaken tonen we aan dat onze methode, ondanks dat het zero-shot is, aanzienlijk betere resultaten behaalt dan supervised baselines voor video-begrip. Verlichtend het gebrek aan benchmarks voor verhalenbegrip, maken we de eerste dataset openbaar over een cruciale taak in computationele sociale wetenschappen: het identificeren van overtuigingsstrategieën.