Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel introduceren we de Instruction Following Score (IFS), een metriek die het vermogen van taalmodellen om instructies te volgen detecteert. De metriek heeft een tweeledig doel. Ten eerste kan IFS worden gebruikt om onderscheid te maken tussen basis- en instructiemodellen. We benchmarken publiek beschikbare basis- en instructiemodellen en laten zien dat de verhouding tussen goed geformatteerde antwoorden en gedeeltelijke en volledige zinnen een effectieve maatstaf kan zijn tussen deze twee modelklassen. Ten tweede kan de metriek worden gebruikt als een vroegtijdige stopcriteria voor instructieafstemming. We berekenen IFS voor Supervised Fine-Tuning (SFT) van 7B en 13B LLaMA-modellen en tonen aan dat modellen relatief vroeg in het trainingsproces leren om instructies te volgen, en dat verdere afstemming kan leiden tot veranderingen in de onderliggende semantiek van het basismodel. Als voorbeeld van semantische verandering tonen we de objectiviteit van modelvoorspellingen, zoals gedefinieerd door een aanvullende metriek ObjecQA. We laten zien dat in dit specifieke geval de semantische veranderingen het grootst zijn wanneer de IFS de neiging heeft om te stabiliseren. We hopen dat het opdelen van instructieafstemming in IFS en semantische factoren een nieuwe trend inluidt voor beter beheersbare instructieafstemming en mogelijkheden opent voor het ontwerpen van minimale instructie-interfaces voor het bevragen van foundation-modellen.
Grote taalmodellen zoals GPT-4 vertonen emergente capaciteiten voor algemene taken, zoals basisrekenkunde, wanneer ze getraind worden op uitgebreide tekstdata, zelfs als deze taken niet expliciet gecodeerd zijn door het ongesuperviseerde, volgende-token-voorspellingsdoel. Deze studie onderzoekt hoe kleine transformatoren, getraind vanaf willekeurige initialisatie, efficiënt rekenkundige bewerkingen zoals optellen, vermenigvuldigen en elementaire functies zoals vierkantswortel kunnen leren, gebruikmakend van het volgende-token-voorspellingsdoel. We tonen eerst aan dat conventionele trainingsdata niet het meest effectief zijn voor het leren van rekenkunde, en dat eenvoudige aanpassingen in de opmaak de nauwkeurigheid aanzienlijk kunnen verbeteren. Dit leidt tot scherpe faseovergangen als functie van de schaal van de trainingsdata, wat in sommige gevallen verklaard kan worden door verbanden met laag-rang matrixcompletie. Voortbouwend op eerder werk, trainen we vervolgens op data in de stijl van keten-van-gedachten die tussenliggende stapresultaten bevatten. Zelfs bij volledige afwezigheid van voorafgaande training, verbetert deze aanpak nauwkeurigheid, samplecomplexiteit en convergentiesnelheid significant en gelijktijdig. We bestuderen ook de wisselwerking tussen rekenkundige en tekstdata tijdens de training en onderzoeken de effecten van few-shot prompting, voorafgaande training en modelschaal. Daarnaast bespreken we uitdagingen op het gebied van lengtegeneralizatie. Ons werk benadrukt het belang van hoogwaardige, instructieve data die rekening houdt met de specifieke kenmerken van het volgende-woord-voorspellingsdoel voor het snel opwekken van rekenkundige capaciteiten.
Supply chain-operaties omvatten traditioneel een verscheidenheid aan complexe besluitvormingsproblemen. In de afgelopen decennia hebben supply chains sterk geprofiteerd van vooruitgang in rekenkracht, wat de overgang van handmatige verwerking naar automatisering en kosteneffectieve optimalisatie mogelijk maakte. Desalniettemin moeten bedrijfsoperators nog steeds aanzienlijke inspanningen leveren om de optimalisatieresultaten aan stakeholders uit te leggen en te interpreteren. Gemotiveerd door de recente ontwikkelingen in Large Language Models (LLMs), onderzoeken we hoe deze disruptieve technologie de kloof tussen supply chain-automatisering en menselijk begrip en vertrouwen daarin kan overbruggen. We ontwerpen een raamwerk dat queries in platte tekst als invoer accepteert en inzichten geeft over de onderliggende optimalisatieresultaten. Ons raamwerk doet niet af aan de state-of-the-art combinatorische optimalisatietechnologie, maar benut deze juist om kwantitatief antwoord te geven op what-if-scenario's (bijvoorbeeld: hoe zouden de kosten veranderen als we leverancier B in plaats van leverancier A gebruiken voor een bepaalde vraag?). Belangrijk is dat ons ontwerp niet vereist dat propriëtaire data naar LLMs worden gestuurd, wat in sommige omstandigheden een privacyzorg kan zijn. We demonstreren de effectiviteit van ons raamwerk in een reëel scenario voor serverplaatsing binnen de cloud supply chain van Microsoft. Onderweg ontwikkelen we een algemene evaluatiebenchmark, die kan worden gebruikt om de nauwkeurigheid van de LLM-output in andere scenario's te beoordelen.
Het afstemmen van grote taalmodellen (LLM) op instructies met behulp van beeld-tekstparen heeft ongekende visueel-taalkundige multimodale vaardigheden bereikt. Hun visueel-taalkundige uitlijningen zijn echter alleen op beeldniveau gebouwd, en het ontbreken van uitlijning op regioniveau beperkt hun vooruitgang in fijnmazige multimodale begrip. In dit artikel stellen we het afstemmen van instructies op regio's van belang voor. De belangrijkste ontwerpkeuze is het herformuleren van de begrenzingsbox als de vorm van ruimtelijke instructie. De afgewisselde reeksen van visuele kenmerken die door de ruimtelijke instructie worden geëxtraheerd en de taalkundige inbedding worden ingevoerd in het LLM, en getraind op de getransformeerde regio-tekstgegevens in het formaat van instructieafstemming. Ons visueel-taalkundige model op regioniveau, genaamd GPT4RoI, biedt een geheel nieuwe conversatie- en interactie-ervaring die verder gaat dan begrip op beeldniveau. (1) Beheersbaarheid: Gebruikers kunnen met ons model interacteren via zowel taal als ruimtelijke instructies om flexibel het detailniveau van de vraag aan te passen. (2) Capaciteiten: Ons model ondersteunt niet alleen ruimtelijke instructies voor één regio, maar ook voor meerdere regio's. Dit ontgrendelt meer multimodale capaciteiten op regioniveau, zoals gedetailleerde regiobeschrijvingen en complexe regioredenering. (3) Samenstelling: Elke kant-en-klare objectdetector kan een aanbieder van ruimtelijke instructies zijn om informatieve objectattributen uit ons model te halen, zoals kleur, vorm, materiaal, actie, relatie met andere objecten, enz. De code, gegevens en demo zijn te vinden op https://github.com/jshilong/GPT4RoI.
Een groot aantal mensen wordt gedwongen om het web te gebruiken in een taal waarin ze een lage geletterdheid hebben, vanwege technologische asymmetrieën. Geschreven tekst in de tweede taal (L2) van dergelijke gebruikers bevat vaak een groot aantal fouten die worden beïnvloed door hun moedertaal (L1). Wij stellen een methode voor om fonemenverwarringen (klanken in L2 die een L1-spreker waarschijnlijk door elkaar haalt) te identificeren voor paren van L1 en L2. Deze verwarringen worden vervolgens ingevoegd in een generatief model (Bi-Phone) om synthetisch gecorrumpeerde L2-tekst te produceren. Door middel van menselijke evaluaties tonen we aan dat Bi-Phone plausibele corrupties genereert die verschillen tussen L1's en ook een brede dekking hebben op het web. We corrumperen ook de populaire taalbegripbenchmark SuperGLUE met onze techniek (FunGLUE voor Fonetsch Verstoorde GLUE) en laten zien dat state-of-the-art taalbegripmodellen slecht presteren. We introduceren ook een nieuwe pre-trainings taak voor fonemenvoorspelling die byte-modellen helpt om prestaties te herstellen die dicht bij SuperGLUE liggen. Tot slot brengen we ook de FunGLUE-benchmark uit om verder onderzoek te bevorderen naar fonetisch robuuste taalmodelen. Voor zover wij weten, is FunGLUE de eerste benchmark die L1-L2-interacties in tekst introduceert.
Wat maakt generalisatie moeilijk voor imitatieleren in visuele robotmanipulatie? Deze vraag is moeilijk rechtstreeks te benaderen, maar de omgeving vanuit het perspectief van een robot kan vaak worden opgedeeld in telbare variatiefactoren, zoals de lichtomstandigheden of de plaatsing van de camera. Empirisch gezien heeft generalisatie naar sommige van deze factoren een groter obstakel gevormd dan andere, maar bestaand onderzoek werpt weinig licht op precies hoeveel elke factor bijdraagt aan de generalisatiekloof. Om een antwoord op deze vraag te vinden, bestuderen we imitatieleren-beleidsregels in simulatie en in een taak van taal-gestuurde manipulatie op een echte robot om de moeilijkheid van generalisatie naar verschillende (sets van) factoren te kwantificeren. We ontwerpen ook een nieuwe gesimuleerde benchmark van 19 taken met 11 variatiefactoren om meer gecontroleerde evaluaties van generalisatie mogelijk te maken. Uit ons onderzoek bepalen we een volgorde van factoren op basis van generalisatiemoeilijkheid, die consistent is tussen simulatie en onze opstelling met een echte robot.
Dankzij de opkomst van foundation-modellen zijn grote taal- en visuele modellen geïntegreerd om multimodale vaardigheden te verwerven, zoals visuele beschrijvingen, dialoog en vraag-antwoordinteracties. Hoewel bestaande multimodale modellen indrukwekkende prestaties vertonen op het gebied van visueel begrip en redeneren, blijven hun beperkingen grotendeels onontgonnen vanwege het gebrek aan hoogwaardige instructieafstemmingsdata. Om de grenzen van multimodale mogelijkheden te verleggen, schalen we Visual Instruction Tuning (SVIT) op door een dataset te construeren van 3,2 miljoen visuele instructieafstemmingsdata, waaronder 1,6 miljoen conversatievraag-antwoordparen (QA), 1,6 miljoen complexe redeneer-QA-paren en 106.000 gedetailleerde beeldbeschrijvingen. Naast de omvang wordt de voorgestelde dataset ook gekenmerkt door hoge kwaliteit en rijke diversiteit, die wordt gegenereerd door GPT-4 aan te sturen met uitgebreide handmatige annotaties van afbeeldingen. We verifiëren empirisch dat het trainen van multimodale modellen op SVIT de multimodale prestaties aanzienlijk kan verbeteren op het gebied van visuele waarneming, redeneren en plannen.
Recente studies hebben in-context learning empirisch geanalyseerd en aangetoond dat transformatoren die getraind zijn op synthetische lineaire regressietaken, kunnen leren om ridge-regressie te implementeren, wat de Bayes-optimale voorspeller is, mits voldoende capaciteit [Akyürek et al., 2023], terwijl éénlaagse transformatoren met lineaire self-attention en zonder MLP-laag leren om één stap van gradient descent (GD) te implementeren op een kleinste-kwadraten lineaire regressiedoelstelling [von Oswald et al., 2022]. De theorie achter deze observaties blijft echter slecht begrepen. Wij bestuderen theoretisch transformatoren met één laag van lineaire self-attention, getraind op synthetische ruisachtige lineaire regressiegegevens. Eerst tonen we wiskundig aan dat wanneer de covariaten getrokken worden uit een standaard Gaussische verdeling, de éénlaagse transformator die het pre-trainingsverlies minimaliseert, één stap van GD zal implementeren op de kleinste-kwadraten lineaire regressiedoelstelling. Vervolgens ontdekken we dat het veranderen van de verdeling van de covariaten en de gewichtsvector naar een niet-isotrope Gaussische verdeling een sterke impact heeft op het geleerde algoritme: de globale minimaliseerder van het pre-trainingsverlies implementeert nu één stap van voorwaardelijke GD. Als echter alleen de verdeling van de responsen wordt veranderd, dan heeft dit geen groot effect op het geleerde algoritme: zelfs wanneer de respons afkomstig is uit een meer algemene familie van niet-lineaire functies, implementeert de globale minimaliseerder van het pre-trainingsverlies nog steeds één stap van GD op een kleinste-kwadraten lineaire regressiedoelstelling.
Geavanceerde AI-modellen beloven enorme voordelen voor de mensheid, maar de samenleving moet de bijbehorende risico's proactief beheren. In dit artikel richten we ons op wat we "frontier AI"-modellen noemen: zeer krachtige basis-modellen die gevaarlijke capaciteiten kunnen bezitten die ernstige risico's voor de openbare veiligheid kunnen vormen. Frontier AI-modellen vormen een unieke regelgevingsuitdaging: gevaarlijke capaciteiten kunnen onverwacht ontstaan; het is moeilijk om robuust te voorkomen dat een ingezet model wordt misbruikt; en het is moeilijk om te voorkomen dat de capaciteiten van een model zich breed verspreiden. Om deze uitdagingen aan te pakken, zijn ten minste drie bouwstenen nodig voor de regulering van frontier-modellen: (1) standaardiseringsprocessen om passende vereisten voor frontier AI-ontwikkelaars te identificeren, (2) registratie- en rapportagevereisten om toezichthouders inzicht te geven in de ontwikkelingsprocessen van frontier AI, en (3) mechanismen om naleving van veiligheidsnormen voor de ontwikkeling en implementatie van frontier AI-modellen te waarborgen. Zelfregulering door de industrie is een belangrijke eerste stap. Echter, bredere maatschappelijke discussies en overheidsinterventie zullen nodig zijn om normen te creëren en naleving ervan te waarborgen. We overwegen verschillende opties hiervoor, waaronder het verlenen van handhavingsbevoegdheden aan toezichthoudende autoriteiten en licentie-regimes voor frontier AI-modellen. Tot slot stellen we een eerste set veiligheidsnormen voor. Deze omvatten het uitvoeren van risicobeoordelingen vóór implementatie; externe controle van modelgedrag; het gebruik van risicobeoordelingen om implementatiebeslissingen te informeren; en het monitoren en reageren op nieuwe informatie over modelcapaciteiten en gebruik na implementatie. We hopen dat deze discussie bijdraagt aan het bredere gesprek over hoe de risico's voor de openbare veiligheid en de innovatievoordelen van vooruitgang aan de frontier van AI-ontwikkeling in balans kunnen worden gebracht.