Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recent onderzoek heeft zich gericht op het verbeteren van de capaciteiten van kleinere modellen door middel van imitatieleren, waarbij gebruik wordt gemaakt van de uitvoer gegenereerd door grote foundationmodellen (LFMs). Een aantal problemen beïnvloedt de kwaliteit van deze modellen, variërend van beperkte imitatiesignalen door oppervlakkige LFM-uitvoer; kleinschalige homogene trainingsdata; en vooral een gebrek aan rigoureuze evaluatie, wat leidt tot een overschatting van de capaciteiten van het kleine model, aangezien deze vaak de stijl imiteren, maar niet het redeneerproces van LFMs. Om deze uitdagingen aan te pakken, ontwikkelen we Orca (we werken samen met ons juridisch team om een diff van de modelgewichten openbaar te maken in overeenstemming met het vrijgavebeleid van LLaMA, te publiceren op https://aka.ms/orca-lm), een model met 13 miljard parameters dat leert om het redeneerproces van LFMs te imiteren. Orca leert van rijke signalen van GPT-4, waaronder uitlegtrajecten; stapsgewijze denkprocessen; en andere complexe instructies, begeleid door leraarondersteuning van ChatGPT. Om dit progressieve leren te bevorderen, maken we gebruik van grootschalige en diverse imitatiedata met zorgvuldige steekproefname en selectie. Orca overtreft conventionele state-of-the-art instructie-afgestemde modellen zoals Vicuna-13B met meer dan 100% in complexe zero-shot redeneerbenchmarks zoals Big-Bench Hard (BBH) en 42% op AGIEval. Bovendien bereikt Orca pariteit met ChatGPT op de BBH-benchmark en laat het competitieve prestaties zien (4 punten verschil met een geoptimaliseerd systeembericht) in professionele en academische examens zoals de SAT, LSAT, GRE en GMAT, zowel in zero-shot instellingen zonder CoT; terwijl het achterblijft bij GPT-4. Ons onderzoek geeft aan dat leren van stapsgewijze uitleg, of deze nu gegenereerd worden door mensen of meer geavanceerde AI-modellen, een veelbelovende richting is om modelcapaciteiten en -vaardigheden te verbeteren.
Grote taalmodelen worden doorgaans getraind op een mix van gefilterde webgegevens en gecureerde hoogwaardige corpora, zoals sociale media-gesprekken, boeken of technische artikelen. Men gelooft dat dit curatieproces noodzakelijk is om presterende modellen te produceren met brede zero-shot generalisatievermogens. Naarmate echter grotere modellen worden overwogen die voorafgaande training op biljoenen tokens vereisen, is het onduidelijk hoe schaalbaar curatie is en of we binnenkort zonder unieke hoogwaardige gegevens komen te zitten. In tegenstelling tot eerdere overtuigingen tonen we aan dat goed gefilterde en gededupliceerde webgegevens alleen al kunnen leiden tot krachtige modellen; ze presteren zelfs aanzienlijk beter dan state-of-the-art modellen die getraind zijn op The Pile. Ondanks uitgebreide filtering zijn de hoogwaardige gegevens die we uit het web halen nog steeds overvloedig aanwezig, en kunnen we vijf biljoen tokens verkrijgen uit CommonCrawl. We geven publiekelijk een extract vrij van 600 miljard tokens uit ons RefinedWeb-dataset, en taalmodelen met 1,3/7,5B parameters die daarop getraind zijn.
Het recente Segment Anything Model (SAM) vertegenwoordigt een grote sprong voorwaarts in het opschalen van segmentatiemodellen, waardoor krachtige zero-shot-mogelijkheden en flexibele prompting mogelijk worden. Ondanks de training met 1,1 miljard maskers, schiet de maskervoorspellingskwaliteit van SAM in veel gevallen tekort, vooral bij het omgaan met objecten die complexe structuren hebben. Wij stellen HQ-SAM voor, dat SAM uitrust met de mogelijkheid om elk object nauwkeurig te segmenteren, terwijl het oorspronkelijke promptbare ontwerp, de efficiëntie en de zero-shot-generaliseerbaarheid van SAM behouden blijven. Ons zorgvuldige ontwerp hergebruikt en behoudt de vooraf getrainde modelgewichten van SAM, terwijl slechts minimale extra parameters en rekenkracht worden geïntroduceerd. We ontwerpen een leerbare High-Quality Output Token, die wordt geïnjecteerd in de maskerdecoder van SAM en verantwoordelijk is voor het voorspellen van het hoogwaardige masker. In plaats van deze alleen toe te passen op maskerdecoderfeatures, fuseren we deze eerst met vroege en finale ViT-features voor verbeterde maskerdetails. Om onze geïntroduceerde leerbare parameters te trainen, stellen we een dataset samen van 44K fijnmazige maskers uit verschillende bronnen. HQ-SAM wordt alleen getraind op de geïntroduceerde dataset van 44k maskers, wat slechts 4 uur in beslag neemt op 8 GPU's. We tonen de effectiviteit van HQ-SAM aan in een reeks van 9 diverse segmentatiedatasets voor verschillende downstreamtaken, waarvan er 7 worden geëvalueerd in een zero-shot-transferprotocol. Onze code en modellen zullen worden vrijgegeven op https://github.com/SysCV/SAM-HQ.
We presenteren LLM-Blender, een ensemble-framework ontworpen om consistent superieure prestaties te behalen door gebruik te maken van de diverse sterke punten van meerdere open-source grote taalmodellen (LLM's). Ons framework bestaat uit twee modules: PairRanker en GenFuser, die inspelen op de observatie dat de optimale LLM's voor verschillende voorbeelden aanzienlijk kunnen variëren. PairRanker maakt gebruik van een gespecialiseerde paarsgewijze vergelijkingsmethode om subtiele verschillen tussen kandidaat-uitvoeringen te onderscheiden. Het codeert gezamenlijk de invoertekst en een paar kandidaten, waarbij cross-attention encoders worden gebruikt om de superieure te bepalen. Onze resultaten tonen aan dat PairRanker de hoogste correlatie vertoont met ChatGPT-gebaseerde rangschikking. Vervolgens streeft GenFuser ernaar om de hoogst gerangschikte kandidaten samen te voegen, waarbij een verbeterde uitvoer wordt gegenereerd door hun sterke punten te benutten en hun zwakke punten te mitigeren. Om grootschalige evaluatie mogelijk te maken, introduceren we een benchmarkdataset, MixInstruct, een mix van meerdere instructiedatasets met oracle paarsgewijze vergelijkingen. Onze LLM-Blender presteert aanzienlijk beter dan individuele LLM's en baseline-methoden op verschillende metrieken, wat een aanzienlijk prestatieverschil vaststelt.
Grote taalmodellen (LLMs) zijn instructievolgers, maar het kan uitdagend zijn om de beste instructie te vinden voor verschillende situaties, vooral voor black-box LLMs waarop backpropagatie verboden is. In plaats van de discrete instructie direct te optimaliseren, optimaliseren we een laagdimensionale soft prompt die wordt toegepast op een open-source LLM om de instructie voor het black-box LLM te genereren. Bij elke iteratie van de voorgestelde methode, die we InstructZero noemen, wordt een soft prompt omgezet in een instructie met behulp van het open-source LLM, die vervolgens wordt ingediend bij het black-box LLM voor zero-shot evaluatie, en de prestaties worden doorgegeven aan Bayesiaanse optimalisatie om nieuwe soft prompts te produceren die de zero-shot prestaties verbeteren. We evalueren InstructZero op verschillende combinaties van open-source LLMs en API's, waaronder Vicuna en ChatGPT. Onze resultaten laten zien dat InstructZero state-of-the-art auto-instructiemethoden overtreft op een verscheidenheid aan downstream taken. Onze code en gegevens zijn openbaar beschikbaar op https://github.com/Lichang-Chen/InstructZero.
Differentieel private (DP) trainingsmethoden zoals DP-SGD kunnen gevoelige trainingsdata beschermen door ervoor te zorgen dat ML-modellen geen privé-informatie onthullen. Een alternatieve aanpak, die dit artikel onderzoekt, is het gebruik van een gevoelige dataset om een nieuwe synthetische dataset te genereren die differentieel privé is ten opzichte van de oorspronkelijke data. Dit heeft verschillende voordelen: synthetische data kan worden hergebruikt voor andere taken (inclusief hyperparameterafstemming), onbeperkt worden bewaard, of gedeeld worden met derden zonder in te leveren op privacy. Het verkrijgen van DP-data is echter veel moeilijker dan het introduceren van DP tijdens de training. Om dit haalbaar te maken voor tekst, heeft recent werk gebruikgemaakt van publieke data door te starten met een vooraf getraind generatief taalmodel en dit privé te finetunen op gevoelige data. Dit model kan worden gebruikt om een DP synthetische dataset te genereren. Hoewel deze strategie eenvoudig lijkt, is de uitvoering ervan problematisch gebleken. Eerdere benaderingen tonen ofwel een significant prestatieverlies, of hebben, zoals wij aantonen, kritieke ontwerpfouten. In dit artikel tonen we aan dat een juiste trainingsdoelstelling, samen met het afstemmen van minder parameters, resulteert in uitstekende kwaliteit van DP synthetische data. Onze aanpak is competitief met directe DP-training van downstreamclassificatoren wat betreft prestaties op downstreamtaken. We demonstreren ook dat onze DP synthetische data niet alleen nuttig is voor het trainen van downstreamclassificatoren, maar ook voor het afstemmen van diezelfde modellen.
Taalmodelen (LMs) vertonen vaak ongewenste tekstgeneratiegedragingen, zoals het produceren van onjuiste, giftige of irrelevante uitvoer. Reinforcement learning met menselijke feedback (RLHF) – waarbij menselijke voorkeuroordelen over LM-uitvoer worden omgezet in een leersignaal – heeft recentelijk belofte getoond in het aanpakken van deze problemen. Echter, dergelijke holistische feedback geeft beperkte informatie over lange tekstuitvoer; het geeft niet aan welke aspecten van de uitvoer de gebruikersvoorkeur beïnvloeden; bijvoorbeeld welke delen welk type fouten bevatten. In dit artikel gebruiken we gedetailleerde menselijke feedback (bijvoorbeeld welke zin onjuist is, welke subzin irrelevant is) als een expliciet trainingssignaal. We introduceren Fine-Grained RLHF, een raamwerk dat training en leren mogelijk maakt van beloningsfuncties die op twee manieren gedetailleerd zijn: (1) dichtheid, waarbij na elk segment (bijvoorbeeld een zin) een beloning wordt gegeven; en (2) het integreren van meerdere beloningsmodellen die zijn gekoppeld aan verschillende feedbacktypen (bijvoorbeeld feitelijke onjuistheid, irrelevantie en informatieonvolledigheid). We voeren experimenten uit op het gebied van detoxificatie en langdurige vraagbeantwoording om te illustreren hoe leren met dergelijke beloningsfuncties leidt tot verbeterde prestaties, ondersteund door zowel automatische als menselijke evaluatie. Daarnaast tonen we aan dat LM-gedrag kan worden aangepast met behulp van verschillende combinaties van gedetailleerde beloningsmodellen. We maken alle data, verzamelde menselijke feedback en codes beschikbaar op https://FineGrainedRLHF.github.io.
Het inzetten van Large Language Models (LLMs) om wiskundige problemen aan te pakken is een intrigerend onderzoeksgebied, gezien de overvloed aan wiskundige problemen die in natuurlijke taal worden uitgedrukt in tal van wetenschappelijke en technische vakgebieden. Hoewel verschillende eerdere werken het oplossen van elementaire wiskunde met behulp van LLMs hebben onderzocht, verkent dit werk de grens van het gebruik van GPT-4 voor het oplossen van complexere en uitdagendere wiskundige problemen. We evalueren verschillende manieren om GPT-4 te gebruiken. Sommige daarvan zijn aangepast uit bestaand werk, en één daarvan is \MathChat, een conversatieel probleemoplossend framework dat nieuw wordt voorgesteld in dit werk. We voeren de evaluatie uit op moeilijke middelbare schoolcompetitieproblemen uit de MATH-dataset, wat het voordeel van het voorgestelde conversatiele aanpak aantoont.
Het recent uitgebrachte ChatGPT-model toont ongekende mogelijkheden in zero-shot vraagbeantwoording. In dit werk onderzoeken we ChatGPT op zijn conversatiebegrip en introduceren we een conversatieframework (protocol) dat kan worden overgenomen in toekomstige studies. Het Pokémon-universum dient als een ideale testomgeving voor het auditeren van ChatGPT's redeneervaardigheden vanwege zijn gesloten wereld-aanname. Nadat we ChatGPT's achtergrondkennis (over het Pokémon-universum) hebben blootgelegd, testen we zijn redeneerproces bij het gebruik van deze concepten in gevechtsscenario's. Vervolgens evalueren we zijn vermogen om nieuwe kennis te verwerven en deze op te nemen in zijn redeneerproces. Ons uiteindelijke doel is om ChatGPT's vermogen te beoordelen om te generaliseren, kenmerken te combineren, en nieuw geïntroduceerde kennis te verwerven en te redeneren op basis van menselijke feedback. We constateren dat ChatGPT voorkennis heeft van het Pokémon-universum, waarop het in grote mate kan redeneren in gevechtsscenario's, zelfs wanneer nieuwe informatie wordt geïntroduceerd. Het model presteert beter met collaboratieve feedback en als er een initiële fase van informatieverwerving is, maar hallucineert ook af en toe en is vatbaar voor adversariële aanvallen.
Het recente succes van Large Language Models (LLMs) markeert een indrukwekkende stap richting kunstmatige algemene intelligentie. Ze hebben een veelbelovend perspectief getoond in het automatisch voltooien van taken op basis van gebruikersinstructies, waarbij ze functioneren als breinachtige coördinatoren. De bijbehorende risico's zullen aan het licht komen naarmate we een toenemend aantal taken aan machines delegeren voor geautomatiseerde uitvoering. Een grote vraag rijst: hoe kunnen we ervoor zorgen dat machines zich verantwoordelijk gedragen wanneer ze mensen helpen bij het automatiseren van taken als persoonlijke copilots? In dit artikel onderzoeken we deze vraag diepgaand vanuit de perspectieven van haalbaarheid, volledigheid en beveiliging. Specifiek presenteren we Responsible Task Automation (ResponsibleTA) als een fundamenteel raamwerk om verantwoorde samenwerking te faciliteren tussen LLM-gebaseerde coördinatoren en uitvoerders voor taakautomatisering met drie bekrachtigde mogelijkheden: 1) het voorspellen van de haalbaarheid van de opdrachten voor uitvoerders; 2) het verifiëren van de volledigheid van uitvoerders; 3) het verbeteren van de beveiliging (bijvoorbeeld de bescherming van de privacy van gebruikers). We stellen verder twee paradigma's voor en vergelijken deze voor de implementatie van de eerste twee mogelijkheden. Het ene is het benutten van de generieke kennis van LLMs zelf via prompt engineering, terwijl het andere het adopteren van domeinspecifieke leerbare modellen is. Bovendien introduceren we een lokaal geheugenmechanisme voor het bereiken van de derde mogelijkheid. We evalueren ons voorgestelde ResponsibleTA op UI-taakautomatisering en hopen dat het meer aandacht kan brengen voor het waarborgen van verantwoordelijk gedrag van LLMs in diverse scenario's. De homepage van het onderzoeksproject is te vinden op https://task-automation-research.github.io/responsible_task_automation.
De standaardmethodologie voor het evalueren van grote taalmodellen (LLM's) op basis van statische paren van invoer en uitvoer is onvoldoende voor het ontwikkelen van assistenten: dit soort evaluaties houdt geen rekening met het essentiële interactieve element in hun inzet, en beperkt daardoor ons begrip van de mogelijkheden van taalmodellen. We introduceren CheckMate, een aanpasbaar prototypeplatform waarmee mensen kunnen interageren met en LLM's kunnen evalueren. We voeren een studie uit met CheckMate om drie taalmodellen (InstructGPT, ChatGPT en GPT-4) te evalueren als assistenten bij het bewijzen van wiskunde op bachelorniveau, met een gemengde groep deelnemers variërend van bachelorstudenten tot wiskundeprofessoren. We publiceren de resulterende interactie- en beoordelingsdataset, MathConverse. Door MathConverse te analyseren, leiden we een voorlopige taxonomie af van menselijk gedrag en ontdekken we dat, ondanks een over het algemeen positieve correlatie, er opmerkelijke gevallen zijn van divergentie tussen correctheid en waargenomen behulpzaamheid in de generaties van LLM's, naast andere bevindingen. Verder identificeren we nuttige scenario's en bestaande problemen van GPT-4 in wiskundig redeneren door een reeks casestudies die zijn bijgedragen door expert-wiskundigen. We sluiten af met praktische aanbevelingen voor ML-beoefenaars en wiskundigen: modellen die onzekerheid communiceren, goed reageren op gebruikerscorrecties, meer interpreteerbaar en beknopt zijn, kunnen betere assistenten vormen; interactieve evaluatie is een veelbelovende manier om de mogelijkheden van deze modellen voortdurend te verkennen; mensen moeten zich bewust zijn van de algebraïsche feilbaarheid van taalmodellen, en daarom bepalen waar ze gebruikt moeten worden.
Transformer-gebaseerde taalmodelen hebben veel uiteenlopende toepassingen gevonden waarbij ze steeds langere sequenties moeten verwerken. Voor deze toepassingen wordt de causale self-attention -- het enige onderdeel dat kwadratisch schaalt ten opzichte van de sequentielengte -- een centrale zorg. Hoewel veel onderzoeken voorstellen om de aandachtspatronen te verspreiden en de rekenkosten van self-attention te verminderen, worden deze vaak beperkt door implementatieproblemen en resulteren ze in een eenvoudige en statische structuur van de aandachtmatrix. Aan de andere kant leiden meer dynamische, verspreide aandachtspatronen vaak tot aanzienlijk langere uitvoeringstijden vergeleken met het berekenen van de volledige aandacht met behulp van de Flash-implementatie van Dao et al. (2022). Wij breiden FlashAttention uit om een grote klasse van aandachtssparsiteitpatronen te ondersteunen, waaronder het weglaten van sleutel/query en op hashing gebaseerde aandacht. Dit resulteert in implementaties zonder extra rekencomplexiteit en een meervoudige versnelling van de uitvoeringstijd bovenop FlashAttention. Zelfs bij relatief lage sparsiteitsgraden verbetert onze methode zichtbaar ten opzichte van FlashAttention naarmate de sequentielengte toeneemt. Zonder in te leveren op perplexiteit verhogen we de trainingssnelheid van een transformer-taalmodel met 2,0 keer en 3,3 keer voor sequenties van respectievelijk 8k en 16k tokens.
Gezien de nauwe relatie tussen panoptische, semantische en instance segmentatietaken, stellen we voor om een universeel multi-dataset multi-task segmentatiemodel te trainen: DaTaSeg. We gebruiken een gedeelde representatie (maskervoorstellen met klassevoorspellingen) voor alle taken. Om de taakdiscrepantie aan te pakken, passen we verschillende samenvoegingsoperaties en nabewerkingen toe voor verschillende taken. We maken ook gebruik van zwakke supervisie, waardoor ons segmentatiemodel kan profiteren van goedkopere annotaties in de vorm van begrenzingsvakken. Om kennis tussen datasets te delen, gebruiken we tekst-embeddings uit dezelfde semantische embeddingruimte als classificatoren en delen we alle netwerkparameters tussen datasets. We trainen DaTaSeg op de ADE semantische, COCO panoptische en Objects365 detectiedatasets. DaTaSeg verbetert de prestaties op alle datasets, met name op kleinschalige datasets, en behaalt 54.0 mIoU op ADE semantisch en 53.5 PQ op COCO panoptisch. DaTaSeg maakt ook zwak-gesuperviseerde kennisoverdracht mogelijk op ADE panoptisch en Objects365 instance segmentatie. Experimenten tonen aan dat DaTaSeg schaalt met het aantal trainingsdatasets en open-vocabulary segmentatie mogelijk maakt door directe overdracht. Daarnaast annoteren we een Objects365 instance segmentatieset van 1.000 afbeeldingen en zullen deze vrijgeven als een openbare benchmark.
We presenteren een realiteitscheck over grote taalmodellen en onderzoeken in vergelijking de belofte van retrieval-augmented taalmodellen. Dergelijke taalmodellen zijn semi-parametrisch, waarbij modellen modelparameters en kennis uit externe gegevensbronnen integreren om hun voorspellingen te maken, in tegenstelling tot de parametrische aard van standaard grote taalmodellen. We presenteren eerste experimentele bevindingen dat semi-parametrische architecturen kunnen worden verbeterd met views, een query-analyzer/planner en provenance om een aanzienlijk krachtiger systeem te creëren voor vraagbeantwoording wat betreft nauwkeurigheid en efficiëntie, en mogelijk ook voor andere NLP-taken.