Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen LENS voor, een modulaire aanpak voor het aanpakken van computer vision-problemen door gebruik te maken van de kracht van grote taalmodellen (LLM's). Ons systeem gebruikt een taalmodel om te redeneren over uitvoer van een set onafhankelijke en zeer beschrijvende vision-modules die uitgebreide informatie over een afbeelding verschaffen. We evalueren de aanpak in pure computer vision-omgevingen, zoals zero- en few-shot objectherkenning, evenals op problemen die zowel vision als taal betreffen. LENS kan worden toegepast op elk kant-en-klaar LLM, en we constateren dat LLM's met LENS zeer competitief presteren in vergelijking met veel grotere en geavanceerdere systemen, zonder enige multimodale training. We maken onze code openbaar op https://github.com/ContextualAI/lens en bieden een interactieve demo aan.
Generatieve AI en grote taalmodellen bieden veelbelovende mogelijkheden om het computeronderwijs te verbeteren door de ontwikkeling van educatieve technologieën van de volgende generatie voor inleidende programmering. Recente studies hebben deze modellen onderzocht voor verschillende scenario's die relevant zijn voor programmeeronderwijs; deze studies zijn echter beperkt omdat ze meestal verouderde modellen of slechts specifieke scenario's beschouwen. Hierdoor ontbreekt een systematische studie die state-of-the-art modellen benchmarkt voor een uitgebreide set van programmeeronderwijsscenario's. In ons werk evalueren we systematisch twee modellen, ChatGPT (gebaseerd op GPT-3.5) en GPT-4, en vergelijken hun prestaties met die van menselijke tutoren voor een verscheidenheid aan scenario's. We evalueren aan de hand van vijf inleidende Python-programmeerproblemen en real-world buggy programma's van een online platform, en beoordelen de prestaties met behulp van expertgebaseerde annotaties. Onze resultaten laten zien dat GPT-4 aanzienlijk beter presteert dan ChatGPT (gebaseerd op GPT-3.5) en dicht in de buurt komt van de prestaties van menselijke tutoren voor verschillende scenario's. Deze resultaten benadrukken ook situaties waarin GPT-4 nog steeds moeite heeft, wat interessante toekomstige richtingen biedt voor het ontwikkelen van technieken om de prestaties van deze modellen te verbeteren.
Genomische (DNA) sequenties coderen een enorme hoeveelheid informatie voor genregulatie en eiwitsynthese. Vergelijkbaar met modellen voor natuurlijke taal, hebben onderzoekers foundation-modellen in de genomica voorgesteld om generaliseerbare kenmerken te leren uit ongelabelde genoomgegevens, die vervolgens kunnen worden afgestemd voor downstream taken, zoals het identificeren van regulatoire elementen. Vanwege de kwadratische schaling van aandacht, hebben eerdere Transformer-gebaseerde genomische modellen 512 tot 4k tokens gebruikt als context (<0,001% van het menselijk genoom), wat het modelleren van langetermijninteracties in DNA aanzienlijk beperkt. Bovendien vertrouwen deze methoden op tokenizers om betekenisvolle DNA-eenheden te aggregeren, waardoor de resolutie van individuele nucleotiden verloren gaat, waar subtiele genetische variaties de eiwitfunctie volledig kunnen veranderen via enkelvoudige nucleotide polymorfismen (SNPs). Onlangs is aangetoond dat Hyena, een groot taalmodel gebaseerd op impliciete convoluties, de kwaliteit van aandacht evenaart terwijl het langere contextlengtes en een lagere tijdcomplexiteit mogelijk maakt. Gebruikmakend van de nieuwe langetermijnmogelijkheden van Hyena, presenteren we HyenaDNA, een genomisch foundation-model vooraf getraind op het menselijke referentiegenoom met contextlengtes van tot 1 miljoen tokens op het niveau van individuele nucleotiden, een tot 500-voudige toename ten opzichte van eerdere dichte aandacht-gebaseerde modellen. HyenaDNA schaalt subkwadratisch in sequentielengte (tot 160x sneller trainen dan Transformer), gebruikt individuele nucleotide tokens en heeft volledige globale context in elke laag. We onderzoeken wat langere context mogelijk maakt - inclusief het eerste gebruik van in-context leren in de genomica voor eenvoudige aanpassing aan nieuwe taken zonder de vooraf getrainde modelgewichten bij te werken. Op afgestemde benchmarks van de Nucleotide Transformer bereikt HyenaDNA state-of-the-art (SotA) op 12 van de 17 datasets met een model dat ordes van grootte minder parameters en vooraf getrainde gegevens gebruikt. Op de GenomicBenchmarks overtreft HyenaDNA SotA op alle 8 datasets gemiddeld met +9 nauwkeurigheidspunten.
Instructie-afstemming ontsluit de superieure mogelijkheden van Large Language Models (LLM) om te interacteren met mensen. Bovendien bevatten recente datasets voor instructievolging afbeeldingen als visuele invoer, waarbij reacties worden verzameld voor op afbeeldingen gebaseerde instructies. Visueel afgestemde modellen voor instructievolging kunnen echter tekstuele details binnen afbeeldingen niet goed begrijpen. Dit werk verbetert de huidige pipeline voor visuele instructie-afstemming met tekstrijke afbeeldingen (bijv. filmposters, boekomslagen, enz.). Specifiek gebruiken we eerst openbaar beschikbare OCR-tools om resultaten te verzamelen van 422K tekstrijke afbeeldingen uit de LAION-dataset. Daarnaast vragen we tekst-only GPT-4 om met herkende teksten en beeldbeschrijvingen 16K conversaties te genereren, elk met vraag-antwoordparen voor tekstrijke afbeeldingen. Door onze verzamelde data te combineren met eerdere multi-modale instructievolgende data, verbetert ons model, LLaVAR, de mogelijkheden van het LLaVA-model aanzienlijk op tekstgebaseerde VQA-datasets (tot 20% nauwkeurigheidsverbetering) terwijl het een nauwkeurigheid van 91,42% behaalt op ScienceQA. De op GPT-4 gebaseerde evaluatie van instructievolging toont ook de verbetering van ons model aan op zowel natuurlijke afbeeldingen als tekstrijke afbeeldingen. Door kwalitatieve analyse laat LLaVAR veelbelovende interactievaardigheden zien (bijv. redeneren, schrijven en uitweiden) met mensen, gebaseerd op de nieuwste real-world online content die tekst en afbeeldingen combineert. We maken onze code/data/modellen openbaar beschikbaar op https://llavar.github.io/.
Het vermogen om mislukte uitvoeringen automatisch te detecteren en analyseren is cruciaal voor een verklaarbaar en robuust robotsysteem. Recentelijk hebben Large Language Models (LLM's) sterke vaardigheden op het gebied van gezond verstand bij tekstuele invoer getoond. Om de kracht van LLM's te benutten voor het verklaren van robotfouten, stellen we een framework genaamd REFLECT voor, dat multi-sensorische data omzet in een hiërarchische samenvatting van eerdere ervaringen van de robot en LLM's bevraagt met een progressief algoritme voor foutverklaring. Op basis van de verklaring genereert een planner voor foutcorrectie een uitvoerbaar plan voor de robot om de fout te corrigeren en de taak te voltooien. Om het framework systematisch te evalueren, hebben we de RoboFail-dataset gecreëerd en laten we zien dat ons op LLM gebaseerde framework in staat is informatieve foutverklaringen te genereren die helpen bij succesvolle correctieplanning. Projectwebsite: https://roboreflect.github.io/
Denoising-diffusiemodellen hebben recent indrukwekkende resultaten getoond bij generatieve taken. Door krachtige a priori te leren uit enorme verzamelingen trainingsafbeeldingen, zijn dergelijke modellen in staat om volledige ruis geleidelijk aan te modificeren naar een schone natuurlijke afbeelding via een reeks kleine denoising-stappen, wat ze ogenschijnlijk geschikt maakt voor denoising van enkele afbeeldingen. Het effectief toepassen van denoising-diffusiemodellen voor het verwijderen van realistische ruis is echter uitdagender dan het lijkt, aangezien hun formulering gebaseerd is op additieve witte Gaussische ruis, in tegenstelling tot ruis in afbeeldingen uit de echte wereld. In dit werk presenteren we SVNR, een nieuwe formulering van denoising-diffusie die uitgaat van een realistischer, ruimtelijk variërend ruismodel. SVNR maakt het mogelijk om de ruisachtige invoerafbeelding als startpunt te gebruiken voor het denoising-diffusieproces, naast het conditioneren van het proces hierop. Hiertoe passen we het diffusieproces aan om elke pixel zijn eigen tijdembedding te laten hebben, en stellen we trainings- en inferentieschema's voor die ruimtelijk variërende tijdkaarten ondersteunen. Onze formulering houdt ook rekening met de correlatie die bestaat tussen de condition-afbeelding en de samples langs het aangepaste diffusieproces. In onze experimenten demonstreren we de voordelen van onze aanpak ten opzichte van een sterke diffusiemodel-baseline, evenals ten opzichte van een state-of-the-art methode voor denoising van enkele afbeeldingen.
Grote taalmodellen (LLM's) vertegenwoordigen mogelijk niet op een evenwichtige manier diverse mondiale perspectieven op maatschappelijke kwesties. In dit artikel ontwikkelen we een kwantitatief raamwerk om te evalueren wiens meningen de door modellen gegenereerde antwoorden het meest lijken. We bouwen eerst een dataset, GlobalOpinionQA, die bestaat uit vragen en antwoorden uit internationale enquêtes die zijn ontworpen om diverse meningen over mondiale kwesties in verschillende landen vast te leggen. Vervolgens definiëren we een metriek die de gelijkenis kwantificeert tussen door LLM's gegenereerde enquêtereacties en menselijke reacties, afhankelijk van het land. Met ons raamwerk voeren we drie experimenten uit op een LLM dat is getraind om behulpzaam, eerlijk en onschadelijk te zijn met Constitutional AI. Standaard lijken LLM-reacties meer op de meningen van bepaalde populaties, zoals die uit de VS, en enkele Europese en Zuid-Amerikaanse landen, wat het potentieel voor vooroordelen benadrukt. Wanneer we het model aanmoedigen om het perspectief van een bepaald land te overwegen, verschuiven de reacties om meer op de meningen van de gevraagde populaties te lijken, maar kunnen ze schadelijke culturele stereotypen weerspiegelen. Wanneer we de vragen van GlobalOpinionQA vertalen naar een doeltaal, worden de reacties van het model niet noodzakelijkerwijs het meest vergelijkbaar met de meningen van sprekers van die talen. We stellen onze dataset beschikbaar voor anderen om te gebruiken en op voort te bouwen. Onze gegevens zijn te vinden op https://huggingface.co/datasets/Anthropic/llm_global_opinions. We bieden ook een interactieve visualisatie aan op https://llmglobalvalues.anthropic.com.
Grote taalmodellen (LLMs) hebben opmerkelijk veel mogelijkheden getoond voor een breed scala aan toepassingen, maar nauwkeurigheid blijft een belangrijk aandachtspunt, vooral in kritieke domeinen zoals biomedische wetenschappen. Een effectieve methode om het vertrouwensniveau van LLM-antwoorden te kalibreren is essentieel om automatisch fouten te detecteren en menselijke verificatie mogelijk te maken. Een belangrijke bron van kalibratiesignalen komt van door experts opgestelde programmatische supervisie, die vaak tegen lage kosten beschikbaar is, maar ook beperkingen heeft zoals ruis en dekking. In dit artikel introduceren we een Pareto-optimaal zelfsupervisie-framework dat beschikbare programmatische supervisie kan benutten om LLM-antwoorden systematisch te kalibreren door een risicoscore voor elk antwoord te produceren, zonder extra handmatige inspanningen. Dit wordt bereikt door een harmonisatiemodel te leren dat de LLM-uitvoer afstemt op andere beschikbare supervisiebronnen, waardoor hogere risicoscores worden toegekend aan meer onzekere LLM-antwoorden en foutcorrectie wordt gefaciliteerd. Experimenten op standaard relatie-extractietaken in biomedische en algemene domeinen tonen de belofte van deze aanpak, waarbij onze voorgestelde risicoscores sterk gecorreleerd zijn met de werkelijke foutpercentages van LLMs. Voor de meest onzekere testgevallen resulteert dynamische prompting op basis van onze voorgestelde risicoscores in een significante nauwkeurigheidsverbetering voor standaard LLMs, waarbij GPT-3-resultaten de state-of-the-art (SOTA) zwakke supervisie overtreffen en GPT-4-resultaten de SOTA supervisieresultaten overstijgen op uitdagende evaluatiedatasets.
Recente end-to-end automatische spraakherkenningssystemen (ASR) maken vaak gebruik van een op een Transformer gebaseerde akoestische encoder die embeddings genereert met een hoge framerate. Dit ontwerp is echter inefficiënt, vooral voor lange spraaksignalen vanwege de kwadratische berekening van zelf-attentie. Om dit aan te pakken, stellen we een nieuwe methode voor, Adjacent Token Merging (A-ToMe), die geleidelijk aangrenzende tokens combineert met hoge gelijkenisscores tussen hun sleutelwaarden. Op deze manier kan het totale aantal tijdstappen worden verminderd, en wordt de inferentie van zowel de encoder als het gezamenlijke netwerk versneld. Experimenten op LibriSpeech laten zien dat onze methode 57% van de tokens kan verminderen en de inferentiesnelheid op GPU met 70% kan verbeteren zonder noemenswaardig verlies van nauwkeurigheid. Daarnaast tonen we aan dat A-ToMe ook een effectieve oplossing is om tokens te verminderen in langdurige ASR, waarbij de ingevoerde spraak uit meerdere uitingen bestaat.