Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In-context learning (ICL) in Large Language Models (LLMs) is naar voren gekomen als een krachtig nieuw leerparadigma. Het onderliggende mechanisme ervan is echter nog niet goed begrepen. In het bijzonder is het uitdagend om het te koppelen aan het "standaard" machine learning-framework, waarbij men een trainingset S gebruikt om een best passende functie f(x) te vinden binnen een bepaalde hypotheseklasse. Hier boeken we vooruitgang op dit probleem door aan te tonen dat de functies die door ICL worden geleerd vaak een zeer eenvoudige structuur hebben: ze corresponderen met de transformer-LLM waarvan de enige invoer de query x en een enkele "taakvector" is, berekend uit de trainingset. ICL kan dus worden gezien als het comprimeren van S in een enkele taakvector theta(S) en vervolgens het gebruik van deze taakvector om de transformer te moduleren voor het produceren van de uitvoer. We ondersteunen de bovenstaande bewering via uitgebreide experimenten over een reeks modellen en taken.
Het landschap van publiek beschikbare vision foundation models (VFMs), zoals CLIP en Segment Anything Model (SAM), breidt zich snel uit. VFM's beschikken over verschillende capaciteiten die voortkomen uit hun pre-trainingsdoelstellingen. CLIP blinkt bijvoorbeeld uit in semantisch begrip, terwijl SAM gespecialiseerd is in ruimtelijk begrip voor segmentatie. In dit werk introduceren we een eenvoudige methode om VFM's efficiënt samen te voegen tot een geïntegreerd model dat hun expertise assimileert. Onze voorgestelde methode integreert multi-task learning, continue leertechnieken en teacher-student distillatie. Deze strategie vereist aanzienlijk minder rekenkracht in vergelijking met traditionele multi-task training vanaf nul. Bovendien is slechts een kleine fractie van de pre-trainingsdatasets nodig die oorspronkelijk werden gebruikt om de individuele modellen te trainen. Door onze methode toe te passen op SAM en CLIP, leiden we SAM-CLIP af: een geïntegreerd model dat de sterke punten van SAM en CLIP combineert in een enkele backbone, waardoor het geschikt is voor toepassingen op edge devices. We tonen aan dat SAM-CLIP rijkere visuele representaties leert, uitgerust met zowel lokalisatie- als semantische kenmerken, geschikt voor een breed scala aan vision-taken. SAM-CLIP behaalt verbeterde prestaties op verschillende head probing-taken in vergelijking met SAM en CLIP. We laten verder zien dat SAM-CLIP niet alleen de fundamentele sterke punten van zijn voorgangers behoudt, maar ook synergetische functionaliteiten introduceert, met name in zero-shot semantische segmentatie, waar SAM-CLIP nieuwe state-of-the-art resultaten behaalt op 5 benchmarks. Het overtreft eerdere modellen die specifiek voor deze taak zijn ontworpen met een grote marge, waaronder een verbetering van +6,8% en +5,9% gemiddelde IoU op de Pascal-VOC- en COCO-Stuff-datasets, respectievelijk.
Hallucinatie is een grote schaduw die hangt boven de snel evoluerende Multimodale Grote Taalmodellen (MLLMs), verwijzend naar het fenomeen waarbij de gegenereerde tekst inconsistent is met de beeldinhoud. Om hallucinaties te verminderen, grijpen bestaande studies voornamelijk naar een instructie-afstemmingsmethode die het opnieuw trainen van de modellen met specifieke data vereist. In dit artikel slaan we een andere weg in en introduceren we een trainingsvrije methode genaamd Woodpecker. Net zoals een specht bomen geneest, haalt deze hallucinaties uit de gegenereerde tekst en corrigeert ze. Concreet bestaat Woodpecker uit vijf fasen: extractie van sleutelconcepten, vraagformulering, validatie van visuele kennis, generatie van visuele claims en correctie van hallucinaties. Geïmplementeerd in een post-remedy-manier, kan Woodpecker eenvoudig verschillende MLLMs bedienen, terwijl het interpreteerbaar blijft door toegang te bieden tot de tussenliggende uitvoer van de vijf fasen. We evalueren Woodpecker zowel kwantitatief als kwalitatief en tonen het enorme potentieel van dit nieuwe paradigma. Op de POPE-benchmark behaalt onze methode een verbetering van 30,66%/24,33% in nauwkeurigheid ten opzichte van de baseline MiniGPT-4/mPLUG-Owl. De broncode is vrijgegeven op https://github.com/BradyFU/Woodpecker.
Het meeste recente werk in het benutten van Large Language Models (LLM's) zoals GPT-3 voor Machinevertaling (MT) heeft zich gericht op het selecteren van few-shot voorbeelden voor prompting. In dit werk proberen we de rol van demonstratie-attributen voor in-context leren van vertalingen beter te begrijpen door middel van perturbaties van hoogwaardige, domeinspecifieke demonstraties. We ontdekken dat asymmetrische perturbatie van de bron-doel-mappingen sterk verschillende resultaten oplevert. We tonen aan dat perturbatie van de bronzijde verrassend weinig impact heeft, terwijl perturbatie van de doelzijde de vertaalkwaliteit drastisch kan verminderen, wat suggereert dat het de tekstdistributie van de output is die het belangrijkste leersignaal biedt tijdens in-context leren van vertalingen. We stellen een methode genaamd Zero-Shot-Context voor om dit signaal automatisch toe te voegen bij zero-shot prompting. We demonstreren dat het de zero-shot vertaalprestaties van GPT-3 verbetert, en het zelfs competitief maakt met few-shot gepromptte vertalingen.
In dit artikel introduceren we het Recognize Anything Plus Model (RAM++), een fundamenteel beeldherkenningsmodel met sterke open-set herkenningsmogelijkheden, door semantische concepten te integreren in het trainingsframework voor beeldtagging. Eerdere benaderingen zijn ofwel beeldtaggingmodellen die beperkt worden door beperkte semantiek, of visie-taalmodellen met oppervlakkige interactie die suboptimale prestaties leveren bij multi-tag herkenning. In tegenstelling hiermee integreert RAM++ beeld-tekstuitlijning en beeldtagging binnen een uniform fijnmazig interactieframework gebaseerd op beeld-tags-tekst tripletten. Dit ontwerp stelt RAM++ niet alleen in staat uit te blinken in het identificeren van vooraf gedefinieerde categorieën, maar versterkt ook aanzienlijk het herkenningsvermogen in open-set categorieën. Bovendien maakt RAM++ gebruik van grote taalmodellen (LLM's) om diverse visuele tagbeschrijvingen te genereren, waarmee het de integratie van LLM-kennis in beeldtaggingtraining pionierst. Deze aanpak stelt RAM++ in staat om visuele beschrijvingsconcepten te integreren voor open-set herkenning tijdens inferentie. Evaluaties op uitgebreide beeldherkenningsbenchmarks tonen aan dat RAM++ de bestaande state-of-the-art (SOTA) fundamentele beeldherkenningsmodellen op de meeste aspecten overtreft. Specifiek voor vooraf gedefinieerde veelgebruikte tagcategorieën toont RAM++ verbeteringen van 10.2 mAP en 15.4 mAP ten opzichte van CLIP op OpenImages en ImageNet. Voor open-set categorieën buiten de vooraf gedefinieerde, registreert RAM++ verbeteringen van 5 mAP en 6.4 mAP ten opzichte van CLIP en RAM op OpenImages. Voor diverse mens-object interactiezinnen behaalt RAM++ verbeteringen van 7.8 mAP en 4.7 mAP op de HICO benchmark. Code, datasets en vooraf getrainde modellen zijn beschikbaar op https://github.com/xinyu1205/recognize-anything.
We bestuderen het vermogen van state-of-the-art modellen om beperkingsvoldoende vragen te beantwoorden voor informatiezoekopdrachten (bijv. 'een lijst van ijssalons in San Diego'). In het verleden werden dergelijke vragen beschouwd als taken die alleen konden worden opgelost via webzoekopdrachten of kennisbanken. Meer recentelijk hebben grote taalmmodellen (LLM's) eerste opkomende vaardigheden laten zien bij deze taak. Veel huidige benchmarks voor informatiezoekopdrachten zijn echter ofwel verzadigd of meten geen beperkingsvoldoening. Gemotiveerd door toenemende zorgen over feitelijke onjuistheden en hallucinaties van LLM's, presenteren we KITAB, een nieuwe dataset voor het meten van beperkingsvoldoende vaardigheden van taalmmodellen. KITAB bestaat uit boekgerelateerde gegevens van meer dan 600 auteurs en 13.000 vragen, en biedt ook een bijbehorende dynamische gegevensverzamelings- en beperkingsverificatieaanpak voor het verkrijgen van vergelijkbare testgegevens voor andere auteurs. Onze uitgebreide experimenten met GPT4 en GPT3.5 karakteriseren en ontkoppelen veelvoorkomende faalmodi over dimensies zoals informatiepopulariteit, beperkingstypen en contextbeschikbaarheid. Resultaten tonen aan dat modellen in afwezigheid van context ernstige beperkingen vertonen, zoals gemeten door irrelevante informatie, feitelijke fouten en onvolledigheid, waarvan vele verergeren naarmate de informatiepopulariteit afneemt. Hoewel contextbeschikbaarheid irrelevante informatie vermindert, is het niet behulpzaam voor het voldoen aan beperkingen, wat fundamentele barrières voor beperkingsvoldoening blootlegt. We maken onze bijdragen open source om verder onderzoek te bevorderen naar het verbeteren van beperkingsvoldoende vaardigheden van toekomstige modellen.
De Transformer-architectuur is cruciaal voor talloze AI-modellen, maar kampt nog steeds met uitdagingen op het gebied van taalmodellering over lange afstanden. Hoewel verschillende specifieke transformer-architecturen zijn ontworpen om problemen met langeafstandsafhankelijkheden aan te pakken, worden bestaande methoden zoals Transformer-XL geplaagd door een hoog percentage ineffectieve herinneringen. In deze studie presenteren we een plug-and-play-strategie, genaamd TRAining-free Memory Selection (TRAMS), die tokens selecteert die deelnemen aan de aandachtberekening op basis van een eenvoudige metriek. Deze strategie stelt ons in staat om tokens te behouden die waarschijnlijk een hoge attentiescore hebben met de huidige queries en de andere tokens te negeren. We hebben onze aanpak getest op de woordniveau-benchmark (WikiText-103) en de karakterniveau-benchmark (enwik8), en de resultaten tonen een verbetering aan zonder extra training of het toevoegen van extra parameters.
De morele fundamenten theorie (MFT) is een psychologisch beoordelingsinstrument dat menselijk moreel redeneren ontleedt in vijf factoren, waaronder zorg/schade, vrijheid/onderdrukking en heiligheid/degradatie (Graham et al., 2009). Mensen verschillen in de mate waarin ze deze dimensies meewegen bij het nemen van morele beslissingen, deels vanwege hun culturele opvoeding en politieke ideologie. Omdat grote taalmmodellen (LLMs) getraind worden op datasets die van het internet zijn verzameld, kunnen ze de vooroordelen weerspiegelen die in dergelijke corpora aanwezig zijn. Dit artikel gebruikt MFT als een lens om te analyseren of populaire LLMs een vooroordeel hebben ontwikkeld ten opzichte van een bepaalde set morele waarden. We analyseren bekende LLMs en constateren dat ze specifieke morele fundamenten vertonen, en laten zien hoe deze zich verhouden tot menselijke morele fundamenten en politieke affiliaties. We meten ook de consistentie van deze vooroordelen, of ze sterk variëren afhankelijk van de context waarin het model wordt geprompt. Tot slot tonen we aan dat we op een adversariale manier prompts kunnen selecteren die het model aanmoedigen om een bepaalde set morele fundamenten te vertonen, en dat dit het gedrag van het model op downstream taken kan beïnvloeden. Deze bevindingen helpen de potentiële risico's en onbedoelde gevolgen te illustreren van LLMs die een bepaalde morele positie innemen.