Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk ontwikkelen en publiceren we Llama 2, een verzameling van vooraf getrainde en fijn afgestelde grote taalmodellen (LLMs) met een schaal variërend van 7 miljard tot 70 miljard parameters. Onze fijn afgestelde LLMs, genaamd Llama 2-Chat, zijn geoptimaliseerd voor dialoogtoepassingen. Onze modellen presteren beter dan open-source chatmodellen op de meeste benchmarks die we hebben getest, en op basis van onze menselijke evaluaties voor behulpzaamheid en veiligheid, kunnen ze een geschikt alternatief zijn voor closed-source modellen. We bieden een gedetailleerde beschrijving van onze aanpak voor het fijn afstellen en verbeteren van de veiligheid van Llama 2-Chat, om de gemeenschap in staat te stellen voort te bouwen op ons werk en bij te dragen aan de verantwoorde ontwikkeling van LLMs.
GPT-3.5 en GPT-4 zijn de twee meest gebruikte diensten voor grote taalmodellen (LLM's). Wanneer en hoe deze modellen in de loop van de tijd worden bijgewerkt, is echter ondoorzichtig. Hier evalueren we de versies van maart 2023 en juni 2023 van GPT-3.5 en GPT-4 op vier verschillende taken: 1) het oplossen van wiskundige problemen, 2) het beantwoorden van gevoelige/gevaarlijke vragen, 3) het genereren van code en 4) visueel redeneren. We constateren dat de prestaties en het gedrag van zowel GPT-3.5 als GPT-4 aanzienlijk kunnen variëren in de loop van de tijd. GPT-4 (maart 2023) was bijvoorbeeld zeer goed in het identificeren van priemgetallen (nauwkeurigheid 97,6%), maar GPT-4 (juni 2023) presteerde zeer slecht op dezelfde vragen (nauwkeurigheid 2,4%). Interessant genoeg was GPT-3.5 (juni 2023) veel beter dan GPT-3.5 (maart 2023) in deze taak. GPT-4 was in juni minder bereid om gevoelige vragen te beantwoorden dan in maart, en zowel GPT-4 als GPT-3.5 maakten meer opmaakfouten bij het genereren van code in juni dan in maart. Over het algemeen tonen onze bevindingen aan dat het gedrag van dezelfde LLM-dienst aanzienlijk kan veranderen in een relatief korte tijd, wat de noodzaak van continue monitoring van de kwaliteit van LLM's benadrukt.
Circuit-analyse is een veelbelovende techniek om de interne mechanismen van taalmodelen te begrijpen. Bestaande analyses zijn echter uitgevoerd in kleine modellen die ver verwijderd zijn van de state-of-the-art. Om dit aan te pakken, presenteren we een casestudy van circuit-analyse in het 70B Chinchilla-model, met als doel de schaalbaarheid van circuit-analyse te testen. In het bijzonder bestuderen we meerkeuzevragen en onderzoeken we het vermogen van Chinchilla om het juiste antwoordlabel te identificeren op basis van kennis van de juiste antwoordtekst. We ontdekken dat de bestaande technieken van logit-attributie, visualisatie van aandachtspatronen en activatie-patching van nature schaalbaar zijn naar Chinchilla, waardoor we een kleine set van `output nodes' (aandachtskoppen en MLP's) kunnen identificeren en categoriseren. We bestuderen verder de categorie van `correcte letter'-aandachtskoppen om de semantiek van hun kenmerken te begrijpen, met gemengde resultaten. Voor normale meerkeuzevragen comprimeren we de query-, key- en value-subruimten van de kop aanzienlijk zonder prestatieverlies bij het verwerken van de antwoordlabels voor meerkeuzevragen, en we tonen aan dat de query- en key-subruimten tot op zekere hoogte een `N-de item in een opsomming'-kenmerk vertegenwoordigen. Wanneer we echter proberen deze verklaring te gebruiken om het gedrag van de koppen te begrijpen op een meer algemene verdeling, inclusief gerandomiseerde antwoordlabels, ontdekken we dat dit slechts een gedeeltelijke verklaring is, wat suggereert dat er meer te leren valt over de werking van `correcte letter'-koppen bij het beantwoorden van meerkeuzevragen.
Beeld-tekst contrastieve modellen zoals CLIP zijn nuttig voor een verscheidenheid aan downstream toepassingen, waaronder zero-shot classificatie, beeld-tekst retrieval en transfer learning. Deze contrastief getrainde visie-taalmodellen falen echter vaak bij compositionele visio-linguïstische taken zoals Winoground, met prestaties die gelijk zijn aan willekeurige kans. In ons artikel pakken we dit probleem aan en stellen we een sample-efficiënte, lichtgewicht methode genaamd SDS-CLIP voor om de compositionele visio-linguïstische redeneervaardigheden van CLIP te verbeteren. De kern van onze methode is het gebruik van differentieerbare beeldparameterisaties om CLIP te fine-tunen met een distillatiedoelstelling van grote tekst-naar-beeld generatieve modellen zoals Stable-Diffusion, die relatief goed zijn in visio-linguïstische redeneertaken. Op de uitdagende Winoground compositionele redeneerbenchmark verbetert onze methode de absolute visio-linguïstische prestaties van verschillende CLIP-modellen met tot 7%, terwijl op de ARO-dataset de visio-linguïstische prestaties met tot 3% verbeteren. Als een bijproduct van het introduceren van visio-linguïstisch redeneren in CLIP, vinden we ook dat de zero-shot prestaties marginaal verbeteren op een verscheidenheid aan downstream datasets. Onze methode benadrukt dat zorgvuldig ontworpen distillatiedoelstellingen van generatieve modellen kunnen worden benut om bestaande contrastieve beeld-tekstmodellen uit te breiden met verbeterde visio-linguïstische redeneervaardigheden.
Er is opmerkelijke vooruitgang geboekt in 3D-reconstructie vanuit enkelvoudige RGB-D-invoeren. MCC is de huidige state-of-the-art methode op dit gebied, die ongekend succes behaalt door vision Transformers te combineren met grootschalige training. We hebben echter twee belangrijke beperkingen van MCC geïdentificeerd: 1) De Transformer-decoder is inefficiënt in het verwerken van een groot aantal querypunten; 2) De 3D-representatie heeft moeite om hoogwaardige details te herstellen. In dit artikel stellen we een nieuwe aanpak voor, genaamd NU-MCC, die deze beperkingen aanpakt. NU-MCC omvat twee belangrijke innovaties: een Neighborhood-decoder en een Repulsive Unsigned Distance Function (Repulsive UDF). Ten eerste introduceert onze Neighborhood-decoder centrumpunten als een efficiënte proxy van invoer visuele kenmerken, waardoor elk querypunt alleen aandacht hoeft te besteden aan een kleine omgeving. Dit ontwerp resulteert niet alleen in een veel snellere inferentiesnelheid, maar maakt ook het gebruik van fijnere visuele kenmerken mogelijk voor een verbeterd herstel van 3D-texturen. Ten tweede is onze Repulsive UDF een nieuw alternatief voor het occupancy-veld dat in MCC wordt gebruikt, wat de kwaliteit van 3D-objectreconstructie aanzienlijk verbetert. In vergelijking met standaard UDF's die last hebben van gaten in de resultaten, kan onze voorgestelde Repulsive UDF een completere oppervlakte-reconstructie bereiken. Experimentele resultaten tonen aan dat NU-MCC in staat is een sterke 3D-representatie te leren, wat de state of the art in enkelvoudige 3D-reconstructie aanzienlijk vooruit helpt. In het bijzonder presteert het 9,7% beter dan MCC in termen van de F1-score op de CO3D-v2 dataset met meer dan 5x snellere uitvoeringssnelheid.
We introduceren Biomaker CA: een Biome Maker project dat gebruik maakt van Cellular Automata (CA). In Biomaker CA is morfogenese een eerste klasse burger en moeten kleine zaadjes uitgroeien tot plantachtige organismen om te overleven in een voedingsarme omgeving en uiteindelijk te reproduceren met variatie, zodat een biome gedurende lange tijdsperioden kan voortbestaan. We simuleren complexe biomes door middel van CA-regels in 2D-roosters en paralleliseren alle berekeningen op GPU's via het Python JAX-framework. We laten zien hoe dit project ruimte biedt voor verschillende soorten omgevingen en 'natuurkundige' wetten, naast verschillende modelarchitecturen en mutatiestrategieën. We analyseren verder enkele configuraties om te laten zien hoe plantagenten kunnen groeien, overleven, reproduceren en evolueren, waardoor stabiele en onstabiele biomes ontstaan. We demonstreren vervolgens hoe men modellen kan meta-evolueren om te overleven in een harde omgeving, hetzij via end-to-end meta-evolutie of door een meer gerichte en efficiënte aanpak, genaamd Petri-schaal meta-evolutie. Tot slot laten we zien hoe interactieve evolutie kan worden uitgevoerd, waarbij de gebruiker beslist hoe een plantmodel interactief wordt geëvolueerd en het vervolgens in een grotere omgeving wordt ingezet. We maken Biomaker CA open source op: https://tinyurl.com/2x8yu34s.