Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) zijn naar voren gekomen als een baanbrekende technologie met hun ongeëvenaarde tekstgeneratiecapaciteiten in diverse toepassingen. Desalniettemin bestaan er zorgen over de nauwkeurigheid en geschiktheid van de gegenereerde inhoud. Een hedendaagse methodologie, zelfcorrectie, is voorgesteld als een oplossing voor deze problemen. Uitgaande van deze premisse onderzoekt dit artikel kritisch de rol en effectiviteit van zelfcorrectie binnen LLMs, waarbij het licht werpt op het werkelijke potentieel en de beperkingen ervan. Centraal in ons onderzoek staat het concept van intrinsieke zelfcorrectie, waarbij een LLM probeert zijn initiële antwoorden te corrigeren op basis van zijn inherente capaciteiten, zonder de steun van externe feedback. In de context van redeneren toont ons onderzoek aan dat LLMs moeite hebben om hun antwoorden zelf te corrigeren zonder externe feedback, en dat hun prestaties soms zelfs kunnen verslechteren na zelfcorrectie. Op basis van deze inzichten bieden we suggesties voor toekomstig onderzoek en praktische toepassingen op dit gebied.
Onlangs is een veelvoud aan conditionele beeldgeneratie- en bewerkingsmodellen ontwikkeld om verschillende downstreamtaken te dienen, waaronder tekst-naar-beeldgeneratie, tekstgeleide beeldbewerking, onderwerpgestuurde beeldgeneratie, controlegeleide beeldgeneratie, enz. We observeren echter grote inconsistenties in experimentele omstandigheden: datasets, inferentie en evaluatiemetrics, wat eerlijke vergelijkingen bemoeilijkt. Dit artikel stelt ImagenHub voor, een one-stop-bibliotheek om de inferentie en evaluatie van alle conditionele beeldgeneratiemodellen te standaardiseren. Ten eerste definiëren we zeven prominente taken en stellen we hoogwaardige evaluatiedatasets hiervoor samen. Ten tweede hebben we een uniform inferentiepijplijn gebouwd om een eerlijke vergelijking te waarborgen. Ten derde ontwerpen we twee menselijke evaluatiescores, namelijk Semantische Consistentie en Perceptuele Kwaliteit, samen met uitgebreide richtlijnen om gegenereerde beelden te evalueren. We trainen expertbeoordelaars om de modeluitvoer te evalueren op basis van de voorgestelde metrics. Onze menselijke evaluatie bereikt een hoge interbeoordelaarsovereenkomst van Krippendorff's alpha op 76% van de modellen met een waarde hoger dan 0,4. We hebben in totaal ongeveer 30 modellen uitgebreid geëvalueerd en drie belangrijke bevindingen waargenomen: (1) de prestaties van de bestaande modellen zijn over het algemeen onbevredigend, behalve voor Tekstgeleide Beeldgeneratie en Onderwerpgestuurde Beeldgeneratie, waarbij 74% van de modellen een totaalscore behaalt die lager is dan 0,5. (2) We hebben de claims uit gepubliceerde artikelen onderzocht en ontdekten dat 83% ervan standhoudt met enkele uitzonderingen. (3) Geen van de bestaande automatische metrics heeft een Spearman-correlatie hoger dan 0,2, behalve onderwerpgestuurde beeldgeneratie. In de toekomst zullen we onze inspanningen voortzetten om nieuw gepubliceerde modellen te evalueren en onze leaderboard bij te werken om de voortgang in conditionele beeldgeneratie bij te houden.
Chain-of-thought (CoT) prompting voor taalmodelen toont indrukwekkende prestaties bij redeneertaken, maar vereist doorgaans gelabelde voorbeelden van het redeneerproces. In dit werk introduceren we een nieuwe prompting-aanpak, Analogical Prompting, ontworpen om het redeneerproces van grote taalmodelen automatisch te begeleiden. Geïnspireerd door analogisch redeneren, een cognitief proces waarbij mensen putten uit relevante ervaringen uit het verleden om nieuwe problemen aan te pakken, spoort onze aanpak taalmodelen aan om zelf relevante voorbeelden of kennis in de context te genereren, voordat ze het gegeven probleem oplossen. Deze methode biedt verschillende voordelen: het elimineert de noodzaak om voorbeelden te labelen of op te halen, wat algemeenheid en gemak biedt; het kan ook de gegenereerde voorbeelden en kennis afstemmen op elk probleem, wat aanpassingsvermogen biedt. Experimentele resultaten tonen aan dat onze aanpak 0-shot CoT en handmatige few-shot CoT overtreft in een verscheidenheid aan redeneertaken, waaronder wiskundeproblemen oplossen in GSM8K en MATH, codegeneratie in Codeforces, en andere redeneertaken in BIG-Bench.
Recente grote taalmodellen (LLMs) hebben groot potentieel getoond voor intelligente agents en next-gen automatisering, maar er ontbreekt momenteel een systematische benchmark voor het evalueren van de vaardigheden van LLMs als agents. Wij introduceren SmartPlay: zowel een uitdagende benchmark als een methodologie voor het evalueren van LLMs als agents. SmartPlay bestaat uit 6 verschillende spellen, waaronder Steen-Papier-Schaar, de Toren van Hanoi en Minecraft. Elk spel biedt een unieke setting, met maximaal 20 evaluatie-instellingen en oneindige variaties in de omgeving. Elk spel in SmartPlay daagt op unieke wijze een subset van 9 belangrijke vaardigheden van een intelligente LLM-agent uit, waaronder redeneren met objectafhankelijkheden, vooruit plannen, ruimtelijk redeneren, leren van geschiedenis en het begrijpen van willekeur. Het onderscheid tussen de set vaardigheden die elk spel test, stelt ons in staat om elke vaardigheid afzonderlijk te analyseren. SmartPlay dient niet alleen als een rigoureus testgebied voor het evalueren van de algehele prestaties van LLM-agents, maar ook als een routekaart voor het identificeren van hiaten in huidige methodologieën. Wij hebben onze benchmark vrijgegeven op github.com/LLMsmartplay/SmartPlay.