Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Tegenwoordig worden grote taalmodellen (LLMs) geleerd om nieuwe tools te gebruiken door enkele demonstraties van het gebruik van de tool te verstrekken. Helaas zijn demonstraties moeilijk te verkrijgen en kunnen ze leiden tot ongewenst bevooroordeeld gebruik als de verkeerde demonstratie wordt gekozen. Zelfs in het zeldzame scenario dat demonstraties direct beschikbaar zijn, is er geen principieel selectieprotocol om te bepalen hoeveel en welke demonstraties moeten worden verstrekt. Naarmate taken complexer worden, groeit de selectiezoekruimte combinatorisch en wordt deze onvermijdelijk onhanteerbaar. Ons werk biedt een alternatief voor demonstraties: tool documentatie. Wij pleiten voor het gebruik van tool documentatie, beschrijvingen voor het individuele toolgebruik, in plaats van demonstraties. Wij onderbouwen onze claim door drie belangrijke empirische bevindingen over 6 taken in zowel visuele als taalkundige modaliteiten. Ten eerste zijn op bestaande benchmarks zero-shot prompts met alleen tool documentatie voldoende om correct toolgebruik te stimuleren, waarbij de prestaties vergelijkbaar zijn met few-shot prompts. Ten tweede tonen we op een nieuw verzamelde realistische toolgebruikdataset met honderden beschikbare tool-API's aan dat tool documentatie aanzienlijk waardevoller is dan demonstraties, waarbij zero-shot documentatie significant beter presteert dan few-shot zonder documentatie. Ten derde benadrukken we de voordelen van tool documentatie door beeldgeneratie en videotracking aan te pakken met behulp van net vrijgegeven, onbekende state-of-the-art modellen als tools. Tot slot benadrukken we de mogelijkheid om tool documentatie te gebruiken om automatisch nieuwe toepassingen mogelijk te maken: door niets meer te gebruiken dan de documentatie van GroundingDino, Stable Diffusion, XMem en SAM, kunnen LLMs de functionaliteiten van de net vrijgegeven Grounded-SAM en Track Anything modellen opnieuw uitvinden.
We beschouwen het probleem van het uitlokken van compositionele generalisatievermogens in grote taalmodellen (LLMs) met een nieuw type promptingstrategie. Compositionele generalisatie stelt LLMs in staat om problemen op te lossen die moeilijker zijn dan de problemen die ze hebben gezien (d.w.z. easy-to-hard generalisatie), wat een cruciaal redeneervermogen is van mensachtige intelligentie. Echter, zelfs de huidige state-of-the-art LLMs worstelen nog steeds met deze vorm van redeneren. Om deze kloof te overbruggen, stellen we skills-in-context (SKiC) prompting voor, dat LLMs instrueert hoe ze basisvaardigheden kunnen combineren om complexere problemen op te lossen. We vinden dat het cruciaal is om zowel de vaardigheden als de compositionele voorbeelden binnen dezelfde promptingcontext te demonstreren. Met slechts twee voorbeelden initieert onze SKiC prompting sterke synergieën tussen vaardigheden en hun compositievermogens. Opmerkelijk is dat het LLMs in staat stelt om onbekende problemen op te lossen die innovatieve vaardigheidscombinaties vereisen, wat resulteert in bijna perfecte generalisatie op een breed scala aan uitdagende compositionele taken. Interessant genoeg ontgrendelt SKiC prompting het latente potentieel van LLMs, waardoor ze gebruik kunnen maken van reeds bestaande interne vaardigheden die zijn opgedaan tijdens eerdere pre-trainingsfasen, zelfs wanneer deze vaardigheden niet expliciet worden gepresenteerd in de promptingcontext. Dit resulteert in het vermogen van LLMs om onbekende complexe problemen op te lossen door interne competenties te activeren en te combineren. Met dergelijke opvallende kenmerken is SKiC prompting in staat om state-of-the-art prestaties te behalen op uitdagende wiskundige redeneerbenchmarks (bijv. MATH).
De recente vooruitgang in grote taalmmodellen (LLM's), met name de uitvinding van chain-of-thought (CoT) prompting, maakt het mogelijk om redeneerproblemen op te lossen. Echter, zelfs de krachtigste LLM's hebben nog steeds moeite met complexere problemen die niet-lineair denken en meerstapsredenering vereisen. In dit werk onderzoeken we of LLM's de mogelijkheid hebben om hun eigen fouten te herkennen, zonder gebruik te maken van externe bronnen. In het bijzonder onderzoeken we of ze kunnen worden gebruikt om individuele fouten binnen een stapsgewijze redenering te identificeren. Hiertoe stellen we een zero-shot verificatieschema voor om dergelijke fouten te herkennen. Vervolgens gebruiken we dit verificatieschema om de prestaties bij vraag-antwoordtaken te verbeteren, door het in te zetten voor gewogen stemmen op verschillende gegenereerde antwoorden. We testen de methode op drie wiskundedatasets—GSM8K, MathQA en MATH—en constateren dat deze met succes fouten herkent en daardoor de uiteindelijke voorspellende prestaties verbetert.
Zelfsupervised leren is een veelbelovend paradigma in deep learning dat het mogelijk maakt om te leren van ongelabelde data door pretexttaken te construeren die het leren van nuttige representaties vereisen. In natuurlijke taalverwerking is de dominante pretexttaak gemaskeerd taalmodelleren (MLM), terwijl in computervisie een equivalent bestaat genaamd Gemaskeerd Beeldmodelleren (MIM). MIM is echter uitdagend omdat het vereist dat semantische inhoud op nauwkeurige locaties wordt voorspeld. Bijvoorbeeld, gegeven een onvolledige afbeelding van een hond, kunnen we raden dat er een staart is, maar we kunnen de exacte locatie ervan niet bepalen. In dit werk stellen we FlexPredict voor, een stochastisch model dat deze uitdaging aanpakt door locatieonzekerheid in het model te integreren. Specifiek conditioneren we het model op stochastische gemaskeerde tokenposities om het model te begeleiden naar het leren van kenmerken die robuuster zijn tegen locatieonzekerheden. Onze aanpak verbetert de downstreamprestaties op een reeks taken; vergeleken met MIM-baselines verhoogt FlexPredict bijvoorbeeld ImageNet lineair testen met 1,6% bij ViT-B en met 2,5% voor semi-supervisie videosegmentatie met ViT-L.
De taak om onderscheid te maken tussen gegenereerde en natuurlijke teksten wordt steeds uitdagender. In deze context komt watermerken naar voren als een veelbelovende techniek om gegenereerde tekst toe te schrijven aan een specifiek model. Het verandert het steekproefgeneratieproces om een onzichtbaar spoor achter te laten in de gegenereerde output, wat latere detectie vergemakkelijkt. Dit onderzoek consolideert watermerken voor grote taalmodelen op basis van drie theoretische en empirische overwegingen. Ten eerste introduceren we nieuwe statistische tests die robuuste theoretische garanties bieden die geldig blijven, zelfs bij lage fout-positieve tarieven (minder dan 10^{-6}). Ten tweede vergelijken we de effectiviteit van watermerken met behulp van klassieke benchmarks in het veld van natuurlijke taalverwerking, wat inzicht geeft in hun toepasbaarheid in de praktijk. Ten derde ontwikkelen we geavanceerde detectieschema's voor scenario's waarin toegang tot het grote taalmodel beschikbaar is, evenals multi-bit watermerken.