HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

8 papers found

ToolLLM: Het mogelijk maken voor grote taalmodellen om meer dan 16.000 real-world API's te beheersen
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31

ByYujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun

101

Ondanks de vooruitgang van open-source grote taalmodellen (LLMs) en hun varianten, zoals LLaMA en Vicuna, blijven ze aanzienlijk beperkt in het uitvoeren van hogere-niveautaken, zoals het volgen van menselijke instructies om externe tools (API's) te gebruiken. Dit komt doordat de huidige instructie-afstemming zich voornamelijk richt op basistaaltaken in plaats van het domein van toolgebruik. Dit staat in contrast met state-of-the-art (SOTA) LLMs, zoals ChatGPT, die uitstekende toolgebruikscapaciteiten hebben getoond, maar helaas closed source zijn. Om toolgebruikscapaciteiten binnen open-source LLMs te faciliteren, introduceren we ToolLLM, een algemeen framework voor toolgebruik dat bestaat uit dataconstructie, modeltraining en evaluatie. We presenteren eerst ToolBench, een instructie-afstemdingsdataset voor toolgebruik, die automatisch wordt gecreëerd met behulp van ChatGPT. Specifiek verzamelen we 16.464 real-world RESTful API's uit 49 categorieën van RapidAPI Hub, waarna we ChatGPT aanzetten om diverse menselijke instructies te genereren die deze API's betrekken, zowel voor enkelvoudige als meervoudige toolsituaties. Vervolgens gebruiken we ChatGPT om een geldig oplossingstraject (keten van API-aanroepen) voor elke instructie te zoeken. Om het zoekproces efficiënter te maken, ontwikkelen we een nieuw depth-first search-based decision tree (DFSDT), waarmee LLMs meerdere redeneersporen kunnen evalueren en de zoekruimte kunnen uitbreiden. We tonen aan dat DFSDT de plannings- en redeneercapaciteiten van LLMs aanzienlijk verbetert. Voor een efficiënte evaluatie van toolgebruik ontwikkelen we een automatische evaluator: ToolEval. We fine-tunen LLaMA op ToolBench en verkrijgen ToolLLaMA. Onze ToolEval laat zien dat ToolLLaMA een opmerkelijke vaardigheid vertoont om complexe instructies uit te voeren en zich aan te passen aan onbekende API's, en een vergelijkbare prestaties vertoont als ChatGPT. Om de pijplijn praktischer te maken, ontwerpen we een neurale API-retriever om geschikte API's voor elke instructie aan te bevelen, waardoor handmatige API-selectie overbodig wordt.

Open Problemen en Fundamentele Beperkingen van Reinforcement Learning met Menselijke Feedback
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Jul 27

ByStephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

Reinforcement learning from human feedback (RLHF) is een techniek voor het trainen van AI-systemen om af te stemmen op menselijke doelen. RLHF is naar voren gekomen als de centrale methode die wordt gebruikt om state-of-the-art grote taalmodelen (LLMs) te finetunen. Ondanks deze populariteit is er relatief weinig openbaar werk geweest dat de tekortkomingen ervan systematiseert. In dit artikel (1) onderzoeken we openstaande problemen en fundamentele beperkingen van RLHF en gerelateerde methoden; (2) geven we een overzicht van technieken om RLHF in de praktijk te begrijpen, te verbeteren en aan te vullen; en (3) stellen we audit- en openbaarmakingsstandaarden voor om het maatschappelijk toezicht op RLHF-systemen te verbeteren. Ons werk benadrukt de beperkingen van RLHF en onderstreept het belang van een veelzijdige aanpak voor de ontwikkeling van veiligere AI-systemen.

Skeleton-of-Thought: Grote Taalmodellen Kunnen Parallel Decoderen Uitvoeren
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Jul 28

ByXuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang

Dit werk heeft als doel de end-to-end generatielatentie van grote taalmmodellen (LLMs) te verminderen. Een van de belangrijkste oorzaken van de hoge generatielatentie is de sequentiële decodeerbenadering die door bijna alle state-of-the-art LLMs wordt gebruikt. In dit werk, geïnspireerd door het denk- en schrijfproces van mensen, stellen we "Skeleton-of-Thought" (SoT) voor, dat LLMs begeleidt om eerst het skelet van het antwoord te genereren, en vervolgens parallelle API-aanroepen of batch-decodering uitvoert om de inhoud van elk skeletpunt parallel te voltooien. SoT biedt niet alleen een aanzienlijke versnelling (tot 2,39x over 11 verschillende LLMs), maar kan ook de antwoordkwaliteit op verschillende vraagcategorieën potentieel verbeteren wat betreft diversiteit en relevantie. SoT is een eerste poging tot data-gerichte optimalisatie voor efficiëntie, en onthult het potentieel om LLMs meer als een mens te laten denken voor antwoordkwaliteit.

Med-Flamingo: een Multimodale Medische Few-shot Leerder
Med-Flamingo: a Multimodal Medical Few-shot Learner

Jul 27

ByMichael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec

Geneeskunde is van nature een veelzijdig domein dat de synthese van informatie over verschillende modaliteiten vereist. Medische generatieve vision-language modellen (VLMs) zetten een eerste stap in deze richting en beloven veel spannende klinische toepassingen. Bestaande modellen moeten echter doorgaans worden afgestemd op omvangrijke downstream datasets, wat een aanzienlijke beperking vormt, aangezien in veel medische toepassingen data schaars is. Dit vereist modellen die in staat zijn om in real-time te leren van weinig voorbeelden. Hier stellen we Med-Flamingo voor, een multimodale few-shot learner die is aangepast aan het medische domein. Gebaseerd op OpenFlamingo-9B, zetten we de voorafgaande training voort met gepaarde en interleaved medische beeld-tekst data uit publicaties en leerboeken. Med-Flamingo maakt few-shot generatieve medische visuele vraag-antwoord (VQA) mogelijkheden vrij, die we evalueren op verschillende datasets, waaronder een nieuwe uitdagende open-ended VQA dataset van visuele USMLE-stijl problemen. Bovendien voeren we de eerste menselijke evaluatie uit voor generatieve medische VQA, waarbij artsen de problemen en geblindeerde generaties beoordelen in een interactieve app. Med-Flamingo verbetert de prestaties in generatieve medische VQA met tot wel 20\% in de beoordeling van clinici en maakt voor het eerst multimodale medische few-shot aanpassingen mogelijk, zoals rationale generatie. We maken ons model, code en evaluatieapp beschikbaar op https://github.com/snap-stanford/med-flamingo.

PromptStyler: Prompt-gestuurde Stijlgeneratie voor Bronvrije Domeingeneralizatie
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Jul 27

ByJunhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak

In een gezamenlijke visie-taalruimte kan een tekstkenmerk (bijvoorbeeld van "een foto van een hond") effectief zijn relevante beeldkenmerken (bijvoorbeeld van hondenfoto's) vertegenwoordigen. Geïnspireerd door dit idee stellen we PromptStyler voor, dat verschillende distributieverschuivingen in de gezamenlijke ruimte simuleert door diverse stijlen te synthetiseren via prompts zonder gebruik te maken van afbeeldingen, om zo bronvrije domeingeneralizatie aan te pakken. Onze methode leert om een verscheidenheid aan stijlkenmerken (van "een S* stijl van een") te genereren via leerbare stijlwoordvectoren voor pseudo-woorden S*. Om ervoor te zorgen dat de geleerde stijlen de inhoudsinformatie niet verstoren, dwingen we stijl-inhoudskenmerken (van "een S* stijl van een [klasse]") om dicht bij hun corresponderende inhoudskenmerken (van "[klasse]") in de gezamenlijke visie-taalruimte te blijven. Na het leren van de stijlwoordvectoren trainen we een lineaire classifier met behulp van gesynthetiseerde stijl-inhoudskenmerken. PromptStyler behaalt de state-of-the-art op PACS, VLCS, OfficeHome en DomainNet, hoewel het geen afbeeldingen vereist en slechts ~30 minuten nodig heeft voor training met een enkele GPU.

Robuuste vervormingsvrije watermerken voor taalmodelen
Robust Distortion-free Watermarks for Language Models

Jul 28

ByRohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang

Wij stellen een methodologie voor om watermerken in tekst van een autoregressief taalmodel aan te brengen die robuust zijn tegen verstoringen zonder de verdeling over de tekst te veranderen tot een bepaald maximaal generatiebudget. We genereren tekst met watermerken door een reeks willekeurige getallen — die we berekenen met behulp van een gerandomiseerde watermerksleutel — te mappen naar een steekproef uit het taalmodel. Om tekst met watermerken te detecteren, kan elke partij die de sleutel kent, de tekst uitlijnen met de reeks willekeurige getallen. We concretiseren onze watermerkmethodologie met twee steekproefschema's: inverse transform sampling en exponential minimum sampling. We passen deze watermerken toe op drie taalmodelen — OPT-1.3B, LLaMA-7B en Alpaca-7B — om hun statistische kracht en robuustheid tegen verschillende parafrase-aanvallen experimenteel te valideren. Opmerkelijk is dat we voor zowel de OPT-1.3B- als de LLaMA-7B-modellen tekst met watermerken betrouwbaar kunnen detecteren (p ≤ 0.01) vanaf 35 tokens, zelfs nadat tussen de 40-50% van de tokens zijn gecorrumpeerd via willekeurige bewerkingen (d.w.z. substituties, invoegingen of verwijderingen). Voor het Alpaca-7B-model voeren we een casestudy uit naar de haalbaarheid van het aanbrengen van watermerken in reacties op typische gebruikersinstructies. Vanwege de lagere entropie van de reacties is detectie moeilijker: ongeveer 25% van de reacties — waarvan de mediane lengte ongeveer 100 tokens is — is detecteerbaar met p ≤ 0.01, en het watermerk is ook minder robuust tegen bepaalde geautomatiseerde parafrase-aanvallen die we implementeren.

Het onderzoeken van formaatconsistentie voor instructieafstemming
Exploring Format Consistency for Instruction Tuning

Jul 28

ByShihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun

Instructieafstemming is naar voren gekomen als een veelbelovende aanpak om grote taalmodellen te verbeteren in het volgen van menselijke instructies. Het is aangetoond dat het vergroten van de diversiteit en het aantal instructies in de trainingsdata consistent de generalisatieprestaties kan verbeteren, wat een recente inspanning stimuleert om diverse instructies te verzamelen en bestaande instructieafstemmingsdatasets te integreren in grotere collecties. Echter, verschillende gebruikers hebben hun unieke manieren om instructies uit te drukken, en er bestaan vaak variaties tussen verschillende datasets in de stijl en opmaak van instructies, d.w.z. opmaakonconsistentie. In dit werk onderzoeken we hoe opmaakonconsistentie de prestaties van instructieafstemming kan beïnvloeden. We stellen een raamwerk voor genaamd "Unified Instruction Tuning" (UIT), dat OpenAI API's aanroept voor automatische opmaakoverdracht tussen verschillende instructieafstemmingsdatasets. We tonen aan dat UIT met succes de generalisatieprestaties op onbekende instructies verbetert, wat het belang van opmaakconsistentie voor instructieafstemming benadrukt. Om het UIT-raamwerk praktischer te maken, stellen we verder een nieuwe perplexiteit-gebaseerde ruisreductiemethode voor om de ruis van automatische opmaakoverdracht te verminderen. We trainen ook een kleiner offline model dat vergelijkbare opmaakoverdrachtcapaciteit bereikt als OpenAI API's om de kosten in de praktijk te verlagen.

Seal-3D: Interactieve Pixel-Level Bewerking voor Neural Radiance Fields
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields

Jul 27

ByXiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen

Met de populariteit van impliciete neurale representaties, of neurale stralingsvelden (NeRF), is er een dringende behoefte aan bewerkingsmethoden om te interageren met de impliciete 3D-modellen voor taken zoals nabewerking van gereconstrueerde scènes en 3D-contentcreatie. Hoewel eerdere werken NeRF-bewerking vanuit verschillende perspectieven hebben onderzocht, zijn ze beperkt in bewerkingsflexibiliteit, kwaliteit en snelheid, en bieden ze geen directe bewerkingsrespons en directe preview. De belangrijkste uitdaging is het bedenken van een lokaal bewerkbare neurale representatie die de bewerkingsinstructies direct kan weerspiegelen en onmiddellijk kan worden bijgewerkt. Om deze kloof te overbruggen, stellen we een nieuwe interactieve bewerkingsmethode en systeem voor impliciete representaties voor, genaamd Seal-3D, waarmee gebruikers NeRF-modellen op pixelniveau en op een vrije manier kunnen bewerken met een breed scala aan NeRF-achtige backbones en de bewerkingseffecten direct kunnen previewen. Om deze effecten te bereiken, worden de uitdagingen aangepakt door onze voorgestelde proxyfunctie die de bewerkingsinstructies toewijst aan de oorspronkelijke ruimte van NeRF-modellen en een teacher-student trainingsstrategie met lokale voorafgaande training en globale finetuning. Een NeRF-bewerkingssysteem is gebouwd om verschillende bewerkingstypes te tonen. Ons systeem kan overtuigende bewerkingseffecten bereiken met een interactieve snelheid van ongeveer 1 seconde.

ToolLLM: Het mogelijk maken voor grote taalmodellen om meer dan 16.000 real-world API's te beheersen
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31

101