HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

TinyStories: Hoe klein kunnen taalmodelen zijn en toch coherent Engels spreken?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

May 12

ByRonen Eldan, Yuanzhi Li

Taalmodellen (LMs) zijn krachtige hulpmiddelen voor natuurlijke taalverwerking, maar ze hebben vaak moeite om samenhangende en vloeiende tekst te produceren wanneer ze klein zijn. Modellen met ongeveer 125M parameters, zoals GPT-Neo (klein) of GPT-2 (klein), kunnen zelden coherente en consistente Engelse tekst genereren die verder gaat dan een paar woorden, zelfs na uitgebreide training. Dit roept de vraag op of het vermogen om coherente Engelse tekst te produceren alleen ontstaat bij grotere schalen (met honderden miljoenen parameters of meer) en complexe architecturen (met veel lagen van globale aandacht). In dit werk introduceren we TinyStories, een synthetische dataset van korte verhalen die alleen woorden bevatten die een typisch 3- tot 4-jarige meestal begrijpt, gegenereerd door GPT-3.5 en GPT-4. We laten zien dat TinyStories kan worden gebruikt om LMs te trainen en te evalueren die veel kleiner zijn dan de state-of-the-art modellen (minder dan 10 miljoen parameters in totaal), of veel eenvoudigere architecturen hebben (met slechts één transformerblok), maar toch vloeiende en consistente verhalen produceren met meerdere alinea’s die divers zijn en bijna perfecte grammatica hebben, en redeneervaardigheden demonstreren. We introduceren ook een nieuw paradigma voor de evaluatie van taalmodellen: we stellen een raamwerk voor dat GPT-4 gebruikt om de inhoud die door deze modellen wordt gegenereerd te beoordelen, alsof het verhalen zijn geschreven door studenten en beoordeeld door een (menselijke) leraar. Dit nieuwe paradigma overkomt de tekortkomingen van standaard benchmarks, die vaak vereisen dat de output van het model zeer gestructureerd is, en biedt bovendien een multidimensionale score voor het model, met scores voor verschillende vaardigheden zoals grammatica, creativiteit en consistentie. We hopen dat TinyStories de ontwikkeling, analyse en het onderzoek van LMs kan vergemakkelijken, vooral voor domeinen met weinig middelen of gespecialiseerde domeinen, en inzicht kan bieden in het ontstaan van taalvaardigheden in LMs.

SoundStorm: Efficiënte Parallelle Audiogeneratie
SoundStorm: Efficient Parallel Audio Generation

May 16

ByZalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi

We presenteren SoundStorm, een model voor efficiënte, niet-autoregressieve audiogeneratie. SoundStorm ontvangt als invoer de semantische tokens van AudioLM en maakt gebruik van bidirectionele aandacht en parallelle decodering op basis van vertrouwen om de tokens van een neurale audiocodec te genereren. In vergelijking met de autoregressieve generatiebenadering van AudioLM produceert ons model audio van dezelfde kwaliteit en met een hogere consistentie in stem en akoestische omstandigheden, terwijl het twee ordes van grootte sneller is. SoundStorm genereert 30 seconden audio in 0,5 seconden op een TPU-v4. We demonstreren het vermogen van ons model om audiogeneratie naar langere sequenties op te schalen door hoogwaardige, natuurlijke dialoogsegmenten te synthetiseren, gegeven een transcript geannoteerd met sprekerwisselingen en een korte prompt met de stemmen van de sprekers.

DarkBERT: Een Taalmodel voor de Duistere Kant van het Internet
DarkBERT: A Language Model for the Dark Side of the Internet

May 15

ByYoungjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin

Recent onderzoek heeft gesuggereerd dat er duidelijke verschillen zijn in de taal die wordt gebruikt op het Dark Web in vergelijking met die van het Surface Web. Omdat studies over het Dark Web vaak tekstuele analyse van het domein vereisen, kunnen taalmodelen die specifiek zijn voor het Dark Web waardevolle inzichten bieden aan onderzoekers. In dit werk introduceren we DarkBERT, een taalmodel dat vooraf is getraind op Dark Web-data. We beschrijven de stappen die zijn genomen om de tekstdata die wordt gebruikt om DarkBERT te trainen te filteren en samen te stellen, om de extreme lexicale en structurele diversiteit van het Dark Web te bestrijden die schadelijk kan zijn voor het opbouwen van een goede representatie van het domein. We evalueren DarkBERT en zijn standaard tegenhanger, samen met andere veelgebruikte taalmodelen, om de voordelen te valideren die een domeinspecifiek model voor het Dark Web biedt in verschillende use cases. Onze evaluaties tonen aan dat DarkBERT huidige taalmodelen overtreft en kan dienen als een waardevolle bron voor toekomstig onderzoek naar het Dark Web.

CodeT5+: Open Code Large Language Models voor Codebegrip en Generatie
CodeT5+: Open Code Large Language Models for Code Understanding and Generation

May 13

ByYue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D. Q. Bui, Junnan Li, Steven C. H. Hoi

Grote taalmodellen (LLMs) die vooraf zijn getraind op enorme hoeveelheden broncode hebben aanzienlijke vooruitgang geboekt in code-intelligentie. Echter, bestaande code-LLMs hebben twee belangrijke beperkingen wat betreft architectuur en voorafgaande trainings taken. Ten eerste gebruiken ze vaak een specifieke architectuur (alleen encoder of alleen decoder) of vertrouwen ze op een uniform encoder-decoder netwerk voor verschillende downstream taken. Het eerste paradigma wordt beperkt door inflexibiliteit in toepassingen, terwijl bij het laatste het model als een enkel systeem voor alle taken wordt behandeld, wat leidt tot suboptimale prestaties op een subset van taken. Ten tweede gebruiken ze vaak een beperkte set van voorafgaande trainingsdoelen die mogelijk niet relevant zijn voor sommige downstream taken en dus resulteren in een aanzienlijke prestatievermindering. Om deze beperkingen aan te pakken, stellen we ``CodeT5+'' voor, een familie van encoder-decoder LLMs voor code waarin componentmodules flexibel kunnen worden gecombineerd om aan een breed scala aan downstream code taken te voldoen. Deze flexibiliteit wordt mogelijk gemaakt door onze voorgestelde mix van voorafgaande trainingsdoelen om het verschil tussen vooraf trainen en finetunen te verminderen. Deze doelen omvatten span denoising, contrastief leren, tekst-code matching, en causale LM voorafgaande trainings taken, op zowel unimodale als bimodale meertalige code corpora. Bovendien stellen we voor om CodeT5+ te initialiseren met bevroren kant-en-klare LLMs zonder vanaf nul te trainen om onze modellen efficiënt op te schalen, en onderzoeken we instructie-afstemming om af te stemmen op natuurlijke taal instructies. We evalueren CodeT5+ uitgebreid op meer dan 20 code-gerelateerde benchmarks in verschillende instellingen, waaronder zero-shot, finetunen, en instructie-afstemming. We observeren state-of-the-art (SoTA) modelprestaties op verschillende code-gerelateerde taken, zoals code generatie en voltooiing, wiskundig programmeren, en tekst-naar-code retrieval taken. In het bijzonder behaalt onze instructie-afgestemde CodeT5+ 16B nieuwe SoTA resultaten op de HumanEval code generatie taak in vergelijking met andere open code LLMs.

Naar Expertniveau Medische Vraagbeantwoording met Grote Taalmodellen
Towards Expert-Level Medical Question Answering with Large Language Models

May 16

ByKaran Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan

Recente kunstmatige intelligentie (AI)-systemen hebben mijlpalen bereikt in "grand challenges" variërend van Go tot eiwitvouwing. Het vermogen om medische kennis op te halen, hierover te redeneren en medische vragen te beantwoorden op een niveau dat vergelijkbaar is met artsen, wordt al lang gezien als een van deze grote uitdagingen. Grote taalmmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in het beantwoorden van medische vragen; Med-PaLM was het eerste model dat een "voldoende" score behaalde voor vragen in de stijl van het Amerikaanse medische licentie-examen (USMLE) met een score van 67,2% op de MedQA-dataset. Echter, dit en ander eerder werk suggereerden aanzienlijke ruimte voor verbetering, vooral wanneer de antwoorden van modellen werden vergeleken met die van clinici. Hier presenteren we Med-PaLM 2, dat deze kloof overbrugt door gebruik te maken van een combinatie van verbeteringen in het basismodel (PaLM 2), finetuning voor het medische domein, en promptingstrategieën, waaronder een nieuwe ensemble-verfijningsaanpak. Med-PaLM 2 behaalde een score van maximaal 86,5% op de MedQA-dataset, wat een verbetering van meer dan 19% ten opzichte van Med-PaLM betekent en een nieuwe state-of-the-art vestigt. We observeerden ook prestaties die de state-of-the-art benaderden of overtroffen op de datasets MedMCQA, PubMedQA en MMLU klinische onderwerpen. We voerden gedetailleerde menselijke evaluaties uit op langere vragen langs meerdere assen die relevant zijn voor klinische toepassingen. In een paarsgewijze vergelijkende rangschikking van 1066 consumentenmedische vragen, prefereerden artsen de antwoorden van Med-PaLM 2 boven die van artsen op acht van de negen assen met betrekking tot klinische bruikbaarheid (p < 0,001). We observeerden ook significante verbeteringen ten opzichte van Med-PaLM op elke evaluatie-as (p < 0,001) op nieuw geïntroduceerde datasets van 240 langere "adversariële" vragen om de beperkingen van LLMs te onderzoeken. Hoewel verdere studies nodig zijn om de effectiviteit van deze modellen in real-world settings te valideren, benadrukken deze resultaten de snelle vooruitgang naar artsniveau in het beantwoorden van medische vragen.

Kleine modellen zijn waardevolle plug-ins voor grote taalmodellen.
Small Models are Valuable Plug-ins for Large Language Models

May 15

ByCanwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley

Grote taalmodelen (LLMs) zoals GPT-3 en GPT-4 zijn krachtig, maar hun gewichten zijn vaak niet publiekelijk beschikbaar en hun enorme omvang maakt het moeilijk om de modellen af te stemmen met gangbare hardware. Als gevolg hiervan kan het effectief afstemmen van deze modellen met grootschalige begeleide data een uitdaging zijn. Als alternatief kan In-Context Learning (ICL) slechts een beperkt aantal begeleide voorbeelden gebruiken vanwege beperkingen in de contextlengte. In dit artikel stellen we Super In-Context Learning (SuperICL) voor, waardoor black-box LLMs kunnen samenwerken met lokaal afgestemde kleinere modellen, wat resulteert in superieure prestaties bij begeleide taken. Onze experimenten tonen aan dat SuperICL de prestaties kan verbeteren verder dan state-of-the-art afgestemde modellen, terwijl het ook het instabiliteitsprobleem van in-context learning aanpakt. Bovendien kan SuperICL de mogelijkheden van kleinere modellen versterken, zoals meertaligheid en interpreteerbaarheid.

Make-An-Animation: Grootschalige tekst-gestuurde 3D Menselijke Bewegingsgeneratie
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

May 16

BySamaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta

Tekstgestuurde generatie van menselijke bewegingen heeft aanzienlijke belangstelling getrokken vanwege de impactvolle toepassingen die zich uitstrekken over animatie en robotica. Recentelijk heeft de toepassing van diffusiemodellen voor beweginggeneratie verbeteringen mogelijk gemaakt in de kwaliteit van gegenereerde bewegingen. Echter, bestaande benaderingen worden beperkt door hun afhankelijkheid van relatief kleinschalige motion capture-data, wat leidt tot slechte prestaties bij meer diverse, in-the-wild prompts. In dit artikel introduceren we Make-An-Animation, een tekstgeconditioneerd model voor de generatie van menselijke bewegingen dat meer diverse poses en prompts leert uit grootschalige beeld-tekst datasets, wat een aanzienlijke verbetering in prestaties mogelijk maakt ten opzichte van eerdere werken. Make-An-Animation wordt getraind in twee fasen. Eerst trainen we op een gecureerde, grootschalige dataset van (tekst, statische pseudo-pose) paren die zijn geëxtraheerd uit beeld-tekst datasets. Vervolgens finetunen we op motion capture-data, waarbij we extra lagen toevoegen om de temporele dimensie te modelleren. In tegenstelling tot eerdere diffusiemodellen voor beweginggeneratie, gebruikt Make-An-Animation een U-Net architectuur die vergelijkbaar is met recente tekst-naar-video generatiemodellen. Menselijke evaluatie van bewegingrealisme en afstemming met invoertekst toont aan dat ons model state-of-the-art prestaties bereikt op tekst-naar-beweging generatie.

AR-Diffusion: Auto-Regressief Diffusiemodel voor Tekstgeneratie
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

May 16

ByTong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen

Diffusiemodellen hebben aanzienlijke aandacht gekregen op het gebied van beeldgeneratie vanwege hun uitzonderlijke prestaties. Hun succes is recentelijk uitgebreid naar tekstgeneratie door alle tokens binnen een sequentie gelijktijdig te genereren. Echter, natuurlijke taal vertoont een veel sterker uitgesproken sequentiële afhankelijkheid in vergelijking met beelden, en de meeste bestaande taalmodellen worden getraind met behulp van een links-naar-rechts autoregressieve aanpak. Om rekening te houden met het inherente sequentiële karakter van natuurlijke taal, introduceren we Auto-Regressieve Diffusie (AR-Diffusie). AR-Diffusie zorgt ervoor dat de generatie van tokens aan de rechterkant afhankelijk is van de gegenereerde tokens aan de linkerkant, een mechanisme dat wordt bereikt door een dynamisch aantal denoisestappen te gebruiken die variëren op basis van de tokenpositie. Hierdoor ondergaan tokens aan de linkerkant minder denoisestappen dan die aan de rechterkant, waardoor ze eerder kunnen worden gegenereerd en vervolgens de generatie van tokens aan de rechterkant kunnen beïnvloeden. In een reeks experimenten op verschillende tekstgeneratietaken, waaronder tekstsamenvatting, machinaal vertalen en common sense-generatie, heeft AR-Diffusie duidelijk de superioriteit aangetoond ten opzichte van bestaande diffusie-taalmodellen en kan het 100 tot 600 keer sneller zijn bij het bereiken van vergelijkbare resultaten. Onze code zal openbaar worden vrijgegeven.

Symbol tuning verbetert in-context leren in taalmodelen.
Symbol tuning improves in-context learning in language models

May 15

ByJerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma, Quoc V. Le

We presenteren symbol tuning - het finetunen van taalmodelen op in-context invoer-label paren waarbij natuurlijke taal labels (bijvoorbeeld "positieve/negatieve sentiment") worden vervangen door willekeurige symbolen (bijvoorbeeld "foo/bar"). Symbol tuning maakt gebruik van de intuïtie dat wanneer een model instructies of natuurlijke taal labels niet kan gebruiken om een taak te begrijpen, het in plaats daarvan de invoer-label mapping moet leren. We experimenteren met symbol tuning op Flan-PaLM modellen tot 540B parameters en observeren voordelen in verschillende settings. Ten eerste verbetert symbol tuning de prestaties op onbekende in-context leertaken en is het veel robuuster tegen onvolledige prompts, zoals die zonder instructies of zonder natuurlijke taal labels. Ten tweede zijn symbol-getunede modellen veel sterker in algoritmische redeneertaken, met tot 18,2% betere prestaties op de List Functions benchmark en tot 15,3% betere prestaties op de Simple Turing Concepts benchmark. Tot slot laten symbol-getunede modellen grote verbeteringen zien in het volgen van omgekeerde labels die in-context worden gepresenteerd, wat betekent dat ze beter in staat zijn om in-context informatie te gebruiken om eerder opgedane semantische kennis te overschrijven.

Het benutten van grote taalmodelen in conversatie-aanbevelingssystemen
Leveraging Large Language Models in Conversational Recommender Systems

May 13

ByLuke Friedman, Sameer Ahuja, David Allen, Terry Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, Harsh Lara, Brian Chu, Zexi Chen, Manoj Tiwari

Een Conversational Recommender System (CRS) biedt gebruikers meer transparantie en controle door hen in staat te stellen met het systeem te interacteren via een real-time, meerzijdige dialoog. Recentelijk hebben Large Language Models (LLMs) een ongekend vermogen getoond om natuurlijk te converseren en wereldkennis en gezond verstand te integreren in taalbegrip, waardoor het potentieel van dit paradigma wordt ontsloten. Het effectief benutten van LLMs binnen een CRS brengt echter nieuwe technische uitdagingen met zich mee, waaronder het correct begrijpen en beheren van complexe gesprekken en het ophalen van informatie uit externe bronnen. Deze problemen worden verergerd door een groot, evoluerend itemcorpus en een gebrek aan conversatiedata voor training. In dit artikel bieden we een routekaart voor het bouwen van een end-to-end grootschalig CRS met behulp van LLMs. In het bijzonder stellen we nieuwe implementaties voor voor het begrijpen van gebruikersvoorkeuren, flexibel dialoogbeheer en uitlegbare aanbevelingen als onderdeel van een geïntegreerde architectuur aangedreven door LLMs. Voor verbeterde personalisatie beschrijven we hoe een LLM interpreteerbare natuurlijke taalgebruikersprofielen kan verwerken en gebruiken om sessie-niveau context te moduleren. Om de beperkingen in conversatiedata te overwinnen bij afwezigheid van een bestaand productie-CRS, stellen we technieken voor voor het bouwen van een beheersbare, op LLM gebaseerde gebruikerssimulator om synthetische gesprekken te genereren. Als proof of concept introduceren we RecLLM, een grootschalig CRS voor YouTube-video's gebouwd op LaMDA, en demonstreren we de vlotheid en diverse functionaliteit ervan aan de hand van enkele illustratieve voorbeeldgesprekken.

Natuurlijke Taalontleding en Interpretatie van Complexe Uitingen
Natural Language Decomposition and Interpretation of Complex Utterances

May 15

ByHarsh Jhamtani, Hao Fang, Patrick Xia, Eran Levy, Jacob Andreas, Ben Van Durme

Natuurlijke taalinterfaces vereisen vaak begeleide gegevens om gebruikersverzoeken te vertalen naar programma's, databasequery's of andere gestructureerde intentieweergaven. Tijdens het verzamelen van gegevens kan het moeilijk zijn om het volledige scala aan gebruikersbehoeften te voorzien en te formaliseren -- bijvoorbeeld, in een systeem dat ontworpen is om eenvoudige verzoeken af te handelen (zoals 'vind mijn vergaderingen morgen' of 'verplaats mijn vergadering met mijn manager naar 12 uur'), kunnen gebruikers ook meer uitgebreide verzoeken uiten (zoals 'wissel al mijn gesprekken op maandag en dinsdag om'). Wij introduceren een aanpak om een eenvoudig taal-naar-code-model uit te rusten om complexe uitingen te verwerken via een proces van hiërarchische natuurlijke taalontleding. Onze aanpak gebruikt een vooraf getraind taalmodel om een complexe uiting te ontleden in een reeks kleinere natuurlijke taalstappen, waarna elke stap wordt geïnterpreteerd met behulp van het taal-naar-code-model. Om onze aanpak te testen, verzamelen en publiceren we DeCU -- een nieuwe NL-naar-programma-benchmark om de Ontleding van Complexe Uitingen te evalueren. Experimenten tonen aan dat de voorgestelde aanpak de interpretatie van complexe uitingen mogelijk maakt met bijna geen complexe trainingsgegevens, terwijl het standaard few-shot prompting-benaderingen overtreft.

AutoRecon: Geautomatiseerde 3D-objectdetectie en -reconstructie
AutoRecon: Automated 3D Object Discovery and Reconstruction

May 15

ByYuang Wang, Xingyi He, Sida Peng, Haotong Lin, Hujun Bao, Xiaowei Zhou

Een volledig geautomatiseerde pijplijn voor objectreconstructie is cruciaal voor het creëren van digitale inhoud. Hoewel het gebied van 3D-reconstructie aanzienlijke ontwikkelingen heeft doorgemaakt, is het verwijderen van de achtergrond om een schoon objectmodel te verkrijgen nog steeds afhankelijk van verschillende vormen van handmatige arbeid, zoals het labelen van begrenzingsvakken, maskerannotaties en mesh-manipulaties. In dit artikel stellen we een nieuw framework voor, genaamd AutoRecon, voor de geautomatiseerde detectie en reconstructie van een object uit multi-view afbeeldingen. We tonen aan dat voorgrondobjecten robuust kunnen worden gelokaliseerd en gesegmenteerd uit SfM-puntenwolken door gebruik te maken van zelfgesuperviseerde 2D vision transformer kenmerken. Vervolgens reconstrueren we gedecentraliseerde neurale scène-representaties met dichte supervisie die wordt geboden door de gedecentraliseerde puntenwolken, wat resulteert in nauwkeurige objectreconstructie en segmentatie. Experimenten op de DTU-, BlendedMVS- en CO3D-V2-datasets demonstreren de effectiviteit en robuustheid van AutoRecon.

Voorafgaande training om in context te leren
Pre-Training to Learn in Context

May 16

ByYuxian Gu, Li Dong, Furu Wei, Minlie Huang

In-context learning, waarbij vooraf getrainde taalmodel leren om taken uit te voeren aan de hand van taakvoorbeelden en instructies in hun context, heeft veel aandacht gekregen in de NLP-gemeenschap. Het vermogen van in-context learning wordt echter niet volledig benut omdat taalmodel niet expliciet worden getraind om in context te leren. Daarom stellen we PICL (Pre-training for In-Context Learning) voor, een raamwerk om het in-context learning vermogen van taalmodel te verbeteren door het model voor te trainen op een grote verzameling "intrinsieke taken" in een algemeen tekstcorpus met behulp van het eenvoudige taalmodelleerdoel. PICL moedigt het model aan om taken af te leiden en uit te voeren door zich te conditioneren op de contexten, terwijl het de taakgeneraliseerbaarheid van vooraf getrainde modellen behoudt. We evalueren de in-context learning prestaties van het model dat met PICL is getraind op zeven veelgebruikte tekstclassificatiedatasets en de Super-NaturalInstructions benchmark, die meer dan 100 NLP-taken bevat die zijn geformuleerd als tekstgeneratie. Onze experimenten tonen aan dat PICL effectiever en beter generaliseerbaar is dan een reeks baselines, waarbij het grotere taalmodel met bijna 4x zoveel parameters overtreft. De code is publiekelijk beschikbaar op https://github.com/thu-coai/PICL.

ULIP-2: Op weg naar schaalbare multimodale voorafgaande training voor 3D-begrip
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding

May 14

ByLe Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese

Recente vooruitgang in multimodale voorafgaande trainingsmethoden heeft veelbelovende effectiviteit getoond bij het leren van 3D-representaties door kenmerken af te stemmen over de 3D-modaliteit, hun 2D-tegenhanger en de bijbehorende taalmodaliteit. De methoden die door bestaande multimodale voorafgaande trainingsframeworks worden gebruikt om multimodale gegevens voor 3D-toepassingen te verzamelen, missen echter schaalbaarheid en volledigheid, wat het volledige potentieel van multimodaal leren mogelijk beperkt. De belangrijkste bottleneck ligt in de schaalbaarheid en volledigheid van de taalmodaliteit. Om deze bottleneck aan te pakken, introduceren we ULIP-2, een multimodaal voorafgaand trainingsframework dat gebruikmaakt van state-of-the-art multimodale grote taalmodellen (LLMs) die vooraf zijn getraind op uitgebreide kennis om automatisch holistische taal-tegenhangers voor 3D-objecten te genereren. We voeren experimenten uit op twee grootschalige datasets, Objaverse en ShapeNet55, en geven onze gegenereerde drie-modaliteit triplet-datasets vrij (3D Point Cloud - Afbeelding - Taal), genaamd "ULIP-Objaverse Triplets" en "ULIP-ShapeNet Triplets". ULIP-2 vereist alleen 3D-gegevens zelf en elimineert de noodzaak van handmatige annotatie-inspanningen, wat de schaalbaarheid aantoont; en ULIP-2 behaalt opmerkelijke verbeteringen bij downstream zero-shot classificatie op ModelNet40 (74% Top1 Nauwkeurigheid). Bovendien vestigt ULIP-2 een nieuw record op de real-world ScanObjectNN benchmark (91,5% Algemene Nauwkeurigheid) terwijl het slechts 1,4 miljoen parameters gebruikt (~10x minder dan de huidige SOTA), wat een doorbraak betekent in schaalbare multimodale 3D-representatie leren zonder menselijke annotaties. De code en datasets zijn beschikbaar op https://github.com/salesforce/ULIP.

Gemaskerde Audio Tekst Encoders zijn Effectieve Multi-Modale Herbeoordelaars.
Masked Audio Text Encoders are Effective Multi-Modal Rescorers

May 11

ByJinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati

Gemaskerde Taalmodellen (MLMs) hebben hun effectiviteit bewezen voor tweede-pass rescoring in Automatische Spraakherkenning (ASR) systemen. In dit werk stellen we de Gemaskerde Audio Tekst Encoder (MATE) voor, een multi-modale gemaskerd taalmodel rescorer die akoestische representaties integreert in de invoerruimte van het MLM. We passen contrastief leren toe om de modaliteiten effectief uit te lijnen door gedeelde representaties te leren. We tonen aan dat het gebruik van een multi-modale rescorer voordelig is voor domeingeneralizatie van het ASR-systeem wanneer doeldomaingegevens niet beschikbaar zijn. MATE reduceert de woordfoutratio (WER) met 4%-16% op in-domein, en 3%-7% op out-of-domein datasets, vergeleken met de tekst-only baseline. Daarnaast bereikt MATE met een zeer beperkte hoeveelheid trainingsdata (0,8 uur) een WER-reductie van 8%-23% ten opzichte van de eerste-pass baseline.

Verbeterde basislijnen voor visueel-taalkundige voorafgaande training
Improved baselines for vision-language pre-training

May 15

ByEnrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal

Contrastief leren is naar voren gekomen als een efficiënt raamwerk om multimodale representaties te leren. CLIP, een baanbrekend werk op dit gebied, behaalde indrukwekkende resultaten door te trainen op gepaarde beeld-tekstgegevens met behulp van het contrastieve verlies. Recent werk claimt verbeteringen ten opzichte van CLIP door gebruik te maken van aanvullende niet-contrastieve verliezen geïnspireerd op zelfgesuperviseerd leren. Het is echter soms moeilijk om de bijdrage van deze aanvullende verliezen te onderscheiden van andere implementatiedetails, zoals data-augmentatie of regularisatietechnieken, die worden gebruikt om het model te trainen. Om hier meer duidelijkheid over te scheppen, stellen we in dit artikel eerst verschillende baseline-modellen voor, implementeren en evalueren we deze, verkregen door contrastief leren te combineren met recente ontwikkelingen in zelfgesuperviseerd leren. In het bijzonder gebruiken we de verliesfuncties die succesvol zijn gebleken voor visueel zelfgesuperviseerd leren om beeld- en tekstmodaliteiten uit te lijnen. We ontdekken dat deze baseline-modellen een eenvoudige implementatie van CLIP overtreffen. Wanneer echter een sterker trainingsrecept wordt gebruikt, verdwijnt dit voordeel. Inderdaad, we ontdekken dat een eenvoudig CLIP-baselinemodel ook aanzienlijk kan worden verbeterd, tot een relatieve verbetering van 25% op downstream zero-shot taken, door gebruik te maken van bekende trainingsmethoden die populair zijn in andere subvelden. Bovendien ontdekken we dat het voldoende is om beeld- en tekstaugmentaties toe te passen om het grootste deel van de verbetering te bereiken die door eerdere werken is behaald. Met ons verbeterde trainingsrecept voor CLIP behalen we state-of-the-art prestaties op vier standaarddatasets, en overtreffen we consistent eerdere werken (tot +4% op de grootste dataset), terwijl het aanzienlijk eenvoudiger blijft.

Dr. LLaMA: Verbetering van Kleine Taalmodellen in Domeinspecifieke Vraag-Antwoordsystemen via Generatieve Data-Augmentatie
Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation

May 12

ByZhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu

Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking, maar worden geconfronteerd met uitdagingen op het gebied van rekenkundige kosten en inefficiëntie naarmate ze in omvang groeien, vooral bij domeinspecifieke taken. Kleine Taalmodellen (SLMs) daarentegen, hebben vaak moeite met deze taken vanwege beperkte capaciteit en trainingsdata. In dit artikel introduceren we Dr. LLaMA, een methode om SLMs te verbeteren door middel van generatieve data-augmentatie met behulp van LLMs, met een focus op medische vraag-antwoordtaken en de PubMedQA-dataset. Onze bevindingen tonen aan dat LLMs bestaande vraag-antwoordparen effectief verfijnen en diversifiëren, wat resulteert in een verbeterde prestaties van een veel kleiner model op domeinspecifieke QA-datasets na fine-tuning. Deze studie benadrukt de uitdagingen van het gebruik van LLMs voor domeinspecifieke vraag-antwoordtaken en suggereert potentiële onderzoeksrichtingen om deze beperkingen aan te pakken, met als uiteindelijk doel het creëren van efficiëntere en capabelere modellen voor gespecialiseerde toepassingen. We hebben ook onze code beschikbaar gesteld voor geïnteresseerde onderzoekers.

Interpretatie op Schaal: Het Identificeren van Causale Mechanismen in Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

May 15

ByZhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman

Het verkrijgen van menselijk interpreteerbare verklaringen van grote, algemene taalmodelen is een urgent doel voor AI-veiligheid. Het is echter net zo belangrijk dat onze interpretatiemethoden trouw zijn aan de causale dynamiek die ten grondslag ligt aan het gedrag van het model en robuust kunnen generaliseren naar onbekende invoer. Distributed Alignment Search (DAS) is een krachtige gradient descent-methode die is geworteld in een theorie van causale abstractie en die perfecte afstemmingen heeft blootgelegd tussen interpreteerbare symbolische algoritmen en kleine deep learning-modellen die zijn afgestemd op specifieke taken. In dit artikel schalen we DAS aanzienlijk op door de overgebleven brute-force zoekstappen te vervangen door geleerde parameters – een aanpak die we DAS noemen. Hierdoor kunnen we efficiënt zoeken naar interpreteerbare causale structuren in grote taalmodelen terwijl ze instructies volgen. We passen DAS toe op het Alpaca-model (7B parameters), dat standaard een eenvoudig numeriek redeneerprobleem oplost. Met DAS ontdekken we dat Alpaca dit doet door een causaal model te implementeren met twee interpreteerbare booleaanse variabelen. Bovendien vinden we dat de afstemming van neurale representaties met deze variabelen robuust is tegen veranderingen in invoer en instructies. Deze bevindingen markeren een eerste stap naar een diepgaand begrip van de interne werking van onze grootste en meest gebruikte taalmodelen.

Dual-Alignment Pre-training voor Cross-linguale Zinsembedding
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

May 16

ByZiheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang

Recente studies hebben aangetoond dat dual encoder-modellen die zijn getraind met de taak van vertaalrangschikking op zinsniveau effectieve methoden zijn voor het creëren van cross-linguale zinembeddingen. Uit ons onderzoek blijkt echter dat token-level uitlijning ook cruciaal is in meertalige scenario's, wat eerder niet volledig is onderzocht. Op basis van onze bevindingen stellen we een dual-alignment vooraf trainen (DAP) raamwerk voor voor cross-linguale zinembeddingen, dat zowel zinsniveau- als token-level uitlijning omvat. Om dit te bereiken, introduceren we een nieuwe representatievertaalleer (RTL) taak, waarbij het model leert om eenzijdige gecontextualiseerde tokenrepresentatie te gebruiken om zijn vertaaltegenhanger te reconstrueren. Dit reconstructiedoel moedigt het model aan om vertaalinformatie in de tokenrepresentatie in te bedden. In vergelijking met andere token-level uitlijningsmethoden, zoals translation language modeling, is RTL beter geschikt voor dual encoder-architecturen en is het computationeel efficiënt. Uitgebreide experimenten op drie cross-linguale benchmarks op zinsniveau tonen aan dat onze aanpak zinembeddingen aanzienlijk kan verbeteren. Onze code is beschikbaar op https://github.com/ChillingDream/DAP.

GPT-Sentinel: Onderscheid maken tussen door mensen en ChatGPT gegenereerde inhoud
GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content

May 13

ByYutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Ramakrishnan

Dit artikel presenteert een nieuwe aanpak voor het detecteren van ChatGPT-gegenereerde versus door mensen geschreven tekst met behulp van taalmodelen. Hiervoor hebben we eerst een voorbewerkt dataset genaamd OpenGPTText verzameld en vrijgegeven, dat bestaat uit herformuleerde inhoud gegenereerd met ChatGPT. Vervolgens hebben we twee verschillende modellen ontworpen, geïmplementeerd en getraind voor tekstclassificatie, waarbij we respectievelijk de Robustly Optimized BERT Pretraining Approach (RoBERTa) en de Text-to-Text Transfer Transformer (T5) hebben gebruikt. Onze modellen behaalden opmerkelijke resultaten, met een nauwkeurigheid van meer dan 97% op de testdataset, zoals geëvalueerd via verschillende metrieken. Daarnaast hebben we een interpreteerbaarheidsstudie uitgevoerd om het vermogen van ons model te tonen om belangrijke kenmerken te extraheren en te onderscheiden tussen door mensen geschreven en ChatGPT-gegenereerde tekst. Onze bevindingen bieden belangrijke inzichten in het effectieve gebruik van taalmodelen om gegenereerde tekst te detecteren.

RL4F: Het genereren van natuurlijke taal feedback met reinforcement learning voor het repareren van modeluitvoer
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

May 15

ByAfra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon

Ondanks hun ongekende succes maken zelfs de grootste taalmodelen fouten. Net zoals mensen leren en verbeteren door feedback, stelde eerder werk voor om taalmodelen natuurlijke taal feedback te geven om hen te begeleiden bij het herstellen van hun uitvoer. Omdat door mensen gegenereerde kritiek duur is om te verkrijgen, hebben onderzoekers geleerde kritiekgeneratoren ontwikkeld als alternatief voor menselijke critici, in de veronderstelling dat men downstream modellen kan trainen om gegenereerde feedback te gebruiken. Deze aanpak is echter niet van toepassing op black-box of beperkt toegankelijke modellen zoals ChatGPT, omdat deze niet kunnen worden gefinetuned. Bovendien is finetunen in het tijdperk van grote algemene taalmodelen noch computationeel noch ruimtelijk efficiënt, omdat het resulteert in meerdere kopieën van het netwerk. In dit werk introduceren we RL4F (Reinforcement Learning for Feedback), een multi-agent samenwerkingsframework waarin de kritiekgenerator wordt getraind om de eindtaakprestatie van GPT-3, een vast model dat meer dan 200 keer zo groot is, te maximaliseren. RL4F produceert kritiek die GPT-3 helpt bij het herzien van zijn uitvoer. We bestuderen drie datasets voor actieplanning, samenvatting en alfabetisering en laten verbeteringen zien (~5% gemiddeld) in meerdere tekstsimilariteitsmetrieken ten opzichte van sterke basislijnen voor alle drie de taken.

Naar Expertniveau Medische Vraagbeantwoording met Grote Taalmodellen
Towards Expert-Level Medical Question Answering with Large Language Models

May 16