HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

15 papers found

Contrastief Voorkeursleren: Leren van Menselijke Feedback zonder Reinforcement Learning
Contrastive Prefence Learning: Learning from Human Feedback without RL

Oct 20

ByJoey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh

Reinforcement Learning from Human Feedback (RLHF) is naar voren gekomen als een populair paradigma voor het afstemmen van modellen op menselijke intenties. Typisch werken RLHF-algoritmen in twee fasen: eerst gebruiken ze menselijke voorkeuren om een beloningsfunctie te leren, en vervolgens stemmen ze het model af door de geleerde beloning te optimaliseren via reinforcement learning (RL). Dit paradigma gaat ervan uit dat menselijke voorkeuren verdeeld zijn volgens de beloning, maar recent onderzoek suggereert dat ze in plaats daarvan de spijt onder het optimale beleid van de gebruiker volgen. Het leren van een beloningsfunctie op basis van feedback is dus niet alleen gebaseerd op een gebrekkige aanname van menselijke voorkeur, maar leidt ook tot lastige optimalisatie-uitdagingen die voortkomen uit beleidsgradiënten of bootstrapping in de RL-fase. Vanwege deze optimalisatie-uitdagingen beperken hedendaagse RLHF-methoden zich tot contextuele bandit-instellingen (bijvoorbeeld in grote taalmodellen) of beperken ze de observatiedimensionaliteit (bijvoorbeeld state-gebaseerde robotica). Wij overwinnen deze beperkingen door een nieuwe familie van algoritmen te introduceren voor het optimaliseren van gedrag op basis van menselijke feedback met behulp van het spijtgebaseerde model van menselijke voorkeuren. Met behulp van het principe van maximale entropie leiden we Contrastive Preference Learning (CPL) af, een algoritme voor het leren van optimale beleidsregels uit voorkeuren zonder beloningsfuncties te leren, waardoor de noodzaak voor RL wordt omzeild. CPL is volledig off-policy, gebruikt alleen een eenvoudig contrastief doel en kan worden toegepast op willekeurige MDP's. Hierdoor kan CPL elegant schalen naar hoogdimensionale en sequentiële RLHF-problemen, terwijl het eenvoudiger is dan eerdere methoden.

Laten we Stap voor Stap Synthetiseren: Iteratieve Dataset Synthese met Grote Taalmodellen door Fouten van Kleine Modellen te Extrapoleren
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Oct 20

ByRuida Wang, Wangchunshu Zhou, Mrinmaya Sachan

*Datasynthese* is een veelbelovende manier om een klein model te trainen met zeer weinig gelabelde gegevens. Een benadering voor datasynthese is om de rijke kennis van grote taalmodelen te benutten om pseudo-trainingsvoorbeelden te synthetiseren voor kleine modellen, waardoor het mogelijk wordt om zowel gegevens- als rekenkundige efficiëntie tegelijkertijd te bereiken. Een belangrijke uitdaging bij datasynthese is echter dat de gesynthetiseerde dataset vaak lijdt onder een grote distributieverschil met de *echte taak* gegevensdistributie. Daarom stellen we in dit artikel *Synthesis Step by Step* (**S3**) voor, een datasynthese raamwerk dat deze distributiekloof verkleint door iteratief de fouten die een klein model maakt, getraind op de gesynthetiseerde dataset, te extrapoleren op een kleine real-world validatiedataset met behulp van een groot taalmodel. Uitgebreide experimenten op meerdere NLP-taken tonen aan dat onze aanpak de prestaties van een klein model verbetert door de kloof tussen de synthetische dataset en de echte gegevens te verkleinen, wat resulteert in een significante verbetering ten opzichte van verschillende baselines: 9,48% verbetering ten opzichte van ZeroGen en 2,73% ten opzichte van GoldGen, en maximaal 15,17% verbetering ten opzichte van het kleine model getraind op door mensen geannoteerde gegevens.

DPM-Solver-v3: Verbeterde Diffusie ODE Oplosser met Empirische Modelstatistieken
DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics

Oct 20

ByKaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu

Diffusion probabilistische modellen (DPMs) hebben uitstekende prestaties getoond voor het genereren van hoogwaardige afbeeldingen, maar kampen met inefficiënte sampling. Recente werken versnellen het samplingproces door snelle ODE-oplossers voor te stellen die gebruikmaken van de specifieke ODE-vorm van DPMs. Ze zijn echter sterk afhankelijk van specifieke parameterisaties tijdens inferentie (zoals ruis/data-voorspelling), wat mogelijk niet de optimale keuze is. In dit werk stellen we een nieuwe formulering voor naar de optimale parameterisatie tijdens sampling, die de discretisatiefout van de eerste orde van de ODE-oplossing minimaliseert. Op basis van deze formulering introduceren we DPM-Solver-v3, een nieuwe snelle ODE-oplosser voor DPMs, door verschillende efficiënt berekende coëfficiënten op het vooraf getrainde model te introduceren, die we empirische modelstatistieken noemen. We integreren verder multistap-methoden en een predictor-corrector-framework, en stellen enkele technieken voor om de samplekwaliteit te verbeteren bij een klein aantal functie-evaluaties (NFE) of grote begeleidingsschalen. Experimenten tonen aan dat DPM-Solver-v3 consistent betere of vergelijkbare prestaties behaalt bij zowel onvoorwaardelijke als voorwaardelijke sampling met zowel pixelruimte- als latentieruimte-DPMs, vooral bij 5-10 NFE's. We behalen FID's van 12,21 (5 NFE), 2,51 (10 NFE) bij onvoorwaardelijke CIFAR10, en een MSE van 0,55 (5 NFE, 7,5 begeleidingsschaal) op Stable Diffusion, wat een versnelling van 15%-30% oplevert in vergelijking met eerdere state-of-the-art trainingsvrije methoden. Code is beschikbaar op https://github.com/thu-ml/DPM-Solver-v3.

SALMONN: Op weg naar generieke luistervaardigheden voor grote taalmodellen
SALMONN: Towards Generic Hearing Abilities for Large Language Models

Oct 20

ByChangli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang

Horen is ongetwijfeld een essentiële vaardigheid van kunstmatige intelligentie (AI)-agenten in de fysieke wereld, wat verwijst naar de waarneming en het begrip van algemene auditieve informatie die bestaat uit ten minste drie soorten geluiden: spraak, audio-gebeurtenissen en muziek. In dit artikel stellen we SALMONN voor, een spraak-audio-taal-muziek open neuraal netwerk, gebouwd door een vooraf getraind tekstgebaseerd groot taalmodel (LLM) te integreren met spraak- en audio-encoders in een enkel multimodaal model. SALMONN stelt het LLM in staat om algemene audio-invoer direct te verwerken en te begrijpen en competitieve prestaties te behalen op een aantal spraak- en audiotaken die tijdens de training worden gebruikt, zoals automatische spraakherkenning en -vertaling, vraag-antwoord op basis van auditieve informatie, emotieherkenning, sprekersverificatie, en muziek- en audiobeschrijvingen, enz. SALMONN beschikt ook over een diverse set van emergente vaardigheden die niet tijdens de training zijn gezien, waaronder maar niet beperkt tot spraakvertaling naar niet-getrainde talen, spraakgebaseerde slotvulling, vraag-antwoord op basis van gesproken vragen, audio-gebaseerd verhalen vertellen, en spraak-audio co-redenering, enz. De aanwezigheid van deze cross-modale emergente vaardigheden wordt bestudeerd, en een nieuwe few-shot activatie-afstemmingsbenadering wordt voorgesteld om dergelijke vaardigheden van SALMONN te activeren. Voor zover wij weten, is SALMONN het eerste model van zijn soort en kan het worden beschouwd als een stap richting AI met generieke hoorvaardigheden. Een interactieve demo van SALMONN is beschikbaar op \url{https://github.com/bytedance/SALMONN}, en de trainingscode en modelcheckpoints zullen worden vrijgegeven na acceptatie.

Democratisering van Redeneervermogen: Maatwerk Leren van Grote Taalmodellen
Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Oct 20

ByZhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang

Grote taalmodellen (LLMs) vertonen indrukwekkende emergente vaardigheden in natuurlijke taalverwerking, maar hun democratisering wordt belemmerd door de enorme rekenvereisten en gesloten aard. Recent onderzoek naar het bevorderen van open-source kleinere LM's door kennis te destilleren uit black-box LLMs heeft veelbelovende resultaten opgeleverd in het vermogen om instructies op te volgen. Het redeneervermogen, dat uitdagender is om te ontwikkelen, wordt echter relatief weinig onderzocht. In dit artikel stellen we een op maat gemaakt leerbenadering voor om dit redeneervermogen te destilleren naar kleinere LM's om de democratisering van het exclusieve redeneervermogen te bevorderen. In tegenstelling tot het louter gebruiken van een LLM als data-annotator, benutten we het potentieel van een LLM als redeneerleraar door een interactief leerparadigma met meerdere rondes op te bouwen. Dit paradigma stelt de student in staat om zijn tekortkomingen bloot te leggen aan de black-box leraar, die vervolgens op maat gemaakte trainingsdata kan aanbieden. Verder stellen we zelfreflectie-leren voor om het redeneerpotentieel van de kleinere LM te benutten, waarbij de student wordt gemotiveerd om te leren van zelfgemaakte fouten. Het leren van zelfreflectie en de LLM zijn allemaal afgestemd op de leerstatus van de student, dankzij de naadloze integratie met het leerparadigma met meerdere rondes. Uitgebreide experimenten en analyses op wiskundige en gezondverstand-redeneertaken demonstreren de effectiviteit van onze methode. De code zal beschikbaar zijn op https://github.com/Raibows/Learn-to-Reason.

ToolChain: Efficiënte Navigatie in Actieruimtes van Grote Taalmodellen met A-Zoekalgoritme
ToolChain: Efficient Action Space Navigation in Large Language Models with A Search

Oct 20

ByYuchen Zhuang, Xiang Chen, Tong Yu, Saayan Mitra, Victor Bursztyn, Ryan A. Rossi, Somdeb Sarkhel, Chao Zhang

Grote taalmodellen (LLMs) hebben krachtige besluitvormings- en planningscapaciteiten getoond bij het oplossen van complexe real-world problemen. LLM-gebaseerde autonome agents kunnen interacteren met diverse tools (bijvoorbeeld functionele API's) en oplossingsplannen genereren die een reeks API-functieaanroepen stap voor stap uitvoeren. De veelheid aan kandidaat-API-functieaanroepen vergroot de actieruimte aanzienlijk, wat de kritieke noodzaak voor efficiënte navigatie door de actieruimte versterkt. Bestaande methoden worstelen echter ofwel met unidirectionele exploratie in uitgestrekte actieruimtes, waarbij ze vastlopen in een lokaal optimale oplossing, of lijden onder het uitputtend doorlopen van alle mogelijke acties, wat leidt tot inefficiënte navigatie. Om deze problemen aan te pakken, stellen we ToolChain* voor, een efficiënt op boomzoeken gebaseerd planningsalgoritme voor LLM-gebaseerde agents. Het formuleert de gehele actieruimte als een beslissingsboom, waarbij elk knooppunt een mogelijke API-functieaanroep in een oplossingsplan vertegenwoordigt. Door het A*-zoekalgoritme te combineren met taakspecifieke kostenfunctie-ontwerpen, snoeit het efficiënt hoogkosten takken weg die mogelijk onjuiste acties bevatten, en identificeert het het meest kosteneffectieve geldige pad als oplossing. Uitgebreide experimenten op meerdere tool-gebruik- en redeneertaken tonen aan dat ToolChain* efficiënt balanseert tussen exploratie en exploitatie binnen een uitgestrekte actieruimte. Het overtreft state-of-the-art baseline-methoden op plannings- en redeneertaken met gemiddeld 3,1% en 3,5%, terwijl het respectievelijk 7,35x en 2,31x minder tijd vereist.

DreamSpace: Je kamerruimte dromen met tekstgestuurde panoramische textuurpropagatie
DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation

Oct 19

ByBangbang Yang, Wenqi Dong, Lin Ma, Wenbo Hu, Xiao Liu, Zhaopeng Cui, Yuewen Ma

Diffusiegebaseerde methoden hebben opvallend succes geboekt bij het genereren van 2D-media. Het bereiken van vergelijkbare prestaties voor het textureren van meshes op scèniveau in 3D-ruimtelijke toepassingen, zoals XR/VR, blijft echter beperkt, voornamelijk vanwege de complexe aard van 3D-geometrie en de noodzaak voor immersieve rendering vanuit vrije gezichtspunten. In dit artikel stellen we een nieuw raamwerk voor voor het textureren van binnenruimtes, dat tekstgestuurde textuurgeneratie biedt met betoverende details en authentieke ruimtelijke samenhang. De belangrijkste inzicht is om eerst een gestileerde 360{\deg} panoramische textuur te bedenken vanuit het centrale gezichtspunt van de scène, en deze vervolgens naar de rest van de ruimte te verspreiden met inpainting- en imitatietechnieken. Om betekenisvolle en uitgelijnde texturen voor de scène te garanderen, ontwikkelen we een nieuwe grof-naar-fijn benadering voor het genereren van panoramische texturen met dubbele textuuralignering, die zowel rekening houdt met de geometrie als de textuuraanwijzingen van de vastgelegde scènes. Om om te gaan met rommelige geometrieën tijdens de textuurverspreiding, ontwerpen we een gescheiden strategie, die textuurinpainting uitvoert in vertrouwelijke regio's en vervolgens een impliciet imitatienetwerk leert om texturen te synthetiseren in verborgen en kleine structurele gebieden. Uitgebreide experimenten en de immersieve VR-toepassing op realistische binnenruimtes demonstreren de hoge kwaliteit van de gegenereerde texturen en de boeiende ervaring op VR-headsets. Projectwebpagina: https://ybbbbt.com/publication/dreamspace

Auto-Instruct: Automatische Instructiegeneratie en Rangschikking voor Black-Box Taalmodellen
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models

Oct 19

ByZhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang

Grote taalmodellen (LLMs) kunnen een breed scala aan taken uitvoeren door natuurlijke taal instructies te volgen, zonder dat taakspecifieke fine-tuning noodzakelijk is. Helaas wordt de prestaties van LLMs sterk beïnvloed door de kwaliteit van deze instructies, en het handmatig schrijven van effectieve instructies voor elke taak is een arbeidsintensief en subjectief proces. In dit artikel introduceren we Auto-Instruct, een nieuwe methode om de kwaliteit van instructies die aan LLMs worden gegeven automatisch te verbeteren. Onze methode maakt gebruik van het inherente generatieve vermogen van LLMs om diverse kandidaat-instructies voor een bepaalde taak te produceren, en rangschikt deze vervolgens met behulp van een scoringsmodel dat is getraind op een verscheidenheid van 575 bestaande NLP-taken. In experimenten op 118 taken buiten het domein overtreft Auto-Instruct zowel door mensen geschreven instructies als bestaande baselines van door LLM gegenereerde instructies. Bovendien toont onze methode opmerkelijke generaliseerbaarheid, zelfs met andere LLMs die niet in het trainingsproces zijn opgenomen.

Taalmodellen leren zichzelf te verbeteren via interactieve demonstraties
Teaching Language Models to Self-Improve through Interactive Demonstrations

Oct 20

ByXiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu

Het zelfverbeterende vermogen van grote taalmodellen (LLM's), mogelijk gemaakt door ze aan te sturen om hun eigen uitvoer te analyseren en te herzien, heeft recentelijk aanzienlijke belangstelling gewekt in onderzoek. Dit vermogen blijkt echter afwezig en moeilijk aan te leren voor kleinere modellen, waardoor de prestatiekloof tussen state-of-the-art LLM's en kosteneffectievere en snellere modellen wordt vergroot. Om deze kloof te verkleinen, introduceren we TriPosT, een trainingsalgoritme dat kleinere modellen voorziet van een dergelijk zelfverbeterend vermogen, en we tonen aan dat onze aanpak de prestaties van een LLaMA-7b op wiskundige en redeneertaken met tot wel 7,13% kan verbeteren. In tegenstelling tot eerder werk bereiken we dit door het kleinere model te laten interacteren met LLM's om feedback en verbeteringen op zijn eigen generaties te verzamelen. Vervolgens gebruiken we deze ervaring om het kleine model te trainen. Onze experimenten op vier wiskundige en redeneerdatasets tonen aan dat de interactieve ervaring van leren van en het corrigeren van eigen fouten cruciaal is voor kleine modellen om hun prestaties te verbeteren.

Creatief Robotgereedschapgebruik met Grote Taalmodellen
Creative Robot Tool Use with Large Language Models

Oct 19

ByMengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao

Het gebruik van gereedschap is een kenmerk van geavanceerde intelligentie, wat zowel in diergedrag als in robotica terug te zien is. Dit artikel onderzoekt de haalbaarheid van het uitrusten van robots met het vermogen om op creatieve wijze gereedschap te gebruiken bij taken die impliciete fysieke beperkingen en langetermijnplanning omvatten. Door gebruik te maken van Large Language Models (LLMs) ontwikkelen we RoboTool, een systeem dat natuurlijke taal instructies accepteert en uitvoerbare code genereert voor het besturen van robots in zowel gesimuleerde als echte omgevingen. RoboTool bevat vier cruciale componenten: (i) een "Analyzer" die natuurlijke taal interpreteert om belangrijke taakgerelateerde concepten te identificeren, (ii) een "Planner" die uitgebreide strategieën genereert op basis van de taalinput en de sleutelconcepten, (iii) een "Calculator" die parameters voor elke vaardigheid berekent, en (iv) een "Coder" die deze plannen vertaalt naar uitvoerbare Python-code. Onze resultaten tonen aan dat RoboTool niet alleen expliciete of impliciete fysieke beperkingen en omgevingsfactoren kan begrijpen, maar ook creatief gebruik van gereedschap kan demonstreren. In tegenstelling tot traditionele Task and Motion Planning (TAMP) methoden die afhankelijk zijn van expliciete optimalisatie, biedt ons LLM-gebaseerde systeem een flexibelere, efficiëntere en gebruiksvriendelijkere oplossing voor complexe robotica-taken. Door uitgebreide experimenten valideren we dat RoboTool bekwaam is in het uitvoeren van taken die anders onhaalbaar zouden zijn zonder het creatieve gebruik van gereedschap, waardoor de mogelijkheden van robotsystemen worden uitgebreid. Demo's zijn beschikbaar op onze projectpagina: https://creative-robotool.github.io/.

Tuna: Instructieafstemming met behulp van feedback van grote taalmodellen
Tuna: Instruction Tuning using Feedback from Large Language Models

Oct 20

ByHaoran Li, Yiran Liu, Xingxing Zhang, Wei Lu, Furu Wei

Instruction tuning van open-source grote taalmodellen (LLMs) zoals LLaMA, met behulp van directe uitvoer van krachtigere LLMs zoals Instruct-GPT en GPT-4, heeft zich bewezen als een kosteneffectieve manier om modelgedrag af te stemmen op menselijke voorkeuren. Het instruction-tuned model heeft echter slechts één reactie per instructie gezien, zonder kennis van mogelijk betere reacties. In dit artikel stellen we voor om een instruction-tuned LLM te finetunen met behulp van onze nieuwe probabilistische ranking en contextuele ranking benaderingen om de kans op het genereren van betere reacties te vergroten. Probabilistische ranking stelt het instruction-tuned model in staat om de relatieve rangschikking van hoogwaardige en laagwaardige reacties van het leraren-LLM over te nemen. Aan de andere kant stelt leren met contextuele ranking het model in staat om zijn eigen reactieverdeling te verfijnen met behulp van het contextuele begripsvermogen van sterkere LLMs. Bovendien passen we probabilistische ranking en contextuele ranking sequentieel toe op het instruction-tuned LLM. Het resulterende model, dat we Tuna noemen, verbetert consistent de prestaties op Super Natural Instructions (119 testtaken), LMentry (25 testtaken), Vicuna QA, en kan zelfs betere resultaten behalen dan verschillende sterke reinforcement learning-baselines. Onze code en gegevens zijn beschikbaar op https://github.com/microsoft/LMOps.

H2O Open Ecosysteem voor State-of-the-art Grote Taalmodellen
H2O Open Ecosystem for State-of-the-art Large Language Models

Oct 17

ByArno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Chun Ming Lee, Marcos V. Conde

Grote Taalmodellen (LLMs) vertegenwoordigen een revolutie in AI. Ze brengen echter ook aanzienlijke risico's met zich mee, zoals de aanwezigheid van bevooroordeelde, privé-, auteursrechtelijk beschermde of schadelijke tekst. Daarom hebben we open, transparante en veilige oplossingen nodig. Wij introduceren een volledig open-source ecosysteem voor het ontwikkelen en testen van LLMs. Het doel van dit project is om open alternatieven voor gesloten bronbenaderingen te stimuleren. We brengen h2oGPT uit, een familie van fijn afgestemde LLMs met 7 tot 70 miljard parameters. Daarnaast introduceren we H2O LLM Studio, een framework en no-code GUI ontworpen voor efficiënte fijnafstemming, evaluatie en implementatie van LLMs met behulp van de meest recente state-of-the-art technieken. Onze code en modellen zijn gelicentieerd onder volledig permissieve Apache 2.0-licenties. Wij geloven dat open-source taalmodelen de ontwikkeling van AI bevorderen en deze toegankelijker en betrouwbaarder maken. De demo is beschikbaar op: https://gpt.h2o.ai/

SILC: Verbetering van Vision Language Pretraining met Zelfdistillatie
SILC: Improving Vision Language Pretraining with Self-Distillation

Oct 20

ByMuhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari

Image-text pretraining op web-schaal beeld-bijschrift datasets is het standaardrecept geworden voor open vocabulaire classificatie- en retrievalmodellen dankzij het succes van CLIP en zijn varianten. Verschillende werken hebben ook CLIP-features gebruikt voor dense prediction taken en hebben het ontstaan van open-set vaardigheden aangetoond. Echter, het contrastieve doel richt zich alleen op de uitlijning van beeld en tekst en stimuleert niet het leren van beeldfeatures voor dense prediction taken. In dit werk stellen we de eenvoudige toevoeging van lokaal-naar-globaal correspondentieleren door zelfdistillatie voor als een extra doel voor contrastieve pretraining om SILC te introduceren. We laten zien dat het distilleren van lokale beeldfeatures van een exponentieel voortschrijdend gemiddelde (EMA) leraarmodel de modelprestaties aanzienlijk verbetert op verschillende computervisietaken, waaronder classificatie, retrieval, en vooral segmentatie. We tonen verder aan dat SILC beter schaalt met dezelfde trainingsduur in vergelijking met de baseline-modellen. Ons model SILC vestigt een nieuwe state of the art voor zero-shot classificatie, few-shot classificatie, beeld- en tekstretrieval, zero-shot segmentatie, en open vocabulaire segmentatie.

Naar een Begrip van Slaafsheid in Taalmodellen
Towards Understanding Sycophancy in Language Models

Oct 20

ByMrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez

Reinforcement learning from human feedback (RLHF) is een populaire techniek voor het trainen van hoogwaardige AI-assistenten. Echter, RLHF kan ook modelreacties bevorderen die aansluiten bij de overtuigingen van gebruikers in plaats van waarheidsgetrouwe reacties, een gedrag dat bekend staat als sycophantie. Wij onderzoeken de prevalentie van sycophantie in met RLHF getrainde modellen en of menselijke voorkeursbeoordelingen hier verantwoordelijk voor zijn. We tonen eerst aan dat vijf state-of-the-art AI-assistenten consistent sycophantisch gedrag vertonen bij vier verschillende taken voor het genereren van vrije tekst. Om te begrijpen of menselijke voorkeuren dit breed waargenomen gedrag van RLHF-modellen aansturen, analyseren we bestaande gegevens over menselijke voorkeuren. We ontdekken dat wanneer een reactie overeenkomt met de opvattingen van een gebruiker, deze eerder de voorkeur krijgt. Bovendien geven zowel mensen als voorkeursmodellen (PMs) in een verwaarloosbaar aantal gevallen de voorkeur aan overtuigend geschreven sycophantische reacties boven correcte reacties. Het optimaliseren van modeloutputs tegen PMs offert soms ook waarachtigheid op ten gunste van sycophantie. Over het algemeen geven onze resultaten aan dat sycophantie een algemeen gedrag is van RLHF-modellen, waarschijnlijk deels aangestuurd door menselijke voorkeursbeoordelingen die sycophantische reacties bevoordelen.

ScaleLong: Naar een stabielere training van diffusiemodellen via schaling van netwerk-long-skip-verbindingen
ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection

Oct 20

ByZhongzhan Huang, Pan Zhou, Shuicheng Yan, Liang Lin

In diffusiemodellen is UNet de meest populaire netwerkbackbone, omdat de lange sprongverbindingen (LSCs) die verre netwerkblokken verbinden, informatie over lange afstand kunnen samenvoegen en het verdwijnen van gradiënten kunnen verminderen. Helaas heeft UNet vaak last van onstabiele training in diffusiemodellen, wat kan worden verlicht door de LSC-coëfficiënten kleiner te schalen. Echter, theoretische inzichten in de instabiliteit van UNet in diffusiemodellen en ook de prestatieverbetering door LSC-schaling ontbreken nog. Om dit probleem op te lossen, tonen we theoretisch aan dat de coëfficiënten van LSCs in UNet een grote invloed hebben op de stabiliteit van de voorwaartse en achterwaartse propagatie en de robuustheid van UNet. Specifiek kunnen de verborgen kenmerken en gradiënt van UNet in elke laag oscilleren en hun oscillatiebereiken zijn daadwerkelijk groot, wat de instabiliteit van UNet-training verklaart. Bovendien is UNet ook bewezen gevoelig voor verstoorde invoer en voorspelt het een uitvoer die ver verwijderd is van de gewenste uitvoer, wat resulteert in oscillerend verlies en dus oscillerende gradiënt. Daarnaast observeren we ook de theoretische voordelen van de LSC-coëfficiëntschaling van UNet in de stabiliteit van verborgen kenmerken en gradiënt en ook robuustheid. Ten slotte, geïnspireerd door onze theorie, stellen we een effectief coëfficiëntschalingsframework ScaleLong voor dat de coëfficiënten van LSC in UNet schaalt en de trainingsstabiliteit van UNet beter verbetert. Experimentele resultaten op vier bekende datasets tonen aan dat onze methoden superieur zijn in het stabiliseren van training en ongeveer 1,5x trainingsversnelling opleveren op verschillende diffusiemodellen met UNet- of UViT-backbones. Code: https://github.com/sail-sg/ScaleLong

Contrastief Voorkeursleren: Leren van Menselijke Feedback zonder Reinforcement Learning
Contrastive Prefence Learning: Learning from Human Feedback without RL

Oct 20

ByJoey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh