Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In de zoektocht naar efficiënte geautomatiseerde contentcreatie komt procedurele generatie, die gebruikmaakt van aanpasbare parameters en regelgebaseerde systemen, naar voren als een veelbelovende aanpak. Desalniettemin kan dit een veeleisende onderneming zijn, gezien de complexe aard ervan die een diepgaand begrip van regels, algoritmen en parameters vereist. Om de werkdruk te verminderen, introduceren we 3D-GPT, een raamwerk dat grote taalmodelen (LLMs) gebruikt voor instructiegestuurde 3D-modellering. 3D-GPT positioneert LLMs als bekwame probleemoplossers, die de procedurele 3D-modellerings taken opdelen in toegankelijke segmenten en de meest geschikte agent aanwijzen voor elke taak. 3D-GPT integreert drie kernagenten: de taakdispatchagent, de conceptualisatieagent en de modelleringsagent. Zij werken samen om twee doelstellingen te bereiken. Ten eerste verbetert het beknopte initiële scènebeschrijvingen, ontwikkelt deze tot gedetailleerde vormen en past de tekst dynamisch aan op basis van vervolginstructies. Ten tweede integreert het procedurele generatie, waarbij parameterwaarden worden geëxtraheerd uit verrijkte tekst om moeiteloos te kunnen samenwerken met 3D-software voor het creëren van assets. Onze empirische onderzoeken bevestigen dat 3D-GPT niet alleen instructies interpreteert en uitvoert, wat betrouwbare resultaten oplevert, maar ook effectief samenwerkt met menselijke ontwerpers. Bovendien integreert het naadloos met Blender, wat uitgebreide manipulatiemogelijkheden ontsluit. Ons werk benadrukt het potentieel van LLMs in 3D-modellering en biedt een basisraamwerk voor toekomstige vooruitgang in scènegeneratie en animatie.
Open grote taalmodellen (LLMs) met uitstekende prestaties in diverse taken hebben de ontwikkeling van LLMs aanzienlijk bevorderd. Echter, ze zijn ver inferieur aan commerciële modellen zoals ChatGPT en GPT-4 wanneer ze als agents worden ingezet om complexe taken in de echte wereld aan te pakken. Deze agenttaken gebruiken LLMs als de centrale controller die verantwoordelijk is voor planning, geheugen en het gebruik van tools, wat zowel fijnmazige prompting-methoden als robuuste LLMs vereist om bevredigende prestaties te bereiken. Hoewel er veel prompting-methoden zijn voorgesteld om specifieke agenttaken te voltooien, ontbreekt het aan onderzoek dat zich richt op het verbeteren van de agentcapaciteiten van LLMs zelf zonder hun algemene vaardigheden aan te tasten. In dit werk presenteren we AgentTuning, een eenvoudige en algemene methode om de agentcapaciteiten van LLMs te verbeteren terwijl hun algemene LLM-capaciteiten behouden blijven. We construeren AgentInstruct, een lichtgewicht instructie-tuning dataset die hoogwaardige interactietrajecten bevat. We gebruiken een hybride instructie-tuning strategie door AgentInstruct te combineren met open-source instructies uit algemene domeinen. AgentTuning wordt gebruikt om de Llama 2-serie te instructie-tunen, wat resulteert in AgentLM. Onze evaluaties tonen aan dat AgentTuning de agentcapaciteiten van LLMs mogelijk maakt zonder de algemene vaardigheden aan te tasten. De AgentLM-70B is vergelijkbaar met GPT-3.5-turbo bij onbekende agenttaken, wat gegeneraliseerde agentcapaciteiten aantoont. We maken de AgentInstruct en AgentLM-7B, 13B en 70B modellen openbaar op https://github.com/THUDM/AgentTuning, als open en krachtige alternatieven voor commerciële LLMs voor agenttaken.
Met de ontwikkeling van grote taalmodelen (LLMs) is het vinden van een balans tussen de prestaties en veiligheid van AI-systemen nog nooit zo cruciaal geweest. De inherente spanning tussen de doelstellingen van behulpzaamheid en onschadelijkheid vormt echter een aanzienlijke uitdaging tijdens de training van LLMs. Om dit probleem aan te pakken, stellen we Safe Reinforcement Learning from Human Feedback (Safe RLHF) voor, een nieuw algoritme voor het afstemmen van menselijke waarden. Safe RLHF ontkoppelt expliciet menselijke voorkeuren met betrekking tot behulpzaamheid en onschadelijkheid, waardoor verwarring bij crowdworkers over deze spanning wordt voorkomen en het mogelijk wordt om afzonderlijke belonings- en kostenmodellen te trainen. We formaliseren het veiligheidsaspect van LLMs als een optimalisatieprobleem waarbij de beloningsfunctie wordt gemaximaliseerd onder specifieke kostenbeperkingen. Door gebruik te maken van de Lagrangiaanse methode om dit beperkte probleem op te lossen, past Safe RLHF dynamisch de balans tussen de twee doelstellingen aan tijdens het finetunen. Door middel van een driedelige finetuning met Safe RLHF tonen we een superieure mogelijkheid aan om schadelijke reacties te verminderen en tegelijkertijd de modelprestaties te verbeteren in vergelijking met bestaande waarde-afgestemde algoritmen. Experimenteel hebben we Alpaca-7B gefinetuned met Safe RLHF en afgestemd op verzamelde menselijke voorkeuren, wat volgens menselijke evaluaties leidde tot een significante verbetering in zowel behulpzaamheid als onschadelijkheid.
Large Language Models (LLM's) hebben uitstekend gepresteerd als hoogwaardige semantische planners voor sequentiële besluitvormingstaken. Het benutten ervan om complexe low-level manipulatietaken te leren, zoals behendig pennen draaien, blijft echter een open probleem. Wij overbruggen deze fundamentele kloof en presenteren Eureka, een algoritme voor het ontwerpen van menswaardige beloningen, aangedreven door LLM's. Eureka maakt gebruik van de opmerkelijke zero-shot generatie, code-schrijf- en in-context verbeteringsmogelijkheden van state-of-the-art LLM's, zoals GPT-4, om evolutionaire optimalisatie uit te voeren over beloningscode. De resulterende beloningen kunnen vervolgens worden gebruikt om complexe vaardigheden te verwerven via reinforcement learning. Zonder taakspecifieke prompting of vooraf gedefinieerde beloningssjablonen genereert Eureka beloningsfuncties die beter presteren dan door menselijke experts ontworpen beloningen. In een diverse reeks van 29 open-source RL-omgevingen die 10 verschillende robotmorfologieën omvatten, presteert Eureka beter dan menselijke experts bij 83% van de taken, wat leidt tot een gemiddelde genormaliseerde verbetering van 52%. De algemeenheid van Eureka maakt ook een nieuwe gradient-free in-context leerbenadering mogelijk voor reinforcement learning from human feedback (RLHF), waarbij menselijke input gemakkelijk wordt geïntegreerd om de kwaliteit en veiligheid van de gegenereerde beloningen te verbeteren zonder model-updates. Ten slotte demonstreren we, door Eureka-beloningen te gebruiken in een curriculum leeromgeving, voor het eerst een gesimuleerde Shadow Hand die in staat is pennen draaitrucs uit te voeren, waarbij een pen behendig in cirkels wordt gemanipuleerd met hoge snelheid.
Reinforcement learning (RL) vereist ofwel het handmatig specificeren van een beloningsfunctie, wat vaak onhaalbaar is, of het leren van een beloningsmodel uit een grote hoeveelheid menselijke feedback, wat vaak zeer kostbaar is. Wij onderzoeken een alternatief dat efficiënter is in het gebruik van voorbeelden: het gebruik van vooraf getrainde vision-language modellen (VLMs) als zero-shot beloningsmodellen (RMs) om taken te specificeren via natuurlijke taal. Wij stellen een natuurlijke en algemene aanpak voor om VLMs als beloningsmodellen te gebruiken, wat wij VLM-RMs noemen. Wij gebruiken VLM-RMs gebaseerd op CLIP om een MuJoCo humanoïde te trainen om complexe taken te leren zonder een handmatig gespecificeerde beloningsfunctie, zoals knielen, de splits doen en in een lotushouding zitten. Voor elk van deze taken geven we slechts één zin als tekstprompt die de gewenste taak beschrijft, met minimale prompt engineering. Wij bieden video's van de getrainde agents op: https://sites.google.com/view/vlm-rm. We kunnen de prestaties verbeteren door een tweede "baseline" prompt te geven en delen van de CLIP embedding space die irrelevant zijn om het doel van de baseline te onderscheiden, te projecteren. Verder vinden we een sterk schaaleffect voor VLM-RMs: grotere VLMs die met meer rekenkracht en data zijn getraind, zijn betere beloningsmodellen. De faalmodi van VLM-RMs die we tegenkwamen, zijn allemaal gerelateerd aan bekende beperkingen van huidige VLMs, zoals beperkte ruimtelijke redeneervaardigheid of visueel onrealistische omgevingen die ver buiten de distributie van het VLM vallen. We vinden dat VLM-RMs opmerkelijk robuust zijn zolang het VLM groot genoeg is. Dit suggereert dat toekomstige VLMs steeds nuttigere beloningsmodellen zullen worden voor een breed scala aan RL-toepassingen.
Het creëren van muziek is een iteratief proces dat verschillende methoden vereist in elke fase. Bestaande AI-muzieksystemen schieten echter tekort in het coördineren van meerdere subsystemen voor uiteenlopende behoeften. Om deze kloof te overbruggen, introduceren we Loop Copilot, een nieuw systeem dat gebruikers in staat stelt muziek te genereren en iteratief te verfijnen via een interactieve, meerronde dialooginterface. Het systeem maakt gebruik van een groot taalmodel om gebruikersintenties te interpreteren en geschikte AI-modellen te selecteren voor taakuitvoering. Elk backend-model is gespecialiseerd voor een specifieke taak, en hun uitvoer wordt samengevoegd om aan de gebruikerseisen te voldoen. Om muzikale samenhang te waarborgen, worden essentiële attributen bijgehouden in een centrale tabel. We evalueren de effectiviteit van het voorgestelde systeem via semi-gestructureerde interviews en vragenlijsten, waarbij we niet alleen het nut ervan bij het faciliteren van muziekcreatie benadrukken, maar ook het potentieel voor bredere toepassingen.
Grote taalmodellen (LLM's) zijn nu beschikbaar in verschillende formaten en configuraties via cloud-API-aanbieders. Hoewel deze diversiteit een breed scala aan keuzes biedt, blijft het effectief benutten van deze opties om rekencapaciteit en prestaties te optimaliseren een uitdaging. In dit werk presenteren we AutoMix, een aanpak die queries strategisch doorstuurt naar grotere LLM's, gebaseerd op de geschatte juistheid van de uitvoer van een kleiner LLM. Centraal in AutoMix staat een few-shot zelfverificatiemechanisme, dat de betrouwbaarheid van zijn eigen uitvoer schat zonder training te vereisen. Gezien het feit dat verificaties onnauwkeurig kunnen zijn, gebruiken we in AutoMix een meta-verifier om de nauwkeurigheid van deze beoordelingen te verfijnen. Onze experimenten met LLAMA2-13/70B op vijf contextgebonden redeneerdatasets tonen aan dat AutoMix gevestigde basislijnen overtreft, waarbij het incrementele voordeel per kosten met maximaal 89% wordt verbeterd. Onze code en data zijn beschikbaar op https://github.com/automix-llm/automix.
Textural Inversion, een prompt-leermethode, leert een enkele embedding voor een nieuw "woord" om beeldstijl en uiterlijk te representeren, waardoor het kan worden geïntegreerd in natuurlijke taalzinnen om nieuwe gesynthetiseerde beelden te genereren. Het identificeren en integreren van meerdere objectniveau-concepten binnen één scène vormt echter aanzienlijke uitdagingen, zelfs wanneer embeddings voor individuele concepten bereikbaar zijn. Dit wordt verder bevestigd door onze empirische tests. Om deze uitdaging aan te pakken, introduceren we een raamwerk voor Multi-Concept Prompt Learning (MCPL), waarbij meerdere nieuwe "woorden" gelijktijdig worden geleerd vanuit een enkele zin-beeldpaar. Om de nauwkeurigheid van woord-conceptcorrelatie te verbeteren, stellen we drie regularisatietechnieken voor: Attention Masking (AttnMask) om het leren te concentreren op relevante gebieden; Prompts Contrastive Loss (PromptCL) om de embeddings van verschillende concepten te scheiden; en Bind adjective (Bind adj.) om nieuwe "woorden" te associëren met bekende woorden. We evalueren via beeldgeneratie, -bewerking en aandachtvisualisatie met diverse beelden. Uitgebreide kwantitatieve vergelijkingen tonen aan dat onze methode meer semantisch ontwarde concepten kan leren met een verbeterde woord-conceptcorrelatie. Daarnaast introduceren we een nieuwe dataset en evaluatieprotocol die zijn afgestemd op deze nieuwe taak van het leren van objectniveau-concepten.
Veelgebruikte taalmodelen (LMs) worden doorgaans gebouwd door een tweestaps trainingspijplijn op te schalen: een voorafgaande trainingsfase die gebruikmaakt van een zeer grote, diverse dataset van tekst en een afstemmingsfase (soms 'alignment' genoemd) die gerichte voorbeelden of andere specificaties van gewenst gedrag gebruikt. Hoewel wordt verondersteld dat kennis en vaardigheden voortkomen uit de voorafgaande training, en dat afstemming vooral deze kennis en vaardigheden filtert, is deze intuïtie niet uitgebreid getest. Om dit te faciliteren, introduceren we een nieuwe techniek voor het ontkoppelen van de kennis en vaardigheden die in deze twee fasen worden verworven, waardoor een direct antwoord mogelijk wordt op de vraag: "Wat zou er gebeuren als we de kennis die een groot model tijdens de voorafgaande training heeft geleerd, combineren met de kennis die een klein model tijdens de afstemming heeft geleerd (of vice versa)?" Met behulp van een RL-gebaseerd raamwerk, afgeleid van recente ontwikkelingen in leren van menselijke voorkeuren, introduceren we geëmuleerde afstemming (EFT), een principiële en praktische methode voor het bemonsteren van een verdeling die het resultaat van voorafgaande training en afstemming op verschillende schalen benadert (of 'emuleert'). Onze experimenten met EFT laten zien dat het opschalen van afstemming de behulpzaamheid verbetert, terwijl het opschalen van voorafgaande training de feitelijkheid verbetert. Naast het ontkoppelen van schaal, tonen we aan dat EFT het mogelijk maakt om concurrerende gedragskenmerken zoals behulpzaamheid en onschadelijkheid tijdens de testtijd aan te passen zonder aanvullende training. Ten slotte vermijdt een speciaal geval van geëmuleerde afstemming, dat we LM up-scaling noemen, de resource-intensieve afstemming van grote vooraf getrainde modellen door ze te combineren met kleine afgestemde modellen, waardoor in feite het resultaat van het afstemmen van het grote vooraf getrainde model wordt geëmuleerd. Up-scaling verbetert consistent de behulpzaamheid en feitelijkheid van instructievolgende modellen in de Llama, Llama-2 en Falcon families, zonder aanvullende hyperparameters of training.
Het genereren van hoogwaardige 3D-objecten blijft een uitdagende taak, voornamelijk vanwege de beperkte beschikbaarheid van uitgebreide geannoteerde trainingsdata. Recente vooruitgang heeft geprobeerd deze beperking te overwinnen door gebruik te maken van beeldgeneratieve modellen, vooraf getraind op uitgebreide, gecureerde webdatasets, met behulp van kennisoverdrachtstechnieken zoals Score Distillation Sampling (SDS). Het efficiënt aanpakken van de vereisten voor hoogwaardige rendering vereist vaak de adoptie van latenterepresentatie-gebaseerde modellen, zoals het Latent Diffusion Model (LDM). In dit kader ontstaat een belangrijke uitdaging: Om gradiënten voor individuele beeldpixels te berekenen, is het nodig om gradiënten terug te propageren vanuit de aangewezen latente ruimte door de bevroren componenten van het beeldmodel, zoals de VAE-encoder die binnen LDM wordt gebruikt. Deze gradiëntpropagatieroute is echter nooit geoptimaliseerd en blijft ongereguleerd tijdens de training. We constateren dat de ongereguleerde gradiënten een negatief effect hebben op het vermogen van het 3D-model om textuurgerelateerde informatie te verwerven uit het beeldgeneratieve model, wat resulteert in een slechte kwaliteit van de uiterlijk-synthese. Om deze overkoepelende uitdaging aan te pakken, stellen we een innovatieve operatie voor genaamd Pixel-wise Gradient Clipping (PGC), ontworpen voor naadloze integratie in bestaande 3D-generatieve modellen, waardoor hun synthesekwaliteit wordt verbeterd. Specifiek controleren we de grootte van stochastische gradiënten door de pixelgewijze gradiënten efficiënt te begrenzen, terwijl cruciale textuurgerelateerde gradiëntrichtingen behouden blijven. Ondanks deze eenvoud en minimale extra kosten, tonen uitgebreide experimenten de effectiviteit van onze PGC aan in het verbeteren van de prestaties van bestaande 3D-generatieve modellen voor hoogwaardige objectrendering.