Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Er is een snel groeiend aantal grote taalmodellen (LLM's) waar gebruikers tegen betaling query's op kunnen uitvoeren. We bekijken de kosten die gepaard gaan met het bevragen van populaire LLM-API's, zoals GPT-4, ChatGPT en J1-Jumbo, en constateren dat deze modellen heterogene prijsstructuren hebben, waarbij de kosten met twee ordes van grootte kunnen verschillen. Met name het gebruik van LLM's op grote verzamelingen van query's en tekst kan kostbaar zijn. Gemotiveerd door dit inzicht, beschrijven en bespreken we drie soorten strategieën die gebruikers kunnen toepassen om de inferentiekosten van het gebruik van LLM's te verlagen: 1) promptaanpassing, 2) LLM-benadering, en 3) LLM-cascade. Als voorbeeld stellen we FrugalGPT voor, een eenvoudige maar flexibele implementatie van een LLM-cascade, dat leert welke combinaties van LLM's voor verschillende query's gebruikt moeten worden om de kosten te verlagen en de nauwkeurigheid te verbeteren. Onze experimenten tonen aan dat FrugalGPT de prestaties van het beste individuele LLM (bijvoorbeeld GPT-4) kan evenaren met een kostenreductie van tot 98%, of de nauwkeurigheid ten opzichte van GPT-4 met 4% kan verbeteren tegen dezelfde kosten. De ideeën en bevindingen die hier worden gepresenteerd, leggen een basis voor het duurzame en efficiënte gebruik van LLM's.
Hoewel ``instruction-tuned" generatieve grote taalmodellen (LLM's) een indrukwekkend vermogen hebben getoond om zich aan te passen aan nieuwe taken, zijn de trainingsfasen sterk afhankelijk van grote hoeveelheden diverse en hoogwaardige instructiedata (zoals ChatGPT en GPT-4). Helaas kan het verkrijgen van hoogwaardige data, vooral als het gaat om door mensen geschreven data, aanzienlijke uitdagingen opleveren wat betreft kosten en toegankelijkheid. Bovendien kunnen zorgen over privacy de toegang tot dergelijke data verder beperken, waardoor het verkrijgen ervan een complexe en genuanceerde onderneming wordt. Dit belemmert uiteindelijk de algemene bruikbaarheid van de afgestemde modellen en kan hun effectiviteit in bepaalde contexten beperken. Om dit probleem aan te pakken, introduceert onze studie een nieuwe aanpak genaamd Federated Instruction Tuning (FedIT), die federated learning (FL) gebruikt als het leerframework voor het afstemmen van instructies voor LLM's. Dit markeert de eerste verkenning van FL-gebaseerde instructieafstemming voor LLM's. Dit is vooral belangrijk omdat tekstdata voornamelijk wordt gegenereerd door eindgebruikers. Daarom is het essentieel om FL-benaderingen te ontwerpen en aan te passen om effectief gebruik te maken van de diverse instructies van deze gebruikers die op lokale apparaten zijn opgeslagen, terwijl de privacy wordt gewaarborgd en de databeveiliging wordt gegarandeerd. In het huidige artikel tonen we, door middel van een veelgebruikte GPT-4 auto-evaluatie, aan dat door het benutten van de heterogene en diverse sets instructies aan de kant van de client met het voorgestelde framework FedIT, de prestaties van LLM's verbeteren in vergelijking met gecentraliseerde training met slechts beperkte lokale instructies. Verder hebben we in dit artikel een Github-repository ontwikkeld genaamd Shepherd. Deze repository biedt een basisraamwerk voor het verkennen van federated fine-tuning van LLM's met behulp van heterogene instructies in diverse categorieën.
We presenteren een interactief visueel framework genaamd InternChat, of kortweg iChat. Het framework integreert chatbots met plannings- en redeneervaardigheden, zoals ChatGPT, met non-verbale instructies zoals wijsbewegingen die gebruikers in staat stellen om afbeeldingen of video's direct op het scherm te manipuleren. Wijsbewegingen (inclusief gebaren, cursors, etc.) kunnen meer flexibiliteit en precisie bieden bij het uitvoeren van visiegerichte taken die fijnmazige controle, bewerking en generatie van visuele inhoud vereisen. De naam InternChat staat voor interactie, non-verbaal en chatbots. In tegenstelling tot bestaande interactieve systemen die puur op taal vertrouwen, verbetert de voorgestelde iChat door het opnemen van wijsinstructies de efficiëntie van communicatie tussen gebruikers en chatbots aanzienlijk, evenals de nauwkeurigheid van chatbots bij visiegerichte taken, vooral in complexe visuele scenario's waar het aantal objecten groter is dan 2. Daarnaast wordt in iChat een hulpcontrolemechanisme gebruikt om de controlecapaciteit van LLM te verbeteren, en is een groot visie-taalmodel genaamd Husky afgestemd voor hoogwaardige multi-modale dialoog (dat ChatGPT-3.5-turbo imponeert met 93,89% GPT-4-kwaliteit). We hopen dat dit werk nieuwe ideeën en richtingen kan inspireren voor toekomstige interactieve visuele systemen. Welkom om de code te bekijken op https://github.com/OpenGVLab/InternChat.
Grote taalmodellen (LLMs) hebben recentelijk indrukwekkende prestaties geleverd in diverse NLP-taken. Om meerstaps redeneertaken aan te pakken, omvat few-shot chain-of-thought (CoT) prompting een aantal handmatig opgestelde stapsgewijze redeneerdemonstraties die LLMs in staat stellen om expliciet redeneerstappen te genereren en hun nauwkeurigheid bij redeneertaken te verbeteren. Om de handmatige inspanning te elimineren, voegt Zero-shot-CoT de doelprobleemstelling samen met "Laten we stap voor stap nadenken" als invoerprompt voor LLMs. Ondanks het succes van Zero-shot-CoT, kampt het nog steeds met drie valkuilen: rekenfouten, ontbrekende-stap-fouten en semantische misinterpretatiefouten. Om de ontbrekende-stap-fouten aan te pakken, stellen we Plan-and-Solve (PS) Prompting voor. Dit bestaat uit twee componenten: eerst het opstellen van een plan om de gehele taak in kleinere subtaken te verdelen, en vervolgens het uitvoeren van de subtaken volgens het plan. Om de rekenfouten aan te pakken en de kwaliteit van de gegenereerde redeneerstappen te verbeteren, breiden we PS prompting uit met meer gedetailleerde instructies en leiden we PS+ prompting af. We evalueren onze voorgestelde promptingstrategie op tien datasets verspreid over drie redeneerproblemen. De experimentele resultaten over GPT-3 tonen aan dat onze voorgestelde zero-shot prompting consistent beter presteert dan Zero-shot-CoT over alle datasets met een grote marge, vergelijkbaar is met of beter presteert dan Zero-shot-Program-of-Thought Prompting, en vergelijkbare prestaties levert met 8-shot CoT prompting bij het wiskundige redeneerprobleem. De code is te vinden op https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
Diffusiemodellen, die populair zijn geworden als tekst-naar-beeldgeneratiemodellen, kunnen hoogwaardige en inhoudsrijke afbeeldingen produceren die worden gestuurd door tekstuele prompts. Er zijn echter beperkingen in het semantisch begrip en het gezond-verstand-redeneren bij bestaande modellen wanneer de invoerprompts beknopte verhalen zijn, wat resulteert in afbeeldingen van lage kwaliteit. Om de capaciteiten voor verhalende prompts te verbeteren, stellen we een eenvoudige maar effectieve parameter-efficiënte fine-tuningbenadering voor, genaamd de Semantic Understanding and Reasoning adapter (SUR-adapter), voor vooraf getrainde diffusiemodellen. Om dit doel te bereiken, verzamelen en annoteren we eerst een nieuwe dataset, SURD, die bestaat uit meer dan 57.000 semantisch gecorrigeerde multimodale samples. Elk sample bevat een eenvoudige verhalende prompt, een complexe op trefwoorden gebaseerde prompt en een hoogwaardige afbeelding. Vervolgens stellen we de semantische representatie van verhalende prompts af op de complexe prompts en transfereren we kennis van grote taalmmodellen (LLMs) naar onze SUR-adapter via kennisdistillatie, zodat deze de krachtige semantische begrips- en redeneercapaciteiten kan verwerven om een hoogwaardige tekstuele semantische representatie te bouwen voor tekst-naar-beeldgeneratie. We voeren experimenten uit door meerdere LLMs en populaire vooraf getrainde diffusiemodellen te integreren om de effectiviteit van onze benadering aan te tonen in het mogelijk maken van diffusiemodellen om beknopte natuurlijke taal te begrijpen en te redeneren zonder kwaliteitsverlies van de afbeelding. Onze benadering kan tekst-naar-beeld diffusiemodellen gebruiksvriendelijker maken met een betere gebruikerservaring, wat aantoont dat onze benadering het potentieel heeft om de ontwikkeling van gebruiksvriendelijke tekst-naar-beeldgeneratiemodellen verder te bevorderen door de semantische kloof tussen eenvoudige verhalende prompts en complexe op trefwoorden gebaseerde prompts te overbruggen.
Prompt tuning is een van de succesvolle benaderingen voor parameter-efficiënte afstemming van vooraf getrainde taalmodelen. Hoewel het mogelijk de meest parameter-efficiënte methode is (afgestemde soft prompts vormen <0,1% van de totale parameters), presteert het doorgaans slechter dan andere efficiënte afstemmethoden en is het behoorlijk gevoelig voor hyperparameters. In dit werk introduceren we Residual Prompt Tuning - een eenvoudige en efficiënte methode die de prestaties en stabiliteit van prompt tuning aanzienlijk verbetert. We stellen voor om soft prompt embeddings te herparameteriseren met behulp van een ondiep netwerk met een restverbinding. Onze experimenten tonen aan dat Residual Prompt Tuning prompt tuning aanzienlijk overtreft op de SuperGLUE-benchmark. Opmerkelijk is dat onze methode een verbetering van +7 punten bereikt ten opzichte van prompt tuning met T5-Base en het mogelijk maakt om de promptlengte met 10x te verminderen zonder de prestaties te schaden. Daarnaast laten we zien dat onze aanpak robuust is voor de keuze van leerrate en promptinitialisatie, en effectief is in few-shot instellingen.
We presenteren een visie- en taalmodel genaamd MultiModal-GPT om meerronde dialogen met mensen te voeren. MultiModal-GPN kan verschillende instructies van mensen opvolgen, zoals het genereren van een gedetailleerde beschrijving, het tellen van het aantal interessante objecten en het beantwoorden van algemene vragen van gebruikers. MultiModal-GPT is parameter-efficiënt afgestemd vanuit OpenFlamingo, waarbij Low-rank Adapter (LoRA) zowel in het cross-attention deel als het self-attention deel van het taalmodel is toegevoegd. We construeren eerst instructiesjablonen met visie- en taalgegevens voor multi-modaliteit instructieafstemming om het model menselijke instructies te laten begrijpen en opvolgen. We ontdekken dat de kwaliteit van de trainingsgegevens cruciaal is voor de dialoogprestaties, waarbij weinig gegevens met korte antwoorden ertoe kunnen leiden dat het model kort reageert op elke instructie. Om het vermogen van MultiModal-GPT om met mensen te chatten verder te verbeteren, gebruiken we taal-enkel instructievolgende gegevens om MultiModal-GPT gezamenlijk te trainen. De gezamenlijke training van taal-enkel en visuele-taal instructies met hetzelfde instructiesjabloon verbetert de dialoogprestaties effectief. Diverse demo's tonen het vermogen van MultiModal-GPT om continue dialogen met mensen te voeren. Code en demo zijn te vinden op https://github.com/open-mmlab/Multimodal-GPT.
Grote Taalmodellen (LLMs) kunnen sterke prestaties leveren op veel taken door stapsgewijs redeneren te produceren voordat ze een definitieve uitvoer geven, vaak aangeduid als keten-van-gedachten-redeneren (CoT). Het is verleidelijk om deze CoT-verklaringen te interpreteren als het proces van het LLM om een taak op te lossen. Wij constateren echter dat CoT-verklaringen systematisch de werkelijke reden voor de voorspelling van een model kunnen misrepresenteren. We demonstreren dat CoT-verklaringen sterk beïnvloed kunnen worden door bevooroordeelde kenmerken toe te voegen aan modelinvoer — bijvoorbeeld door de meerkeuzeopties in een few-shot prompt te herschikken zodat het antwoord altijd "(A)" is — wat modellen systematisch niet vermelden in hun verklaringen. Wanneer we modellen beïnvloeden richting incorrecte antwoorden, genereren ze vaak CoT-verklaringen die die antwoorden ondersteunen. Dit zorgt ervoor dat de nauwkeurigheid met wel 36% daalt op een reeks van 13 taken uit BIG-Bench Hard, bij het testen met GPT-3.5 van OpenAI en Claude 1.0 van Anthropic. Op een taak rond sociale vooroordelen rechtvaardigen modelverklaringen het geven van antwoorden die in lijn zijn met stereotypen, zonder de invloed van deze sociale vooroordelen te vermelden. Onze bevindingen geven aan dat CoT-verklaringen plausibel maar misleidend kunnen zijn, wat het risico vergroot dat we meer vertrouwen krijgen in LLMs zonder hun veiligheid te garanderen. CoT is veelbelovend voor verklaarbaarheid, maar onze resultaten benadrukken de noodzaak van gerichte inspanningen om de trouw van verklaringen te evalueren en te verbeteren.
ELECTRA, het generator-discriminator pre-trainingsraamwerk, heeft indrukwekkende semantische constructiecapaciteit bereikt bij verschillende downstream taken. Ondanks de overtuigende prestaties, kampt ELECTRA nog steeds met uitdagingen zoals eentonige training en gebrekkige interactie. Een generator met alleen gemaskeerde taalmodellering (MLM) leidt tot bevooroordeeld leren en labelonbalans voor de discriminator, wat de leer efficiëntie vermindert; het ontbreken van een expliciete feedbacklus van discriminator naar generator resulteert in een kloof tussen deze twee componenten, waardoor het cursusleren onderbenut blijft. In deze studie wordt een multi-perspectief cursusleren (MCL) methode voorgesteld om een veelheid aan gradaties en gezichtspunten te bieden voor sample-efficiënte pre-training, en om de relatie tussen generator en discriminator volledig te benutten. Concreet worden drie zelfsupervisiecursussen ontworpen om inherente tekortkomingen van MLM te verlichten en de labelbalans op een multi-perspectieve manier te herstellen. Daarnaast worden twee zelfcorrectiecursussen voorgesteld om de kloof tussen de twee encoders te overbruggen door een "correctie notitieboek" te creëren voor secundaire supervisie. Bovendien wordt een cursussoepproef uitgevoerd om het "touwtrek"-dynamiekprobleem van MCL op te lossen, wat resulteert in een sterker pre-getraind model. Experimentele resultaten tonen aan dat onze methode de gemiddelde prestaties van ELECTRA significant verbetert met respectievelijk 2,8% en 3,2% absolute punten op de GLUE en SQuAD 2.0 benchmarks, en recente geavanceerde ELECTRA-stijl modellen overtreft onder dezelfde instellingen. Het pre-getrainde MCL-model is beschikbaar op https://huggingface.co/McmanusChen/MCL-base.
Bestaande Neural Radiance Fields (NeRF) methoden hebben moeite met het omgaan met reflecterende objecten, wat vaak resulteert in wazige of vervormde weergaven. In plaats van een enkel radianceveld te berekenen, stellen we een multi-space neural radiance field (MS-NeRF) voor dat de scène representeert met behulp van een groep kenmerkvelden in parallelle subruimtes, wat leidt tot een beter begrip van het neuraal netwerk ten aanzien van de aanwezigheid van reflecterende en brekende objecten. Ons multi-space schema fungeert als een verbetering van bestaande NeRF-methoden, waarbij slechts een kleine rekenkundige overhead nodig is voor het trainen en afleiden van de extra-ruimte-uitvoer. We demonstreren de superioriteit en compatibiliteit van onze aanpak met behulp van drie representatieve NeRF-gebaseerde modellen, namelijk NeRF, Mip-NeRF en Mip-NeRF 360. Vergelijkingen worden uitgevoerd op een nieuw geconstrueerde dataset bestaande uit 25 synthetische scènes en 7 echt vastgelegde scènes met complexe reflectie en breking, allemaal met 360-graden gezichtspunten. Uitgebreide experimenten tonen aan dat onze aanpak de bestaande single-space NeRF-methoden aanzienlijk overtreft bij het renderen van hoogwaardige scènes met complexe lichtpaden door spiegelachtige objecten. Onze code en dataset zullen publiekelijk beschikbaar zijn op https://zx-yin.github.io/msnerf.
We presenteren AvatarReX, een nieuwe methode voor het leren van NeRF-gebaseerde full-body avatars vanuit videodata. De geleerde avatar biedt niet alleen expressieve controle over het lichaam, de handen en het gezicht samen, maar ondersteunt ook real-time animatie en rendering. Hiertoe stellen we een compositorische avatarrepresentatie voor, waarbij het lichaam, de handen en het gezicht afzonderlijk worden gemodelleerd op een manier die het structurele voorafgaande van parametrische mesh-sjablonen optimaal benut zonder de representatieflexibiliteit aan te tasten. Bovendien ontwarren we de geometrie en het uiterlijk voor elk onderdeel. Met deze technische ontwerpen stellen we een speciaal uitgesteld renderingpijplijn voor, die in real-time framerate kan worden uitgevoerd om hoogwaardige free-view beelden te synthetiseren. Het ontwarren van geometrie en uiterlijk stelt ons ook in staat om een tweefasige trainingsstrategie te ontwerpen die volume rendering en oppervlakterendering combineert voor netwerktraining. Op deze manier kan patch-level supervisie worden toegepast om het netwerk te dwingen scherpe uiterlijke details te leren op basis van geometrie-estimatie. Over het algemeen maakt onze methode de automatische constructie van expressieve full-body avatars met real-time renderingmogelijkheden mogelijk, en kan het foto-realistische beelden genereren met dynamische details voor nieuwe lichaamsbewegingen en gezichtsuitdrukkingen.
Transformermodellen vormen de basis voor natuurlijke taalverwerking (NLP) en computervisie. Ondanks verschillende recente onderzoeken die gericht zijn op het verminderen van de kwadratische kosten van dergelijke modellen (als functie van de sequentielengte n), blijft het efficiënt omgaan met extreem lange sequenties (bijvoorbeeld met meer dan 16K tokens) een uitdaging. Toepassingen zoals het beantwoorden van vragen op basis van een heel boek of het samenvatten van een wetenschappelijk artikel zijn inefficiënt of onhaalbaar. In dit artikel stellen we voor om de afhankelijkheid van de complexiteit van een Transformermodel op n aanzienlijk te verminderen, door de invoer in elke laag te comprimeren tot een representatie waarvan de grootte r onafhankelijk is van n. Specifiek maken we gebruik van het feit dat bij veel taken slechts een kleine subset van speciale tokens (die we VIP-tokens noemen) het meest relevant is voor de uiteindelijke voorspelling. We stellen een VIP-token-gerichte compressie (Vcc) methode voor, die de invoersequentie selectief comprimeert op basis van hun impact op het benaderen van de representatie van deze VIP-tokens. Vergeleken met concurrerende baselines is het voorgestelde algoritme niet alleen efficiënt (het bereikt een efficiëntieverbetering van meer dan 3 keer vergeleken met baselines op 4K en 16K lengtes), maar behaalt het ook concurrerende of betere prestaties op een groot aantal taken. Bovendien laten we zien dat ons algoritme kan worden opgeschaald naar 128K tokens (of meer) terwijl het consistent nauwkeurigheidsverbetering biedt.