Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recent werk toont aan dat een model, na het finetunen op een hoogwaardige instructiedataset, indrukwekkende capaciteiten kan verkrijgen om een breed scala aan taken aan te pakken. Bestaande methoden voor het genereren van instructiedata produceren echter vaak dubbele data en zijn niet voldoende controleerbaar wat betreft de datakwaliteit. In dit artikel breiden we de generalisatie van instructietuning uit door de instructiedata te classificeren in 4 code-gerelateerde taken en stellen we een LLM-gebaseerd Generator-Discriminator dataverwerkingsframework voor om diverse, hoogwaardige instructiedata te genereren uit open source code. Hierbij introduceren we CodeOcean, een dataset bestaande uit 20.000 instructie-instanties over 4 universele code-gerelateerde taken, die gericht is op het vergroten van de effectiviteit van instructietuning en het verbeteren van de generalisatiecapaciteit van het gefinetunede model. Vervolgens presenteren we WaveCoder, een gefinetuned Code LLM met Widespread And Versatile Enhanced instructietuning. Dit model is specifiek ontworpen om de instructietuning van Code Language Models (LLMs) te verbeteren. Onze experimenten tonen aan dat Wavecoder-modellen andere open-source modellen overtreffen wat betreft generalisatievermogen over verschillende code-gerelateerde taken op hetzelfde niveau van finetuningschaal. Bovendien toont Wavecoder een hoge efficiëntie in eerdere codegeneratietaken. Dit artikel levert zo een belangrijke bijdrage aan het veld van instructiedatageneratie en finetunemodellen, en biedt nieuwe inzichten en tools voor het verbeteren van prestaties in code-gerelateerde taken.
De exponentiële groei van grote taalmodelen (LLMs) heeft talloze mogelijkheden geopend voor multi-modale AGI-systemen. Echter, de vooruitgang in visie- en visie-taal funderingsmodellen, die ook cruciale elementen zijn van multi-modale AGI, heeft niet gelijke tred gehouden met LLMs. In dit werk ontwerpen we een grootschalig visie-taal funderingsmodel (InternVL), dat het visie-funderingsmodel opschaalt naar 6 miljard parameters en het progressief afstemt op het grote taalmodel, waarbij gebruik wordt gemaakt van web-schaal beeld-tekst data uit verschillende bronnen. Dit model kan breed worden toegepast en behaalt state-of-the-art prestaties op visuele waarnemingstaken zoals beeldniveau- of pixel-niveau herkenning, visie-taal taken zoals zero-shot beeld/video classificatie, zero-shot beeld/video-tekst retrieval, en het koppelen met LLMs om multi-modale dialoogsystemen te creëren. We hopen dat ons onderzoek kan bijdragen aan de ontwikkeling van multi-modale grote modellen. Code en modellen zijn beschikbaar op https://github.com/OpenGVLab/InternVL.
Als mensen zijn we voortdurend betrokken bij interacties met onze medemensen en ontvangen we feedback in de vorm van natuurlijke taal. Deze taalfeedback stelt ons in staat om na te denken over onze acties, gepast gedrag te behouden en onze fouten te corrigeren. De vraag rijst vanzelf: kunnen we taalfeedback gebruiken om grote taalmmodellen (LLM's) af te stemmen? In tegenstelling tot eerder onderzoek dat LLM's afstemt met belonings- of voorkeursdata, presenteren wij de eerste systematische verkenning van afstemming vanuit het perspectief van taalfeedback (d.w.z. beoordeling). We beginnen met een diepgaand onderzoek naar mogelijke methoden die kunnen worden aangepast voor het afstemmen van LLM's met beoordelingen, waaruit blijkt dat deze methoden niet volledig gebruik kunnen maken van de beoordelingen. Om een effectiever gebruik van beoordelingen mogelijk te maken, stellen we een nieuw raamwerk voor, Contrastive Unlikelihood Training (CUT), dat fijnmazige detectie en correctie van ongepaste inhoud op basis van beoordelingen mogelijk maakt. Onze offline afstemmingsresultaten tonen aan dat, met slechts 1317 kant-en-klare beoordelingsdata, CUT (LLaMA2-13b) de 175B DaVinci003 kan verslaan en de beste baseline met 52,34 punten overtreft op AlpacaEval. De online afstemmingsresultaten laten zien dat CUT LLM's (LLaMA2-chat-13b) op iteratieve wijze kan afstemmen met modelspecifieke beoordelingsdata, met een gestage prestatieverbetering van 81,09 naar 91,36 punten op AlpacaEval. Onze analyse suggereert verder dat beoordelingen een groter potentieel hebben dan beloningen voor de afstemming van LLM's en toekomstig onderzoek rechtvaardigen.
Mensen beschikken over de opmerkelijke vaardigheid van Visuele Waarneming, het vermogen om te zien en het geziene te begrijpen, wat hen helpt de visuele wereld te interpreteren en vervolgens te redeneren. Multimodale Large Language Models (MLLM) hebben recent indrukwekkende prestaties geleverd op visueel-taalkundige taken, variërend van visuele vraag-antwoordtaken en beeldbeschrijving tot visueel redeneren en beeldgeneratie. Wanneer ze echter worden gevraagd om entiteiten in een gegeven afbeelding te identificeren of te tellen (waarnemen), falen bestaande MLLM-systemen. Om te werken aan de ontwikkeling van een nauwkeurig MLLM-systeem voor waarneming en redenering, stellen we voor om Versatile Vision Encoders (VCoder) te gebruiken als waarnemingsogen voor Multimodale LLMs. We voeden de VCoder met waarnemingsmodaliteiten zoals segmentatie- of dieptekaarten, waardoor de waarnemingsvaardigheden van de MLLM worden verbeterd. Ten tweede maken we gebruik van afbeeldingen uit COCO en uitvoer van kant-en-klare visuele waarnemingsmodellen om ons COCO Segmentation Text (COST) dataset te creëren voor het trainen en evalueren van MLLMs op de taak van objectwaarneming. Ten derde introduceren we metrieken om de objectwaarnemingsvaardigheden van MLLMs op ons COST-dataset te beoordelen. Tot slot leveren we uitgebreid experimenteel bewijs dat aantoont dat de VCoder verbeterde objectniveau-waarnemingsvaardigheden heeft ten opzichte van bestaande Multimodale LLMs, inclusief GPT-4V. We maken onze dataset, code en modellen openbaar om onderzoek te bevorderen. We openbaren onze code op https://github.com/SHI-Labs/VCoder.
Een belangrijke methode voor het creëren van kunstmatige intelligentie (AI)-agenten is Reinforcement Learning (RL). Het construeren van een op zichzelf staand RL-beleid dat perceptie direct naar actie vertaalt, stuit echter op ernstige problemen, waaronder het gebrek aan generaliseerbaarheid over meerdere taken en de behoefte aan een grote hoeveelheid trainingsdata. De belangrijkste oorzaak hiervan is dat het niet effectief prior knowledge kan integreren in de perceptie-actiecyclus bij het ontwerpen van het beleid. Grote taalmodelen (LLMs) zijn naar voren gekomen als een fundamentele manier om domeinoverschrijdende kennis in AI-agenten te integreren, maar missen cruciaal leren en aanpassingsvermogen voor specifieke beslissingsproblemen. Dit artikel presenteert een algemeen kadermodel voor het integreren en leren van gestructureerd redeneren in het beleid van AI-agenten. Onze methodologie is geïnspireerd door de modulariteit van het menselijk brein. Het kader maakt gebruik van de constructie van intrinsieke en extrinsieke functies om eerder begrip van redeneerstructuren toe te voegen. Het biedt ook het adaptieve vermogen om modellen binnen elke module of functie te leren, in overeenstemming met de modulaire structuur van cognitieve processen. We beschrijven het kader in detail en vergelijken het met andere AI-pipelines en bestaande frameworks. Het artikel onderzoekt praktische toepassingen, met experimenten die de effectiviteit van onze methode aantonen. Onze resultaten geven aan dat AI-agenten veel beter presteren en zich aanpassen wanneer gestructureerd redeneren en voorkennis zijn ingebed. Dit opent de deur naar veerkrachtigere en meer algemene AI-agentsystemen.
Als de nieuwste ontwikkelingen in natuurlijke taalverwerking hebben grote taalmodelen (LLM's) menselijk niveau van taalbegrip en -generatie bereikt in veel real-world taken, en worden zelfs beschouwd als een mogelijke weg naar kunstmatige algemene intelligentie. Om onderzoek naar LLM's beter te faciliteren, zijn recentelijk veel open-source LLM's, zoals Llama 2 en Falcon, voorgesteld en hebben ze vergelijkbare prestaties behaald als propriëtaire modellen. Deze modellen zijn echter voornamelijk ontworpen voor Engelstalige scenario's en vertonen slechte prestaties in Chinese contexten. In dit technische rapport stellen we YAYI 2 voor, inclusief zowel basis- als chatmodellen, met 30 miljard parameters. YAYI 2 is vanaf nul getraind op een meertalig corpus dat 2,65 biljoen tokens bevat, gefilterd door onze pijplijn voor het verwerken van trainingsdata. Het basismodel is afgestemd op menselijke waarden door middel van supervised fine-tuning met miljoenen instructies en reinforcement learning op basis van menselijke feedback. Uitgebreide experimenten op meerdere benchmarks, zoals MMLU en CMMLU, tonen consistent aan dat het voorgestelde YAYI 2 beter presteert dan andere open-source modellen van vergelijkbare grootte.
Taalmodelaanvallen gaan doorgaans uit van een van twee extreme dreigingsmodellen: volledige white-box toegang tot modelgewichten, of black-box toegang beperkt tot een tekstgeneratie-API. Echter, API's in de praktijk zijn vaak flexibeler dan alleen tekstgeneratie: deze API's bieden ``gray-box'' toegang wat leidt tot nieuwe aanvalsvectoren. Om dit te onderzoeken, hebben we drie nieuwe functionaliteiten in de GPT-4 API's getest: fine-tuning, functie-aanroepen en kennisophaling. We ontdekten dat het finetunen van een model met slechts 15 schadelijke voorbeelden of 100 onschadelijke voorbeelden de kernbeveiligingen van GPT-4 kan uitschakelen, waardoor een reeks schadelijke uitvoer mogelijk wordt. Bovendien ontdekten we dat GPT-4 Assistants gemakkelijk het functie-aanroepschema prijsgeven en kunnen worden gemanipuleerd om willekeurige functie-aanroepen uit te voeren. Tot slot vonden we dat kennisophaling kan worden gekaapt door instructies in ophaaldocumenten te injecteren. Deze kwetsbaarheden benadrukken dat elke uitbreiding van de functionaliteit die door een API wordt blootgesteld, nieuwe kwetsbaarheden kan creëren.
De popularisering van Text-to-Image (T2I) diffusiemodellen maakt het mogelijk om hoogwaardige afbeeldingen te genereren op basis van tekstbeschrijvingen. Het genereren van diverse, gepersonaliseerde afbeeldingen met referentie-visuele attributen blijft echter een uitdaging. Dit werk richt zich op het personaliseren van T2I diffusiemodellen op een abstracter concept- of categorieniveau, waarbij gemeenschappelijke kenmerken van een set referentieafbeeldingen worden aangepast terwijl nieuwe instanties met voldoende variaties worden gecreëerd. We introduceren een oplossing die een vooraf getraind T2I diffusiemodel in staat stelt om een set zachte prompts te leren, waardoor het mogelijk wordt om nieuwe afbeeldingen te genereren door prompts te bemonsteren uit de geleerde distributie. Deze prompts bieden tekstgestuurde bewerkingsmogelijkheden en extra flexibiliteit bij het beheersen van variatie en het mengen van meerdere distributies. We tonen ook de aanpasbaarheid van de geleerde promptdistributie aan andere taken, zoals text-to-3D. Tot slot demonstreren we de effectiviteit van onze aanpak door middel van kwantitatieve analyse, inclusief automatische evaluatie en menselijke beoordeling. Projectwebsite: https://briannlongzhao.github.io/DreamDistribution
3D-reconstructie vanuit een enkel gezichtspunt is uitdagend vanwege de ambiguïteit van monoculaire aanwijzingen en het gebrek aan informatie over verborgen gebieden. Neural radiance fields (NeRF), hoewel populair voor viewsynthese en 3D-reconstructie, zijn doorgaans afhankelijk van multi-view beelden. Bestaande methoden voor single-view 3D- reconstructie met NeRF vertrouwen op ofwel datapriors om zichten van verborgen gebieden te hallucineren, wat mogelijk niet fysiek accuraat is, ofwel schaduwen waargenomen door RGB-camera's, die moeilijk te detecteren zijn in omgevingslicht en achtergronden met lage albedo. Wij stellen voor om time-of-flight data, vastgelegd door een single-photon avalanche diode, te gebruiken om deze beperkingen te overwinnen. Onze methode modelleert tweewegs optische paden met NeRF, waarbij lidar-transiënte data wordt gebruikt voor supervisie. Door de voordelen van zowel NeRF als tweewegs licht gemeten door lidar te benutten, laten we zien dat we zichtbare en verborgen geometrie kunnen reconstrueren zonder datapriors of afhankelijkheid van gecontroleerd omgevingslicht of scène-albedo. Daarnaast demonstreren we verbeterde generalisatie onder praktische beperkingen op sensorische ruimtelijke en temporele resolutie. Wij geloven dat onze methode een veelbelovende richting is naarmate single-photon lidars alomtegenwoordig worden op consumentenapparaten, zoals telefoons, tablets en headsets.
Ondanks dat CLIP het basismodel is in talloze visie-taaltoepassingen, lijdt CLIP aan een ernstige vooringenomenheid ten opzichte van tekstherkenning. Deze vooringenomenheid zorgt ervoor dat CLIP-modellen de visuele tekst in afbeeldingen 'napraten' terwijl ze de authentieke visuele semantiek negeren. Wij ontdekken dat in de meest populaire afbeelding-tekstdataset, LAION-2B, de bijschriften ook dicht de tekst in afbeeldingen napraten (spellen). Onze analyse toont aan dat ongeveer 50\% van de afbeeldingen visuele tekstinhoud bevatten, en dat 90\% van hun bijschriften min of meer de visuele tekst napraten. Op basis van deze observatie onderzoeken we grondig de verschillende vrijgegeven versies van CLIP-modellen en bevestigen we dat de visuele tekst de dominante factor is bij het meten van de LAION-stijl afbeelding-tekstovereenkomst voor deze modellen. Om te onderzoeken of deze napratende bijschorten de vooringenomenheid in tekstherkenning vormen, trainen we een reeks CLIP-modellen met LAION-subsetten die zijn samengesteld volgens verschillende criteria gericht op napratende bijschriften. We tonen aan dat trainen met napratende bijschriften gemakkelijk zo'n vooringenomenheid vormt, maar het beoogde visie-taalrepresentatie leren in CLIP-modellen schaadt. Dit suggereert dat het dringend nodig is om ofwel het ontwerp van CLIP-achtige modellen ofwel de bestaande afbeelding-tekstdatasetcuratiepijplijn die is gebouwd op CLIP-scorefiltering te heroverwegen.
We bestuderen het probleem van 3D-vormreconstructie met één afbeelding zonder voorafgaande training (zero-shot). Recente werken leren zero-shot vormreconstructie door middel van generatieve modellering van 3D-assets, maar deze modellen zijn rekenkundig duur tijdens zowel de training als de inferentie. Daarentegen is de traditionele aanpak van dit probleem gebaseerd op regressie, waarbij deterministische modellen worden getraind om de objectvorm direct te regresseren. Dergelijke regressiemethoden zijn veel rekenkundig efficiënter dan generatieve methoden. Dit roept een natuurlijke vraag op: is generatieve modellering noodzakelijk voor hoge prestaties, of zijn regressiegebaseerde benaderingen nog steeds concurrerend? Om dit te beantwoorden, ontwerpen we een sterk regressiegebaseerd model, genaamd ZeroShape, gebaseerd op convergerende bevindingen in dit veld en een nieuw inzicht. We stellen ook een grote evaluatiebenchmark samen met objecten uit drie verschillende real-world 3D-datasets. Deze evaluatiebenchmark is diverser en een orde van grootte groter dan wat eerdere werken gebruiken om hun modellen kwantitatief te evalueren, met als doel de evaluatievariantie in ons veld te verminderen. We tonen aan dat ZeroShape niet alleen superieure prestaties behaalt ten opzichte van state-of-the-art methoden, maar ook aanzienlijk hogere rekenkundige en data-efficiëntie demonstreert.
Afkortingen uitbreiden is een strategie die wordt gebruikt om communicatie te versnellen door de hoeveelheid typwerk te beperken en een taalmodel te gebruiken om suggesties voor uitbreidingen te geven. Hier onderzoeken we het personaliseren van suggesties van een groot taalmodel (LLM) op basis van eerdere gesprekken om de relevantie van voorspellingen te vergroten, vooral wanneer de gebruikersdata beperkt is (~1000 voorbeelden). Specifiek vergelijken we fine-tuning, prompt-tuning en retrieval-augmented generation van uitgebreide tekstsuggesties voor afgekorte invoer. Onze casestudy met een geïmplementeerd LLM van 8B parameters bij een echte gebruiker met ALS, en experimenten met personalisatie van filmpersonages, laten zien dat (1) aanpassing in sommige scenario's noodzakelijk kan zijn en prompt-tuning hier goed op generaliseert, (2) fine-tuning op domeinspecifieke data (met slechts 600 voorbeelden) nog steeds enige verbetering laat zien, maar (3) retrieval-augmented few-shot selectie ook beter presteert dan fine-tuning. (4) Parameter-efficiënte tuning maakt efficiënte en schaalbare personalisatie mogelijk. Voor prompt-tuning vinden we ook dat het initialiseren van de geleerde "soft-prompts" met gebruikersrelevante concepttokens tot een hogere nauwkeurigheid leidt dan willekeurige initialisatie.
Naarmate de ontwikkeling van grootschalige generatieve AI-modellen zich uitbreidt voorbij tekstgeneratie (1D) naar het omvatten van beeld- (2D) en videogeneratie (3D), brengt de verwerking van ruimtelijke en temporele informatie unieke uitdagingen met zich mee op het gebied van kwaliteit, prestaties en efficiëntie. Wij presenteren het eerste werk dat gericht is op het begrijpen van deze nieuwe systeemontwerpruimte voor multimodale tekst-naar-beeld (TTI) en tekst-naar-video (TTV) generatiemodellen. Huidige modelarchitectuurontwerpen zijn verdeeld in twee categorieën: op diffusie gebaseerde en op transformers gebaseerde modellen. Onze systematische prestatiekarakterisering van een reeks van acht representatieve TTI/TTV-modellen toont aan dat, na toepassing van state-of-the-art optimalisatietechnieken zoals Flash Attention, convolutie tot 44% van de uitvoeringstijd in beslag neemt voor op diffusie gebaseerde TTI-modellen, terwijl lineaire lagen tot 49% van de uitvoeringstijd verbruiken voor op transformers gebaseerde modellen. Daarnaast observeren we dat op diffusie gebaseerde TTI-modellen lijken op de Prefill-fase van LLM-inferentie, en profiteren van een 1,1-2,5x grotere snelheidswinst door Flash Attention dan op transformers gebaseerde TTI-modellen die lijken op de Decode-fase. Omdat optimalisaties die zijn ontworpen voor LLM's niet direct van toepassing zijn op TTI/TTV-modellen, moeten we een grondige karakterisering van deze workloads uitvoeren om inzichten te verkrijgen voor nieuwe optimalisatiemogelijkheden. Hierbij definiëren we sequentielengte in de context van TTI/TTV-modellen en observeren we dat de sequentielengte tot 4x kan variëren tijdens diffusiemodelinferentie. Daarnaast observeren we dat temporele aspecten van TTV-workloads unieke systeemknelpunten vormen, waarbij temporele aandacht meer dan 60% van de totale aandachtstijd in beslag neemt. Over het algemeen is onze diepgaande systeemprestatiekarakterisering een cruciale eerste stap naar het ontwerpen van efficiënte en inzetbare systemen voor opkomende TTI/TTV-workloads.
De fysieke eigenschappen van een object, zoals massa, hebben een aanzienlijke invloed op hoe we het met onze handen manipuleren. Verrassend genoeg is dit aspect tot nu toe verwaarloosd in eerder onderzoek naar 3D-bewegingssynthese. Om de natuurlijkheid van de gesynthetiseerde 3D hand-objectbewegingen te verbeteren, stelt dit werk MACS voor, de eerste MAss Conditioned 3D hand- en objectbewegingssynthesebenadering. Onze aanpak is gebaseerd op gecascadeerde diffusiemodellen en genereert interacties die plausibel aanpassen op basis van de objectmassa en het interactietype. MACS accepteert ook een handmatig getekende 3D-objecttrajectorie als invoer en synthetiseert de natuurlijke 3D-handbewegingen die worden bepaald door de objectmassa. Deze flexibiliteit maakt het mogelijk om MACS te gebruiken voor verschillende downstream-toepassingen, zoals het genereren van synthetische trainingsdata voor ML-taken, snelle animatie van handen voor grafische workflows en het genereren van karakterinteracties voor computerspellen. We tonen experimenteel aan dat een kleinschalige dataset voldoende is voor MACS om redelijk te generaliseren over geïnterpoleerde en geëxtrapoleerde objectmassa's die niet tijdens de training zijn gezien. Bovendien toont MACS een matige generalisatie naar onbekende objecten, dankzij de massa-geconditioneerde contactlabels die worden gegenereerd door ons oppervlaktecontact-synthesemodel ConNet. Onze uitgebreide gebruikersstudie bevestigt dat de gesynthetiseerde 3D hand-objectinteracties zeer plausibel en realistisch zijn.
Dit artikel introduceert "Shai", een groot taalmodel op het niveau van 10B, specifiek ontworpen voor de vermogensbeheersector, gebouwd op een open-source basis model. Door continue voorafgaande training en fine-tuning met een gericht corpus, toont Shai verbeterde prestaties in taken die relevant zijn voor zijn domein, waarbij het baseline modellen overtreft. Ons onderzoek omvat de ontwikkeling van een innovatief evaluatiekader, dat professionele kwalificatie-examens, op maat gemaakte taken, open-einde vraagbeantwoording en veiligheidsbeoordelingen integreert, om de capaciteiten van Shai uitgebreid te beoordelen. Verder bespreken we de uitdagingen en implicaties van het gebruik van grote taalmodellen zoals GPT-4 voor prestatiebeoordeling in vermogensbeheer, waarbij we een combinatie van geautomatiseerde evaluatie en menselijk oordeel voorstellen. De ontwikkeling van Shai, die het potentieel en de veelzijdigheid van grote taalmodellen op het niveau van 10B in de financiële sector toont met aanzienlijke prestaties en bescheiden rekenvereisten, hoopt praktische inzichten en methodologieën te bieden om branchegenoten te ondersteunen bij hun soortgelijke inspanningen.
Onlangs hebben onderzoekers geprobeerd de mogelijkheden van LLM's (Large Language Models) bij het verwerken van video's te onderzoeken en hebben ze verschillende video-LLM-modellen voorgesteld. Het vermogen van LLM's om video grounding (VG) aan te kunnen, een belangrijke tijdgerelateerde videotaak waarbij het model de begin- en eindtijdsstempels van temporele momenten in video's die overeenkomen met gegeven tekstuele queries nauwkeurig moet lokaliseren, blijft echter nog onduidelijk en onontgonnen in de literatuur. Om deze leemte op te vullen, stellen we in dit artikel de LLM4VG-benchmark voor, die systematisch de prestaties van verschillende LLM's op video grounding-taken evalueert. Op basis van onze voorgestelde LLM4VG ontwerpen we uitgebreide experimenten om twee groepen video-LLM-modellen te onderzoeken op video grounding: (i) de video-LLM's getraind op tekst-video-paren (aangeduid als VidLLM), en (ii) de LLM's gecombineerd met vooraf getrainde visuele beschrijvingsmodellen, zoals het video/beeld-beschrijvingsmodel. We stellen promptmethoden voor om de instructie van VG en beschrijvingen van verschillende soorten generatoren te integreren, waaronder caption-gebaseerde generatoren voor directe visuele beschrijving en VQA-gebaseerde generatoren voor informatieversterking. We bieden ook uitgebreide vergelijkingen van verschillende VidLLM's en onderzoeken de invloed van verschillende keuzes van visuele modellen, LLM's, promptontwerpen, enzovoort. Onze experimentele evaluaties leiden tot twee conclusies: (i) de bestaande VidLLM's zijn nog ver verwijderd van het bereiken van bevredigende prestaties op het gebied van video grounding, en meer tijdgerelateerde videotaken moeten worden opgenomen om deze modellen verder te finetunen, en (ii) de combinatie van LLM's en visuele modellen toont eerste vermogens voor video grounding met aanzienlijk potentieel voor verbetering door gebruik te maken van betrouwbaardere modellen en verdere begeleiding van promptinstructies.