Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het toevoegen van objecten aan afbeeldingen op basis van tekstinstructies is een uitdagende taak in semantische beeldbewerking, waarbij een balans nodig is tussen het behouden van de oorspronkelijke scène en het naadloos integreren van het nieuwe object op een passende locatie. Ondanks uitgebreide inspanningen hebben bestaande modellen vaak moeite met deze balans, vooral met het vinden van een natuurlijke locatie voor het toevoegen van een object in complexe scènes. We introduceren Add-it, een aanpak zonder training die de aandachtsmechanismen van diffusiemodellen uitbreidt om informatie van drie belangrijke bronnen op te nemen: de scèneafbeelding, de tekstprompt en de gegenereerde afbeelding zelf. Ons gewogen uitgebreide-aandachtsmechanisme handhaaft structurele consistentie en fijne details terwijl het zorgt voor een natuurlijke plaatsing van objecten. Zonder specifieke fijnafstemming voor taken behaalt Add-it state-of-the-art resultaten op zowel echte als gegenereerde afbeeldingsinvoegingsbenchmarks, inclusief onze nieuw ontwikkelde "Toevoegingsaffiniteitsbenchmark" voor het evalueren van de geloofwaardigheid van objectplaatsing, waarbij het toezicht houdende methoden overtreft. Menselijke evaluaties tonen aan dat Add-it in meer dan 80% van de gevallen de voorkeur geniet, en het laat ook verbeteringen zien in verschillende geautomatiseerde metingen.
Instructiegestuurde methoden voor beeldbewerking hebben aanzienlijk potentieel aangetoond door diffusiemodellen te trainen op automatisch gesynthetiseerde of handmatig geannoteerde beeldbewerkingsparen. Deze methoden blijven echter ver verwijderd van praktische, real-life toepassingen. We identificeren drie belangrijke uitdagingen die bijdragen aan deze kloof. Ten eerste hebben bestaande modellen beperkte bewerkingsvaardigheden als gevolg van het bevooroordeelde synthese proces. Ten tweede worden deze methoden getraind met datasets met een hoog volume aan ruis en artefacten. Dit komt door het gebruik van eenvoudige filtermethoden zoals CLIP-score. Ten derde zijn al deze datasets beperkt tot een enkele lage resolutie en vast aspect ratio, wat de veelzijdigheid beperkt om real-world use cases aan te pakken. In dit artikel presenteren we \omniedit, dat een alomtegenwoordige editor is om zeven verschillende beeldbewerkingstaken naadloos aan te pakken. Onze bijdrage bestaat uit vier aspecten: (1) \omniedit wordt getraind door toezicht te gebruiken van zeven verschillende specialistische modellen om taakdekking te garanderen. (2) we maken gebruik van importance sampling gebaseerd op de scores die worden geleverd door grote multimodale modellen (zoals GPT-4o) in plaats van CLIP-score om de kwaliteit van de gegevens te verbeteren. (3) we stellen een nieuwe bewerkingsarchitectuur voor genaamd EditNet om het succespercentage van de bewerking aanzienlijk te verhogen, (4) we leveren afbeeldingen met verschillende aspect ratio's om ervoor te zorgen dat ons model elk willekeurig beeld kan verwerken. We hebben een testset samengesteld met afbeeldingen van verschillende aspect ratio's, vergezeld van diverse instructies om verschillende taken te bestrijken. Zowel automatische evaluaties als menselijke evaluaties tonen aan dat \omniedit aanzienlijk beter presteert dan alle bestaande modellen. Onze code, dataset en model zullen beschikbaar zijn op https://tiger-ai-lab.github.io/OmniEdit/
De mogelijkheid om vragen over documenten te begrijpen en te beantwoorden kan nuttig zijn in veel zakelijke en praktische toepassingen. Documenten bevatten echter vaak uitgebreide en diverse multimodale inhoud zoals tekst, figuren en tabellen, die zeer tijdrovend zijn voor mensen om grondig te lezen. Daarom is er een dringende behoefte om effectieve en geautomatiseerde methoden te ontwikkelen om mensen te helpen bij deze taak. In dit werk introduceren we M-LongDoc, een benchmark van 851 voorbeelden, en een geautomatiseerd kader om de prestaties van grote multimodale modellen te evalueren. We stellen verder een opvraagbewuste afstemmingsaanpak voor voor efficiënt en effectief multimodaal documentlezen. In vergelijking met bestaande werken bestaat onze benchmark uit recentere en langere documenten met honderden pagina's, waarbij ook open-end oplossingen vereist zijn en niet alleen extractieve antwoorden. Voor zover wij weten, is ons trainingskader de eerste die rechtstreeks de opvraaginstelling voor multimodale lange documenten aanpakt. Om afstemming van open-source modellen mogelijk te maken, construeren we op volledig automatische wijze een trainingscorpus voor de vraag-antwoordtaak over dergelijke documenten. Experimenten tonen aan dat onze afstemmingsaanpak een relatieve verbetering van 4,6% behaalt voor de juistheid van modelreacties, in vergelijking met de basis open-source modellen. Onze gegevens, code en modellen zijn beschikbaar op https://multimodal-documents.github.io.
Nieuwe LLM-evaluatiecriteria zijn belangrijk om aan te sluiten bij de snelle ontwikkeling van Grote Taalmodellen (LLMs). In dit werk presenteren we Chinese SimpleQA, het eerste uitgebreide Chinese evaluatiecriterium om de feitelijke vaardigheid van taalmodellen te beoordelen om korte vragen te beantwoorden, en Chinese SimpleQA heeft voornamelijk vijf eigenschappen (d.w.z. Chinees, Divers, Hoogwaardig, Statisch, Gemakkelijk te evalueren). Specifiek richten we ons eerst op de Chinese taal over 6 belangrijke onderwerpen met 99 diverse subonderwerpen. Ten tweede voeren we een uitgebreid kwaliteitscontroleproces uit om hoogwaardige vragen en antwoorden te verkrijgen, waarbij de referentieantwoorden statisch zijn en in de loop van de tijd niet kunnen worden gewijzigd. Ten derde, in navolging van SimpleQA, zijn de vragen en antwoorden zeer kort, en het beoordelingsproces is gemakkelijk te evalueren op basis van de OpenAI API. Op basis van Chinese SimpleQA voeren we een uitgebreide evaluatie uit van de feitelijke vaardigheden van bestaande LLMs. Tot slot hopen we dat Chinese SimpleQA de ontwikkelaars kan begeleiden om een beter begrip te krijgen van de Chinese feitelijke vaardigheden van hun modellen en de groei van basismodellen kan bevorderen.
We introduceren Edify Image, een familie van diffusiemodellen die in staat zijn om fotorealistische beeldinhoud met pixel-perfecte nauwkeurigheid te genereren. Edify Image maakt gebruik van opeenvolgende diffusiemodellen in pixelruimte die zijn getraind met behulp van een nieuw Laplacian diffusieproces, waarbij beeldsignalen op verschillende frequentiebanden met variërende snelheden worden verzwakt. Edify Image ondersteunt een breed scala aan toepassingen, waaronder tekst-naar-beeld synthese, 4K upscaling, ControlNets, 360 HDR panorama generatie en finetuning voor beeldaanpassing.
In het domein van grote taalmodellen (LLM's) is het vermogen van modellen om nauwkeurig instructies op te volgen van cruciaal belang, aangezien steeds meer agenten en toepassingen LLM's gebruiken voor constructie, waarbij de complexiteit van instructies snel toeneemt. Aan de ene kant is er echter slechts een bepaalde hoeveelheid complexe instructie-evaluatiedata beschikbaar; aan de andere kant zijn er geen speciale algoritmes om het vermogen om complexe instructies op te volgen te verbeteren. Daarom introduceert dit artikel TRACE, een benchmark voor het verbeteren en evalueren van het vermogen om complexe instructies op te volgen, die bestaat uit 120K trainingsdata en 1K evaluatiedata. Bovendien stellen we de IOPO (Input-Output Preference Optimization) aligneringsmethode voor, die zowel input- als outputvoorkeursparen in overweging neemt, waarbij LLM's niet alleen snel in lijn zijn met reactievoorkeuren, maar ook zorgvuldig instructievoorkeuren verkennen. Uitgebreide experimenten op zowel in-domein als out-of-domain datasets bevestigen de effectiviteit van IOPO, met respectievelijk 8,15%, 2,18% verbeteringen op in-domeindata en 6,29%, 3,13% op out-of-domain data in vergelijking met SFT en DPO.
De snelle evolutie van softwarebibliotheken vormt een aanzienlijke uitdaging voor codegeneratiemodellen, die zich moeten aanpassen aan frequente versie-updates terwijl ze compatibiliteit met eerdere versies behouden. Bestaande codevervolledigingsbenchmarks zien vaak dit dynamische aspect over het hoofd, en degene die dit wel overweegt, vertrouwt op statische codevoorspellingstaken zonder evaluatie op basis van uitvoering, waardoor een beperkt perspectief wordt geboden op de praktische bruikbaarheid van een model. Om deze lacune aan te pakken, introduceren we \GitChameleon{}, een nieuw, handmatig samengesteld dataset bestaande uit 116 Python-codevervolledigingsproblemen, elk afhankelijk van specifieke bibliotheekversies en vergezeld van uitvoerbare unit tests. \GitChameleon{} is ontworpen om de mogelijkheid van moderne grote taalmodellen (LLM's) om versie-specifieke code te genereren die niet alleen syntactisch correct is, maar ook functioneel accuraat bij uitvoering, grondig te beoordelen. Onze uitgebreide evaluaties tonen aan dat toonaangevende LLM's moeite hebben met deze taak; zo behaalt GPT-4o slechts een pass@10 van 39,9\% (43,7\% wanneer voorzien van foutfeedback), waaruit de complexiteit van het probleem en de beperkingen van de huidige modellen blijken. Door een op uitvoering gebaseerde benchmark te bieden die de dynamische aard van codebibliotheken benadrukt, dient \GitChameleon{} als een kritisch instrument om de ontwikkeling van meer aanpasbare en betrouwbare codegeneratiemodellen te bevorderen. Voor verdere verkenning van versie-afhankelijke codegeneratie stellen we onze code-repository openbaar beschikbaar op https://github.com/NizarIslah/GitChameleon.
Beeldwatermerkmethoden zijn niet afgestemd op het verwerken van kleine watermerkgebieden. Dit beperkt de toepassingen in realistische scenario's waar delen van de afbeelding afkomstig kunnen zijn van verschillende bronnen of bewerkt kunnen zijn. We introduceren een diep-leermodel voor gelokaliseerd beeldwatermerken, genaamd het Watermerk Alles Model (WAM). De WAM-invoeger wijzigt onopgemerkt de invoerafbeelding, terwijl de extractor de ontvangen afbeelding opdeelt in watergemerkte en niet-watergemerkte gebieden en één of meerdere verborgen berichten herstelt uit de als watergemerkt geïdentificeerde gebieden. De modellen worden gezamenlijk getraind op lage resolutie en zonder waarnemingsbeperkingen, waarna ze worden bijgeschoold voor onopmerkbaarheid en meerdere watermerken. Experimenten tonen aan dat WAM concurrerend is met state-of-the-art methoden wat betreft onopmerkbaarheid en robuustheid, vooral tegen inpainting en splicing, zelfs bij hoge-resolutieafbeeldingen. Bovendien biedt het nieuwe mogelijkheden: WAM kan watergemerkte gebieden lokaliseren in gesplitste afbeeldingen en onderscheidende 32-bits berichten extraheren met minder dan 1 bit fout uit meerdere kleine regio's - niet groter dan 10% van het oppervlak van de afbeelding - zelfs voor kleine 256x256 afbeeldingen.
Autoregressieve modellering is een enorm succes geweest in het vakgebied van natuurlijke taalverwerking (NLP). Onlangs zijn autoregressieve modellen naar voren gekomen als een significant aandachtsgebied in de computervisie, waar ze uitblinken in het produceren van hoogwaardige visuele inhoud. Autoregressieve modellen in NLP werken doorgaans met subwoordtokens. De representatiestrategie in de computervisie kan echter variëren op verschillende niveaus, namelijk pixelniveau, tokenniveau of schaalniveau, wat de diverse en hiërarchische aard van visuele gegevens weerspiegelt in vergelijking met de sequentiële structuur van taal. Deze survey onderzoekt uitgebreid de literatuur over autoregressieve modellen toegepast op visie. Om de leesbaarheid te verbeteren voor onderzoekers uit diverse onderzoeksdomeinen, beginnen we met de voorlopige sequentierepresentatie en modellering in visie. Vervolgens verdelen we de fundamentele kaders van visuele autoregressieve modellen in drie algemene subcategorieën, waaronder op pixels gebaseerde, op tokens gebaseerde en op schaal gebaseerde modellen op basis van de representatiestrategie. We verkennen ook de onderlinge verbanden tussen autoregressieve modellen en andere generatieve modellen. Verder presenteren we een veelzijdige categorisatie van autoregressieve modellen in de computervisie, waaronder beeldgeneratie, videogeneratie, 3D-generatie en multimodale generatie. We gaan ook dieper in op hun toepassingen in diverse domeinen, waaronder opkomende domeinen zoals embodied AI en 3D medische AI, met ongeveer 250 gerelateerde referenties. Tot slot benadrukken we de huidige uitdagingen voor autoregressieve modellen in visie met suggesties voor mogelijke onderzoeksrichtingen. We hebben ook een Github-repository opgezet om de papers die in deze survey zijn opgenomen te organiseren op: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
Deze paper onderzoekt de rationaliteit van grote taalmodellen (LLMs) in strategische besluitvormingscontexten, specifiek binnen het kader van speltheorie. We evalueren verschillende toonaangevende LLMs over een spectrum van spellen met volledige informatie en onvolledige informatie. Onze bevindingen tonen aan dat LLMs vaak afwijken van rationele strategieën, vooral wanneer de complexiteit van het spel toeneemt met grotere uitbetalingstabellen of diepere sequentiële bomen. Om deze beperkingen aan te pakken, ontwerpen we meerdere speltheoretische workflows die de redenering en besluitvormingsprocessen van LLMs begeleiden. Deze workflows beogen de modellen te verbeteren in hun vermogen om Nash-evenwichten te berekenen en rationele keuzes te maken, zelfs onder omstandigheden van onzekerheid en onvolledige informatie. Experimentele resultaten tonen aan dat de adoptie van deze workflows de rationaliteit en robuustheid van LLMs aanzienlijk verbetert in speltheoretische taken. Specifiek vertonen LLMs met de workflow aanzienlijke verbeteringen in het identificeren van optimale strategieën, het bereiken van bijna-optimale toewijzingen in onderhandelingsscenario's, en het verminderen van vatbaarheid voor uitbuiting tijdens onderhandelingen. Bovendien verkennen we de meta-strategische overwegingen of het rationeel is voor agenten om dergelijke workflows aan te nemen, waarbij we erkennen dat de beslissing om de workflow te gebruiken of ervan af te zien op zichzelf een speltheoretische kwestie vormt. Ons onderzoek draagt bij aan een dieper begrip van de besluitvormingscapaciteiten van LLMs in strategische contexten en biedt inzichten in het verbeteren van hun rationaliteit door gestructureerde workflows. De bevindingen hebben implicaties voor de ontwikkeling van meer robuuste en strategisch klinkende AI-agenten die in staat zijn om te navigeren in complexe interactieve omgevingen. Code en gegevens die dit onderzoek ondersteunen zijn beschikbaar op https://github.com/Wenyueh/game_theory.
Het begrijpen en manipuleren van de causale generatiemechanismen in taalmodellen is essentieel voor het controleren van hun gedrag. Eerdere onderzoeken hebben voornamelijk vertrouwd op technieken zoals representatiechirurgie - bijvoorbeeld modelablaties of manipulatie van lineaire deelruimten gekoppeld aan specifieke concepten - om in te grijpen in deze modellen. Om de impact van interventies nauwkeurig te begrijpen, is het nuttig om tegenfeitelijke situaties te onderzoeken - bijvoorbeeld hoe een gegeven zin eruit zou hebben gezien als deze was gegenereerd door het model na een specifieke interventie te volgen. We benadrukken dat tegenfeitelijke redenering conceptueel onderscheiden is van interventies, zoals gearticuleerd in Pearl's causale hiërarchie. Op basis van deze observatie stellen we een raamwerk voor om echte string tegenfeitelijke situaties te genereren door taalmodellen te hervormen als Algemene Structurele-Vergelijking Modellen met behulp van de Gumbel-max truc. Dit stelt ons in staat om de gezamenlijke verdeling over oorspronkelijke strings en hun tegenfeitelijke situaties die voortkomen uit dezelfde instantiatie van de steekproefruis te modelleren. We ontwikkelen een algoritme gebaseerd op hindsight Gumbel-steekproeven dat ons in staat stelt om de latente ruisvariabelen af te leiden en tegenfeitelijke situaties van waargenomen strings te genereren. Onze experimenten tonen aan dat de benadering zinvolle tegenfeitelijke situaties produceert, terwijl tegelijkertijd wordt aangetoond dat veelgebruikte interventietechnieken aanzienlijke ongewenste neveneffecten hebben.
Veiligheidsafstemmingsalgoritmen worden veel gebruikt om taalmodellen af te stemmen om schadelijke uitvoer te verminderen, maar de exacte interne mechanismen van hoe die modellen dit bereiken blijven onduidelijk. Bij het bestuderen van directe voorkeursoptimalisatie (DPO) voor het verminderen van toxiciteit, beweren huidige verklaringen dat DPO werkt door de meest giftige MLP-neuronen te dempen om een correctie te leren om giftige gebieden in de reststroom te vermijden. Echter, door de meest giftige neuronen uit te schakelen en activatiepatching toe te passen, vinden we deze verklaring onvolledig. Door neuronactivatieveranderingen te projecteren op een toxiciteitsprobe, vinden we dat slechts 31,8\% van de toxiciteitsvermindering afkomstig is van gedempte giftige neuronen. In plaats daarvan vermindert DPO toxiciteit door effecten op te stapelen over meerdere neuronengroepen, zowel het verminderen van schrijven in de giftige richting als het bevorderen van anti-toxiciteit in de reststroom. Bovendien geeft DPO ruisige aanpassingen aan neuronactivaties, waarbij veel neuronen de toxiciteit daadwerkelijk verhogen. Dit duidt erop dat DPO een balanceringsproces is tussen tegenovergestelde neuron-effecten om toxiciteitsvermindering te bereiken.
Menselijke bewegingsgeneratie is een cutting-edge onderzoeksgebied in generatieve computervisie, met veelbelovende toepassingen in videocreatie, gamedevelopment en robotische manipulatie. De recente Mamba-architectuur toont veelbelovende resultaten in het efficiënt modelleren van lange en complexe sequenties, maar er zijn nog twee significante uitdagingen: Ten eerste is het direct toepassen van Mamba op uitgebreide bewegingsgeneratie ineffectief, aangezien de beperkte capaciteit van het impliciete geheugen leidt tot geheugenverval. Ten tweede heeft Mamba moeite met multimodale fusie in vergelijking met Transformers, en mist het afstemming met tekstuele zoekopdrachten, wat vaak leidt tot verwarring over richtingen (links of rechts) of het weglaten van delen van langere tekstzoekopdrachten. Om deze uitdagingen aan te pakken, presenteert ons artikel drie belangrijke bijdragen: Ten eerste introduceren we KMM, een nieuw architectuur met Key frame Masking Modeling, ontworpen om de focus van Mamba op sleutelacties in bewegingssegmenten te versterken. Deze aanpak lost het probleem van geheugenverval op en vertegenwoordigt een baanbrekende methode om strategische frame-level masking aan te passen in SSM's. Daarnaast hebben we een contrastief leerparadigma ontworpen om het probleem van multimodale fusie in Mamba aan te pakken en de beweging-tekstafstemming te verbeteren. Tot slot hebben we uitgebreide experimenten uitgevoerd op de veelgebruikte dataset, BABEL, waarbij we state-of-the-art prestaties hebben behaald met een vermindering van meer dan 57% in FID en 70% minder parameters in vergelijking met eerdere state-of-the-art methoden. Zie projectwebsite: https://steve-zeyu-zhang.github.io/KMM
Het opzetten van een algemene foutcorrector na herkenning stelt een cruciale vraag: hoe kunnen we op de meest effectieve manier een model trainen op een grote mix van domeindatasets? Het antwoord zou liggen in het leren van dataset-specifieke kenmerken en het verwerken van hun kennis in een enkel model. Eerdere methoden bereiken dit door aparte correctietaalmodellen te hebben, wat resulteert in een aanzienlijke toename van parameters. In dit werk presenteren we Mixture-of-Experts als een oplossing, waarbij we benadrukken dat MoE's veel meer zijn dan een schaalbaarheidstool. We stellen een Multi-Task Correction MoE voor, waarbij we de experts trainen om een "expert" te worden in spraak-naar-tekst, taal-naar-tekst en visie-naar-tekst datasets door te leren om de tokens van elke dataset naar de bijbehorende expert te routeren. Experimenten op de Open ASR Leaderboard tonen aan dat we een nieuwe state-of-the-art prestatie verkennen door een gemiddelde relatieve 5,0% WER-vermindering te behalen en aanzienlijke verbeteringen in BLEU-scores voor spraak- en vertaaltaken. Bij zero-shot evaluatie presteert NeKo beter dan GPT-3.5 en Claude-Opus met een relatieve WER-vermindering van 15,5% tot 27,6% in de Hyporadise benchmark. NeKo presteert competitief op grammatica- en post-OCR-correctie als een multi-task model.
Grote taalmodellen (LLM's) hebben aanzienlijk succes aangetoond in natuurlijke taalverwerking (NLP) taken en hebben veelbelovende resultaten laten zien in andere domeinen zoals de generatie van eiwitsequenties. Er blijven echter opvallende verschillen bestaan tussen LLM's die worden gebruikt voor NLP, die effectief meerdere taken aankunnen en beschikbaar zijn in kleine formaten, en eiwit-taalmodellen die vaak gespecialiseerd zijn voor specifieke taken en alleen in grotere formaten bestaan. In dit werk introduceren we twee kleine eiwit-taalmodellen, gebaseerd op Llama-3-8B en Phi-3-mini, die in staat zijn tot zowel ongecontroleerde als controleerbare eiwitgeneratie. Voor de ongecontroleerde generatietaak behaalt ons beste model een gemiddelde pLDDT-score van 69.75, wat robuuste prestaties aantoont in het genereren van levensvatbare eiwitstructuren. Voor de controleerbare generatietaak, waarbij het model eiwitten genereert volgens eigenschappen gespecificeerd in de prompt, behalen we een opmerkelijke gemiddelde TM-Score van 0.84, wat wijst op een hoge structurele gelijkenis met doeleiwitten. We hebben 10 eigenschappen gekozen, waaronder zes klassen van enzymen, om de mogelijkheden van eerdere eiwit-taalmodellen uit te breiden. Onze aanpak maakt gebruik van de Low-Rank Adaptor (LoRA) techniek, waardoor het aantal trainbare parameters wordt teruggebracht tot slechts 4% van de oorspronkelijke modelgrootte, wat de rekenvereisten verlaagt. Door gebruik te maken van een subset van de UniRef50 dataset en kleine modellen hebben we de totale trainingsduur met 70% verkort zonder prestatieverlies. Opmerkelijk genoeg heeft Phi-3-mini het aantal trainbare parameters met 60% verminderd, waardoor de trainingskosten met 30% zijn verlaagd in vergelijking met Llama 3. Als gevolg hiervan behaalde Phi-3 een vergelijkbare TM-Score van 0.81, wat aantoont dat kleinere modellen de prestaties van grotere modellen, zoals Llama 3, kunnen evenaren. We demonstreren ook de implementatie van onze modellen op de energie-efficiënte ET-SoC-1 chip, waarbij de TPS/W significant wordt verbeterd met een factor 3.
Nu grote taalmodellen steeds meer voorkomen in de financiële sector, is er een dringende behoefte aan een gestandaardiseerde methode om hun prestaties uitgebreid te beoordelen. Bestaande financiële benchmarks hebben echter vaak te maken met beperkte taal- en taakdekking, evenals uitdagingen zoals datasets van lage kwaliteit en onvoldoende aanpasbaarheid voor evaluatie van taalmodellen op financieel gebied. Om deze beperkingen aan te pakken, stellen we "Golden Touchstone" voor, de eerste uitgebreide tweetalige benchmark voor financiële taalmodellen, die representatieve datasets uit zowel het Chinees als het Engels omvat voor acht kern-NLP-taken op financieel gebied. Ontwikkeld op basis van uitgebreide open source gegevensverzameling en sector-specifieke eisen, omvat deze benchmark een verscheidenheid aan financiële taken die gericht zijn op een grondige beoordeling van de taalbegrip- en generatiecapaciteiten van modellen. Door middel van vergelijkende analyses van belangrijke modellen op de benchmark, zoals GPT-4o Llama3, FinGPT en FinMA, onthullen we hun sterke punten en beperkingen bij het verwerken van complexe financiële informatie. Daarnaast hebben we Touchstone-GPT open source gemaakt, een financieel taalmodel dat is getraind via voortdurende pre-training en afstemming op financiële instructies, dat sterke prestaties laat zien op de tweetalige benchmark maar nog steeds beperkingen heeft bij specifieke taken. Dit onderzoek biedt niet alleen de financiële grote taalmodellen een praktisch evaluatiemiddel, maar leidt ook de ontwikkeling en optimalisatie van toekomstig onderzoek. De broncode voor Golden Touchstone en het modelgewicht van Touchstone-GPT zijn openbaar beschikbaar gesteld op https://github.com/IDEA-FinAI/Golden-Touchstone, wat bijdraagt aan de voortdurende evolutie van FinLLMs en verdere onderzoek in dit cruciale gebied bevordert.