Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel tekst-naar-beeldmodellen zoals DALLE-3 en Stable Diffusion zich snel verspreiden, stuiten ze vaak op uitdagingen zoals hallucinatie, bias en het produceren van onveilige, laagkwalitatieve output. Om deze problemen effectief aan te pakken, is het cruciaal om deze modellen af te stemmen op gewenst gedrag op basis van feedback van een multimodale beoordelaar. Ondanks hun belang, worden huidige multimodale beoordelaars vaak onvoldoende geëvalueerd op hun capaciteiten en beperkingen, wat mogelijk kan leiden tot misalignering en onveilige fine-tuningresultaten. Om dit probleem aan te pakken, introduceren we MJ-Bench, een nieuwe benchmark die een uitgebreide voorkeursdataset bevat om multimodale beoordelaars te evalueren in het geven van feedback voor beeldgeneratiemodellen vanuit vier belangrijke perspectieven: alignering, veiligheid, beeldkwaliteit en bias. Specifiek evalueren we een grote verscheidenheid aan multimodale beoordelaars, waaronder kleinere CLIP-gebaseerde scoringsmodellen, open-source VLMs (bijv. LLaVA-familie) en closed-source VLMs (bijv. GPT-4o, Claude 3) op elk gedetailleerde subcategorie van onze voorkeursdataset. Experimenten tonen aan dat closed-source VLMs over het algemeen betere feedback geven, waarbij GPT-4o gemiddeld beter presteert dan andere beoordelaars. Vergeleken met open-source VLMs kunnen kleinere scoringsmodellen betere feedback geven wat betreft tekst-beeldalignering en beeldkwaliteit, terwijl VLMs nauwkeurigere feedback geven wat betreft veiligheid en generatiebias vanwege hun sterkere redeneervermogen. Verdere studies naar feedbackschaal tonen aan dat VLM-beoordelaars over het algemeen nauwkeurigere en stabielere feedback kunnen geven in natuurlijke taal (Likert-schaal) dan in numerieke schalen. Opmerkelijk is dat menselijke evaluaties van end-to-end fine-tuned modellen met aparte feedback van deze multimodale beoordelaars vergelijkbare conclusies opleveren, wat de effectiviteit van MJ-Bench verder bevestigt. Alle data, code en modellen zijn beschikbaar op https://huggingface.co/MJ-Bench.
Grote Taalmodellen (LLMs) tonen opmerkelijke vertaalcapaciteiten bij taken in talen met veel bronnen, maar hun prestaties in talen met weinig bronnen worden belemmerd door onvoldoende meertalige gegevens tijdens de voorafgaande training. Om dit aan te pakken, hebben we 35.000 A100-SXM4-80GB GPU-uren besteed aan uitgebreide meertalige voortgezette training op de LLaMA-serie modellen, waardoor vertaalondersteuning voor meer dan 100 talen mogelijk wordt gemaakt. Door een uitgebreide analyse van trainingsstrategieën, zoals vocabulaire-uitbreiding en data-augmentatie, ontwikkelen we LLaMAX. Opmerkelijk is dat LLaMAX, zonder in te leveren op zijn generalisatievermogen, aanzienlijk betere vertaalprestaties behaalt in vergelijking met bestaande open-source LLMs (met meer dan 10 spBLEU-punten) en vergelijkbaar presteert met gespecialiseerde vertaalmodellen (M2M-100-12B) op de Flores-101 benchmark. Uitgebreide experimenten geven aan dat LLaMAX kan dienen als een robuust meertalig basis model. De code~\url{https://github.com/CONE-MT/LLaMAX/.} en modellen~\url{https://huggingface.co/LLaMAX/.} zijn publiekelijk beschikbaar.
Dit artikel behandelt de uitdaging van het creëren van een neurale architectuur voor zeer lange sequenties die constante tijd vereist voor het verwerken van nieuwe informatie bij elke tijdstap. Onze aanpak, de Associative Recurrent Memory Transformer (ARMT), is gebaseerd op transformer self-attention voor lokale context en segment-level recurrentie voor de opslag van taakspecifieke informatie die verspreid is over een lange context. We tonen aan dat ARMT bestaande alternatieven overtreft in associatieve retrievetaakjes en een nieuw prestatierecord vestigt in de recente BABILong multi-task long-context benchmark door enkelvoudige feitenvragen te beantwoorden over 50 miljoen tokens met een nauwkeurigheid van 79,9%. De broncode voor training en evaluatie is beschikbaar op github.
Een beeldbewerkingsmodel moet in staat zijn om diverse bewerkingen uit te voeren, variërend van objectvervanging, het wijzigen van attributen of stijl, tot het uitvoeren van acties of bewegingen, wat verschillende vormen van redeneren vereist. Huidige algemene instructiegestuurde bewerkingsmodellen hebben aanzienlijke tekortkomingen bij actie- en redeneringsgerichte bewerkingen. Veranderingen in objecten, attributen of stijl kunnen worden geleerd uit visueel statische datasets. Aan de andere kant is hoogwaardige data voor actie- en redeneringsgerichte bewerkingen schaars en moet deze afkomstig zijn uit volledig verschillende bronnen die bijvoorbeeld fysieke dynamiek, temporaliteit en ruimtelijk redeneren omvatten. Daarom hebben we zorgvuldig de AURORA Dataset (Action-Reasoning-Object-Attribute) samengesteld, een verzameling van hoogwaardige trainingsdata, handmatig geannoteerd en samengesteld uit video's en simulatie-engines. We richten ons op een belangrijk aspect van kwalitatieve trainingsdata: triplets (bronafbeelding, prompt, doelafbeelding) bevatten een enkele betekenisvolle visuele verandering die door de prompt wordt beschreven, d.w.z. echt minimale veranderingen tussen bron- en doelafbeeldingen. Om de waarde van onze dataset aan te tonen, evalueren we een AURORA-finetuned model op een nieuw expert-samengesteld benchmark (AURORA-Bench) dat 8 diverse bewerkingstaken omvat. Ons model presteert aanzienlijk beter dan eerdere bewerkingsmodellen, zoals beoordeeld door menselijke beoordelaars. Voor automatische evaluaties vinden we belangrijke tekortkomingen in eerdere metrieken en waarschuwen we voor het gebruik ervan voor semantisch uitdagende bewerkingstaken. In plaats daarvan stellen we een nieuwe automatische metriek voor die zich richt op discriminerend begrip. We hopen dat onze inspanningen: (1) het samenstellen van een kwalitatieve trainingsdataset en een evaluatiebenchmark, (2) het ontwikkelen van kritische evaluaties, en (3) het uitbrengen van een state-of-the-art model, verdere vooruitgang zullen stimuleren op het gebied van algemene beeldbewerking.
Vorige open-source grote multimodale modellen (LMMs) kampten met verschillende beperkingen: (1) ze missen vaak native integratie, waardoor adapters nodig zijn om visuele representaties af te stemmen op vooraf getrainde grote taalmodellen (LLMs); (2) veel zijn beperkt tot enkelvoudige modale generatie; (3) hoewel sommige multimodale generatie ondersteunen, vertrouwen ze op aparte diffusiemodellen voor visuele modellering en generatie. Om deze beperkingen te verlichten, presenteren we Anole, een open, autoregressief, native groot multimodaal model voor interleaved beeld-tekst generatie. We bouwen Anole op basis van Meta AI's Chameleon, waarbij we een innovatieve fine-tuning strategie toepassen die zowel data-efficiënt als parameter-efficiënt is. Anole toont hoogwaardige, coherente multimodale generatiecapaciteiten. We hebben ons model, het trainingsframework en de instructie-tuningdata open-source gemaakt.
Grote taalmodelen worden veelvuldig gebruikt in praktijktoepassingen, waarbij ze vaak de taak hebben om te redeneren over grote hoeveelheden documenten. Een spannende ontwikkeling op dit gebied zijn modellen met uitgebreide contextmogelijkheden, waarvan sommige meer dan 2 miljoen tokens kunnen verwerken. De prestaties van dergelijke lang-contextmodellen in productiesystemen blijven echter onzeker, wat de noodzaak onderstreept om hun prestaties te benchmarken aan de hand van real-world use cases. Wij pakken deze uitdaging aan door SWiM voor te stellen, een evaluatieraamwerk dat de beperkingen van standaardtests aanpakt. Door het raamwerk te testen op acht lang-contextmodellen, ontdekken we dat zelfs sterke modellen zoals GPT-4 en Claude 3 Opus in prestaties achteruitgaan wanneer informatie zich in het midden van het contextvenster bevindt (het 'lost-in-the-middle'-effect). Daarnaast stellen we, naast onze benchmark, medoid voting voor, een eenvoudige maar effectieve trainingsvrije aanpak die helpt om dit effect te verminderen door reacties meerdere keren te genereren, waarbij de documenten in de context elke keer willekeurig worden herschikt, en het medoid-antwoord te selecteren. We evalueren medoid voting op taken waarbij één document wordt bevraagd (single document QA), en behalen daarbij een nauwkeurigheidsverbetering van tot wel 24%.
Dit artikel presenteert UltraEdit, een grootschalige (ongeveer 4 miljoen bewerkingsvoorbeelden), automatisch gegenereerde dataset voor instructiegebaseerde beeldbewerking. Onze kernidee is om de tekortkomingen in bestaande beeldbewerkingsdatasets zoals InstructPix2Pix en MagicBrush aan te pakken en een systematische aanpak te bieden voor het produceren van massale en hoogwaardige beeldbewerkingsvoorbeelden. UltraEdit biedt verschillende duidelijke voordelen: 1) Het beschikt over een breder scala aan bewerkingsinstructies door gebruik te maken van de creativiteit van grote taalmodellen (LLMs) naast in-context bewerkingsvoorbeelden van menselijke beoordelaars; 2) De databronnen zijn gebaseerd op echte afbeeldingen, waaronder foto's en kunstwerken, wat een grotere diversiteit en verminderde bias biedt in vergelijking met datasets die uitsluitend door tekst-naar-beeldmodellen zijn gegenereerd; 3) Het ondersteunt ook regio-gebaseerde bewerking, versterkt door hoogwaardige, automatisch geproduceerde regio-annotaties. Onze experimenten tonen aan dat canonieke op diffusie gebaseerde bewerkingsbaselines die op UltraEdit zijn getraind, nieuwe records vestigen op de MagicBrush en Emu-Edit benchmarks. Onze analyse bevestigt verder de cruciale rol van echte beeldankers en regio-gebaseerde bewerkingsdata. De dataset, code en modellen zijn te vinden op https://ultra-editing.github.io.
Recente ontwikkelingen in 3D AIGC hebben veelbelovende resultaten getoond in het direct creëren van 3D-objecten vanuit tekst en afbeeldingen, wat aanzienlijke kostenbesparingen biedt in animatie en productontwerp. Het gedetailleerd bewerken en aanpassen van 3D-assets blijft echter een langdurige uitdaging. Met name missen 3D-generatiemethoden het vermogen om gedetailleerde instructies zo precies te volgen als hun tegenhangers voor het maken van 2D-afbeeldingen. Stel je voor dat je een speelgoedobject kunt verkrijgen via 3D AIGC, maar met ongewenste accessoires en kleding. Om deze uitdaging aan te pakken, stellen we een nieuwe pipeline voor genaamd Tailor3D, die snel aangepaste 3D-assets creëert vanuit bewerkbare tweezijdige afbeeldingen. Ons doel is om het vermogen van een kleermaker na te bootsen om objecten lokaal aan te passen of een algemene stijloverdracht uit te voeren. In tegenstelling tot het creëren van 3D-assets vanuit meerdere aanzichten, elimineert het gebruik van tweezijdige afbeeldingen conflicten in overlappende gebieden die optreden bij het bewerken van individuele aanzichten. Specifiek begint het met het bewerken van het vooraanzicht, waarna het achteraanzicht van het object wordt gegenereerd via multi-view diffusie. Vervolgens wordt het achteraanzicht bewerkt. Ten slotte wordt een Dual-sided LRM voorgesteld om de voor- en achterkant van de 3D-kenmerken naadloos aan elkaar te verbinden, vergelijkbaar met een kleermaker die de voor- en achterkant van een kledingstuk aan elkaar naait. De Dual-sided LRM corrigeert imperfecte consistenties tussen de voor- en achteraanzichten, verbetert de bewerkingsmogelijkheden en vermindert de geheugenbelasting, terwijl ze naadloos worden geïntegreerd in een uniforme 3D-representatie met de LoRA Triplane Transformer. Experimentele resultaten tonen de effectiviteit van Tailor3D aan bij diverse 3D-generatie- en bewerkingstaken, waaronder 3D-generatieve vulling en stijloverdracht. Het biedt een gebruiksvriendelijke, efficiënte oplossing voor het bewerken van 3D-assets, waarbij elke bewerkingsstap slechts enkele seconden in beslag neemt.
Grootschalige Text-to-Video (T2V) diffusiemodellen hebben recentelijk een ongekende capaciteit getoond om natuurlijke taal beschrijvingen om te zetten in indrukwekkende en fotorealistische video's. Ondanks de veelbelovende resultaten blijft er een belangrijke uitdaging bestaan: deze modellen hebben moeite om complexe compositionele interacties tussen meerdere concepten en acties volledig te begrijpen. Dit probleem doet zich voor wanneer sommige woorden de uiteindelijke video overheersend beïnvloeden, waardoor andere concepten naar de achtergrond worden gedrukt. Om dit probleem aan te pakken, introduceren we Vico, een generiek raamwerk voor compositionele videogeneratie dat expliciet zorgt dat alle concepten goed worden weergegeven. In de kern analyseert Vico hoe invoertokens de gegenereerde video beïnvloeden, en past het model aan om te voorkomen dat een enkel concept domineert. Specifiek extraheert Vico aandachtgewichten uit alle lagen om een ruimtelijk-temporeel aandachtgrafiek op te bouwen, en schat vervolgens de invloed in als de maximale stroom van de bronteksttoken naar de videodoeltoken. Hoewel de directe berekening van aandachtstroom in diffusiemodellen doorgaans onhaalbaar is, bedenken we een efficiënte benadering op basis van substroomgrafieken en gebruiken we een snelle en vectorgebaseerde implementatie, waardoor de stroomberekening beheersbaar en differentieerbaar wordt. Door het ruisachtige latente te updaten om deze stromen in balans te brengen, vangt Vico complexe interacties op en produceert het video's die nauw aansluiten bij tekstuele beschrijvingen. We passen onze methode toe op meerdere diffusiegebaseerde videomodellen voor compositionele T2V en videobewerking. Empirische resultaten tonen aan dat ons raamwerk de compositionele rijkdom en nauwkeurigheid van de gegenereerde video's aanzienlijk verbetert. Bezoek onze website op~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.
Recente vooruitgang in open-source grote taalmodellen (LLMs) voor code heeft opmerkelijke programmeervaardigheden aangetoond door fine-tuning op gegevens die gegenereerd zijn uit krachtige closed-source LLMs zoals GPT-3.5 en GPT-4 voor instructie-afstemming. Dit artikel onderzoekt hoe een instructie-afgestemd code-LLM verder verbeterd kan worden door gegevens te genereren vanuit zichzelf in plaats van closed-source LLMs te raadplegen. Onze belangrijkste observatie is de misalignering tussen de vertaling van formele en informele talen: het vertalen van formele taal (d.w.z. code) naar informele taal (d.w.z. natuurlijke taal) is eenvoudiger dan het omgekeerde. Op basis van deze observatie stellen we INVERSE-INSTRUCT voor, dat instructies samenvat uit codefragmenten in plaats van het omgekeerde. Specifiek, gegeven een instructie-afstemmingscorpus voor code en het resulterende instructie-afgestemde code-LLM, vragen we het code-LLM om aanvullende hoogwaardige instructies te genereren voor het oorspronkelijke corpus via codesamenvatting en zelfevaluatie. Vervolgens fine-tunen we het basis-LLM op de combinatie van het oorspronkelijke corpus en het zelfgegenereerde corpus, wat resulteert in een sterker instructie-afgestemd LLM. We presenteren een reeks code-LLMs genaamd InverseCoder, die de prestaties van de oorspronkelijke code-LLMs overtreffen op een breed scala aan benchmarks, waaronder Python tekst-naar-code generatie, meertalig programmeren en data-science codegeneratie.
Grote visuele taalmodellen (LVLMs) hebben vaak last van objecthallucinatie, waarbij ze objecten produceren die niet aanwezig zijn in de gegeven afbeeldingen. Hoewel huidige benchmarks voor objecthallucinatie zich vooral richten op de aanwezigheid van een enkele objectklasse in plaats van individuele entiteiten, onderzoekt dit werk systematisch multi-object hallucinatie, waarbij wordt bekeken hoe modellen zich vergissen (bijvoorbeeld door niet-bestaande objecten te verzinnen of afgeleid te raken) wanneer ze de taak krijgen om zich op meerdere objecten tegelijk te concentreren. We introduceren Recognition-based Object Probing Evaluation (ROPE), een geautomatiseerd evaluatieprotocol dat rekening houdt met de verdeling van objectklassen binnen een enkele afbeelding tijdens het testen en visuele verwijzingsprompts gebruikt om ambiguïteit te elimineren. Met uitgebreide empirische studies en analyse van potentiële factoren die leiden tot multi-object hallucinatie, hebben we ontdekt dat (1) LVLMs meer hallucinaties vertonen wanneer ze zich op meerdere objecten concentreren in vergelijking met een enkel object. (2) De geteste verdeling van objectklassen beïnvloedt hallucinatiegedrag, wat aangeeft dat LVLMs mogelijk shortcuts en valse correlaties volgen. (3) Hallucinatoir gedrag wordt beïnvloed door data-specifieke factoren, zoals opvallendheid en frequentie, en intrinsiek modelgedrag. We hopen LVLMs in staat te stellen meerdere objecten te herkennen en te redeneren die vaak voorkomen in realistische visuele scènes, inzichten te bieden en onze voortgang bij het verminderen van deze problemen te kwantificeren.
In de afgelopen jaren heeft de opkomst van Large Language Models (LLM's) een groeiende vraag naar plug-and-play AI-systemen gestimuleerd. Onder de verschillende AI-technieken springt prompt engineering eruit als bijzonder belangrijk. Gebruikers ondervinden echter vaak uitdagingen bij het schrijven van prompts vanwege de steile leercurve en de aanzienlijke tijdsinvestering, en bestaande automatische prompt engineering (APE) modellen kunnen moeilijk in gebruik zijn. Om dit probleem aan te pakken, stellen we PAS voor, een LLM-gebaseerd plug-and-play APE-systeem. PAS maakt gebruik van LLM's die zijn getraind op hoogwaardige, automatisch gegenereerde prompt complementaire datasets, wat resulteert in uitzonderlijke prestaties. In uitgebreide benchmarks behaalt PAS state-of-the-art (SoTA) resultaten in vergelijking met eerdere APE-modellen, met een gemiddelde verbetering van 6,09 punten. Bovendien is PAS zeer efficiënt en bereikt het SoTA-prestaties met slechts 9000 datapunten. Daarnaast kan PAS autonoom prompt augmentatiegegevens genereren zonder extra menselijke arbeid te vereisen. De flexibiliteit ervan maakt het ook compatibel met alle bestaande LLM's en toepasbaar op een breed scala aan taken. PAS blinkt uit in menselijke evaluaties, wat de geschiktheid ervan als plug-in voor gebruikers onderstreept. Deze combinatie van hoge prestaties, efficiëntie en flexibiliteit maakt PAS een waardevol systeem voor het verbeteren van de bruikbaarheid en effectiviteit van LLM's door middel van verbeterde prompt engineering.
Een van de meest betrouwbare manieren om inzetbare modellen te creëren voor gespecialiseerde taken is het verkrijgen van een voldoende hoeveelheid hoogwaardige, taakspecifieke data. Voor gespecialiseerde taken bestaan dergelijke datasets echter vaak niet. Bestaande methoden pakken dit aan door dergelijke data te genereren met behulp van grote taalmodellen (LLMs) en deze kennis vervolgens te destilleren in kleinere modellen. Deze methoden worden echter beperkt door de kwaliteit van de output van de LLMs en hebben de neiging repetitieve of incorrecte data te genereren. In dit werk presenteren we Retrieval Based Distillation (ReBase), een methode die eerst data ophaalt uit rijke online bronnen en deze vervolgens omzet in domeinspecifieke data. Deze methode vergroot de diversiteit van de data aanzienlijk. Bovendien genereert ReBase Chain-of-Thought redeneringen en destilleert het de redeneercapaciteit van LLMs. We testen onze methode op 4 benchmarks en de resultaten laten zien dat onze methode de prestaties aanzienlijk verbetert met tot wel 7,8% op SQuAD, 1,37% op MNLI en 1,94% op BigBench-Hard.
Recente studies suggereren dat de inductieve bias van deep learning-modellen ten gunste van eenvoudigere kenmerken een van de bronnen van shortcut learning kan zijn. Toch is er beperkte aandacht geweest voor het begrijpen van de complexiteit van de talloze kenmerken die modellen leren. In dit werk introduceren we een nieuwe maatstaf voor het kwantificeren van kenmerkencomplexiteit, gebaseerd op V-informatie en gericht op het vaststellen of een kenmerk complexe computationele transformaties vereist om te worden geëxtraheerd. Met behulp van deze V-informatie-meting analyseren we de complexiteit van 10.000 kenmerken, weergegeven als richtingen in de voorlaatste laag, die zijn geëxtraheerd uit een standaard op ImageNet getraind vision-model. Onze studie behandelt vier belangrijke vragen: Ten eerste onderzoeken we hoe kenmerken eruitzien als functie van complexiteit en vinden we een spectrum van eenvoudige tot complexe kenmerken binnen het model. Ten tweede onderzoeken we wanneer kenmerken worden geleerd tijdens de training. We ontdekken dat eenvoudigere kenmerken vroeg in de training domineren, en complexere kenmerken geleidelijk ontstaan. Ten derde onderzoeken we waar binnen het netwerk eenvoudige en complexe kenmerken stromen, en vinden we dat eenvoudigere kenmerken de neiging hebben om de visuele hiërarchie te omzeilen via restverbindingen. Ten vierde verkennen we het verband tussen de complexiteit van kenmerken en hun belang bij het sturen van de beslissing van het netwerk. We ontdekken dat complexe kenmerken over het algemeen minder belangrijk zijn. Verrassend genoeg worden belangrijke kenmerken toegankelijk in eerdere lagen tijdens de training, zoals een sedimentatieproces, waardoor het model kan voortbouwen op deze fundamentele elementen.
Dit artikel bevordert creatieve controle in generatieve visuele AI door gebruikers in staat te stellen te "selecteren". Afwijkend van traditionele tekst- of schetsgebaseerde methoden, stellen we gebruikers voor het eerst in staat om visuele concepten per onderdeel te kiezen voor hun creatieve inspanningen. Het resultaat is een fijnmazige generatie die geselecteerde visuele concepten nauwkeurig vastlegt, wat zorgt voor een holistisch getrouw en plausibel resultaat. Om dit te bereiken, ontleden we eerst objecten in onderdelen via ongecontroleerde feature clustering. Vervolgens coderen we de onderdelen in teksttokens en introduceren we een entropie-gebaseerd genormaliseerd aandachtverlies dat hierop werkt. Dit verliesontwerp stelt ons model in staat om generieke topologische kennis over de samenstelling van objectonderdelen te leren, en verder te generaliseren naar nieuwe onderdeelsamenstellingen om ervoor te zorgen dat de generatie er holistisch getrouw uitziet. Ten slotte gebruiken we een bottleneck-encoder om de onderdeeltokens te projecteren. Dit verbetert niet alleen de getrouwheid, maar versnelt ook het leren door gedeelde kennis te benutten en informatie-uitwisseling tussen instanties te vergemakkelijken. Visuele resultaten in het artikel en het aanvullende materiaal tonen de overtuigende kracht van PartCraft in het maken van zeer gepersonaliseerde, innovatieve creaties, geïllustreerd door de "charmante" en creatieve vogels. De code is vrijgegeven op https://github.com/kamwoh/partcraft.
Entity Linking (EL)-modellen zijn goed getraind in het koppelen van vermeldingen aan hun corresponderende entiteiten op basis van een gegeven context. EL-modellen hebben echter moeite met het disambigueren van long-tail-entiteiten vanwege hun beperkte trainingsdata. Tegelijkertijd zijn grote taalmodellen (LLM's) robuuster in het interpreteren van ongebruikelijke vermeldingen. Door een gebrek aan gespecialiseerde training presteren LLM's echter minder goed in het genereren van correcte entiteit-ID's. Bovendien is het trainen van een LLM voor EL kostbaar. Gebaseerd op deze inzichten introduceren we LLM-Augmented Entity Linking (LLMAEL), een plug-and-play-benadering om entity linking te verbeteren via LLM-data-augmentatie. We benutten LLM's als kennisrijke contextversterkers, waarbij we vermelding-gerichte beschrijvingen genereren als aanvullende input, terwijl traditionele EL-modellen behouden blijven voor taakspecifieke verwerking. Experimenten op 6 standaarddatasets tonen aan dat de standaard LLMAEL in de meeste gevallen baseline-EL-modellen overtreft, terwijl de fijn afgestemde LLMAEL nieuwe state-of-the-art-resultaten behaalt op alle 6 benchmarks.
Grote taalmodellen (LLMs) vertonen hallucinaties bij langlopende vraag-antwoordtaken in verschillende domeinen en brede toepassingen. De huidige datasets voor het detecteren en beperken van hallucinaties zijn beperkt in domeinen en omvang, wat schaalbaarheid bemoeilijkt vanwege de hoge arbeidskosten en de onvoldoende betrouwbaarheid van bestaande hallucinatie-annotators. Om de schaalbare controle van hallucinaties in LLMs te vergemakkelijken, introduceert dit artikel een iteratief zelf-trainingsraamwerk dat gelijktijdig en progressief de hallucinatie-annotatiedataset opschaalt en de nauwkeurigheid van de hallucinatie-annotator verbetert. Gebaseerd op het Expectation Maximization (EM)-algoritme, past het raamwerk in elke iteratie eerst een hallucinatie-annotatiepijplijn toe om een geschaalde dataset te annoteren en traint vervolgens een nauwkeurigere hallucinatie-annotator op de dataset. Deze nieuwe hallucinatie-annotator wordt gebruikt in de hallucinatie-annotatiepijplijn voor de volgende iteratie. Uitgebreide experimentele resultaten tonen aan dat de uiteindelijk verkregen hallucinatie-annotator met slechts 7B parameters de prestaties van GPT-4 overtreft en nieuwe state-of-the-art resultaten behaalt voor hallucinatiedetectie op HaluEval en HalluQA door zero-shot inferentie. Zo'n annotator kan niet alleen de hallucinatieniveaus van verschillende LLMs evalueren op de grootschalige dataset, maar ook helpen bij het beperken van hallucinaties in LLM-generaties, waarbij de Natural Language Inference (NLI)-metriek stijgt van 25% naar 37% op HaluEval.