Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Huidige universele segmentatiemethoden tonen sterke mogelijkheden in pixel-niveau beeld- en videobegrip. Ze missen echter redeneervermogen en kunnen niet worden bestuurd via tekstinstructies. Daarentegen vertonen grote visueel-taalkundige multimodale modellen krachtige visueel gebaseerde conversatie- en redeneervermogens, maar missen pixel-niveau begrip en hebben moeite met het accepteren van visuele prompts voor flexibele gebruikersinteractie. Dit artikel stelt OMG-LLaVA voor, een nieuw en elegant framework dat krachtig pixel-niveau visueel begrip combineert met redeneervermogen. Het kan verschillende visuele en tekstprompts accepteren voor flexibele gebruikersinteractie. Specifiek gebruiken we een universele segmentatiemethode als de visuele encoder, waarbij beeldinformatie, perceptiepriors en visuele prompts worden geïntegreerd in visuele tokens die aan de LLM worden aangeboden. De LLM is verantwoordelijk voor het begrijpen van de tekstinstructies van de gebruiker en het leveren van tekstreacties en pixel-niveau segmentatieresultaten op basis van de visuele informatie. We stellen perceptie prior embedding voor om perceptiepriors beter te integreren met beeldkenmerken. OMG-LLaVA bereikt beeldniveau, objectniveau en pixel-niveau redenering en begrip in één model, en evenaart of overtreft de prestaties van gespecialiseerde methoden op meerdere benchmarks. In plaats van de LLM te gebruiken om elke specialist te verbinden, richt ons werk zich op end-to-end training van één encoder, één decoder en één LLM. De code en het model zijn vrijgegeven voor verder onderzoek.
Wiskundig redeneren vormt een aanzienlijke uitdaging voor Large Language Models (LLMs) vanwege de uitgebreide en precieze redeneerketen die nodig is voor nauwkeurigheid. Het waarborgen van de correctheid van elke redeneerstap is cruciaal. Om dit aan te pakken, streven we ernaar de robuustheid en feitelijkheid van LLMs te verbeteren door te leren van menselijke feedback. Direct Preference Optimization (DPO) heeft echter beperkte voordelen getoond voor langere redeneerketens in wiskunde, aangezien modellen die DPO gebruiken moeite hebben om gedetailleerde fouten in onjuiste antwoorden te identificeren. Deze beperking komt voort uit een gebrek aan fijnmazige procesbegeleiding. Wij stellen een eenvoudige, effectieve en data-efficiënte methode voor genaamd Step-DPO, waarbij individuele redeneerstappen als eenheden voor voorkeursoptimalisatie worden behandeld in plaats van antwoorden holistisch te evalueren. Daarnaast hebben we een dataconstructiepijplijn ontwikkeld voor Step-DPO, waardoor het mogelijk wordt om een hoogwaardige dataset te creëren die 10K stapgewijze voorkeursparen bevat. We merken ook op dat in DPO zelf gegenereerde data effectiever is dan data gegenereerd door mensen of GPT-4, vanwege de out-of-distribution aard van de laatste. Onze bevindingen tonen aan dat slechts 10K voorkeursdataparen en minder dan 500 Step-DPO trainingsstappen een nauwkeurigheidswinst van bijna 3% kunnen opleveren op MATH voor modellen met meer dan 70B parameters. Opmerkelijk is dat Step-DPO, wanneer toegepast op Qwen2-72B-Instruct, scores van 70,8% en 94,0% behaalt op de test sets van MATH en GSM8K, respectievelijk, waarmee het een reeks closed-source modellen overtreft, waaronder GPT-4-1106, Claude-3-Opus en Gemini-1.5-Pro. Onze code, data en modellen zijn beschikbaar op https://github.com/dvlab-research/Step-DPO.
We trainen een model om afbeeldingen te genereren vanuit multimodale prompts van afwisselende tekst en afbeeldingen, zoals "een <afbeelding van een man> man en zijn <afbeelding van een hond> hond in een <afbeelding van een cartoon> geanimeerde stijl." We bootstrappen een multimodale dataset door semantisch betekenisvolle beelduitsneden te extraheren die overeenkomen met woorden in de beeldbijschriften van synthetisch gegenereerde en publiek beschikbare tekst-afbeelding data. Ons model, MUMU, bestaat uit een vision-language model encoder met een diffusion decoder en wordt getraind op een enkele 8xH100 GPU-node. Ondanks dat het alleen is getraind op uitsneden van dezelfde afbeelding, leert MUMU inputs van verschillende afbeeldingen samen te voegen tot een coherente output. Bijvoorbeeld, een input van een realistische persoon en een cartoon resulteert in dezelfde persoon in de cartoonstijl, en een input van een staand onderwerp en een scooter resulteert in het onderwerp dat op de scooter rijdt. Hierdoor generaliseert ons model naar taken zoals stijloverdracht en karakterconsistentie. Onze resultaten tonen de belofte van het gebruik van multimodale modellen als algemene controllers voor beeldgeneratie.
Grote taalmmodellen (LLMs) zijn ingezet bij diverse intelligente onderwijs taken om het lesgeven te ondersteunen. Hoewel eerste verkenningen zich hebben gericht op onafhankelijke LLM-gestuurde agents voor specifieke onderwijs taken, blijft het potentieel van LLMs binnen een multi-agent samenwerkingskader om een klaslokaal te simuleren met echte gebruikersparticipatie onontgonnen. In dit werk stellen we SimClass voor, een multi-agent klaslokaalsimulatiekader met gebruikersparticipatie. We herkennen representatieve klasrollen en introduceren een nieuw klascontrolemechanisme voor automatisch klaslokaalonderwijs, en voeren gebruikersexperimenten uit in twee real-world cursussen. Door gebruik te maken van het Flanders Interactive Analysis System en het Community of Inquiry theoretische kader uit onderwijsanalyse, tonen we aan dat LLMs traditionele klaslokaalinteractiepatronen effectief kunnen simuleren terwijl ze de gebruikerservaring verbeteren. We observeren ook opkomende groepsgedragingen onder agents in SimClass, waar agents samenwerken om levendige interacties in klaslokalen te creëren om het leerproces van gebruikers te verbeteren. We hopen dat dit werk baanbrekend is voor de toepassing van LLM-gestuurde multi-agent systemen in virtueel klaslokaalonderwijs.
Dit artikel introduceert Self-aware Knowledge Retrieval (SeaKR), een nieuw adaptief RAG-model dat zelfbewuste onzekerheid van LLMs uit hun interne toestanden extraheert. SeaKR activeert retrieval wanneer de LLMs een hoge zelfbewuste onzekerheid vertonen voor generatie. Om de opgehaalde kennisfragmenten effectief te integreren, herrangschikt SeaKR deze op basis van de zelfbewuste onzekerheid van de LLM om het fragment te behouden dat hun onzekerheid maximaal reduceert. Om het oplossen van complexe taken die meerdere retrievals vereisen te vergemakkelijken, maakt SeaKR gebruik van hun zelfbewuste onzekerheid om te kiezen tussen verschillende redeneerstrategieën. Onze experimenten op zowel complexe als eenvoudige Question Answering-datasets tonen aan dat SeaKR bestaande adaptieve RAG-methoden overtreft. We hebben onze code vrijgegeven op https://github.com/THU-KEG/SeaKR.
Grote Taalmodellen (LLM's) hebben aanzienlijke belofte getoond als copiloten bij verschillende taken. Lokale implementatie van LLM's op edge-apparaten is noodzakelijk bij het verwerken van privacygevoelige gegevens of latentiegevoelige taken. De rekenkundige beperkingen van dergelijke apparaten maken directe implementatie van krachtige grootschalige LLM's onpraktisch, wat kennisdistillatie van grootschalige modellen naar lichtgewicht modellen vereist. Er is veel werk verricht om diversiteit en kwalitatief hoogstaande trainingsvoorbeelden uit LLM's te verkrijgen, maar er is weinig aandacht besteed aan het afstemmen van de instructie-inhoud van de leraar op basis van de voorkeuren van de student, vergelijkbaar met "responsief onderwijs" in de pedagogiek. Daarom stellen we ARTE voor, genaamd Aligning TeacheR with StudenT PreferencEs, een raamwerk dat het leraarmodel afstemt op de voorkeuren van de student om op maat gemaakte trainingsvoorbeelden voor kennisdistillatie te genereren. Specifiek verkrijgen we conceptvragen en redeneringen van het leraarmodel, verzamelen we vervolgens de voorkeuren van de studenten over deze vragen en redeneringen door de prestaties van studenten met in-context leren als proxy te gebruiken, en stemmen we ten slotte het leraarmodel af op de voorkeuren van de studenten. Uiteindelijk herhalen we de eerste stap met het afgestemde leraarmodel om op maat gemaakte trainingsvoorbeelden voor het studentmodel voor de doeltaak te verkrijgen. Uitgebreide experimenten op academische benchmarks tonen de superioriteit van ARTE aan ten opzichte van bestaande instructie-afstemmingsdatasets die zijn gedistilleerd uit krachtige LLM's. Bovendien onderzoeken we grondig de generalisatie van ARTE, inclusief de generalisatie van fijn afgestemde studentmodellen in redeneervermogen en de generalisatie van afgestemde leraarmodellen om op maat gemaakte trainingsgegevens te genereren voor verschillende taken en studenten. Samenvatting ligt onze bijdrage in het voorstellen van een nieuw raamwerk voor het genereren van op maat gemaakte trainingsvoorbeelden, het aantonen van de effectiviteit ervan in experimenten, en het onderzoeken van de generalisatie van zowel student- als afgestemde leraarmodellen in ARTE.
Test set contaminatie, waarbij testgegevens van een benchmark terechtkomen in de trainingsset van een nieuwer model, is een goed gedocumenteerd obstakel voor een eerlijke evaluatie van LLM's en kan benchmarks snel verouderd maken. Om dit te beperken, maken veel recente benchmarks gebruik van nieuwe prompts en evaluaties die door mensen of LLM's worden gegenereerd; deze kunnen echter aanzienlijke vooroordelen introduceren en falen bij het beoordelen van moeilijke vragen. In dit werk introduceren we een nieuwe benchmark voor LLM's die ontworpen is om immuun te zijn voor zowel test set contaminatie als de valkuilen van LLM-beoordeling en menselijke crowdsourcing. We presenteren LiveBench, de eerste benchmark die (1) regelmatig bijgewerkte vragen bevat uit recente informatiebronnen, (2) antwoorden automatisch beoordeelt op basis van objectieve grondwaarheden, en (3) een breed scala aan uitdagende taken omvat, waaronder wiskunde, programmeren, redeneren, taal, instructieopvolging en data-analyse. Om dit te bereiken, bevat LiveBench vragen die gebaseerd zijn op recent vrijgegeven wiskundewedstrijden, arXiv-artikelen, nieuwsberichten en datasets, en bevat het moeilijkere, contaminatievrije versies van taken uit eerdere benchmarks zoals Big-Bench Hard, AMPS en IFEval. We evalueren veel prominente closed-source modellen, evenals tientallen open-source modellen variërend in grootte van 0,5B tot 110B. LiveBench is uitdagend, waarbij de beste modellen een nauwkeurigheid van minder dan 65% behalen. We publiceren alle vragen, code en modelantwoorden. Vragen zullen maandelijks worden toegevoegd en bijgewerkt, en we zullen nieuwe taken en moeilijkere versies van taken in de loop van de tijd uitbrengen, zodat LiveBench onderscheid kan maken tussen de mogelijkheden van LLM's naarmate ze in de toekomst verbeteren. We verwelkomen betrokkenheid en samenwerking van de gemeenschap voor het uitbreiden van de benchmarktaken en modellen.
Het onderwijzen om studentmodellen te verbeteren (bijvoorbeeld kennisdistillatie) is een uitgebreid bestudeerde methodologie in grote taalmodellen (LLMs). Echter, voor mensen verbetert onderwijs niet alleen de studenten, maar ook de leraren. Wij vragen: Kunnen LLMs ook leren door te onderwijzen (LbT)? Als dat zo is, kunnen we mogelijk de mogelijkheid ontgrendelen om de modellen continu te verbeteren zonder uitsluitend te vertrouwen op door mensen geproduceerde data of sterkere modellen. In dit artikel bieden we een eerste verkenning van deze ambitieuze agenda. We laten zien dat LbT-ideeën kunnen worden geïntegreerd in bestaande LLM-trainings-/prompting-pipelines en merkbare verbeteringen bieden. Specifiek ontwerpen we drie methoden, elk gericht op het nabootsen van een van de drie niveaus van LbT bij mensen: het observeren van feedback van studenten, leren van de feedback, en iteratief leren, met als doel de antwoordnauwkeurigheid te verbeteren zonder training en de inherente capaciteit van modellen te verbeteren met fine-tuning. De bevindingen zijn bemoedigend. Bijvoorbeeld, vergelijkbaar met LbT bij mensen, zien we dat: (1) LbT zwak-naar-sterk generalisatie kan induceren: sterke modellen kunnen zichzelf verbeteren door andere zwakke modellen te onderwijzen; (2) Diversiteit in studenten kan helpen: het onderwijzen van meerdere studenten kan beter zijn dan het onderwijzen van één student of de leraar zelf. We hopen dat deze vroege belofte toekomstig onderzoek naar LbT kan inspireren en bredere adoptie van geavanceerde technieken in het onderwijs om LLMs te verbeteren. De code is beschikbaar op https://github.com/imagination-research/lbt.
Model inversion en membership inference-aanvallen hebben als doel de gegevens waarop een model is getraind te reconstrueren en te verifiëren. Ze zijn echter niet gegarandeerd om alle trainingsvoorbeelden te vinden, omdat ze de omvang van de trainingsset niet kennen. In dit artikel introduceren we een nieuwe taak: datasetgrootteherstel, dat als doel heeft het aantal voorbeelden dat is gebruikt om een model te trainen, direct uit zijn gewichten te bepalen. We stellen vervolgens DSiRe voor, een methode om het aantal afbeeldingen te herstellen dat is gebruikt om een model te fine-tunen, in het veelvoorkomende geval waarbij fine-tuning LoRA gebruikt. We ontdekken dat zowel de norm als het spectrum van de LoRA-matrices nauw verbonden zijn met de grootte van de fine-tuning dataset; we maken gebruik van deze bevinding om een eenvoudig maar effectief voorspellingsalgoritme voor te stellen. Om het herstel van de datasetgrootte van LoRA-gewichten te evalueren, ontwikkelen en publiceren we een nieuwe benchmark, LoRA-WiSE, bestaande uit meer dan 25000 gewichtssnapshots van meer dan 2000 diverse LoRA fine-tuned modellen. Onze beste classifier kan het aantal fine-tuning afbeeldingen voorspellen met een gemiddelde absolute fout van 0.36 afbeeldingen, wat de haalbaarheid van deze aanval aantoont.
Sparse attention kan de aanzienlijke geheugen- en doorvoereisen van Large Language Models (LLMs) in lange contexten effectief verminderen. Bestaande methoden gebruiken doorgaans een uniform sparse attention masker, waarbij hetzelfde sparse patroon wordt toegepast op verschillende attention heads en invoerlengtes. Deze uniforme aanpak slaagt er echter niet in om de diverse aandachtspatronen die inherent zijn aan LLMs vast te leggen, en negeert hun specifieke nauwkeurigheid-latency afwegingen. Om deze uitdaging aan te pakken, stellen we de Mixture of Attention (MoA) voor, die automatisch verschillende sparse aandachtconfiguraties aanpast aan verschillende heads en lagen. MoA construeert en navigeert een zoekruimte van verschillende aandachtspatronen en hun schaalregels ten opzichte van invoersequentielengtes. Het profileert het model, evalueert potentiële configuraties en bepaalt het optimale sparse aandachtcompressieplan. MoA past zich aan aan variërende invoergroottes en laat zien dat sommige attention heads hun focus uitbreiden om langere sequenties te accommoderen, terwijl andere heads zich consistent concentreren op vaste-lengte lokale contexten. Experimenten tonen aan dat MoA de effectieve contextlengte met 3,9 keer verhoogt bij dezelfde gemiddelde aandachtsspanne, en de ophaalnauwkeurigheid met 1,5-7,1 keer verbetert ten opzichte van de uniform-attention baseline over de Vicuna-7B, Vicuna-13B en Llama3-8B modellen. Bovendien verkleint MoA de capaciteitskloof tussen sparse en dense modellen, en reduceert de maximale relatieve prestatievermindering van 9%-36% tot binnen 5% over twee lange-context begripstests. MoA bereikt een 1,2-1,4 keer vermindering van het GPU-geheugen en verhoogt de decode doorvoer met 5,5-6,7 keer voor 7B en 13B dense modellen op een enkele GPU, met minimale impact op de prestaties.
Programmeren-voorbeelden (PvV) heeft als doel een algoritme te genereren op basis van invoer-uitvoervoorbeelden. Dergelijke systemen zijn zowel praktisch als theoretisch belangrijk: vanuit het perspectief van eindgebruikers worden ze ingezet voor miljoenen mensen, en vanuit een AI-perspectief komt PvV overeen met een zeer algemene vorm van few-shot inductieve inferentie. Gezien het succes van Large Language Models (LLM's) in code-generatietaken, onderzoeken we hier in hoeverre kan worden gesteld dat LLM's PvV hebben 'opgelost'. We experimenteren met klassieke domeinen zoals lijsten en strings, en een ongebruikelijk domein voor grafisch programmeren dat niet goed vertegenwoordigd is in typische vooraf getrainde data. We constateren dat vooraf getrainde modellen niet effectief zijn in PvV, maar dat ze kunnen worden gefinetuned voor veel hogere prestaties, mits de testproblemen binnen de distributie vallen. We analyseren empirisch wat deze modellen doet slagen en falen, en nemen stappen om te begrijpen hoe betere generalisatie buiten de distributie kan worden bereikt. Collectief suggereren deze resultaten dat LLM's aanzienlijke vooruitgang boeken bij het oplossen van de typische reeks PvV-taken, wat de flexibiliteit en toepasbaarheid van PvV-systemen potentieel vergroot, terwijl ook wordt geïdentificeerd op welke vlakken LLM's nog tekortschieten.
Tokenizers zijn cruciaal voor het coderen van informatie in Large Language Models, maar hun ontwikkeling is recentelijk gestagneerd en ze bevatten inherente zwaktes. Belangrijke beperkingen zijn onder meer computationele overhead, inefficiënt gebruik van vocabulaire en onnodig grote embedding- en head-lagen. Daarnaast is hun prestaties bevooroordeeld ten opzichte van een referentiecorpus, wat leidt tot verminderde effectiviteit voor ondervertegenwoordigde talen. Om deze problemen te verhelpen, stellen we T-FREE voor, dat woorden direct embedt via sparse activatiepatronen over karaktertriplets en geen referentiecorpus vereist. T-FREE benut inherent morfologische overeenkomsten en maakt een sterke compressie van embedding-lagen mogelijk. In onze uitgebreide experimentele evaluatie behalen we competitieve downstreamprestaties met een parameterreductie van meer dan 85% op deze lagen. Bovendien toont T-FREE significante verbeteringen in cross-linguale transfer learning.
Grote visie-taalmodellen (LVLMs) hallucineren: bepaalde contextuele aanwijzingen in een afbeelding kunnen het taalmodule overmoedig en incorrect laten redeneren over abnormale of hypothetische objecten. Hoewel enkele benchmarks zijn ontwikkeld om LVLM-hallucinaties te onderzoeken, zijn deze voornamelijk gebaseerd op handmatig gemaakte uitzonderingsgevallen waarvan de faalpatronen moeilijk generaliseerbaar zijn, en het finetunen ervan kan hun validiteit ondermijnen. Dit motiveert ons om de eerste automatische benchmarkgeneratiebenadering te ontwikkelen, AUTOHALLUSION, die een paar hoofdstrategieën benut om diverse hallucinatievoorbeelden te creëren. Het onderzoekt de taalmodules in LVLMs op contextuele aanwijzingen en gebruikt deze om afbeeldingen te synthetiseren door: (1) objecten toe te voegen die abnormaal zijn voor de contextuele aanwijzingen; (2) voor twee samen voorkomende objecten, één te behouden en de andere uit te sluiten; of (3) objecten die nauw verbonden zijn met de contextuele aanwijzingen te verwijderen. Vervolgens genereert het op afbeeldingen gebaseerde vragen waarvan de grondwaarheid-antwoorden in tegenspraak zijn met de prior van de taalmodule. Een model moet contextuele vooroordelen en afleidingen overwinnen om correcte antwoorden te bereiken, terwijl incorrecte of inconsistente antwoorden hallucinaties aangeven. AUTOHALLUSION stelt ons in staat nieuwe benchmarks te creëren tegen minimale kosten en overwint daarmee de kwetsbaarheid van handmatig gemaakte benchmarks. Het onthult ook veelvoorkomende faalpatronen en redenen, wat belangrijke inzichten biedt om hallucinaties te detecteren, te vermijden of te beheersen. Uitgebreide evaluaties van toonaangevende LVLMs, zoals GPT-4V(ision), Gemini Pro Vision, Claude 3 en LLaVA-1.5, tonen een succespercentage van 97,7% en 98,7% voor het induceren van hallucinaties op synthetische en real-world datasets van AUTOHALLUSION, wat de weg vrijmaakt voor een langdurige strijd tegen hallucinaties.
Grafische gebruikersinterfaces (GUIs) staan centraal in onze interactie met digitale apparaten. Recentelijk zijn er steeds meer inspanningen geleverd om modellen te ontwikkelen voor diverse GUI-begriptaken. Deze inspanningen negeren echter grotendeels een belangrijke GUI-verwijzende taak: het lezen van het scherm op basis van door de gebruiker aangegeven punten, wat wij de Screen Point-and-Read (SPR)-taak noemen. Deze taak wordt voornamelijk afgehandeld door rigide toegankelijke schermleesgereedschappen, die dringend behoefte hebben aan nieuwe modellen die worden aangedreven door vooruitgang in Multimodale Grote Taalmodellen (MLLMs). In dit artikel stellen wij een Tree-of-Lens (ToL)-agent voor, die gebruikmaakt van een nieuw ToL-grondingsmechanisme, om de SPR-taak aan te pakken. Op basis van de ingevoerde puntcoördinaat en de bijbehorende GUI-schermafbeelding, construeert onze ToL-agent een Hiërarchische Lay-outboom. Op basis van deze boom begrijpt onze ToL-agent niet alleen de inhoud van het aangegeven gebied, maar verwoordt hij ook de lay-out en ruimtelijke relaties tussen elementen. Dergelijke lay-outinformatie is cruciaal voor het nauwkeurig interpreteren van informatie op het scherm, wat onze ToL-agent onderscheidt van andere schermleesgereedschappen. Wij evalueren de ToL-agent ook grondig tegenover andere basislijnen op een nieuw voorgestelde SPR-benchmark, die GUIs omvat van mobiele, web- en besturingssystemen. Last but not least testen wij de ToL-agent op mobiele GUI-navigatietaken, waarbij het nut ervan wordt aangetoond bij het identificeren van onjuiste acties langs het pad van agentuitvoeringstrajecten. Code en data: screen-point-and-read.github.io
Retrieval-augmented generation (RAG) heeft zijn effectiviteit aangetoond bij het verminderen van het hallucinatieprobleem van grote taalmodellen (LLM's). De uitdaging om de retriever af te stemmen op de diverse kennisvoorkeuren van LLM's vormt echter onvermijdelijk een obstakel bij de ontwikkeling van een betrouwbaar RAG-systeem. Om dit probleem aan te pakken, stellen we DPA-RAG voor, een universeel raamwerk ontworpen om diverse kennisvoorkeuren binnen RAG-systemen af te stemmen. Specifiek introduceren we eerst een pijplijn voor het construeren van voorkeurskennis en integreren we vijf nieuwe query-augmentatiestrategieën om het tekort aan voorkeursdata te verlichten. Op basis van voorkeursdata realiseert DPA-RAG zowel externe als interne voorkeursafstemming: 1) Het integreert gezamenlijk pair-wise, point-wise en contrastieve voorkeursafstemmingsmogelijkheden in de reranker, waardoor externe voorkeursafstemming tussen RAG-componenten wordt bereikt. 2) Het introduceert verder een vooraf afgestemd stadium vóór de standaard Supervised Fine-tuning (SFT), waardoor LLM's impliciet kennis kunnen vastleggen die aansluit bij hun redeneervoorkeuren, wat resulteert in interne afstemming van LLM's. Experimentele resultaten op vier kennisintensieve QA-datasets tonen aan dat DPA-RAG alle baseline-methoden overtreft en naadloos zowel black-box als open-source LLM-lezers integreert. Verdere kwalitatieve analyses en discussies bieden ook empirische richtlijnen voor het realiseren van betrouwbare RAG-systemen. Onze code is openbaar beschikbaar op https://github.com/dongguanting/DPA-RAG.
Gemotiveerd door de toenemende prevalentie van code-switching tussen Egyptisch Arabisch en Engels in recente tijden, onderzoekt dit artikel de complexiteiten van machinevertaling (MT) en automatische spraakherkenning (ASR) systemen, met een focus op het vertalen van code-switched Egyptisch Arabisch-Engels naar ofwel Engels of Egyptisch Arabisch. Ons doel is om de methodologieën te presenteren die worden gebruikt bij de ontwikkeling van deze systemen, waarbij gebruik wordt gemaakt van grote taalmodelen zoals LLama en Gemma. Op het gebied van ASR onderzoeken we het gebruik van het Whisper-model voor de herkenning van code-switched Egyptisch Arabisch, waarbij we onze experimentele procedures, inclusief gegevensvoorbewerking en trainingstechnieken, gedetailleerd beschrijven. Door de implementatie van een opeenvolgend spraak-naar-tekst vertaalsysteem dat ASR integreert met MT, streven we ernaar om uitdagingen te overwinnen die worden veroorzaakt door beperkte middelen en de unieke kenmerken van het Egyptisch Arabische dialect. Evaluatie tegen gevestigde metrieken toont veelbelovende resultaten, waarbij onze methodologieën een significante verbetering van 56% in Engelse vertaling en 9,3% in Arabische vertaling laten zien ten opzichte van de state-of-the-art. Aangezien code-switching diep verankerd is in gesproken talen, is het cruciaal dat ASR-systemen dit fenomeen effectief kunnen verwerken. Deze capaciteit is essentieel voor het mogelijk maken van naadloze interactie in verschillende domeinen, waaronder zakelijke onderhandelingen, culturele uitwisselingen en academische discussies. Onze modellen en code zijn beschikbaar als open-source bronnen. Code: http://github.com/ahmedheakl/arazn-llm, Modellen: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
De toenemende afhankelijkheid van online wervingsplatforms, in combinatie met de adoptie van AI-technologieën, heeft de cruciale behoefte aan efficiënte methoden voor cv-classificatie benadrukt. Uitdagingen zoals kleine datasets, het ontbreken van gestandaardiseerde cv-sjablonen en privacyzorgen belemmeren echter de nauwkeurigheid en effectiviteit van bestaande classificatiemodellen. In dit werk gaan we deze uitdagingen aan door een uitgebreide aanpak voor cv-classificatie te presenteren. We hebben een grootschalige dataset van 13.389 cv's uit diverse bronnen samengesteld en Large Language Models (LLMs) zoals BERT en Gemma1.1 2B ingezet voor classificatie. Onze resultaten tonen aanzienlijke verbeteringen ten opzichte van traditionele machine learning-benaderingen, waarbij ons beste model een top-1 nauwkeurigheid van 92\% en een top-5 nauwkeurigheid van 97,5\% behaalt. Deze bevindingen onderstrepen het belang van datasetkwaliteit en geavanceerde modelarchitecturen bij het verbeteren van de nauwkeurigheid en robuustheid van cv-classificatiesystemen, waardoor het vakgebied van online wervingspraktijken wordt bevorderd.
Hoewel talrijke studies de generatieve prestaties van taalmodelen (LMs) hebben beoordeeld op taken die Theory of Mind-redenering vereisen, blijft onderzoek naar de interne representatie van mentale toestanden door deze modellen beperkt. Recent werk heeft gebruik gemaakt van probing om aan te tonen dat LMs overtuigingen van zichzelf en anderen kunnen representeren. Deze beweringen gaan echter gepaard met beperkte evaluatie, waardoor het moeilijk is om te beoordelen hoe representaties van mentale toestanden worden beïnvloed door modelontwerp en trainingskeuzes. Wij presenteren een uitgebreide benchmark met verschillende LM-types met verschillende modelgroottes, fine-tuning benaderingen en promptontwerpen om de robuustheid van mentale toestandenrepresentaties en memorisatieproblemen binnen de probes te bestuderen. Onze resultaten tonen aan dat de kwaliteit van de interne representaties van de overtuigingen van anderen door modellen toeneemt met de modelgrootte en, nog crucialer, met fine-tuning. Wij zijn de eersten die bestuderen hoe promptvariaties de prestaties van probing op Theory of Mind-taken beïnvloeden. We demonstreren dat de representaties van modellen gevoelig zijn voor promptvariaties, zelfs wanneer dergelijke variaties gunstig zouden moeten zijn. Ten slotte vullen we eerdere experimenten met activatiebewerking op Theory of Mind-taken aan en tonen we aan dat het mogelijk is om de redeneerprestaties van modellen te verbeteren door hun activaties te sturen zonder dat er een probe getraind hoeft te worden.