Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multimodale Large Language Models (MLLMs) hebben aanzienlijke belofte getoond in diverse toepassingen, wat heeft geleid tot brede interesse van zowel onderzoekers als praktijkmensen. Een uitgebreide evaluatie van hun lang-contextcapaciteiten blijft echter onderbelicht. Om deze lacunes aan te pakken, introduceren we de MultiModal Needle-in-a-haystack (MMNeedle) benchmark, die specifiek is ontworpen om de lang-contextcapaciteiten van MLLMs te beoordelen. Naast multi-image input gebruiken we image stitching om de input-contextlengte verder te vergroten, en ontwikkelen we een protocol om automatisch labels te genereren voor sub-image level retrieval. In essentie evalueert MMNeedle MLLMs door hun vermogen te testen om een doel-sub-image (naald) te lokaliseren binnen een set van afbeeldingen (hooiberg) op basis van tekstuele instructies en beschrijvingen van afbeeldingsinhoud. Deze opzet vereist een geavanceerd begrip van uitgebreide visuele contexten en effectieve informatie-retrieval binnen lang-context afbeeldingsinputs. Met deze benchmark evalueren we state-of-the-art MLLMs, zowel API-gebaseerde als open-source modellen. De bevindingen tonen aan dat GPT-4o consistent beter presteert dan andere modellen in lang-contextscenario's, maar last heeft van hallucinatieproblemen in negatieve samples, d.w.z. wanneer de naalden niet in de hooibergen zitten. Onze uitgebreide lang-contextevaluatie van MLLMs werpt ook licht op de aanzienlijke prestatiekloof tussen API-gebaseerde en open-source modellen. Alle code, data en instructies die nodig zijn om de belangrijkste resultaten te reproduceren, zijn beschikbaar op https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
Tegenwoordig ontwikkelen de vakgebieden van code- en natuurlijke taalverwerking zich snel. Met name worden modellen steeds beter in het verwerken van lange contextvensters - de ondersteunde contextgroottes zijn de afgelopen jaren met ordes van grootte toegenomen. Er is echter een tekort aan benchmarks voor codeverwerking die verder gaan dan een enkel bestand als context, terwijl de meest populaire benchmarks beperkt blijven tot een enkele methode. Met dit werk willen we deze kloof dichten door Long Code Arena te introduceren, een suite van zes benchmarks voor codeverwerkingstaken die projectbrede context vereisen. Deze taken beslaan verschillende aspecten van codeverwerking: bibliotheekgebaseerde codegeneratie, CI-builds repareren, projectniveau codecompletering, commit-berichtgeneratie, buglokalisatie en modulesamenvatting. Voor elke taak bieden we een handmatig geverifieerde dataset voor testen, een evaluatiesuite en open-source basislijnoplossingen gebaseerd op populaire LLM's om het gebruik van de dataset te demonstreren en de adoptie door andere onderzoekers te vergemakkelijken. We publiceren de benchmarkpagina op HuggingFace Spaces met een leaderboard, links naar de HuggingFace Hub voor alle datasets en een link naar de GitHub-repository met de basislijnen: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
We presenteren Self-MoE, een benadering die een monolitisch LLM omvormt tot een compositioneel, modulair systeem van zelfgespecialiseerde experts, genaamd MiXSE (MiXture of Self-specialized Experts). Onze aanpak maakt gebruik van zelfspecialisatie, waarbij expertmodules worden geconstrueerd met behulp van zelfgegenereerde synthetische data, elk uitgerust met een gedeelde basis-LLM en voorzien van zelfgeoptimaliseerde routering. Hierdoor wordt dynamische en capaciteitsspecifieke verwerking van verschillende doeltaken mogelijk, wat de algehele capaciteiten verbetert, zonder uitgebreide door mensen gelabelde data en extra parameters. Onze empirische resultaten laten zien dat het specialiseren van LLM's potentiële afwegingen kan vertonen in prestaties op niet-gespecialiseerde taken. Aan de andere kant toont onze Self-MoE aanzienlijke verbeteringen ten opzichte van de basis-LLM over diverse benchmarks zoals kennis, redeneren, wiskunde en codering. Het presteert ook consistent beter dan andere methoden, waaronder instance merging en weight merging, terwijl het betere flexibiliteit en interpreteerbaarheid biedt door ontwerp met semantische experts en routering. Onze bevindingen benadrukken de cruciale rol van modulariteit en het potentieel van zelfverbetering in het bereiken van efficiënte, schaalbare en aanpasbare systemen.
Vision transformers (ViTs) zijn uitgegroeid tot een belangrijk aandachtsgebied, met name vanwege hun vermogen om gezamenlijk getraind te worden met grote taalmodellen en om te dienen als robuuste visuele basismodellen. Toch blijft de ontwikkeling van betrouwbare verklaringsmethoden voor ViTs achter, vooral in de context van post-hoc interpretaties van ViT-voorspellingen. Bestaande benaderingen voor subbeeldselectie, zoals feature-attributie en conceptuele modellen, schieten hierin tekort. Dit artikel stelt vijf desiderata voor het verklaren van ViTs voor – trouw, stabiliteit, spaarzaamheid, meerlagige structuur en parsimonie – en toont aan dat huidige methoden niet voldoen aan deze criteria in hun geheel. We introduceren een variational Bayesian verklaringsframework, genaamd ProbAbilistic Concept Explainers (PACE), dat de verdelingen van patchembeddings modelleert om betrouwbare post-hoc conceptuele verklaringen te bieden. Onze kwalitatieve analyse onthult de verdelingen van patch-niveau concepten, wat de effectiviteit van ViTs verduidelijkt door de gezamenlijke verdeling van patchembeddings en ViT-voorspellingen te modelleren. Bovendien overbruggen deze patch-niveau verklaringen de kloof tussen beeldniveau en datasetniveau verklaringen, waardoor de meerlagige structuur van PACE wordt voltooid. Door uitgebreide experimenten op zowel synthetische als real-world datasets, tonen we aan dat PACE state-of-the-art methoden overtreft in termen van de gedefinieerde desiderata.
De integratie van vooraf getrainde taalmodelen (PLMs) zoals BERT en GPT heeft een revolutie teweeggebracht in NLP, met name voor het Engels, maar heeft ook linguïstische ongelijkheden gecreëerd. Dit artikel identificeert strategisch de noodzaak voor linguïstische gelijkheid door verschillende kennisbewerkingstechnieken in meertalige contexten te onderzoeken. We evalueren de prestaties van modellen zoals Mistral, TowerInstruct, OpenHathi, Tamil-Llama en Kan-Llama in talen waaronder Engels, Duits, Frans, Italiaans, Spaans, Hindi, Tamil en Kannada. Ons onderzoek identificeert significante discrepanties in normale en samengevoegde modellen met betrekking tot cross-linguïstische consistentie. We gebruiken strategieën zoals 'elke taal voor zichzelf' (ELFI) en 'elke taal voor anderen' (ELFO) om deze modellen stresstests te laten ondergaan. Onze bevindingen tonen het potentieel aan van LLMs om linguïstische barrières te overwinnen, en leggen de basis voor toekomstig onderzoek naar het bereiken van linguïstische inclusiviteit in AI-technologieën.
Zelfgesuperviseerde spraakmodellen (SSL) worden tegenwoordig veelvuldig ingezet voor diverse downstream spraakverwerkingstaken. Het gebruikelijke patroon is om SSL-modellen als feature extractors te gebruiken en vervolgens een downstream voorspellingskop te trainen om een specifieke taak op te lossen. Echter, is aangetoond dat verschillende lagen van SSL-modellen verschillende soorten informatie vastleggen, en de methoden om deze te combineren zijn nog niet goed onderzocht. Om deze reden breiden we het algemene raamwerk voor het gebruik van SSL-modellen uit door een interface voor te stellen die de upstream en downstream met elkaar verbindt. Vanuit dit perspectief kan de dominante techniek van het combineren van features via een gewogen som per laag worden gezien als een specifieke interface. We stellen verschillende alternatieve interface-ontwerpen voor en tonen aan dat de gewogen som interface voor veel taken suboptimaal is. In het bijzonder laten we zien dat een convolutionele interface waarvan de diepte logaritmisch schaalt met de diepte van het upstream model consistent beter presteert dan veel andere interface-ontwerpen.
Reinforcement learning met menselijke feedback (RLHF) is de dominante methode geworden om grote modellen af te stemmen op gebruikersvoorkeuren. In tegenstelling tot fine-tuning, waarover veel studies bestaan met betrekking tot het onthouden van trainingsdata, is het niet duidelijk hoe het onthouden van data wordt beïnvloed of geïntroduceerd in het RLHF-afstemmingsproces. Het begrijpen van deze relatie is belangrijk omdat echte gebruikersdata kan worden verzameld en gebruikt om grote modellen af te stemmen; als gebruikersdata tijdens RLHF wordt onthouden en later wordt herhaald, kan dit privacyzorgen oproepen. In dit werk analyseren we hoe het onthouden van trainingsdata kan ontstaan en zich kan verspreiden door elke fase van RLHF. We richten ons onderzoek op code-completiemodellen, aangezien code-completie een van de meest populaire toepassingen is voor grote taalmodellen. We ontdekken dat RLHF de kans dat data die wordt gebruikt voor beloningsmodellering en reinforcement learning wordt onthouden, aanzienlijk verkleint in vergelijking met afstemmen via directe fine-tuning op deze data, maar dat voorbeelden die al tijdens de fine-tuningfase van RLHF zijn onthouden, in de meeste gevallen ook na RLHF onthouden blijven.
De taak van het "afleren" van bepaalde concepten in grote taalmodellen (LLMs) heeft recentelijk veel aandacht getrokken vanwege het belang ervan voor het verminderen van ongewenst modelgedrag, zoals het genereren van schadelijke, privé- of incorrecte informatie. Huidige protocollen om aflermethoden te evalueren, zijn grotendeels gebaseerd op gedragstests, zonder het monitoren van de aanwezigheid van afgeleerde kennis binnen de parameters van het model. Deze resterende kennis kan op een adversariale manier worden uitgebuit om de gewiste informatie na het afleren te herstellen. Wij stellen dat afleren ook intern moet worden geëvalueerd, door veranderingen in de parametrische kennissporen van de afgeleerde concepten te beschouwen. Hiertoe stellen we een algemene methodologie voor om richtingen in de parameterruimte (genaamd "conceptvectoren") die concrete concepten coderen, te ontlokken, en construeren we ConceptVectors, een benchmarkdataset die honderden veelvoorkomende concepten en hun parametrische kennissporen binnen twee open-source LLMs bevat. Evaluatie op ConceptVectors toont aan dat bestaande aflermethoden minimale impact hebben op conceptvectoren, terwijl het direct verwijderen van deze vectoren aantoonbaar de bijbehorende kennis uit de LLMs verwijdert en hun gevoeligheid voor adversariale manipulatie aanzienlijk vermindert. Onze resultaten benadrukken de beperkingen van gedragsgebaseerde aflerevaluaties en roepen op tot toekomstig werk om parametrisch-gebaseerde evaluaties te omvatten. Om dit te ondersteunen, hebben we onze code en benchmark vrijgegeven op https://github.com/yihuaihong/ConceptVectors.