HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

8 papers found

Multimodale speld in een hooiberg: Het benchmarken van lang-contextuele capaciteiten van multimodale grote taalmodellen
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Jun 17

ByHengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang

Multimodale Large Language Models (MLLMs) hebben aanzienlijke belofte getoond in diverse toepassingen, wat heeft geleid tot brede interesse van zowel onderzoekers als praktijkmensen. Een uitgebreide evaluatie van hun lang-contextcapaciteiten blijft echter onderbelicht. Om deze lacunes aan te pakken, introduceren we de MultiModal Needle-in-a-haystack (MMNeedle) benchmark, die specifiek is ontworpen om de lang-contextcapaciteiten van MLLMs te beoordelen. Naast multi-image input gebruiken we image stitching om de input-contextlengte verder te vergroten, en ontwikkelen we een protocol om automatisch labels te genereren voor sub-image level retrieval. In essentie evalueert MMNeedle MLLMs door hun vermogen te testen om een doel-sub-image (naald) te lokaliseren binnen een set van afbeeldingen (hooiberg) op basis van tekstuele instructies en beschrijvingen van afbeeldingsinhoud. Deze opzet vereist een geavanceerd begrip van uitgebreide visuele contexten en effectieve informatie-retrieval binnen lang-context afbeeldingsinputs. Met deze benchmark evalueren we state-of-the-art MLLMs, zowel API-gebaseerde als open-source modellen. De bevindingen tonen aan dat GPT-4o consistent beter presteert dan andere modellen in lang-contextscenario's, maar last heeft van hallucinatieproblemen in negatieve samples, d.w.z. wanneer de naalden niet in de hooibergen zitten. Onze uitgebreide lang-contextevaluatie van MLLMs werpt ook licht op de aanzienlijke prestatiekloof tussen API-gebaseerde en open-source modellen. Alle code, data en instructies die nodig zijn om de belangrijkste resultaten te reproduceren, zijn beschikbaar op https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.

Long Code Arena: een reeks benchmarks voor code-modellen met lange context
Long Code Arena: a Set of Benchmarks for Long-Context Code Models

Jun 17

ByEgor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin

Tegenwoordig ontwikkelen de vakgebieden van code- en natuurlijke taalverwerking zich snel. Met name worden modellen steeds beter in het verwerken van lange contextvensters - de ondersteunde contextgroottes zijn de afgelopen jaren met ordes van grootte toegenomen. Er is echter een tekort aan benchmarks voor codeverwerking die verder gaan dan een enkel bestand als context, terwijl de meest populaire benchmarks beperkt blijven tot een enkele methode. Met dit werk willen we deze kloof dichten door Long Code Arena te introduceren, een suite van zes benchmarks voor codeverwerkingstaken die projectbrede context vereisen. Deze taken beslaan verschillende aspecten van codeverwerking: bibliotheekgebaseerde codegeneratie, CI-builds repareren, projectniveau codecompletering, commit-berichtgeneratie, buglokalisatie en modulesamenvatting. Voor elke taak bieden we een handmatig geverifieerde dataset voor testen, een evaluatiesuite en open-source basislijnoplossingen gebaseerd op populaire LLM's om het gebruik van de dataset te demonstreren en de adoptie door andere onderzoekers te vergemakkelijken. We publiceren de benchmarkpagina op HuggingFace Spaces met een leaderboard, links naar de HuggingFace Hub voor alle datasets en een link naar de GitHub-repository met de basislijnen: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.

Self-MoE: Op weg naar compositorische grote taalmodellen met zelfgespecialiseerde experts
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

Jun 17

ByJunmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter

We presenteren Self-MoE, een benadering die een monolitisch LLM omvormt tot een compositioneel, modulair systeem van zelfgespecialiseerde experts, genaamd MiXSE (MiXture of Self-specialized Experts). Onze aanpak maakt gebruik van zelfspecialisatie, waarbij expertmodules worden geconstrueerd met behulp van zelfgegenereerde synthetische data, elk uitgerust met een gedeelde basis-LLM en voorzien van zelfgeoptimaliseerde routering. Hierdoor wordt dynamische en capaciteitsspecifieke verwerking van verschillende doeltaken mogelijk, wat de algehele capaciteiten verbetert, zonder uitgebreide door mensen gelabelde data en extra parameters. Onze empirische resultaten laten zien dat het specialiseren van LLM's potentiële afwegingen kan vertonen in prestaties op niet-gespecialiseerde taken. Aan de andere kant toont onze Self-MoE aanzienlijke verbeteringen ten opzichte van de basis-LLM over diverse benchmarks zoals kennis, redeneren, wiskunde en codering. Het presteert ook consistent beter dan andere methoden, waaronder instance merging en weight merging, terwijl het betere flexibiliteit en interpreteerbaarheid biedt door ontwerp met semantische experts en routering. Onze bevindingen benadrukken de cruciale rol van modulariteit en het potentieel van zelfverbetering in het bereiken van efficiënte, schaalbare en aanpasbare systemen.

Probabilistische Conceptuele Uitleggers: Betrouwbare Conceptuele Verklaringen voor Visuele Fundamentmodellen
Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

Jun 18

ByHengyi Wang, Shiwei Tan, Hao Wang

Vision transformers (ViTs) zijn uitgegroeid tot een belangrijk aandachtsgebied, met name vanwege hun vermogen om gezamenlijk getraind te worden met grote taalmodellen en om te dienen als robuuste visuele basismodellen. Toch blijft de ontwikkeling van betrouwbare verklaringsmethoden voor ViTs achter, vooral in de context van post-hoc interpretaties van ViT-voorspellingen. Bestaande benaderingen voor subbeeldselectie, zoals feature-attributie en conceptuele modellen, schieten hierin tekort. Dit artikel stelt vijf desiderata voor het verklaren van ViTs voor – trouw, stabiliteit, spaarzaamheid, meerlagige structuur en parsimonie – en toont aan dat huidige methoden niet voldoen aan deze criteria in hun geheel. We introduceren een variational Bayesian verklaringsframework, genaamd ProbAbilistic Concept Explainers (PACE), dat de verdelingen van patchembeddings modelleert om betrouwbare post-hoc conceptuele verklaringen te bieden. Onze kwalitatieve analyse onthult de verdelingen van patch-niveau concepten, wat de effectiviteit van ViTs verduidelijkt door de gezamenlijke verdeling van patchembeddings en ViT-voorspellingen te modelleren. Bovendien overbruggen deze patch-niveau verklaringen de kloof tussen beeldniveau en datasetniveau verklaringen, waardoor de meerlagige structuur van PACE wordt voltooid. Door uitgebreide experimenten op zowel synthetische als real-world datasets, tonen we aan dat PACE state-of-the-art methoden overtreft in termen van de gedefinieerde desiderata.

Grenzen doorbreken: Onderzoek naar de effecten van modelbewerking op cross-linguïstische prestaties
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance

Jun 17

BySomnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee

De integratie van vooraf getrainde taalmodelen (PLMs) zoals BERT en GPT heeft een revolutie teweeggebracht in NLP, met name voor het Engels, maar heeft ook linguïstische ongelijkheden gecreëerd. Dit artikel identificeert strategisch de noodzaak voor linguïstische gelijkheid door verschillende kennisbewerkingstechnieken in meertalige contexten te onderzoeken. We evalueren de prestaties van modellen zoals Mistral, TowerInstruct, OpenHathi, Tamil-Llama en Kan-Llama in talen waaronder Engels, Duits, Frans, Italiaans, Spaans, Hindi, Tamil en Kannada. Ons onderzoek identificeert significante discrepanties in normale en samengevoegde modellen met betrekking tot cross-linguïstische consistentie. We gebruiken strategieën zoals 'elke taal voor zichzelf' (ELFI) en 'elke taal voor anderen' (ELFO) om deze modellen stresstests te laten ondergaan. Onze bevindingen tonen het potentieel aan van LLMs om linguïstische barrières te overwinnen, en leggen de basis voor toekomstig onderzoek naar het bereiken van linguïstische inclusiviteit in AI-technologieën.

Interface-ontwerp voor zelfgesuperviseerde spraakmodellen
Interface Design for Self-Supervised Speech Models

Jun 18

ByYi-Jen Shih, David Harwath

Zelfgesuperviseerde spraakmodellen (SSL) worden tegenwoordig veelvuldig ingezet voor diverse downstream spraakverwerkingstaken. Het gebruikelijke patroon is om SSL-modellen als feature extractors te gebruiken en vervolgens een downstream voorspellingskop te trainen om een specifieke taak op te lossen. Echter, is aangetoond dat verschillende lagen van SSL-modellen verschillende soorten informatie vastleggen, en de methoden om deze te combineren zijn nog niet goed onderzocht. Om deze reden breiden we het algemene raamwerk voor het gebruik van SSL-modellen uit door een interface voor te stellen die de upstream en downstream met elkaar verbindt. Vanuit dit perspectief kan de dominante techniek van het combineren van features via een gewogen som per laag worden gezien als een specifieke interface. We stellen verschillende alternatieve interface-ontwerpen voor en tonen aan dat de gewogen som interface voor veel taken suboptimaal is. In het bijzonder laten we zien dat een convolutionele interface waarvan de diepte logaritmisch schaalt met de diepte van het upstream model consistent beter presteert dan veel andere interface-ontwerpen.

Het meten van memorisatie in RLHF voor code-completie
Measuring memorization in RLHF for code completion

Jun 17

ByAneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes

Reinforcement learning met menselijke feedback (RLHF) is de dominante methode geworden om grote modellen af te stemmen op gebruikersvoorkeuren. In tegenstelling tot fine-tuning, waarover veel studies bestaan met betrekking tot het onthouden van trainingsdata, is het niet duidelijk hoe het onthouden van data wordt beïnvloed of geïntroduceerd in het RLHF-afstemmingsproces. Het begrijpen van deze relatie is belangrijk omdat echte gebruikersdata kan worden verzameld en gebruikt om grote modellen af te stemmen; als gebruikersdata tijdens RLHF wordt onthouden en later wordt herhaald, kan dit privacyzorgen oproepen. In dit werk analyseren we hoe het onthouden van trainingsdata kan ontstaan en zich kan verspreiden door elke fase van RLHF. We richten ons onderzoek op code-completiemodellen, aangezien code-completie een van de meest populaire toepassingen is voor grote taalmodellen. We ontdekken dat RLHF de kans dat data die wordt gebruikt voor beloningsmodellering en reinforcement learning wordt onthouden, aanzienlijk verkleint in vergelijking met afstemmen via directe fine-tuning op deze data, maar dat voorbeelden die al tijdens de fine-tuningfase van RLHF zijn onthouden, in de meeste gevallen ook na RLHF onthouden blijven.

Intrinsieke evaluatie van vergeten met behulp van parametrische kennissporen
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

Jun 17

ByYihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva

De taak van het "afleren" van bepaalde concepten in grote taalmodellen (LLMs) heeft recentelijk veel aandacht getrokken vanwege het belang ervan voor het verminderen van ongewenst modelgedrag, zoals het genereren van schadelijke, privé- of incorrecte informatie. Huidige protocollen om aflermethoden te evalueren, zijn grotendeels gebaseerd op gedragstests, zonder het monitoren van de aanwezigheid van afgeleerde kennis binnen de parameters van het model. Deze resterende kennis kan op een adversariale manier worden uitgebuit om de gewiste informatie na het afleren te herstellen. Wij stellen dat afleren ook intern moet worden geëvalueerd, door veranderingen in de parametrische kennissporen van de afgeleerde concepten te beschouwen. Hiertoe stellen we een algemene methodologie voor om richtingen in de parameterruimte (genaamd "conceptvectoren") die concrete concepten coderen, te ontlokken, en construeren we ConceptVectors, een benchmarkdataset die honderden veelvoorkomende concepten en hun parametrische kennissporen binnen twee open-source LLMs bevat. Evaluatie op ConceptVectors toont aan dat bestaande aflermethoden minimale impact hebben op conceptvectoren, terwijl het direct verwijderen van deze vectoren aantoonbaar de bijbehorende kennis uit de LLMs verwijdert en hun gevoeligheid voor adversariale manipulatie aanzienlijk vermindert. Onze resultaten benadrukken de beperkingen van gedragsgebaseerde aflerevaluaties en roepen op tot toekomstig werk om parametrisch-gebaseerde evaluaties te omvatten. Om dit te ondersteunen, hebben we onze code en benchmark vrijgegeven op https://github.com/yihuaihong/ConceptVectors.

Multimodale speld in een hooiberg: Het benchmarken van lang-contextuele capaciteiten van multimodale grote taalmodellen
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Jun 17

ByHengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang