HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

14 papers found

Adam-mini: Gebruik Minder Leersnelheden Om Meer Te Bereiken
Adam-mini: Use Fewer Learning Rates To Gain More

Jun 24

ByYushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun

Wij stellen Adam-mini voor, een optimalisator die vergelijkbare of betere prestaties levert dan AdamW met 45% tot 50% minder geheugengebruik. Adam-mini vermindert het geheugengebruik door de leersnelheidsbronnen in Adam (d.w.z. 1/v) te beperken. Wij ontdekken dat ≥ 90% van deze leersnelheden in v zonder problemen kunnen worden verwijderd als we (1) de parameters zorgvuldig verdelen in blokken volgens ons voorgestelde principe over de Hessiaanse structuur; (2) een enkele maar goede leersnelheid toewijzen aan elk parameterblok. Wij ontdekken verder dat er voor elk van deze parameterblokken een enkele hoogwaardige leersnelheid bestaat die Adam kan overtreffen, mits er voldoende middelen beschikbaar zijn om deze te vinden. Wij bieden vervolgens een kosteneffectieve manier aan om goede leersnelheden te vinden en stellen Adam-mini voor. Empirisch verifiëren wij dat Adam-mini vergelijkbare of betere prestaties levert dan AdamW op verschillende taalmodelgroottes van 125M tot 7B voor voorafgaande training, gesuperviseerde fine-tuning en RLHF. Het verminderde geheugengebruik van Adam-mini verlicht ook de communicatieoverhead tussen GPU's en CPU's, waardoor de doorvoer wordt verhoogd. Zo bereikt Adam-mini bijvoorbeeld 49,6% hogere doorvoer dan AdamW bij het vooraf trainen van Llama2-7B op 2× A800-80GB GPU's, wat 33% wandkloktijd bespaart voor de voorafgaande training.

Octo-planner: Taalmodel op het apparaat voor planner-actie-agenten
Octo-planner: On-device Language Model for Planner-Action Agents

Jun 26

ByWei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen

AI-agents zijn steeds belangrijker geworden in verschillende domeinen, omdat ze autonome besluitvorming en probleemoplossing mogelijk maken. Om effectief te functioneren, hebben deze agents een planningsproces nodig dat de beste handelingswijze bepaalt en vervolgens de geplande acties uitvoert. In dit artikel presenteren we een efficiënt on-device Planner-Action-framework dat planning en actie-uitvoering scheidt in twee afzonderlijke componenten: een planner-agent gebaseerd op Phi-3 Mini, een LLM met 3,8 miljard parameters die is geoptimaliseerd voor edge devices, en een actie-agent die het Octopus-model gebruikt voor functie-uitvoering. De planner-agent reageert eerst op gebruikersvragen door taken op te splitsen in een reeks substappen, die vervolgens worden uitgevoerd door de actie-agent. Om de prestaties op apparaten met beperkte bronnen te optimaliseren, gebruiken we model fine-tuning in plaats van in-context learning, wat de rekenkosten en het energieverbruik vermindert en tegelijkertijd de responstijden verbetert. Onze aanpak omvat het gebruik van GPT-4 om diverse planningsvragen en -antwoorden te genereren op basis van beschikbare functies, met daaropvolgende validaties om de datakwaliteit te waarborgen. We fine-tunen het Phi-3 Mini-model op deze gecureerde dataset, wat resulteert in een slagingspercentage van 97% in onze in-domein testomgeving. Om uitdagingen op het gebied van multi-domeinplanning aan te pakken, hebben we een multi-LoRA-trainingsmethode ontwikkeld die gewichten samenvoegt van LoRA's die zijn getraind op verschillende functiesubsets. Deze aanpak maakt flexibele verwerking van complexe, multi-domein vragen mogelijk, terwijl de rekenkundige efficiëntie op apparaten met beperkte bronnen behouden blijft. Om verder onderzoek te ondersteunen, hebben we onze modelgewichten openbaar gemaakt op https://huggingface.co/NexaAIDev/octopus-planning. Voor de demo kunt u terecht op https://www.nexa4ai.com/octo-planner.

CharXiv: Het in kaart brengen van tekortkomingen in realistisch diagrambegrip in multimodale LLM's
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

Jun 26

ByZirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen

Het begrijpen van grafieken speelt een cruciale rol bij het toepassen van Multimodale Grote Taalmodellen (MLLMs) op real-world taken, zoals het analyseren van wetenschappelijke artikelen of financiële rapporten. Bestaande datasets richten zich echter vaak op te vereenvoudigde en homogene grafieken met op sjablonen gebaseerde vragen, wat leidt tot een overdreven optimistische meting van vooruitgang. We tonen aan dat hoewel open-source modellen op deze benchmarks sterker lijken te presteren dan krachtige propriëtaire modellen, een eenvoudige stresstest met iets andere grafieken of vragen de prestaties met wel 34,5% kan doen verslechteren. In dit werk stellen we CharXiv voor, een uitgebreide evaluatiesuite met 2.323 natuurlijke, uitdagende en diverse grafieken uit arXiv-artikelen. CharXiv omvat twee soorten vragen: 1) beschrijvende vragen over het onderzoeken van basiselementen in grafieken en 2) redeneervragen die het synthetiseren van informatie over complexe visuele elementen in de grafiek vereisen. Om de kwaliteit te waarborgen, zijn alle grafieken en vragen handmatig geselecteerd, samengesteld en geverifieerd door menselijke experts. Onze resultaten onthullen een aanzienlijke, voorheen onderschatte kloof tussen de redeneervaardigheden van het sterkste propriëtaire model (d.w.z. GPT-4o), dat een nauwkeurigheid van 47,1% behaalt, en het sterkste open-source model (d.w.z. InternVL Chat V1.5), dat een nauwkeurigheid van 29,2% behaalt. Alle modellen blijven ver achter bij de menselijke prestaties van 80,5%, wat de zwaktes in het grafiekbegrip van bestaande MLLMs benadrukt. We hopen dat CharXiv toekomstig onderzoek naar grafiekbegrip in MLLMs vergemakkelijkt door een realistischer en betrouwbaarder meetinstrument voor vooruitgang te bieden. Projectpagina en leaderboard: https://charxiv.github.io/

ChronoMagic-Bench: Een Benchmark voor Metamorfe Evaluatie van Tekst-naar-Time-lapse-Videogeneratie
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

Jun 26

ByShenghai Yuan, Jinfa Huang, Yongqi Xu, Yaoyang Liu, Shaofeng Zhang, Yujun Shi, Ruijie Zhu, Xinhua Cheng, Jiebo Luo, Li Yuan

Wij stellen een nieuwe benchmark voor tekst-naar-video (T2V) generatie voor, ChronoMagic-Bench, om de temporele en metamorfe capaciteiten van T2V-modellen (bijv. Sora en Lumiere) te evalueren in het genereren van time-lapse video's. In tegenstelling tot bestaande benchmarks die zich richten op de visuele kwaliteit en tekstuele relevantie van gegenereerde video's, richt ChronoMagic-Bench zich op het vermogen van het model om time-lapse video's te genereren met een significante metamorfe amplitude en temporele samenhang. De benchmark test T2V-modellen op hun fysica-, biologie- en scheikundecapaciteiten, via een vrije-tekstquery. Hiervoor introduceert ChronoMagic-Bench 1.649 prompts en real-world video's als referentie, ingedeeld in vier hoofdtypen time-lapse video's: biologisch, door mensen gemaakt, meteorologisch en fysische fenomenen, die verder zijn onderverdeeld in 75 subcategorieën. Deze categorisatie evalueert uitgebreid het vermogen van het model om diverse en complexe transformaties te hanteren. Om menselijke voorkeur nauwkeurig af te stemmen op de benchmark, introduceren we twee nieuwe automatische metrieken, MTScore en CHScore, om de metamorfe attributen en temporele samenhang van de video's te evalueren. MTScore meet de metamorfe amplitude, wat de mate van verandering over tijd weerspiegelt, terwijl CHScore de temporele samenhang beoordeelt, om ervoor te zorgen dat de gegenereerde video's een logische voortgang en continuïteit behouden. Op basis van de ChronoMagic-Bench voeren we uitgebreide handmatige evaluaties uit van tien representatieve T2V-modellen, waarbij hun sterke en zwakke punten worden onthuld over verschillende categorieën van prompts, en bieden we een grondig evaluatiekader dat de huidige lacunes in video-generatieonderzoek aanpakt. Bovendien creëren we een grootschalige ChronoMagic-Pro dataset, bestaande uit 460k hoogwaardige paren van 720p time-lapse video's en gedetailleerde bijschriften die zorgen voor een hoge fysieke relevantie en grote metamorfe amplitude.

Een Diepere Blik op Mixture-of-Experts in Grote Taalmodellen
A Closer Look into Mixture-of-Experts in Large Language Models

Jun 26

ByKa Man Lo, Zeyu Huang, Zihan Qiu, Zili Wang, Jie Fu

Mixture-of-experts (MoE) krijgt steeds meer aandacht vanwege zijn unieke eigenschappen en opmerkelijke prestaties, vooral voor taaltaken. Door voor elk token slechts een subset van parameters spaarzaam te activeren, kan de MoE-architectuur de modelgrootte vergroten zonder de rekenkundige efficiëntie op te offeren, waardoor een betere balans tussen prestaties en trainingskosten wordt bereikt. Het onderliggende mechanisme van MoE vereist echter nog verder onderzoek, en de mate van modularisering blijft twijfelachtig. In dit artikel doen we een eerste poging om de interne werking van op MoE gebaseerde grote taalmodellen te begrijpen. Concreet bestuderen we uitgebreid de parametrische en gedragsmatige kenmerken van drie recente op MoE gebaseerde modellen en onthullen we enkele intrigerende observaties, waaronder (1) Neuronen gedragen zich als fijnmazige experts. (2) De router van MoE selecteert meestal experts met grotere uitvoernormen. (3) De expertdiversiteit neemt toe naarmate de laag toeneemt, waarbij de laatste laag een uitzondering vormt. Op basis van deze observaties geven we ook suggesties voor een breed scala aan MoE-beoefenaars, zoals routerontwerp en experttoewijzing. We hopen dat dit werk toekomstig onderzoek naar het MoE-framework en andere modulaire architecturen kan verlichten. Code is beschikbaar op https://github.com/kamanphoebe/Look-into-MoEs.

EHRCon: Dataset voor het controleren van consistentie tussen ongestructureerde notities en gestructureerde tabellen in elektronische patiëntendossiers
EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records

Jun 24

ByYeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi

Elektronische Patiëntendossiers (EHRs) zijn essentieel voor het opslaan van uitgebreide medische dossiers van patiënten, waarbij gestructureerde gegevens (bijvoorbeeld medicatie) worden gecombineerd met gedetailleerde klinische notities (bijvoorbeeld artsennotities). Deze elementen zijn cruciaal voor eenvoudige gegevensopvraging en bieden diepgaande, contextuele inzichten in de patiëntenzorg. Ze lijden echter vaak aan discrepanties als gevolg van onintuïtieve EHR-systeemontwerpen en menselijke fouten, wat ernstige risico's voor de patiëntveiligheid met zich meebrengt. Om dit aan te pakken, hebben we EHRCon ontwikkeld, een nieuwe dataset en taak die specifiek is ontworpen om de consistentie van gegevens tussen gestructureerde tabellen en ongestructureerde notities in EHRs te waarborgen. EHRCon is in samenwerking met zorgprofessionals gemaakt met behulp van de MIMIC-III EHR-dataset, en bevat handmatige annotaties van 3.943 entiteiten in 105 klinische notities die zijn gecontroleerd op consistentie met databasevermeldingen. EHRCon heeft twee versies, één die gebruikmaakt van het originele MIMIC-III-schema, en een andere die het OMOP CDM-schema gebruikt, om de toepasbaarheid en generaliseerbaarheid te vergroten. Bovendien introduceren we, gebruikmakend van de mogelijkheden van grote taalmodellen, CheckEHR, een nieuw raamwerk voor het verifiëren van de consistentie tussen klinische notities en databasetabellen. CheckEHR maakt gebruik van een achtstappenproces en laat veelbelovende resultaten zien in zowel few-shot als zero-shot instellingen. De code is beschikbaar op https://github.com/dustn1259/EHRCon.

WildGuard: Open One-Stop Moderatiehulpmiddelen voor Veiligheidsrisico's, Jailbreaks en Weigeringen van LLM's
WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs

Jun 26

BySeungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri

We introduceren WildGuard -- een open, lichtgewicht moderatietool voor de veiligheid van LLM's die drie doelen bereikt: (1) het identificeren van kwaadaardige intenties in gebruikersprompts, (2) het detecteren van veiligheidsrisico's in modelreacties, en (3) het bepalen van de weigeringsfrequentie van het model. Samen voorziet WildGuard in de groeiende behoefte aan automatische veiligheidsmoderatie en evaluatie van LLM-interacties, en biedt het een alles-in-één tool met verbeterde nauwkeurigheid en brede dekking over 13 risicocategorieën. Hoewel bestaande open moderatietools zoals Llama-Guard2 redelijk goed scoren in het classificeren van eenvoudige modelinteracties, blijven ze ver achter bij een geprompt GPT-4, vooral in het identificeren van adversariële jailbreaks en in het evalueren van modelweigeringen, een cruciale maatstaf voor het beoordelen van veiligheidsgedrag in modelreacties. Om deze uitdagingen aan te pakken, construeren we WildGuardMix, een grootschalige en zorgvuldig gebalanceerde multi-task veiligheidsmoderatiedataset met 92K gelabelde voorbeelden die zowel standaard (directe) prompts als adversariële jailbreaks omvatten, gekoppeld aan verschillende weigerings- en nalevingsreacties. WildGuardMix is een combinatie van WildGuardTrain, de trainingsdata van WildGuard, en WildGuardTest, een hoogwaardige door mensen geannoteerde moderatietestset met 5K gelabelde items die een breed scala aan risicoscenario's bestrijken. Door uitgebreide evaluaties op WildGuardTest en tien bestaande openbare benchmarks tonen we aan dat WildGuard state-of-the-art prestaties levert in open-source veiligheidsmoderatie over alle drie de taken in vergelijking met tien sterke bestaande open-source moderatiemodellen (bijvoorbeeld tot 26,4% verbetering in weigeringsdetectie). Belangrijk is dat WildGuard de prestaties van GPT-4 evenaart en soms zelfs overtreft (bijvoorbeeld tot 3,9% verbetering in het identificeren van schadelijke prompts). WildGuard fungeert als een zeer effectieve veiligheidsmoderator in een LLM-interface, waardoor het slagingspercentage van jailbreak-aanvallen daalt van 79,8% naar 2,4%.

MatchTime: Naar Automatische Generatie van Voetbalwedstrijdcommentaar
MatchTime: Towards Automatic Soccer Game Commentary Generation

Jun 26

ByJiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie

Voetbal is een wereldwijd populaire sport met een groot publiek. In dit artikel bespreken we de constructie van een automatisch commentaarmodel voor voetbalwedstrijden om de kijkervaring van het publiek te verbeteren. Over het algemeen leveren we de volgende bijdragen: Ten eerste, door de veelvoorkomende video-tekst-misalignering in bestaande datasets te observeren, annoteren we handmatig tijdstempels voor 49 wedstrijden, waardoor een robuustere benchmark voor het genereren van voetbalcommentaar wordt gevestigd, genaamd SN-Caption-test-align; Ten tweede stellen we een multi-modale temporele aligneringspijplijn voor om de bestaande dataset automatisch te corrigeren en op grote schaal te filteren, wat resulteert in een hogere kwaliteit van de voetbalcommentaardataset voor training, aangeduid als MatchTime; Ten derde trainen we, gebaseerd op onze gecureerde dataset, een automatisch commentaargeneratiemodel genaamd MatchVoice. Uitgebreide experimenten en ablatiestudies hebben de effectiviteit van onze aligneringspijplijn aangetoond, en het trainen van het model op de gecureerde datasets levert state-of-the-art prestaties op voor commentaargeneratie, wat aantoont dat betere alignering kan leiden tot aanzienlijke prestatieverbeteringen in downstream taken.

Symbolisch leren maakt zelfontwikkelende agents mogelijk.
Symbolic Learning Enables Self-Evolving Agents

Jun 26

ByWangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang

De AI-gemeenschap heeft een pad verkend naar kunstmatige algemene intelligentie (AGI) door het ontwikkelen van "taalagenten", wat complexe pijplijnen van grote taalmodelen (LLMs) omvat die zowel promptingtechnieken als toolgebruiksmethoden integreren. Hoewel taalagenten indrukwekkende capaciteiten hebben getoond voor veel real-world taken, is een fundamentele beperking van het huidige onderzoek naar taalagenten dat het modelgericht of technisch gericht is. Dat wil zeggen, de vooruitgang op het gebied van prompts, tools en pijplijnen van taalagenten vereist aanzienlijke handmatige technische inspanningen van menselijke experts in plaats van automatisch te leren van data. Wij geloven dat de overgang van modelgericht of technisch gericht naar datagericht, d.w.z. het vermogen van taalagenten om autonoom te leren en zich te ontwikkelen in omgevingen, de sleutel is voor hen om mogelijk AGI te bereiken. In dit werk introduceren we symbolisch leren voor agenten, een systematisch raamwerk dat taalagenten in staat stelt om zichzelf op een datagerichte manier te optimaliseren met behulp van symbolische optimalisatoren. Specifiek beschouwen we agenten als symbolische netwerken waarbij leerbare gewichten worden gedefinieerd door prompts, tools en de manier waarop ze worden gestapeld. Symbolisch leren voor agenten is ontworpen om het symbolische netwerk binnen taalagenten te optimaliseren door twee fundamentele algoritmen uit connectionistisch leren na te bootsen: backpropagatie en gradient descent. In plaats van te werken met numerieke gewichten, werkt symbolisch leren voor agenten met natuurlijke taal-simulacra van gewichten, verlies en gradients. We voeren proof-of-concept experimenten uit op zowel standaard benchmarks als complexe real-world taken en tonen aan dat symbolisch leren voor agenten taalagenten in staat stelt om zichzelf bij te werken nadat ze zijn gecreëerd en ingezet in de praktijk, wat resulteert in "zelf-evoluerende agenten".

Math-LLaVA: Het Bootstrappen van Wiskundig Redeneren voor Multimodale Grote Taalmodellen
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

Jun 25

ByWenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee

Grote taalmodellen (LLMs) hebben indrukwekkende redeneervaardigheden getoond, met name bij het oplossen van tekstuele wiskundige problemen. Bestaande open-source datasets voor fine-tuning van beeldinstructies, die beperkte vraag-antwoordparen per afbeelding bevatten, benutten visuele informatie echter niet volledig om de multimodale wiskundige redeneervaardigheden van Multimodale LLMs (MLLMs) te verbeteren. Om deze kloof te overbruggen, pakken we het gebrek aan hoogwaardige, diverse multimodale wiskundige datasets aan door 40K hoogwaardige afbeeldingen met vraag-antwoordparen te verzamelen uit 24 bestaande datasets en 320K nieuwe paren te synthetiseren, waardoor de MathV360K dataset wordt gecreëerd, die zowel de breedte als de diepte van multimodale wiskundige vragen vergroot. We introduceren Math-LLaVA, een op LLaVA-1.5 gebaseerd model dat is afgestemd met MathV360K. Deze nieuwe aanpak verbetert de multimodale wiskundige redeneervaardigheden van LLaVA-1.5 aanzienlijk, met een stijging van 19 punten en vergelijkbare prestaties als GPT-4V op de minitest-splitsing van MathVista. Bovendien toont Math-LLaVA een verbeterde generaliseerbaarheid, met aanzienlijke verbeteringen op de MMMU-benchmark. Ons onderzoek benadrukt het belang van datasetdiversiteit en -synthese bij het bevorderen van de wiskundige redeneervaardigheden van MLLMs. De code en data zijn beschikbaar op: https://github.com/HZQ950419/Math-LLaVA.

Begrijpen en Diagnosticeren van Deep Reinforcement Learning
Understanding and Diagnosing Deep Reinforcement Learning

Jun 23

ByEzgi Korkmaz

Diepe neurale beleidsregels zijn recentelijk geïmplementeerd in een breed scala aan omgevingen, van biotechnologie tot geautomatiseerde financiële systemen. Het gebruik van diepe neurale netwerken om de waardefunctie te benaderen, leidt echter tot zorgen over de stabiliteit van de beslissingsgrens, met name met betrekking tot de gevoeligheid van beleidsbeslissingen voor onmerkbare, niet-robuste kenmerken als gevolg van sterk niet-convexe en complexe diepe neurale variëteiten. Deze zorgen vormen een belemmering voor het begrijpen van de redenering achter diepe neurale beleidsregels en hun fundamentele beperkingen. Daarom is het cruciaal om technieken te ontwikkelen die gericht zijn op het begrijpen van de gevoeligheden in de geleerde representaties van neurale netwerkbeleidsregels. Om dit te bereiken introduceren we een theoretisch onderbouwde methode die een systematische analyse biedt van de onstabiele richtingen in de beslissingsgrens van diepe neurale beleidsregels, zowel in tijd als ruimte. Door experimenten in de Arcade Learning Environment (ALE) demonstreren we de effectiviteit van onze techniek voor het identificeren van gecorreleerde richtingen van instabiliteit en voor het meten hoe verschuivingen in steekproeven de set van gevoelige richtingen in het neurale beleidslandschap hervormen. Het belangrijkste is dat we aantonen dat state-of-the-art robuuste trainingsmethoden leiden tot het leren van disjuncte onstabiele richtingen, met aanzienlijk grotere oscillaties over tijd, in vergelijking met standaardtraining. Wij geloven dat onze resultaten de fundamentele eigenschappen van het beslissingsproces van reinforcement learning-beleidsregels onthullen en kunnen helpen bij het construeren van betrouwbare en robuuste diepe neurale beleidsregels.

WildTeaming op Schaal: Van In-the-Wild Jailbreaks naar (Adversarieel) Veiligere Taalmodellen
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Jun 26

ByLiwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri

We introduceren WildTeaming, een automatisch LLM-veiligheidsred-teaming-framework dat in-the-wild gebruikers-chatbotinteracties analyseert om 5,7K unieke clusters van nieuwe jailbreak-tactieken te ontdekken, en vervolgens meerdere tactieken combineert voor systematische exploratie van nieuwe jailbreaks. In vergelijking met eerder werk dat red-teaming uitvoerde via gerekruteerde menselijke werkers, op gradienten gebaseerde optimalisatie of iteratieve revisie met LLM's, onderzoekt ons werk jailbreaks van chatbotgebruikers die niet specifiek werden geïnstrueerd om het systeem te omzeilen. WildTeaming onthult voorheen niet-geïdentificeerde kwetsbaarheden van frontier-LLM's, wat resulteert in tot 4,6x meer diverse en succesvolle adversariële aanvallen in vergelijking met state-of-the-art jailbreak-methoden. Hoewel er veel datasets bestaan voor jailbreak-evaluatie, zijn er zeer weinig open-source datasets beschikbaar voor jailbreak-training, aangezien veiligheidstrainingsdata gesloten is gebleven, zelfs wanneer modelgewichten openbaar zijn gemaakt. Met WildTeaming creëren we WildJailbreak, een grootschalige open-source synthetische veiligheidsdataset met 262K vanilla (directe verzoeken) en adversariële (complexe jailbreak) prompt-responsparen. Om overdreven veiligheidsgedrag te mitigeren, biedt WildJailbreak twee contrasterende typen queries: 1) schadelijke queries (vanilla & adversariëel) en 2) goedaardige queries die qua vorm lijken op schadelijke queries maar geen schade bevatten. Aangezien WildJailbreak de kwaliteit en schaal van bestaande veiligheidsbronnen aanzienlijk verbetert, stelt het ons in staat om de schaaleffecten van data en de wisselwerking tussen data-eigenschappen en modelcapaciteiten tijdens veiligheidstraining te onderzoeken. Door uitgebreide experimenten identificeren we de trainingseigenschappen die een ideale balans van veiligheidsgedrag mogelijk maken: passende bescherming zonder overmatige weigering, effectieve afhandeling van vanilla en adversariële queries, en een minimale, indien aanwezig, afname van algemene capaciteiten. Alle componenten van WildJailbreak dragen bij aan het bereiken van gebalanceerde veiligheidsgedragingen van modellen.

Multimodale taakvectoren maken veelvoudige multimodale in-context leren mogelijk.
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

Jun 21

ByBrandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig

Het recente succes van interleaved Large Multimodal Models (LMMs) in few-shot learning suggereert dat in-context learning (ICL) met veel voorbeelden veelbelovend kan zijn voor het leren van nieuwe taken. Dit many-shot multimodale ICL-schema heeft echter een cruciaal probleem: het wordt fundamenteel beperkt door de contextlengte van het model die tijdens het vooraf trainen is ingesteld. Het probleem is vooral prominent in het multimodale domein, dat zowel tekst als afbeeldingen verwerkt en daardoor extra tokens vereist. Dit motiveert de behoefte aan een multimodale methode om veel shots in minder tokens samen te persen zonder finetuning. In dit werk stellen we LMMs in staat om multimodaal, many-shot in-context learning uit te voeren door gebruik te maken van Multimodal Task Vectors (MTV)—compacte impliciete representaties van in-context voorbeelden die zijn samengeperst in de aandachtskoppen van het model. Specifiek tonen we eerst het bestaan van dergelijke MTV in LMMs aan en benutten we vervolgens deze geëxtraheerde MTV om many-shot in-context learning mogelijk te maken voor diverse visie-en-taal taken. Onze experimenten suggereren dat MTV kan schalen in prestaties met het aantal samengeperste shots en kan generaliseren naar vergelijkbare taken buiten het domein zonder extra contextlengte voor inferentie.

MemServe: Contextcaching voor gedisaggregeerde LLM-serving met een elastische geheugenpool
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

Jun 25

ByCunchen Hu, Heyang Huang, Junhao Hu, Jiang Xu, Xusheng Chen, Tao Xie, Chenxi Wang, Sa Wang, Yungang Bao, Ninghui Sun, Yizhou Shan

Het serveren van grote taalmodellen (LLM) is getransformeerd van stateless naar stateful systemen, waarbij technieken zoals context caching en gedisaggregeerde inferentie worden gebruikt. Deze optimalisaties verlengen de levensduur en het domein van de KV-cache, wat een nieuwe architecturale aanpak vereist. Wij presenteren MemServe, een geïntegreerd systeem dat zowel inter-request als intra-request optimalisaties combineert. MemServe introduceert MemPool, een elastische geheugenpool die gedistribueerd geheugen en KV-caches beheert over verschillende serverinstanties. Met behulp van MemPool API's combineert MemServe voor het eerst context caching met gedisaggregeerde inferentie, ondersteund door een globale scheduler die de cache-hergebruik verbetert via een globaal prompt tree-based locality-aware beleid. Tests tonen aan dat MemServe de taakvoltooiingstijd en de time-to-first-time aanzienlijk verbetert.

WildTeaming op Schaal: Van In-the-Wild Jailbreaks naar (Adversarieel) Veiligere Taalmodellen
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Jun 26

ByLiwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri