Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Machine Unlearning (MU) is cruciaal voor het verbeteren van privacy en beveiliging in diepe leermodellen, met name in grote multimodale taalmodellen (MLLM's), door specifieke privé- of gevaarlijke informatie te verwijderen. Hoewel MU aanzienlijke vooruitgang heeft geboekt in tekstuele en visuele modaliteiten, blijft multimodaal vergeten (MMU) aanzienlijk onderbelicht, gedeeltelijk door het ontbreken van een geschikte open-source benchmark. Om dit aan te pakken, introduceren we CLEAR, een nieuwe benchmark ontworpen om MMU-methoden te evalueren. CLEAR bevat 200 fictieve individuen en 3,700 afbeeldingen gekoppeld aan bijbehorende vraag-antwoordparen, waardoor een grondige evaluatie over modaliteiten mogelijk is. We beoordelen 10 MU-methoden, passen ze aan voor MMU, en benadrukken nieuwe uitdagingen die specifiek zijn voor multimodaal vergeten. We tonen ook aan dat eenvoudige ell_1-regularisatie op LoRA-gewichten aanzienlijk catastrofaal vergeten vermindert, waardoor de modelprestaties op behouden gegevens behouden blijven. De dataset is beschikbaar op https://huggingface.co/datasets/therem/CLEAR
Data science taken met tabulaire data brengen complexe uitdagingen met zich mee die geavanceerde probleemoplossingsbenaderingen vereisen. Wij stellen AutoKaggle voor, een krachtig en gebruiksvriendelijk framework dat datawetenschappers helpt bij het voltooien van dagelijkse datapipelines door middel van een collaboratief multi-agent systeem. AutoKaggle implementeert een iteratief ontwikkelingsproces dat code-uitvoering, debugging en uitgebreide unit testing combineert om codecorrectheid en logische consistentie te waarborgen. Het framework biedt zeer aanpasbare workflows, waardoor gebruikers kunnen ingrijpen in elke fase, waarbij geautomatiseerde intelligentie wordt geïntegreerd met menselijke expertise. Onze universele data science toolkit, bestaande uit gevalideerde functies voor datareiniging, feature engineering en modellering, vormt de basis van deze oplossing en verbetert de productiviteit door gemeenschappelijke taken te stroomlijnen. We hebben 8 Kaggle-competities geselecteerd om dataprocessingsworkflows in realistische toepassingsscenario's te simuleren. Evaluatieresultaten tonen aan dat AutoKaggle een validatiescore van 0.85 behaalt en een uitgebreide score van 0.82 in typische data science pipelines, waarbij volledig de effectiviteit en praktische toepasbaarheid bij het omgaan met complexe data science taken wordt aangetoond.
Het redeneren over sociale relaties heeft tot doel relatiecategorieën zoals vrienden, echtgenoten en collega's te identificeren op basis van afbeeldingen. Terwijl huidige methoden het paradigma volgen van het trainen van een toegewijd netwerk van begin tot eind met gelabelde beelddata, zijn ze beperkt qua generaliseerbaarheid en interpreteerbaarheid. Om deze kwesties aan te pakken, presenteren we eerst een eenvoudig maar goed doordacht kader genaamd {\name}, dat de perceptievermogen van Vision Foundation Models (VFMs) en het redeneervermogen van Large Language Models (LLMs) combineert binnen een modulair kader, wat een sterke basis biedt voor het herkennen van sociale relaties. Specifiek instrueren we VFMs om de inhoud van afbeeldingen te vertalen naar een tekstueel sociaal verhaal, en gebruiken we vervolgens LLMs voor tekstgebaseerd redeneren. {\name} introduceert systematische ontwerpprincipes om VFMs en LLMs afzonderlijk aan te passen en hun kloven te overbruggen. Zonder extra modeltraining behaalt het competitieve zero-shot resultaten op twee databases en biedt het interpreteerbare antwoorden, aangezien LLMs op taal gebaseerde verklaringen kunnen genereren voor de beslissingen. Het handmatige promptontwerpproces voor LLMs in de redeneerfase is tijdrovend en een geautomatiseerde promptoptimalisatiemethode is gewenst. Aangezien we in feite een visuele classificatietaak omzetten in een generatieve taak van LLMs, ondervindt automatische promptoptimalisatie een uniek lang promptoptimalisatieprobleem. Om dit probleem aan te pakken, stellen we verder de Greedy Segment Prompt Optimization (GSPO) voor, die een hebzuchtige zoektocht uitvoert door gebruik te maken van gradientinformatie op segmentniveau. Experimentele resultaten tonen aan dat GSPO de prestaties aanzienlijk verbetert, en onze methode generaliseert ook naar verschillende beeldstijlen. De code is beschikbaar op https://github.com/Mengzibin/SocialGPT.
Wiskundige redenering is een cruciale vaardigheid voor Grote Taalmodellen (LLM's), maar het genereren van gedetailleerde en nauwkeurige redeneringssporen blijft een aanzienlijke uitdaging. Dit artikel introduceert een nieuwe aanpak om hoogwaardige redeneringssporen te produceren voor het verfijnen van LLM's met behulp van online leerstromen. Onze methode maakt gebruik van een incrementele uitvoerproductiestroom, waarbij component LLM's gezamenlijk oplossingen construeren door iteratieve communicatie. We trainen de stroom met behulp van online Directe VoorkeursOptimalisatie (DPO) leren met rollouts, waarbij DPO-paren worden gegenereerd voor elk trainingsvoorbeeld en modellen in realtime worden bijgewerkt. We vergelijken direct de kwaliteit van redeneringssporen die zijn gegenereerd door onze methode met die geproduceerd door directe modelinferentie, waarbij we de effectiviteit van onze aanpak aantonen in het verbeteren van de prestaties van LLM's in wiskundige redeneertaken.
De snelle ontwikkeling van grote taal- en multimodale modellen heeft aanzienlijke interesse gewekt in het gebruik van eigen modellen, zoals GPT-4o, om autonome agenten te ontwikkelen die in staat zijn om realistische scenario's zoals webnavigatie aan te pakken. Hoewel recente open-source inspanningen hebben geprobeerd om agenten uit te rusten met de mogelijkheid om omgevingen te verkennen en zich in de loop van de tijd voortdurend te verbeteren, bouwen ze tekstuele agenten in synthetische omgevingen waar de beloningsignalen duidelijk gedefinieerd zijn. Dergelijke agenten hebben moeite om te generaliseren naar realistische omgevingen die multimodale perceptievaardigheden vereisen en waarbij grondwaarheidsignalen ontbreken. In dit artikel introduceren we een open-source framework dat is ontworpen om de ontwikkeling van multimodale webagenten te vergemakkelijken die autonoom real-world verkenning kunnen uitvoeren en zichzelf kunnen verbeteren. We trainen eerst het basismodel met imitatieleren om de basisvaardigheden te verkrijgen. Vervolgens laten we de agent het open web verkennen en feedback verzamelen over zijn trajecten. Daarna verbetert het zijn beleid verder door te leren van goed presterende trajecten beoordeeld door een ander algemeen model. Deze verkenning-feedback-optimalisatiecyclus kan doorgaan gedurende verschillende iteraties. Experimentele resultaten tonen aan dat onze webagent zich succesvol verbetert na elke iteratie, waarbij sterke prestaties worden aangetoond over meerdere testsets.
Grote taalmodellen (LLM's) hebben een opmerkelijk vermogen getoond in codegeneratie met meer dan 90 pass@1 bij het oplossen van Python programmeerproblemen in HumanEval en MBPP. Zo'n hoge nauwkeurigheid roept de vraag op: kunnen LLM's menselijke programmeurs vervangen? Bestaande handmatig gemaakte, eenvoudige of enkelvoudige codegeneratie benchmarks kunnen deze vraag niet beantwoorden vanwege hun kloof met softwareontwikkeling in de echte wereld. Om deze vraag te beantwoorden, stellen we REPOCOD voor, een codegeneratie benchmark met 980 problemen verzameld uit 11 populaire projecten in de echte wereld, waarvan meer dan 58% contextinformatie op bestandsniveau of repositoryniveau vereist. Bovendien heeft REPOCOD de langste gemiddelde canonieke oplossingslengte (331,6 tokens) en de hoogste gemiddelde cyclomatische complexiteit (9,00) in vergelijking met bestaande benchmarks. In onze evaluaties van tien LLM's kan geen van de modellen meer dan 30 pass@1 behalen op REPOCOD, wat de noodzaak onthult van het ontwikkelen van krachtigere LLM's die ontwikkelaars kunnen helpen bij softwareontwikkeling in de echte wereld.
Reinforcement learning (RL) belooft veel voor het mogelijk maken van autonome verwerving van complexe robotmanipulatievaardigheden, maar het realiseren van dit potentieel in echte omgevingen is uitdagend gebleken. We presenteren een RL-systeem op basis van visie met menselijke input dat indrukwekkende prestaties laat zien op een divers scala van behendige manipulatietaken, waaronder dynamische manipulatie, precisie-assemblage en coördinatie van twee armen. Onze aanpak integreert demonstraties en menselijke correcties, efficiënte RL-algoritmen en andere ontwerpkeuzes op systeemniveau om beleidsregels te leren die bijna perfecte succespercentages en snelle cyclustijden behalen met slechts 1 tot 2,5 uur training. We tonen aan dat onze methode aanzienlijk beter presteert dan imitatieleren baselines en eerdere RL-benaderingen, met een gemiddelde verbetering van 2x in succespercentage en 1,8x snellere uitvoering. Via uitgebreide experimenten en analyse bieden we inzichten in de effectiviteit van onze aanpak, waarbij we aantonen hoe het robuuste, aanpasbare beleidsregels leert voor zowel reactieve als voorspellende besturingsstrategieën. Onze resultaten suggereren dat RL inderdaad een breed scala aan complexe op visie gebaseerde manipulatiebeleidsregels kan leren direct in de echte wereld binnen praktische trainingsperioden. We hopen dat dit werk een nieuwe generatie van geleerde robotmanipulatietechnieken zal inspireren, ten goede komend aan zowel industriële toepassingen als onderzoeksontwikkelingen. Video's en code zijn beschikbaar op onze projectwebsite https://hil-serl.github.io/.
Keten-van-gedachten (CoT) prompting is een veelgebruikte strategie geworden voor het werken met grote taal- en multimodale modellen. Hoewel is aangetoond dat CoT de prestaties verbetert bij veel taken, blijft het een voortdurende inspanning om te bepalen in welke instellingen het effectief is. Met name is het nog steeds een open vraag in welke instellingen CoT systematisch de modelprestaties verlaagt. In dit artikel proberen we de kenmerken van taken te identificeren waar CoT de prestaties verlaagt door inspiratie te putten uit de cognitieve psychologie, waarbij wordt gekeken naar gevallen waarin (i) verbaal denken of overleg de prestaties van mensen schaadt, en (ii) de beperkingen die de menselijke prestaties regeren generaliseren naar taalmodellen. Drie van dergelijke gevallen zijn impliciet statistisch leren, visuele herkenning en classificatie met patronen die uitzonderingen bevatten. In uitgebreide experimenten in alle drie de instellingen constateren we dat een diverse verzameling toonaangevende modellen aanzienlijke prestatieverminderingen vertonen (bijv. tot 36,3% absolute nauwkeurigheid voor OpenAI o1-preview in vergelijking met GPT-4o) bij gebruik van redeneren op het moment van inferentie in vergelijking met nul-shot tegenhangers. We identificeren ook drie taken die voorwaarde (i) bevredigen maar niet (ii), en constateren dat hoewel verbaal denken de menselijke prestaties bij deze taken verlaagt, CoT de modelprestaties behoudt of verhoogt. Over het algemeen tonen onze resultaten aan dat hoewel er geen exacte parallel is tussen de cognitieve processen van modellen en die van mensen, het overwegen van gevallen waarin denken negatieve gevolgen heeft voor menselijke prestaties ons kan helpen instellingen te identificeren waar het negatieve gevolgen heeft voor modellen. Door de literatuur over menselijk overleg te verbinden met evaluaties van CoT, bieden we een nieuw instrument dat kan worden gebruikt om het effect van promptkeuzes en redeneren op het moment van inferentie te begrijpen.
We onderzoeken de interne representaties van visie-en-taalmodellen (VLM's) en hoe ze taakrepresentaties coderen. We overwegen taken die worden gespecificeerd via voorbeelden of instructies, met behulp van tekst- of afbeeldingsinvoer. Verrassend genoeg vinden we dat conceptueel vergelijkbare taken worden toegewezen aan vergelijkbare taakvectorrepresentaties, ongeacht hoe ze worden gespecificeerd. Onze bevindingen suggereren dat om antwoorden te produceren, tokens in VLM's drie afzonderlijke fasen doorlopen: invoer, taak en antwoord, een proces dat consistent is over verschillende modaliteiten en specificaties. De taakvectoren die we identificeren in VLM's zijn algemeen genoeg om afgeleid te worden in één modaliteit (bijv. tekst) en overgebracht te worden naar een andere (bijv. afbeelding). Bovendien vinden we dat het combineren van voorbeeld- en instructiegebaseerde taakvectoren betere taakrepresentaties oplevert. Samengevoegd werpen deze inzichten licht op de onderliggende mechanismen van VLM's, met name hun vermogen om taken op een gedeelde manier te representeren over verschillende modaliteiten en taakspecificaties. Projectpagina: https://task-vectors-are-cross-modal.github.io.
Met de wijdverbreide inzet van lang-contextuele grote taalmodellen (LLMs) is er een groeiende vraag naar efficiënte ondersteuning van high-throughput inferentie. Echter, naarmate de key-value (KV) cache groeit met de sequentielengte, leiden de toenemende geheugenfootprint en de noodzaak om er toegang toe te hebben voor elke token-generatie beide tot een lage throughput bij het bedienen van lang-contextuele LLMs. Hoewel verschillende dynamische schaarse aandachtsmethoden zijn voorgesteld om de inferentie te versnellen terwijl de generatiekwaliteit behouden blijft, slagen ze er niet in om de GPU-geheugenconsumptie voldoende te verminderen of introduceren ze aanzienlijke decoderingslatentie door de KV-cache naar de CPU te verplaatsen. We presenteren ShadowKV, een high-throughput lang-contextueel LLM-inferentiesysteem dat de low-rank key cache opslaat en de value cache uitbesteedt om de geheugenfootprint te verkleinen voor grotere batchgroottes en langere sequenties. Om de decoderingslatentie te minimaliseren, maakt ShadowKV gebruik van een nauwkeurige KV-selectiestrategie die minimaal schaarse KV-paren on-the-fly reconstrueert. Door ShadowKV te evalueren op een breed scala aan benchmarks, waaronder RULER, LongBench en Needle In A Haystack, en modellen zoals Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K en Qwen2-7B-128K, tonen we aan dat het tot 6 keer grotere batchgroottes kan ondersteunen en de throughput tot 3,04 keer kan verhogen op een A100 GPU zonder nauwkeurigheid op te offeren, zelfs de prestaties overtreffend die haalbaar zijn met oneindige batchgrootte onder de aanname van oneindig GPU-geheugen. De code is beschikbaar op https://github.com/bytedance/ShadowKV.
Het vooraf trainen van visuele representaties heeft de efficiëntie van robotleren verbeterd. Vanwege het gebrek aan grootschalige in-domein robotdatasets maken eerdere werken gebruik van in-the-wild menselijke video's om robotvisuele representatie vooraf te trainen. Ondanks hun veelbelovende resultaten zijn representaties van menselijke video's onvermijdelijk onderhevig aan distributieverschuivingen en ontbreekt de cruciale dynamische informatie voor taakvoltooiing. We evalueren eerst verschillende vooraf getrainde representaties wat betreft hun correlatie met de downstream robotmanipulatietaken (d.w.z. manipulatiegerichtheid). Interessant genoeg ontdekken we dat "manipulatiegerichtheid" een sterke indicator is voor succespercentages bij toepassing op downstream taken. Puttend uit deze bevindingen stellen we Manipulatiegerichte Representatie (MCR) voor, een basisrepresentatie-leerframework dat zowel visuele kenmerken als de dynamische informatie zoals acties en propriocepties van manipulatietaken vastlegt om manipulatiegerichtheid te verbeteren. Specifiek trainen we een visuele encoder voor op de DROID robotdataset en maken gebruik van bewegingsrelevante gegevens zoals robotproprioceptieve toestanden en acties. We introduceren een nieuw contrastief verlies dat visuele observaties afstemt op de proprioceptieve toestandsactiedynamiek van de robot, gecombineerd met een actorverlies zoals bij gedragsklonen (BC) om acties te voorspellen tijdens de voorafgaande training, samen met een tijdscontrastief verlies. Empirische resultaten over 4 simulatiedomeinen met 20 taken bevestigen dat MCR de sterkste basismethode met 14,8% overtreft. Bovendien verbetert MCR de prestaties van data-efficiënt leren met een UR5e-arm op 3 real-world taken met 76,9%. Projectwebsite: https://robots-pretrain-robots.github.io/.
Het blijft moeilijk om effectieve dense retrieval systemen te bouwen wanneer er geen relevantiebegeleiding beschikbaar is. Recent werk heeft geprobeerd dit probleem te overwinnen door een Groot Taalmodel (LLM) te gebruiken om hypothetische documenten te genereren die kunnen worden gebruikt om het dichtstbijzijnde echte document te vinden. Deze aanpak vertrouwt echter alleen op het LLM om domeinspecifieke kennis te hebben die relevant is voor de query, wat mogelijk niet praktisch is. Bovendien kan het genereren van hypothetische documenten inefficiënt zijn, omdat het LLM een groot aantal tokens moet genereren voor elke query. Om deze uitdagingen aan te pakken, introduceren we Echte Document Embeddings van Relevantie Feedback (ReDE-RF). Geïnspireerd door relevantie feedback, stelt ReDE-RF voor om het genereren van hypothetische documenten te herformuleren als een relevantieschattingstaak, waarbij een LLM wordt gebruikt om te selecteren welke documenten moeten worden gebruikt voor de zoektocht naar het dichtstbijzijnde buurdocument. Door deze herformulering heeft het LLM geen domeinspecifieke kennis meer nodig, maar hoeft het alleen te beoordelen wat relevant is. Bovendien vereist relevantieschatting slechts dat het LLM één token uitvoert, waardoor de zoeklatentie verbetert. Onze experimenten tonen aan dat ReDE-RF consequent de state-of-the-art zero-shot dense retrieval methoden overtreft over een breed scala van datasets voor informatieopvraging met beperkte middelen, terwijl ook aanzienlijke verbeteringen worden gemaakt in latentie per query.
Offline gecombineerde voorkeur optimalisatiealgoritmen zijn een populaire benadering geworden voor het verfijnen van voorkeursgegevens, waarbij ze traditionele begeleide verfijning overtreffen in verschillende taken. Traditionele implementaties omvatten echter vaak overbodige berekeningen, vooral voor taken met lange gedeelde prompts. We introduceren prefix delen voor voorkeurafstemming, een nieuwe techniek die gekozen en afgewezen reacties verwerkt als één sequentie met een gedeeld voorvoegsel. Om contaminatie tussen reacties te voorkomen, gebruiken we een aangepast blok-sparse aandachtsmasker. Onze methode behaalt een verbetering van 1,1-1,5 keer in trainingsdoorvoer op populaire DPO-datasets, zonder enig effect op convergentie. Wanneer gecombineerd met sequentieverpakking, observeren we consistente 1,3-1,6 keer versnellingen, wat zelfs ten goede komt aan datasets met kleinere sequentielengtes. Hoewel we ons richten op Directe VoorkeursOptimalisatie (DPO), is onze benadering toepasbaar op andere gecombineerde voorkeursafstemmingsmethoden. Door de computationele efficiëntie te verbeteren, draagt ons werk bij aan het toegankelijker maken van voorkeursgebaseerde verfijning voor een breder scala aan toepassingen en modelgroottes. We stellen onze code beschikbaar op https://github.com/frankxwang/dpo-prefix-sharing.
We onderzoeken of in-context voorbeelden, veelgebruikt in decoder-only taalmodellen (LLM's), de prestaties van embeddingmodellen kunnen verbeteren in ophaaltaken. In tegenstelling tot bij LLM's werkt het naïef vooraf toevoegen van in-context voorbeelden (query-documentparen) aan de doelquery bij inferentie niet direct. We introduceren een eenvoudige aanpak om ophalers in staat te stellen in-context voorbeelden te gebruiken. Onze aanpak, RARe, verfijnt een voorgeleerd model met in-context voorbeelden waarvan de query semantisch vergelijkbaar is met de doelquery. Dit kan worden toegepast om verschillende basismodellen aan te passen (d.w.z. decoder-only taalmodellen, ophalers) en behaalt consequent prestatieverbeteringen tot +2.72% nDCG over verschillende open-domain ophaaldatasets (BeIR, RAR-b). In het bijzonder vinden we dat RARe een sterkere generalisatie buiten het domein vertoont in vergelijking met modellen die queries zonder in-context voorbeelden gebruiken, vergelijkbaar met wat wordt gezien bij in-context leren in LLM's. We bieden verder analyse van de ontwerpkeuzes van in-context voorbeeldvermeerdering en leggen de basis voor toekomstig werk op dit gebied.
Grote taalmodellen (LLM's) zijn vatbaar voor het memoriseren van trainingsgegevens, wat zorgen oproept vanwege de mogelijke extractie van gevoelige informatie. Huidige methoden om de memorisatiesnelheden van LLM's te meten, zoals voornamelijk ontdekbare extractie (Carlini et al., 2022), vertrouwen op enkelvoudige hebberige bemonstering, waarbij mogelijk de ware omvang van memorisatie wordt onderschat. Dit artikel introduceert een probabilistische versoepeling van ontdekbare extractie die de kans kwantificeert om een doelsequentie te extraheren binnen een reeks gegenereerde monsters, rekening houdend met verschillende bemonsteringsschema's en meerdere pogingen. Deze benadering adresseert de beperkingen van het rapporteren van memorisatiesnelheden via ontdekbare extractie door rekening te houden met de probabilistische aard van LLM's en gebruikersinteractiepatronen. Onze experimenten tonen aan dat deze probabilistische maatstaf gevallen van hogere memorisatiesnelheden kan onthullen in vergelijking met snelheden gevonden via ontdekbare extractie. We onderzoeken verder de impact van verschillende bemonsteringsschema's op extracteerbaarheid, wat zorgt voor een meer uitgebreide en realistische beoordeling van LLM-memorisatie en de bijbehorende risico's. Onze bijdragen omvatten een nieuwe probabilistische memorisatiedefinitie, empirisch bewijs van de effectiviteit ervan, en een grondige evaluatie over verschillende modellen, groottes, bemonsteringsschema's en herhalingen van trainingsgegevens.