Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Automatische muziekbeschrijving, waarbij natuurlijke taal beschrijvingen worden gegenereerd voor gegeven muzieknummers, heeft aanzienlijk potentieel om het begrip en de organisatie van grote hoeveelheden muziekdata te verbeteren. Ondanks het belang ervan, staan onderzoekers voor uitdagingen vanwege de kostbare en tijdrovende verzamelingsprocessen van bestaande muziek-taal datasets, die beperkt zijn in omvang. Om dit probleem van dataschaarste aan te pakken, stellen we het gebruik van grote taalmodellen (LLMs) voor om kunstmatig beschrijvingszinnen te genereren uit grootschalige tag-datasets. Dit resulteert in ongeveer 2,2 miljoen bijschriften gepaard met 0,5 miljoen audioclips. We noemen dit het Large Language Model based Pseudo music caption dataset, kortweg LP-MusicCaps. We voeren een systematische evaluatie uit van de grootschalige muziekbeschrijvingsdataset met verschillende kwantitatieve evaluatiemethoden die worden gebruikt in het veld van natuurlijke taalverwerking, evenals menselijke evaluatie. Daarnaast hebben we een transformer-gebaseerd muziekbeschrijvingsmodel getraind met de dataset en geëvalueerd onder zero-shot en transfer-learning instellingen. De resultaten tonen aan dat onze voorgestelde aanpak het gesuperviseerde basislijnmodel overtreft.
We bestuderen hoe vision-language-modellen die getraind zijn op internet-schaal data direct kunnen worden geïntegreerd in end-to-end robotbesturing om generalisatie te bevorderen en emergent semantisch redeneren mogelijk te maken. Ons doel is om een enkel end-to-end getraind model in staat te stellen zowel robotobservaties naar acties te mappen als te profiteren van grootschalige voorafgaande training op taal- en vision-language-data van het web. Hiertoe stellen we voor om state-of-the-art vision-language-modellen gezamenlijk te fine-tunen op zowel robot-trajectdata als internet-schaal vision-language-taken, zoals visuele vraagbeantwoording. In tegenstelling tot andere benaderingen, stellen we een eenvoudig, algemeen recept voor om dit doel te bereiken: om zowel natuurlijke taalreacties als robotacties in hetzelfde formaat te passen, drukken we de acties uit als teksttokens en integreren we deze direct in de trainingsset van het model, op dezelfde manier als natuurlijke taal-tokens. We verwijzen naar deze categorie modellen als vision-language-action-modellen (VLA) en concretiseren een voorbeeld van zo'n model, dat we RT-2 noemen. Onze uitgebreide evaluatie (6k evaluatietrials) toont aan dat onze aanpak leidt tot performant robotbeleid en RT-2 in staat stelt om een reeks emergente vaardigheden te verkrijgen uit internet-schaal training. Dit omvat aanzienlijk verbeterde generalisatie naar nieuwe objecten, het vermogen om commando's te interpreteren die niet aanwezig zijn in de robot-trainingsdata (zoals het plaatsen van een object op een bepaald nummer of icoon), en het vermogen om rudimentair redeneren uit te voeren in reactie op gebruikerscommando's (zoals het oppakken van het kleinste of grootste object, of het object dat het dichtst bij een ander object ligt). We laten verder zien dat het incorporeren van chain of thought-redeneren RT-2 in staat stelt om meerfasig semantisch redeneren uit te voeren, bijvoorbeeld uitzoeken welk object opgepakt moet worden om te gebruiken als een geïmproviseerde hamer (een steen), of welk type drank het meest geschikt is voor iemand die moe is (een energiedrank).
We onderzoeken verschillende promptingstrategieën om de prestaties van gepersonaliseerde contentaanbevelingen te verbeteren met grote taalmodellen (LLM's) door middel van inputaugmentatie. Onze voorgestelde aanpak, genaamd LLM-Rec, omvat vier verschillende promptingstrategieën: (1) basisprompting, (2) aanbevelingsgestuurde prompting, (3) betrokkenheidsgestuurde prompting, en (4) aanbevelingsgestuurde + betrokkenheidsgestuurde prompting. Onze empirische experimenten tonen aan dat het combineren van de originele contentbeschrijving met de geaugmenteerde inputtekst die door het LLM wordt gegenereerd met behulp van deze promptingstrategieën leidt tot verbeterde aanbevelingsprestaties. Deze bevinding benadrukt het belang van het integreren van diverse prompts en inputaugmentatietechnieken om de aanbevelingsmogelijkheden van grote taalmodellen voor gepersonaliseerde contentaanbevelingen te versterken.
We onderzoeken de interne structuur van taalmodelberekeningen met behulp van causale analyse en demonstreren twee motieven: (1) een vorm van adaptieve berekening waarbij ablatie van één aandachtlaag van een taalmodel ervoor zorgt dat een andere laag compenseert (wat we het Hydra-effect noemen) en (2) een tegenwerkende functie van late MLP-lagen die de meest waarschijnlijke token downreguleren. Onze ablatiestudies tonen aan dat de lagen van taalmodellen over het algemeen relatief losjes gekoppeld zijn (ablatie van één laag heeft slechts invloed op een klein aantal downstream-lagen). Verrassend genoeg treden deze effecten zelfs op in taalmodellen die zonder enige vorm van dropout zijn getraind. We analyseren deze effecten in de context van feitelijke herinnering en beschouwen de implicaties ervan voor circuitniveau-attributie in taalmodellen.
Beeldbeschrijving wordt conventioneel geformuleerd als de taak om bijschriften voor afbeeldingen te genereren die overeenkomen met de verdeling van referentie afbeelding-bijschrift paren. Echter, referentiebijschriften in standaard beschrijvingsdatasets zijn kort en identificeren mogelijk niet uniek de afbeeldingen die ze beschrijven. Deze problemen worden verder verergerd wanneer modellen direct worden getraind op afbeelding-alt-tekst paren die van het internet zijn verzameld. In dit werk tonen we aan dat het mogelijk is om specifiekere bijschriften te genereren met minimale aanpassingen aan het trainingsproces. We implementeren classifier-free guidance voor een autoregressief beschrijvingsmodel door het te fine-tunen om zowel conditionele als ongeconditionele verdelingen over bijschriften te schatten. De guidance-schaal die tijdens het decoderen wordt toegepast, beheert een afweging tussen het maximaliseren van p(bijschrift|afbeelding) en p(afbeelding|bijschrift). Vergeleken met standaard gretige decodering, verbetert decodering met een guidance-schaal van 2 aanzienlijk referentievrije metrieken zoals CLIPScore (0.808 vs. 0.775) en de prestaties van bijschrift-naar-afbeelding retrieval in de CLIP-embeddingruimte (recall@1 44.6% vs. 26.5%), maar verslechtert het standaard referentiegebaseerde beschrijvingsmetrieken (bijv., CIDEr 78.6 vs 126.1). We onderzoeken verder het gebruik van taalmodelen om het decodeproces te begeleiden, waarbij we kleine verbeteringen behalen boven de Pareto-grens van referentievrije versus referentiegebaseerde beschrijvingsmetrieken die voortkomt uit classifier-free guidance, en de kwaliteit van bijschriften die gegenereerd worden door een model dat alleen op minimaal gecureerde webdata is getraind, aanzienlijk verbeteren.
Onlangs is er gewerkt aan het integreren van videofundamentmodellen en grote taalmodellen om een video-begripsysteem te bouwen dat de beperkingen van specifieke vooraf gedefinieerde visietaken overstijgt. Toch kunnen bestaande systemen alleen omgaan met video's met zeer weinig frames. Voor lange video's blijven de rekencomplexiteit, geheugenkosten en langetermijntemporele verbindingen de uitdagingen. Geïnspireerd door het Atkinson-Shiffrin-geheugenmodel, ontwikkelen we een geheugenmechanisme dat bestaat uit een snel bijgewerkt kortetermijngeheugen en een compact maar blijvend langetermijngeheugen. We gebruiken tokens in Transformers als dragers van het geheugen. MovieChat behaalt state-of-the-art prestaties in het begrijpen van lange video's.
Grote Taalmodellen (LLMs) hebben de ambitieuze zoektocht naar generalistische agents aanzienlijk dichterbij gebracht en het is niet langer een fantasie. Een belangrijke hindernis bij het bouwen van dergelijke algemene modellen is de diversiteit en heterogeniteit van taken en modaliteiten. Een veelbelovende oplossing is unificatie, waardoor een breed scala aan taken en modaliteiten binnen één uniform raamwerk ondersteund kan worden. Hoewel enkele grote modellen (bijvoorbeeld Flamingo (Alayrac et al., 2022), getraind op enorme datasets, meer dan twee modaliteiten kunnen ondersteunen, zijn huidige kleine tot middelgrote unificatiemodellen nog steeds beperkt tot 2 modaliteiten, meestal beeld-tekst of video-tekst. De vraag die we stellen is: is het mogelijk om efficiënt een unificatiemodel te bouwen dat alle modaliteiten kan ondersteunen? Om dit te beantwoorden, stellen we UnIVAL voor, een stap verder in de richting van dit ambitieuze doel. Zonder te vertrouwen op enorme datasets of modellen met miljarden parameters, gaat het ~0,25B parameter UnIVAL-model verder dan twee modaliteiten en verenigt het tekst, afbeeldingen, video en audio in één model. Ons model wordt efficiënt voorgetraind op vele taken, gebaseerd op taakbalancering en multimodale curriculumlearning. UnIVAL toont competitieve prestaties ten opzichte van bestaande state-of-the-art benaderingen, over beeld- en video-tekst taken. De kenmerkrepresentaties die zijn geleerd van beeld- en video-tekst modaliteiten, stellen het model in staat om competitieve prestaties te behalen wanneer het wordt gefinetuned op audio-tekst taken, ondanks dat het niet is voorgetraind op audio. Dankzij het unificatiemodel stellen we een nieuwe studie voor over multimodale modelmerging via gewichtsinterpolatie van modellen die zijn getraind op verschillende multimodale taken, waarbij we de voordelen ervan aantonen, met name voor out-of-distribution generalisatie. Ten slotte motiveren we unificatie door de synergie tussen taken te laten zien. De modelgewichten en code zijn hier vrijgegeven: https://github.com/mshukor/UnIVAL.
Kunnen we de toekomstige acties van een acteur (bijvoorbeeld eieren mengen) beter voorspellen door te weten wat er gewoonlijk gebeurt na zijn/haar huidige actie (bijvoorbeeld eieren breken)? Wat als we ook het langetermijndoel van de acteur kennen (bijvoorbeeld gebakken eierrijst maken)? De taak van langetermijnactievoorspelling (LTA) heeft als doel het toekomstige gedrag van een acteur te voorspellen op basis van videoobservaties in de vorm van werkwoord- en zelfstandig naamwoordreeksen, en het is cruciaal voor mens-machine-interactie. Wij stellen voor om de LTA-taak vanuit twee perspectieven te formuleren: een bottom-up benadering die de volgende acties autoregressief voorspelt door temporele dynamiek te modelleren; en een top-down benadering die het doel van de acteur afleidt en het benodigde proces plant om het doel te bereiken. Wij veronderstellen dat grote taalmodelen (LLMs), die zijn voorgetraind op procedurele tekstgegevens (bijvoorbeeld recepten, handleidingen), het potentieel hebben om LTA vanuit beide perspectieven te ondersteunen. Het kan helpen bij het verschaffen van voorkennis over de mogelijke volgende acties, en respectievelijk het doel afleiden gegeven het waargenomen deel van een procedure. Om de LLMs te benutten, stellen we een tweestappenframework voor, AntGPT. Het herkent eerst de acties die al zijn uitgevoerd in de waargenomen video's en vraagt vervolgens een LLM om de toekomstige acties te voorspellen via geconditioneerde generatie, of om het doel af te leiden en het hele proces te plannen door middel van chain-of-thought prompting. Empirische resultaten op de Ego4D LTA v1 en v2 benchmarks, EPIC-Kitchens-55, evenals EGTEA GAZE+ demonstreren de effectiviteit van onze voorgestelde aanpak. AntGPT behaalt state-of-the-art prestaties op alle bovenstaande benchmarks, en kan met succes het doel afleiden en zo doel-geconditioneerde "tegenfeitelijke" voorspellingen uitvoeren via kwalitatieve analyse. Code en model zullen worden vrijgegeven op https://brown-palm.github.io/AntGPT.
Video Temporal Grounding (VTG), dat als doel heeft om doelgerichte fragmenten uit video's te lokaliseren (zoals opeenvolgende intervallen of losse shots) op basis van aangepaste taalquery's (bijvoorbeeld zinnen of woorden), is essentieel voor het browsen van video's op sociale media. De meeste methoden in deze richting ontwikkelen taakspecifieke modellen die worden getraind met typespecifieke labels, zoals momentretrieval (tijdsinterval) en highlightdetectie (waardigheidscurve), wat hun vermogen beperkt om te generaliseren naar verschillende VTG-taken en labels. In dit artikel stellen we voor om de diverse VTG-labels en taken te unificeren, genaamd UniVTG, langs drie richtingen: Ten eerste herzien we een breed scala aan VTG-labels en taken en definiëren we een geünificeerde formulering. Op basis hiervan ontwikkelen we data-annotatieschema's om schaalbare pseudosupervisie te creëren. Ten tweede ontwikkelen we een effectief en flexibel grondingsmodel dat in staat is om elke taak aan te pakken en elk label optimaal te benutten. Tot slot, dankzij het geünificeerde raamwerk, kunnen we temporele grondingspretraining ontgrendelen vanuit grootschalige diverse labels en sterkere grondingsvaardigheden ontwikkelen, zoals zero-shot grounding. Uitgebreide experimenten op drie taken (momentretrieval, highlightdetectie en videosamenvatting) over zeven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum en QFVS) demonstreren de effectiviteit en flexibiliteit van ons voorgestelde raamwerk. De codes zijn beschikbaar op https://github.com/showlab/UniVTG.
Gebaseerd op krachtige Large Language Models (LLM's), hebben recente generatieve Multimodale Large Language Models (MLLM's) aanzienlijke aandacht gekregen als een cruciaal onderzoeksgebied, waarbij ze opmerkelijke vaardigheden tonen voor zowel begrip als generatie. In dit werk richten we ons op de evaluatie van generatief begrip in MLLM's als een eerste stap naar een uitgebreide beoordeling van generatieve modellen, door een benchmark genaamd SEED-Bench te introduceren. SEED-Bench bestaat uit 19.000 meerkeuzevragen met nauwkeurige menselijke annotaties (6 keer groter dan bestaande benchmarks), die 12 evaluatiedimensies omvatten, waaronder het begrip van zowel beeld- als videomodaliteiten. We ontwikkelen een geavanceerde pijplijn voor het genereren van meerkeuzevragen die specifieke evaluatiedimensies targeten, waarbij zowel automatische filtering als handmatige verificatieprocessen worden geïntegreerd. Meerkeuzevragen met grondwaarheidopties afgeleid van menselijke annotaties maken een objectieve en efficiënte beoordeling van modelprestaties mogelijk, waardoor de noodzaak voor menselijke of GPT-interventie tijdens de evaluatie wordt geëlimineerd. We evalueren verder de prestaties van 18 modellen over alle 12 dimensies, waarbij zowel ruimtelijk als temporeel begrip wordt bestreken. Door de beperkingen van bestaande MLLM's te onthullen via evaluatieresultaten, streven we ernaar dat SEED-Bench inzichten biedt om toekomstig onderzoek te stimuleren. We zullen een leaderboard lanceren en consistent onderhouden om een platform te bieden voor de gemeenschap om modelcapaciteiten te beoordelen en te onderzoeken.
We presenteren Virtual Prompt Injection (VPI) voor instructie-afgestemde Large Language Models (LLMs). VPI maakt het mogelijk dat een door een aanvaller gespecificeerde virtuele prompt het modelgedrag stuurt onder specifieke triggerscenario's zonder expliciete injectie in de modelinput. Bijvoorbeeld, als een LLM is gecompromitteerd met de virtuele prompt "Beschrijf Joe Biden negatief." voor Joe Biden-gerelateerde instructies, dan zal elke dienst die dit model gebruikt, bevooroordeelde standpunten verspreiden bij het verwerken van gebruikersvragen over Joe Biden. VPI is vooral schadelijk om twee primaire redenen. Ten eerste kan de aanvaller fijnmazige controle uitoefenen over het gedrag van LLM's door verschillende virtuele prompts te definiëren, waarbij wordt geprofiteerd van de vaardigheid van LLM's om instructies op te volgen. Ten tweede wordt deze controle bereikt zonder enige interactie van de aanvaller terwijl het model in gebruik is, wat leidt tot een aanhoudende aanval. Om de dreiging aan te tonen, stellen we een eenvoudige methode voor om VPI uit te voeren door de instructie-afstemmingsgegevens van het model te vergiftigen. We ontdekken dat onze voorgestelde methode zeer effectief is in het sturen van de LLM met VPI. Bijvoorbeeld, door slechts 52 vergiftigde voorbeelden (0,1% van de omvang van de trainingsgegevens) in de instructie-afstemmingsgegevens te injecteren, verandert het percentage negatieve reacties dat het getrainde model geeft op Joe Biden-gerelateerde vragen van 0% naar 40%. We benadrukken dus de noodzaak om de integriteit van de instructie-afstemmingsgegevens te waarborgen, aangezien weinig vergiftigde gegevens stiekeme en aanhoudende schade kunnen veroorzaken aan het ingezette model. We onderzoeken verder de mogelijke verdedigingen en identificeren gegevensfiltering als een effectieve manier om zich te verdedigen tegen de vergiftigingsaanvallen. Onze projectpagina is beschikbaar op https://poison-llm.github.io.
Autonome robots die in de echte wereld worden ingezet, hebben besturingsbeleid nodig dat zich snel aanpast aan veranderingen in de omgeving. Hiertoe stellen we AutoRobotics-Zero (ARZ) voor, een methode gebaseerd op AutoML-Zero die vanaf nul zero-shot aanpasbaar beleid ontdekt. In tegenstelling tot aanpassingsbeleid voor neurale netwerken, waarbij alleen modelparameters worden geoptimaliseerd, kan ARZ besturingsalgoritmen bouwen met de volledige expressieve kracht van een lineaire registermachine. We ontwikkelen modulair beleid dat zowel modelparameters afstelt als het inferentie-algoritme on-the-fly aanpast om zich te voegen naar plotselinge veranderingen in de omgeving. We demonstreren onze methode op een realistisch gesimuleerde viervoetige robot, waarvoor we veilig besturingsbeleid ontwikkelen dat voorkomt dat de robot valt wanneer individuele ledematen plotseling breken. Dit is een uitdagende taak waarin twee populaire neurale netwerk-baselines falen. Tot slot voeren we een gedetailleerde analyse uit van onze methode op een nieuwe en uitdagende niet-stationaire besturingstaak genaamd Cataclysmic Cartpole. De resultaten bevestigen onze bevindingen dat ARZ aanzienlijk robuuster is tegen plotselinge omgevingsveranderingen en eenvoudig, interpreteerbaar besturingsbeleid kan bouwen.