Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De generatieve AI-revolutie heeft zich recentelijk uitgebreid naar video's. Desalniettemin blijven de huidige state-of-the-art videomodellen achter op beeldmodellen wat betreft visuele kwaliteit en gebruikerscontrole over de gegenereerde inhoud. In dit werk presenteren we een raamwerk dat de kracht van een tekst-naar-beeld diffusiemodel benut voor de taak van tekstgestuurde videobewerking. Specifiek genereert onze methode, gegeven een bronvideo en een doeltekstprompt, een hoogwaardige video die voldoet aan de doeltekst, terwijl de ruimtelijke lay-out en beweging van de invoervideo behouden blijven. Onze methode is gebaseerd op een belangrijk inzicht: consistentie in de bewerkte video kan worden bereikt door consistentie af te dwingen in de diffusie-functieruimte. We bereiken dit door diffusiefuncties expliciet te propageren op basis van inter-frame-correspondenties, die direct beschikbaar zijn in het model. Hierdoor vereist ons raamwerk geen training of fine-tuning en kan het samenwerken met elke kant-en-klare tekst-naar-beeld bewerkingsmethode. We demonstreren state-of-the-art bewerkingsresultaten op een verscheidenheid aan real-world video's. Webpagina: https://diffusion-tokenflow.github.io/
Multimodaal leren heeft als doel modellen te ontwikkelen die informatie uit meerdere modaliteiten kunnen verwerken en met elkaar in verband brengen. Ondanks jaren van ontwikkeling in dit veld blijft het een uitdaging om een uniform netwerk te ontwerpen voor het verwerken van verschillende modaliteiten (bijv. natuurlijke taal, 2D-afbeeldingen, 3D-puntenwolken, audio, video, tijdreeksen, tabelgegevens) vanwege de inherente verschillen daartussen. In dit werk stellen we een raamwerk voor, genaamd Meta-Transformer, dat gebruikmaakt van een bevroren encoder om multimodale perceptie uit te voeren zonder enige gepaarde multimodale trainingsdata. In Meta-Transformer worden de ruwe invoergegevens van verschillende modaliteiten omgezet in een gedeelde tokenruimte, waardoor een daaropvolgende encoder met bevroren parameters hoogwaardige semantische kenmerken van de invoergegevens kan extraheren. Meta-Transformer bestaat uit drie hoofdcomponenten: een uniforme datatokenizer, een modaliteitgedeelde encoder en taakspecifieke heads voor downstreamtaken. Het is het eerste raamwerk dat uniform leren over 12 modaliteiten met ongepaarde gegevens uitvoert. Experimenten op verschillende benchmarks tonen aan dat Meta-Transformer een breed scala aan taken aankan, waaronder fundamentele perceptie (tekst, afbeelding, puntenwolk, audio, video), praktische toepassingen (X-ray, infrarood, hyperspectraal en IMU) en datamining (grafiek, tabel en tijdreeks). Meta-Transformer wijst op een veelbelovende toekomst voor de ontwikkeling van uniforme multimodale intelligentie met transformers. De code zal beschikbaar zijn op https://github.com/invictus717/MetaTransformer.
Het proces van het reconstrueren van ervaringen uit menselijke hersenactiviteit biedt een unieke kijk op hoe de hersenen de wereld interpreteren en representeren. In dit artikel introduceren we een methode voor het reconstrueren van muziek uit hersenactiviteit, vastgelegd met functionele magnetische resonantie beeldvorming (fMRI). Onze aanpak maakt gebruik van muziekretrieval of het MusicLM-muziekgeneratiemodel, geconditioneerd op embeddings afgeleid van fMRI-gegevens. De gegenereerde muziek lijkt op de muzikale stimuli die menselijke proefpersonen ervoeren, wat betreft semantische eigenschappen zoals genre, instrumentatie en stemming. We onderzoeken de relatie tussen verschillende componenten van MusicLM en hersenactiviteit door middel van een voxelgewijze encoderingmodelanalyse. Daarnaast bespreken we welke hersengebieden informatie representeren die is afgeleid van puur tekstuele beschrijvingen van muzikale stimuli. We bieden aanvullend materiaal, inclusief voorbeelden van de gereconstrueerde muziek, op https://google-research.github.io/seanet/brain2music.
Evaluatie van Large Language Models (LLMs) is uitdagend omdat afstemming op menselijke waarden de samenstelling van meerdere vaardigheden vereist, en de benodigde set vaardigheden varieert afhankelijk van de instructie. Recente studies hebben de prestaties van LLMs op twee manieren geëvalueerd: (1) automatische evaluatie op verschillende onafhankelijke benchmarks en (2) menselijke of machinegebaseerde evaluatie die een algemene score toekent aan het antwoord. Beide benaderingen zijn echter grove evaluaties, waarbij de aard van gebruikersinstructies die een op instanties gebaseerde vaardigheidssamenstelling vereisen, niet in overweging wordt genomen. Dit beperkt de interpretatie van de werkelijke capaciteiten van LLMs. In dit artikel introduceren we FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), een fijnmazig evaluatieprotocol dat kan worden gebruikt voor zowel modelgebaseerde als menselijke evaluatie, en dat grove scores afbreekt naar een op instanties gebaseerd vaardighedenniveau. Specifiek definiëren we 12 fijnmazige vaardigheden die nodig zijn voor LLMs om open-einde gebruikersinstructies te volgen, en construeren we een evaluatieset door een set vaardigheden toe te wijzen aan elke instantie. Daarnaast biedt FLASK een holistisch beeld met een uitgebreide analyse van de prestaties van een model, afhankelijk van vaardigheid, domein en moeilijkheidsgraad, door de doeldomeinen en moeilijkheidsniveaus voor elke instantie te annoteren. Door FLASK te gebruiken, vergelijken we meerdere open-source en propriëtaire LLMs en observeren we sterk gecorreleerde bevindingen tussen modelgebaseerde en menselijke evaluaties. FLASK stelt ontwikkelaars in staat om de modelprestaties nauwkeuriger te meten en te analyseren hoe deze kunnen worden verbeterd door factoren te onderzoeken die LLMs bedreven maken in specifieke vaardigheden. Voor praktijkmensen kan FLASK worden gebruikt om geschikte modellen aan te bevelen voor specifieke situaties door middel van een uitgebreide vergelijking tussen verschillende LLMs. We publiceren de evaluatiedata en code-implementatie op https://github.com/kaistAI/FLASK.
Massieve webdatasets spelen een cruciale rol in het succes van grote visie-taalmodellen zoals CLIP en Flamingo. Echter, de ruwe webdata is vaak rommelig, en bestaande filtermethoden om ruis te verminderen gaan vaak ten koste van de diversiteit van de data. Ons werk richt zich op de kwaliteit van bijschriften als een belangrijke bron van ruis, en onderzoekt hoe gegenereerde bijschriften de bruikbaarheid van webgeschraapte datapunten met onduidelijke tekst kunnen vergroten. Door verschillende mengstrategieën voor ruwe en gegenereerde bijschriften te verkennen, overtreffen we de beste filtermethode die door de DataComp-benchmark wordt voorgesteld met 2% op ImageNet en 4% gemiddeld over 38 taken, gegeven een kandidaatpool van 128 miljoen afbeelding-tekstparen. Onze beste aanpak is ook 2x beter bij Flickr- en MS-COCO-retrieval. Vervolgens analyseren we wat synthetische bijschriften een effectieve bron van tekstsupervisie maakt. Door te experimenteren met verschillende afbeelding-bijschriftmodellen, tonen we ook aan dat de prestaties van een model op standaard afbeelding-bijschriftbenchmarks (bijv. NoCaps CIDEr) geen betrouwbare indicator is van de bruikbaarheid van de bijschriften die het genereert voor multimodale training. Tot slot bieden onze experimenten met het gebruik van gegenereerde bijschriften op de grote schaal van DataComp (1,28 miljard afbeelding-tekstparen) inzichten in de beperkingen van synthetische tekst, evenals het belang van afbeeldingscuratie bij toenemende hoeveelheden trainingsdata.
Zelfsupervised leren heeft een revolutionaire paradigmaverschuiving teweeggebracht in verschillende computerdomeinen, waaronder NLP, vision en biologie. Recente benaderingen omvatten het vooraf trainen van transformermodellen op grote hoeveelheden ongelabelde gegevens, wat als uitgangspunt dient voor het efficiënt oplossen van downstream taken. Op het gebied van reinforcement learning hebben onderzoekers deze benaderingen recentelijk aangepast door modellen te ontwikkelen die vooraf zijn getraind op expert trajecten, waardoor ze een breed scala aan taken kunnen aanpakken, van robotica tot aanbevelingssystemen. Bestaande methoden zijn echter voornamelijk gebaseerd op complexe vooraf ingestelde trainingsdoelen die zijn afgestemd op specifieke downstream toepassingen. Dit artikel presenteert een uitgebreid onderzoek naar modellen die we Pretrained Action-State Transformer Agents (PASTA) noemen. Onze studie gebruikt een uniforme methodologie en behandelt een uitgebreide set van algemene downstream taken, waaronder gedragsklonen, offline RL, robuustheid tegen sensorfalen en aanpassing aan dynamische veranderingen. Ons doel is om verschillende ontwerpkeuzes systematisch te vergelijken en waardevolle inzichten te bieden aan praktijkmensen voor het bouwen van robuuste modellen. Belangrijke hoogtepunten van onze studie zijn tokenisatie op het niveau van actie- en staatcomponenten, het gebruik van fundamentele vooraf ingestelde trainingsdoelen zoals voorspelling van de volgende token, het trainen van modellen over diverse domeinen tegelijkertijd, en het gebruik van parameter efficiënte fine-tuning (PEFT). De ontwikkelde modellen in onze studie bevatten minder dan 10 miljoen parameters en de toepassing van PEFT maakt het mogelijk om tijdens downstream aanpassing minder dan 10.000 parameters te fine-tunen, waardoor een breed publiek deze modellen kan gebruiken en onze experimenten kan reproduceren. We hopen dat deze studie verder onderzoek zal aanmoedigen naar het gebruik van transformators met ontwerpkeuzes op basis van eerste principes om RL trajecten weer te geven en bij te dragen aan robuust beleidsleren.
Recente vooruitgang in grote taalmodellen (LLMs) heeft aanzienlijke vooruitgang laten zien op veel wiskundige benchmarks. De meeste van deze benchmarks bevatten echter alleen problemen die gebaseerd zijn op onderwerpen uit de onderbouw en bovenbouw van het middelbaar onderwijs, bestaan uitsluitend uit meerkeuzevragen, en zijn beperkt tot een kleine reeks elementaire rekenkundige bewerkingen. Om deze problemen aan te pakken, introduceert dit artikel een uitgebreide benchmark suite genaamd SciBench, die als doel heeft de redeneervaardigheden die nodig zijn voor complex wetenschappelijk probleemoplossen systematisch te onderzoeken. SciBench bevat twee zorgvuldig samengestelde datasets: een open set met een reeks wetenschappelijke problemen op universitair niveau, afkomstig uit wiskunde-, scheikunde- en natuurkundeleerboeken, en een gesloten set bestaande uit problemen uit tentamens op bachelorniveau in informatica en wiskunde. Op basis van deze twee datasets voeren we een diepgaande benchmarkstudie uit van twee representatieve LLMs met verschillende promptingstrategieën. De resultaten laten zien dat huidige LLMs tekortschieten in het leveren van bevredigende prestaties, met een totaalscore van slechts 35,80%. Bovendien categoriseren we via een gedetailleerde gebruikersstudie de fouten die door LLMs worden gemaakt in tien probleemoplossende vaardigheden. Onze analyse geeft aan dat geen enkele promptingstrategie significant beter presteert dan andere, en dat sommige strategieën die verbeteringen laten zien in bepaalde probleemoplossende vaardigheden, leiden tot achteruitgang in andere vaardigheden. Wij voorzien dat SciBench verdere ontwikkelingen in de redeneervaardigheden van LLMs zal stimuleren, en daarmee uiteindelijk zal bijdragen aan wetenschappelijk onderzoek en ontdekkingen.
De mechanismen achter het succes van multi-view zelf-ondersteund leren (MVSSL) zijn nog niet volledig begrepen. Contrastieve MVSSL-methoden zijn bestudeerd vanuit het perspectief van InfoNCE, een ondergrens van de Wederzijdse Informatie (MI). De relatie tussen andere MVSSL-methoden en MI blijft echter onduidelijk. Wij beschouwen een andere ondergrens op de MI, bestaande uit een entropie- en een reconstructieterm (ER), en analyseren de belangrijkste MVSSL-families vanuit dit perspectief. Door deze ER-ondergrens tonen we aan dat clustering-gebaseerde methoden zoals DeepCluster en SwAV de MI maximaliseren. We herinterpreteren ook de mechanismen van distillatie-gebaseerde benaderingen zoals BYOL en DINO, en laten zien dat ze expliciet de reconstructieterm maximaliseren en impliciet een stabiele entropie bevorderen, wat we empirisch bevestigen. We tonen aan dat het vervangen van de doelen van veelgebruikte MVSSL-methoden door deze ER-ondergrens competitieve prestaties bereikt, terwijl ze stabiel blijven bij training met kleinere batchgroottes of kleinere exponentiële voortschrijdende gemiddelde (EMA) coëfficiënten. Github repo: https://github.com/apple/ml-entropy-reconstruction.
Hoewel instructie-afgestemde modellen opmerkelijke successen hebben geboekt in diverse natuurlijke taalverwerkingstaken, blijft het nauwkeurig evalueren van hun vermogen om instructies te volgen een uitdaging. Bestaande benchmarks richten zich voornamelijk op veelvoorkomende instructies die goed aansluiten bij wat het model tijdens de training heeft geleerd. Echter, vaardigheid in het reageren op deze instructies impliceert niet noodzakelijk een sterk vermogen tot instructievolgen. In dit artikel stellen we een nieuw evaluatieprotocol voor instructievolgen voor, genaamd verbalizer-manipulatie. Het instrueert het model om het taaklabel te verbaliseren met woorden die in verschillende mate aansluiten bij de prioriteiten van het model, waarbij verbalizers worden gebruikt die variëren van sterk aansluitend (bijvoorbeeld het uitvoeren van "positief" voor positieve sentiment) tot minimaal aansluitend (bijvoorbeeld het uitvoeren van "negatief" voor positieve sentiment). Verbalizer-manipulatie kan naadloos worden geïntegreerd met elke classificatiebenchmark om de afhankelijkheid van het model van prioriteiten en zijn vermogen om deze te overschrijven om nauwkeurig instructies te volgen, te onderzoeken. We voeren een uitgebreide evaluatie uit van vier belangrijke modelfamilies over negen datasets, waarbij we twaalf sets verbalizers voor elk van hen gebruiken. We observeren dat de instructievolgende vermogens van modellen, over verschillende families en schalen, significant worden onderscheiden door hun prestaties op minder natuurlijke verbalizers. Zelfs het sterkste GPT-4-model worstelt om beter te presteren dan willekeurig gissen op de meest uitdagende verbalizer, wat de noodzaak benadrukt van voortdurende vooruitgang om hun instructievolgende vermogens te verbeteren.