Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodelen zijn gebouwd op een transformer-gebaseerde architectuur om tekstuele invoer te verwerken. Zo springt LLaMA eruit onder de vele open-source implementaties. Kan dezelfde transformer worden gebruikt om 2D-afbeeldingen te verwerken? In dit artikel beantwoorden we deze vraag door een LLaMA-achtige vision transformer in zowel eenvoudige als piramidevorm te onthullen, genaamd VisionLLaMA, die speciaal hiervoor is ontworpen. VisionLLaMA is een uniform en generiek modelleerkader voor het oplossen van de meeste visuele taken. We evalueren uitgebreid de effectiviteit ervan met behulp van typische voorafgaande trainingsparadigma's in een groot deel van de downstream taken van beeldwaarneming en vooral beeldgeneratie. In veel gevallen heeft VisionLLaMA aanzienlijke verbeteringen laten zien ten opzichte van de vorige state-of-the-art vision transformers. Wij geloven dat VisionLLaMA kan dienen als een sterk nieuw basismodel voor visuele generatie en begrip. Onze code zal worden vrijgegeven op https://github.com/Meituan-AutoML/VisionLLaMA.
Joint-Embedding Predictive Architecture (JEPA) is naar voren gekomen als een veelbelovende zelf-superviserende benadering die leert door gebruik te maken van een wereldmodel. Terwijl het voorheen beperkt was tot het voorspellen van ontbrekende delen van een invoer, onderzoeken we hoe de JEPA-voorspellingstaak kan worden gegeneraliseerd naar een breder scala van corrupties. We introduceren Image World Models, een benadering die verder gaat dan gemaskeerde beeldmodellering en leert om het effect van globale fotometrische transformaties in de latente ruimte te voorspellen. We bestuderen de methode om performante IWM's te leren en tonen aan dat deze steunt op drie cruciale aspecten: conditionering, voorspellingsmoeilijkheid en capaciteit. Daarnaast laten we zien dat het voorspellende wereldmodel dat door IWM wordt geleerd, kan worden aangepast door middel van finetuning om diverse taken op te lossen; een gefinetuned IWM-wereldmodel evenaart of overtreft de prestaties van eerdere zelf-superviserende methoden. Tot slot tonen we aan dat leren met een IWM het mogelijk maakt om het abstractieniveau van de geleerde representaties te beheersen, waarbij invariante representaties worden geleerd zoals bij contrastieve methoden, of equivariante representaties zoals bij gemaskeerde beeldmodellering.
Dit artikel behandelt de uitdaging van train-short-test-long (TSTL) scenario's in Large Language Models (LLM's) die zijn uitgerust met Rotary Position Embedding (RoPE), waarbij modellen die zijn voorgetraind op kortere sequenties moeite hebben met out-of-distribution (OOD) tokenposities in langere sequenties. We introduceren Resonance RoPE, een nieuwe aanpak die is ontworpen om de generalisatiekloof in TSTL-scenario's te verkleinen door de interpolatie van RoPE-features voor OOD-posities te verfijnen, wat de modelprestaties aanzienlijk verbetert zonder extra online rekenkosten. Daarnaast presenteren we PosGen, een nieuwe synthetische benchmark die specifiek is ontworpen voor gedetailleerd gedragsanalyse in TSTL-scenario's, met als doel de voortdurend toenemende moeilijkheid van het genereren van tokens in lange contexten te isoleren van de uitdagingen van het herkennen van nieuwe tokenposities. Onze experimenten op synthetische taken laten zien dat Transformers na het toepassen van Resonance RoPE OOD-posities beter en robuuster herkennen. Onze uitgebreide LLM-experimenten tonen ook superieure prestaties na het toepassen van Resonance RoPE op de huidige state-of-the-art RoPE-schaalmethode, YaRN, zowel bij upstream taalmodelleringstaken als bij een verscheidenheid aan downstream lange-teksttoepassingen.
Text-to-image-personalisatie, dat als doel heeft tekstgestuurde afbeeldingen te genereren voor gegeven onderwerpen, heeft recentelijk een revolutie teweeggebracht in contentcreatie. Bestaande werken volgen het pseudo-woordparadigma, waarbij de gegeven onderwerpen worden weergegeven als pseudo-woorden en vervolgens worden gecombineerd met de gegeven tekst. Echter, de inherent verstrengelde invloedssfeer van pseudo-woorden met de gegeven tekst resulteert in een dubbeloptimumparadox, waarbij de gelijkenis van de gegeven onderwerpen en de bestuurbaarheid van de gegeven tekst niet tegelijkertijd optimaal kunnen zijn. Wij presenteren RealCustom, dat voor het eerst gelijkenis ontwart van bestuurbaarheid door de invloed van het onderwerp precies te beperken tot relevante delen, bereikt door het geleidelijk vernauwen van een echt tekstwoord van zijn algemene connotatie naar het specifieke onderwerp en het gebruik van zijn kruis-attentie om relevantie te onderscheiden. Specifiek introduceert RealCustom een nieuw "train-inference" ontkoppeld raamwerk: (1) tijdens de training leert RealCustom algemene alignering tussen visuele condities en originele tekstuele condities door een nieuw adaptief scoringsmodule om de invloedshoeveelheid adaptief te moduleren; (2) tijdens de inferentie wordt een nieuwe adaptieve maskerbegeleidingsstrategie voorgesteld om de invloedssfeer en invloedshoeveelheid van de gegeven onderwerpen iteratief bij te werken om de generatie van het echte tekstwoord geleidelijk te vernauwen. Uitgebreide experimenten demonstreren de superieure real-time personalisatiecapaciteit van RealCustom in het open domein, waarbij zowel een ongekende gelijkenis van de gegeven onderwerpen als bestuurbaarheid van de gegeven tekst voor het eerst worden bereikt. De projectpagina is https://corleone-huang.github.io/realcustom/.
Activatiepatchen is een methode om direct causale attributies van gedrag aan modelcomponenten te berekenen. Het exhaustief toepassen ervan vereist echter een doorloop met kosten die lineair schalen met het aantal modelcomponenten, wat voor state-of-the-art Large Language Models (LLM's) onbetaalbaar duur kan zijn. Wij onderzoeken Attributiepatchen (AtP), een snelle, op gradienten gebaseerde benadering van Activatiepatchen, en identificeren twee soorten faalmodi van AtP die leiden tot significante fout-negatieven. We stellen een variant van AtP voor, genaamd AtP*, met twee aanpassingen om deze faalmodi aan te pakken terwijl de schaalbaarheid behouden blijft. We presenteren de eerste systematische studie van AtP en alternatieve methoden voor sneller activatiepatchen en tonen aan dat AtP significant beter presteert dan alle andere onderzochte methoden, waarbij AtP* een verdere significante verbetering biedt. Tot slot bieden we een methode om de kans op resterende fout-negatieven van AtP*-schattingen te begrenzen.