Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De afgelopen jaren hebben we een snelle ontwikkeling gezien van grote taalmodelen (LLMs). Ondanks de sterke prestaties in veel taalbegriptaken, beperkt de zware computationele belasting grotendeels de toepassing van LLMs, vooral wanneer men ze wil implementeren op edge-apparaten. In dit artikel stellen we een quantization-aware low-rank adaptation (QA-LoRA) algoritme voor. De motivatie ligt in de ongelijke vrijheidsgraden van quantisatie en adaptatie, en de oplossing is het gebruik van groepswijze operatoren die de vrijheidsgraad van quantisatie verhogen terwijl die van adaptatie wordt verlaagd. QA-LoRA is eenvoudig te implementeren met een paar regels code, en het voorziet het originele LoRA van twee belangrijke mogelijkheden: (i) tijdens fine-tuning worden de gewichten van het LLM gequantiseerd (bijvoorbeeld naar INT4) om tijd- en geheugengebruik te verminderen; (ii) na fine-tuning worden het LLM en de aanvullende gewichten naadloos geïntegreerd in een gequantiseerd model zonder verlies van nauwkeurigheid. We passen QA-LoRA toe op de LLaMA- en LLaMA2-modelfamilies en valideren de effectiviteit ervan in verschillende fine-tuning datasets en downstream scenario's. De code zal beschikbaar worden gesteld op https://github.com/yuhuixu1993/qa-lora.
Dit werk heeft als doel een hoogwaardig tekst-naar-video (T2V) generatief model te leren door gebruik te maken van een vooraf getraind tekst-naar-beeld (T2I) model als basis. Het is een zeer gewenste maar uitdagende taak om tegelijkertijd a) de synthese van visueel realistische en temporeel coherente video's te bereiken, terwijl b) de sterke creatieve generatie-eigenschappen van het vooraf getrainde T2I model behouden blijven. Hiertoe stellen we LaVie voor, een geïntegreerd videogeneratiekader dat werkt op gecascadeerde video latent diffusion modellen, bestaande uit een basis T2V model, een temporeel interpolatiemodel en een video super-resolutie model. Onze belangrijkste inzichten zijn tweeledig: 1) We laten zien dat de integratie van eenvoudige temporele zelf-attenties, in combinatie met roterende positionele codering, voldoende de temporele correlaties in videodata vastlegt. 2) Daarnaast valideren we dat het proces van gezamenlijke beeld-video fine-tuning een cruciale rol speelt bij het produceren van hoogwaardige en creatieve resultaten. Om de prestaties van LaVie te verbeteren, dragen we een uitgebreide en diverse videodataset genaamd Vimeo25M bij, bestaande uit 25 miljoen tekst-video paren die prioriteit geven aan kwaliteit, diversiteit en esthetische aantrekkingskracht. Uitgebreide experimenten tonen aan dat LaVie state-of-the-art prestaties bereikt, zowel kwantitatief als kwalitatief. Bovendien demonstreren we de veelzijdigheid van vooraf getrainde LaVie modellen in verschillende toepassingen voor lange videogeneratie en gepersonaliseerde videosynthese.
Berekeningen in een typisch Transformer-gebaseerd groot taalmodel (LLM) kunnen worden gekarakteriseerd door batchgrootte, verborgen dimensie, aantal lagen en sequentielengte. Tot nu toe hebben systeemwerken voor het versnellen van LLM-training zich gericht op de eerste drie dimensies: dataparallelisme voor batchgrootte, tensorparallelisme voor verborgen grootte en pijplijnparallelisme voor modeldiepte of lagen. Deze breed bestudeerde vormen van parallelisme zijn niet gericht of geoptimaliseerd voor lange-sequentie Transformer-modellen. Gezien de praktische toepassingsbehoeften voor lange-sequentie LLM, wordt er opnieuw aandacht besteed aan sequentieparallelisme. Bestaande werken in sequentieparallelisme worden echter beperkt door geheugen-communicatie inefficiëntie, wat hun schaalbaarheid naar grote modellen met lange sequenties beperkt. In dit werk introduceren we DeepSpeed-Ulysses, een nieuwe, draagbare en effectieve methodologie voor het mogelijk maken van zeer efficiënte en schaalbare LLM-training met extreem lange sequentielengtes. DeepSpeed-Ulysses verdeelt in de kern invoergegevens langs de sequentiedimensie en gebruikt een efficiënte all-to-all collectieve communicatie voor aandachtberekening. Theoretische communicatieanalyse toont aan dat terwijl andere methoden communicatieoverhead veroorzaken naarmate de sequentielengte toeneemt, DeepSpeed-Ulysses een constant communicatievolume behoudt wanneer de sequentielengte en rekenapparaten proportioneel worden vergroot. Bovendien tonen experimentele evaluaties aan dat DeepSpeed-Ulysses 2,5 keer sneller traint met een 4 keer langere sequentielengte dan de bestaande SOTA-baseline.
Recente vooruitgang in deep learning-methoden zoals LLM's en diffusiemodellen heeft de behoefte gecreëerd aan verbeterde kwantiseringsmethoden die kunnen voldoen aan de computationele eisen van deze moderne architecturen, terwijl de nauwkeurigheid behouden blijft. Met dit doel voor ogen bestuderen we de voordelen van FP8-gegevensformaten voor post-training kwantisering over 75 unieke netwerkarchitecturen die een breed scala aan taken omvatten, waaronder machinaal vertalen, taalmodellering, tekstgeneratie, beeldclassificatie, generatie en segmentatie. We onderzoeken drie verschillende FP8-representaties (E5M2, E4M3 en E3M4) om de effecten te bestuderen van verschillende gradaties van afweging tussen dynamisch bereik en precisie op de modelnauwkeurigheid. Op basis van onze uitgebreide studie hebben we een kwantiseringsworkflow ontwikkeld die generaliseert over verschillende netwerkarchitecturen. Onze empirische resultaten tonen aan dat FP8-formaten INT8 op meerdere aspecten overtreffen, waaronder werklastdekking (92,64% vs. 65,87%), modelnauwkeurigheid en geschiktheid voor een breder scala aan bewerkingen. Bovendien suggereren onze bevindingen dat E4M3 beter geschikt is voor NLP-modellen, terwijl E3M4 marginaal beter presteert dan E4M3 op computervisietaken. De code is publiek beschikbaar op Intel Neural Compressor: https://github.com/intel/neural-compressor.
We onderzoeken het interne gedrag van Transformer-gebaseerde Large Language Models (LLMs) wanneer ze feitelijk onjuiste tekst genereren. We stellen voor om feitelijke vragen te modelleren als Constraint Satisfaction Problems en gebruiken dit raamwerk om te onderzoeken hoe het model intern omgaat met feitelijke beperkingen. Specifiek ontdekken we een sterke positieve relatie tussen de aandacht van het model voor beperkingstokens en de feitelijke nauwkeurigheid van zijn antwoorden. In onze samengestelde set van 11 datasets met meer dan 40.000 prompts, bestuderen we de taak van het voorspellen van feitelijke fouten met de Llama-2-familie op alle schalen (7B, 13B, 70B). We introduceren SAT Probe, een methode die zelf-attentiepatronen onderzoekt, waarmee beperkingsvoldoening en feitelijke fouten kunnen worden voorspeld, en die vroege foutidentificatie mogelijk maakt. De aanpak en bevindingen demonstreren hoe het gebruik van het mechanistische begrip van feitelijkheid in LLMs de betrouwbaarheid kan vergroten.