Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De toenemende omvang van grote taalmodellemodellen heeft uitdagingen opgeleverd voor implementatie en zorgen gewekt over de milieueffecten vanwege het hoge energieverbruik. In dit werk introduceren we BitNet, een schaalbare en stabiele 1-bit Transformer-architectuur ontworpen voor grote taalmodellemodellen. Specifiek introduceren we BitLinear als een directe vervanging van de nn.Linear-laag om 1-bit gewichten vanaf nul te trainen. Experimentele resultaten voor taalmodellemodellen laten zien dat BitNet competitieve prestaties bereikt terwijl het geheugengebruik en energieverbruik aanzienlijk worden verminderd, vergeleken met state-of-the-art 8-bit kwantiseringsmethoden en FP16 Transformer-baselines. Bovendien vertoont BitNet een schaalwet die vergelijkbaar is met volledige precisie Transformers, wat suggereert dat het potentieel heeft om effectief op te schalen naar nog grotere taalmodellemodellen terwijl de efficiëntie en prestatievoordelen behouden blijven.
Dit artikel richt zich op hoogwaardige en realtime viewsynthese van dynamische 3D-scènes in 4K-resolutie. Recentelijk hebben enkele methoden voor dynamische viewsynthese indrukwekkende renderkwaliteit getoond. Hun snelheid blijft echter beperkt bij het renderen van hoogresolutiebeelden. Om dit probleem te overwinnen, stellen we 4K4D voor, een 4D-puntwolkrepresentatie die hardware-rasterisatie ondersteunt en een ongekende rendersnelheid mogelijk maakt. Onze representatie is gebouwd op een 4D-featuregrid, waardoor de punten van nature geregulariseerd zijn en robuust kunnen worden geoptimaliseerd. Daarnaast ontwerpen we een nieuw hybride uiterlijkheidsmodel dat de renderkwaliteit aanzienlijk verbetert terwijl de efficiëntie behouden blijft. Bovendien ontwikkelen we een differentieerbaar dieptepeelalgoritme om het voorgestelde model effectief te leren van RGB-video's. Experimenten tonen aan dat onze representatie kan worden gerenderd met meer dan 400 FPS op de DNA-Rendering dataset in 1080p-resolutie en 80 FPS op de ENeRF-Outdoor dataset in 4K-resolutie met een RTX 4090 GPU, wat 30x sneller is dan eerdere methoden en de state-of-the-art renderkwaliteit bereikt. We zullen de code vrijgeven voor reproduceerbaarheid.
Low-rank adaptatie (LoRA) is een populaire methode die het aantal trainbare parameters vermindert bij het finetunen van grote taalmodelen, maar nog steeds te maken heeft met aanzienlijke opslaguitdagingen bij het opschalen naar nog grotere modellen of het implementeren van talrijke per gebruiker of per taak aangepaste modellen. In dit werk presenteren we Vector-based Random Matrix Adaptation (VeRA), dat het aantal trainbare parameters met 10x vermindert in vergelijking met LoRA, maar toch dezelfde prestaties behoudt. Dit wordt bereikt door gebruik te maken van een enkel paar low-rank matrices die gedeeld worden over alle lagen en door kleine schaalvectoren te leren in plaats daarvan. We demonstreren de effectiviteit ervan op de GLUE- en E2E-benchmarks, en tonen de toepassing ervan in instructievolging met slechts 1,4M parameters met behulp van het Llama2 7B-model.
We presenteren Set-of-Mark (SoM), een nieuwe visuele promptingmethode, om de visuele grondingsmogelijkheden van grote multimodale modellen (LMMs), zoals GPT-4V, te ontketenen. Zoals geïllustreerd in Fig. 1 (rechts), maken we gebruik van kant-en-klare interactieve segmentatiemodellen, zoals SAM, om een afbeelding op te delen in regio's op verschillende niveaus van granulariteit, en overlappen we deze regio's met een set van markeringen, bijvoorbeeld alfanumerieke tekens, maskers, vakjes. Door de gemarkeerde afbeelding als invoer te gebruiken, kan GPT-4V vragen beantwoorden die visuele gronding vereisen. We voeren een uitgebreide empirische studie uit om de effectiviteit van SoM te valideren op een breed scala aan fijnmazige visuele en multimodale taken. Onze experimenten tonen bijvoorbeeld aan dat GPT-4V met SoM in een zero-shot setting de state-of-the-art volledig gefinetunede referentiesegmentatiemodel op RefCOCOg overtreft.
De visuele en taalkundige generatieve modellen zijn de afgelopen jaren sterk gegroeid. Voor videogeneratie zijn verschillende open-source modellen en publiek beschikbare diensten vrijgegeven voor het genereren van video's van hoge visuele kwaliteit. Deze methoden gebruiken echter vaak een beperkt aantal academische metrieken, zoals FVD of IS, om de prestaties te evalueren. Wij stellen dat het moeilijk is om grote conditionele generatieve modellen te beoordelen aan de hand van eenvoudige metrieken, aangezien deze modellen vaak getraind zijn op zeer grote datasets met veelzijdige mogelijkheden. Daarom stellen we een nieuw raamwerk en een pijplijn voor om de prestaties van de gegenereerde video's uitgebreid te evalueren. Om dit te bereiken, stellen we eerst een nieuwe promptlijst samen voor tekst-naar-videogeneratie door de real-world promptlijst te analyseren met behulp van een groot taalmodel. Vervolgens evalueren we de state-of-the-art videogeneratieve modellen op onze zorgvuldig ontworpen benchmarks, wat betreft visuele kwaliteiten, inhoudelijke kwaliteiten, bewegingskwaliteiten en tekst-bijschrift-alignering met ongeveer 18 objectieve metrieken. Om de uiteindelijke ranglijst van de modellen te verkrijgen, passen we ook een reeks coëfficiënten toe om de objectieve metrieken af te stemmen op de meningen van gebruikers. Op basis van de voorgestelde opinie-afstemmingsmethode toont onze eindscore een hogere correlatie dan het simpelweg middelen van de metrieken, wat de effectiviteit van de voorgestelde evaluatiemethode aantoont.
Grote Taalmodellen zoals ChatGPT tonen een opmerkelijke capaciteit om nieuwe concepten te leren tijdens inferentie zonder enige fine-tuning. Visuele modellen die zijn getraind om nieuwe objecten te detecteren tijdens inferentie, zijn echter niet in staat gebleken om dit vermogen na te bootsen, en presteren ofwel slecht of vereisen meta-training en/of fine-tuning op vergelijkbare objecten. In dit werk stellen we een meta-leeralgoritme voor dat Grote Taalmodellen nabootst door nieuwe visuele concepten te leren tijdens inferentie zonder fine-tuning. Onze aanpak maakt gebruik van een bevroren, vooraf getrainde feature extractor, en analoog aan in-context learning, herformuleert het meta-leren als sequentiemodellering over datapunten met bekende labels en een testdatapunt met een onbekend label. Op 8 van de 11 meta-learning benchmarks overtreft of evenaart onze aanpak — zonder meta-training of fine-tuning — het state-of-the-art algoritme, P>M>F, dat op deze benchmarks is getraind.
Hoe kunnen we de reken- en geheugenvereisten van neurale netwerken (NNs) verminderen zonder in te leveren op prestaties? Veel recente werken gebruiken sparse Mixtures of Experts (MoEs) om resource-efficiënte grote taalmodellen (LMs) te bouwen. Hier introduceren we verschillende nieuwe perspectieven op MoEs en presenteren we een algemeen raamwerk dat verschillende methoden verenigt om twee-laagse NNs te benaderen (bijvoorbeeld feedforward-blokken van Transformers), inclusief product-key memories (PKMs). Door inzichten uit dit raamwerk te benutten, stellen we methoden voor om zowel MoEs als PKMs te verbeteren. In tegenstelling tot eerder werk dat MoEs vergelijkt met dense baselines onder de compute-gelijke voorwaarde, is onze evaluatievoorwaarde parameter-gelijk, wat cruciaal is om LMs correct te evalueren. We laten zien dat onze MoEs competitief zijn met de dense Transformer-XL op zowel de WikiText-103 als de enwiki8 datasets op twee verschillende schalen, terwijl ze veel resource-efficiënter zijn. Dit toont aan dat MoEs niet alleen relevant zijn voor extreem grote LMs, maar ook voor resource-efficiënte LMs van elke schaal. Onze code is openbaar.
Naarmate grote taalmmodellen (LLMs) steeds meer worden gebruikt, is er een groeiende behoefte aan nieuwe en verbeterde kwantiseringsmethoden die kunnen voldoen aan de computationele eisen van deze moderne architecturen, terwijl de nauwkeurigheid behouden blijft. In dit artikel presenteren we TEQ, een trainbare equivalente transformatie die de FP32-precisie van de modeloutput behoudt, terwijl gebruik wordt gemaakt van kwantisering met lage precisie, met name 3- en 4-bits gewichtskwantisering. Het trainingsproces is lichtgewicht en vereist slechts 1.000 stappen en minder dan 0,1 procent van de trainbare parameters van het oorspronkelijke model. Bovendien voegt de transformatie geen extra rekenkosten toe tijdens de inferentie. Onze resultaten zijn vergelijkbaar met de state-of-the-art (SOTA) methoden voor typische LLMs. Onze aanpak kan worden gecombineerd met andere methoden om nog betere prestaties te bereiken. De code is beschikbaar op https://github.com/intel/neural-compressor.
Met de indrukwekkende vooruitgang in diffusiegebaseerde tekst-naar-beeldgeneratie, trekt het uitbreiden van dergelijke krachtige generatieve mogelijkheden naar tekst-naar-video veel aandacht. Bestaande methoden vereisen ofwel grootschalige tekst-video-paren en een groot aantal trainingsbronnen, ofwel leren bewegingen die precies zijn afgestemd op sjabloonvideo's. Het is niet triviaal om een balans te vinden tussen de mate van generatievrijheid en de resourcekosten voor videogeneratie. In onze studie presenteren we een few-shot-gebaseerd afstemmingsframework, LAMP, dat een tekst-naar-beeld diffusiemodel in staat stelt om een specifiek bewegingspatroon te leren met 8~16 video's op een enkele GPU. Specifiek ontwerpen we een pipeline die is gebaseerd op het eerste frame, waarbij een kant-en-klaar tekst-naar-beeldmodel wordt gebruikt voor inhoudsgeneratie, zodat ons afgestemde videodiffusiemodel zich voornamelijk richt op het leren van beweging. De goed ontwikkelde tekst-naar-beeldtechnieken kunnen visueel aantrekkelijke en diverse inhoud bieden als generatievoorwaarden, wat de videokwaliteit en generatievrijheid aanzienlijk verbetert. Om de kenmerken van de temporele dimensie vast te leggen, breiden we de vooraf getrainde 2D-convolutielagen van het T2I-model uit naar onze nieuwe temporeel-ruimtelijke bewegingsleerlagen en passen we de aandachtblokken aan op het temporele niveau. Daarnaast ontwikkelen we een effectieve inferentietruc, gedeelde-ruisbemonstering, die de stabiliteit van video's kan verbeteren met rekenkosten. Onze methode kan ook flexibel worden toegepast op andere taken, zoals animatie van real-world beelden en videobewerking. Uitgebreide experimenten tonen aan dat LAMP effectief het bewegingspatroon kan leren op beperkte data en hoogwaardige video's kan genereren. De code en modellen zijn beschikbaar op https://rq-wu.github.io/projects/LAMP.
Code completion-modellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, maar de huidige populaire evaluatiedatasets, zoals HumanEval en MBPP, richten zich voornamelijk op code completion-taken binnen één bestand. Deze te vereenvoudigde setting schiet tekort in het weergeven van het real-world softwareontwikkelingsscenario, waarbij repositories meerdere bestanden omvatten met talrijke kruisbestandsafhankelijkheden, en het toegang krijgen tot en begrijpen van kruisbestandscontext vaak vereist is om de code correct te voltooien. Om deze kloof te dichten, stellen we CrossCodeEval voor, een diverse en meertalige code completion-benchmark die een diepgaand begrip van kruisbestandscontext vereist om de code nauwkeurig te voltooien. CrossCodeEval is gebouwd op een diverse set van real-world, open-source, permissief gelicenseerde repositories in vier populaire programmeertalen: Python, Java, TypeScript en C#. Om voorbeelden te creëren die strikt kruisbestandscontext vereisen voor nauwkeurige voltooiing, stellen we een eenvoudige maar efficiënte statische-analyse-gebaseerde aanpak voor om het gebruik van kruisbestandscontext binnen het huidige bestand te identificeren. Uitgebreide experimenten met state-of-the-art code-taalmodelen zoals CodeGen en StarCoder tonen aan dat CrossCodeEval extreem uitdagend is wanneer de relevante kruisbestandscontext ontbreekt, en we zien duidelijke verbeteringen wanneer deze context aan de prompt wordt toegevoegd. Echter, ondanks deze verbeteringen, blijft het hoogtepunt van de prestaties opmerkelijk onbereikt, zelfs met het best presterende model, wat aangeeft dat CrossCodeEval ook in staat is om het vermogen van modellen te beoordelen om uitgebreide context te benutten voor betere code completion. Ten slotte hebben we verschillende methoden voor het ophalen van kruisbestandscontext gebenchmarkt, en laten we zien dat CrossCodeEval ook gebruikt kan worden om het vermogen van code-retrievers te meten.