HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

10 papers found

BitNet: Schaalbaarheid van 1-bit Transformers voor Grote Taalmodellen
BitNet: Scaling 1-bit Transformers for Large Language Models

Oct 17

ByHongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei

105

De toenemende omvang van grote taalmodellemodellen heeft uitdagingen opgeleverd voor implementatie en zorgen gewekt over de milieueffecten vanwege het hoge energieverbruik. In dit werk introduceren we BitNet, een schaalbare en stabiele 1-bit Transformer-architectuur ontworpen voor grote taalmodellemodellen. Specifiek introduceren we BitLinear als een directe vervanging van de nn.Linear-laag om 1-bit gewichten vanaf nul te trainen. Experimentele resultaten voor taalmodellemodellen laten zien dat BitNet competitieve prestaties bereikt terwijl het geheugengebruik en energieverbruik aanzienlijk worden verminderd, vergeleken met state-of-the-art 8-bit kwantiseringsmethoden en FP16 Transformer-baselines. Bovendien vertoont BitNet een schaalwet die vergelijkbaar is met volledige precisie Transformers, wat suggereert dat het potentieel heeft om effectief op te schalen naar nog grotere taalmodellemodellen terwijl de efficiëntie en prestatievoordelen behouden blijven.

4K4D: Real-time 4D-weergavesynthese bij 4K-resolutie
4K4D: Real-Time 4D View Synthesis at 4K Resolution

Oct 17

ByZhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou

Dit artikel richt zich op hoogwaardige en realtime viewsynthese van dynamische 3D-scènes in 4K-resolutie. Recentelijk hebben enkele methoden voor dynamische viewsynthese indrukwekkende renderkwaliteit getoond. Hun snelheid blijft echter beperkt bij het renderen van hoogresolutiebeelden. Om dit probleem te overwinnen, stellen we 4K4D voor, een 4D-puntwolkrepresentatie die hardware-rasterisatie ondersteunt en een ongekende rendersnelheid mogelijk maakt. Onze representatie is gebouwd op een 4D-featuregrid, waardoor de punten van nature geregulariseerd zijn en robuust kunnen worden geoptimaliseerd. Daarnaast ontwerpen we een nieuw hybride uiterlijkheidsmodel dat de renderkwaliteit aanzienlijk verbetert terwijl de efficiëntie behouden blijft. Bovendien ontwikkelen we een differentieerbaar dieptepeelalgoritme om het voorgestelde model effectief te leren van RGB-video's. Experimenten tonen aan dat onze representatie kan worden gerenderd met meer dan 400 FPS op de DNA-Rendering dataset in 1080p-resolutie en 80 FPS op de ENeRF-Outdoor dataset in 4K-resolutie met een RTX 4090 GPU, wat 30x sneller is dan eerdere methoden en de state-of-the-art renderkwaliteit bereikt. We zullen de code vrijgeven voor reproduceerbaarheid.

VeRA: Vector-gebaseerde Aanpassing van Willekeurige Matrices
VeRA: Vector-based Random Matrix Adaptation

Oct 17

ByDawid Jan Kopiczko, Tijmen Blankevoort, Yuki Markus Asano

Low-rank adaptatie (LoRA) is een populaire methode die het aantal trainbare parameters vermindert bij het finetunen van grote taalmodelen, maar nog steeds te maken heeft met aanzienlijke opslaguitdagingen bij het opschalen naar nog grotere modellen of het implementeren van talrijke per gebruiker of per taak aangepaste modellen. In dit werk presenteren we Vector-based Random Matrix Adaptation (VeRA), dat het aantal trainbare parameters met 10x vermindert in vergelijking met LoRA, maar toch dezelfde prestaties behoudt. Dit wordt bereikt door gebruik te maken van een enkel paar low-rank matrices die gedeeld worden over alle lagen en door kleine schaalvectoren te leren in plaats daarvan. We demonstreren de effectiviteit ervan op de GLUE- en E2E-benchmarks, en tonen de toepassing ervan in instructievolging met slechts 1,4M parameters met behulp van het Llama2 7B-model.

Set-of-Mark Prompting Ontketent Buitengewone Visuele Verankering in GPT-4V
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

Oct 17

ByJianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao

We presenteren Set-of-Mark (SoM), een nieuwe visuele promptingmethode, om de visuele grondingsmogelijkheden van grote multimodale modellen (LMMs), zoals GPT-4V, te ontketenen. Zoals geïllustreerd in Fig. 1 (rechts), maken we gebruik van kant-en-klare interactieve segmentatiemodellen, zoals SAM, om een afbeelding op te delen in regio's op verschillende niveaus van granulariteit, en overlappen we deze regio's met een set van markeringen, bijvoorbeeld alfanumerieke tekens, maskers, vakjes. Door de gemarkeerde afbeelding als invoer te gebruiken, kan GPT-4V vragen beantwoorden die visuele gronding vereisen. We voeren een uitgebreide empirische studie uit om de effectiviteit van SoM te valideren op een breed scala aan fijnmazige visuele en multimodale taken. Onze experimenten tonen bijvoorbeeld aan dat GPT-4V met SoM in een zero-shot setting de state-of-the-art volledig gefinetunede referentiesegmentatiemodel op RefCOCOg overtreft.

EvalCrafter: Benchmarken en evalueren van grote videogeneratiemodellen
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

Oct 17

ByYaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan

De visuele en taalkundige generatieve modellen zijn de afgelopen jaren sterk gegroeid. Voor videogeneratie zijn verschillende open-source modellen en publiek beschikbare diensten vrijgegeven voor het genereren van video's van hoge visuele kwaliteit. Deze methoden gebruiken echter vaak een beperkt aantal academische metrieken, zoals FVD of IS, om de prestaties te evalueren. Wij stellen dat het moeilijk is om grote conditionele generatieve modellen te beoordelen aan de hand van eenvoudige metrieken, aangezien deze modellen vaak getraind zijn op zeer grote datasets met veelzijdige mogelijkheden. Daarom stellen we een nieuw raamwerk en een pijplijn voor om de prestaties van de gegenereerde video's uitgebreid te evalueren. Om dit te bereiken, stellen we eerst een nieuwe promptlijst samen voor tekst-naar-videogeneratie door de real-world promptlijst te analyseren met behulp van een groot taalmodel. Vervolgens evalueren we de state-of-the-art videogeneratieve modellen op onze zorgvuldig ontworpen benchmarks, wat betreft visuele kwaliteiten, inhoudelijke kwaliteiten, bewegingskwaliteiten en tekst-bijschrift-alignering met ongeveer 18 objectieve metrieken. Om de uiteindelijke ranglijst van de modellen te verkrijgen, passen we ook een reeks coëfficiënten toe om de objectieve metrieken af te stemmen op de meningen van gebruikers. Op basis van de voorgestelde opinie-afstemmingsmethode toont onze eindscore een hogere correlatie dan het simpelweg middelen van de metrieken, wat de effectiviteit van de voorgestelde evaluatiemethode aantoont.

Contextbewust Meta-Leren
Context-Aware Meta-Learning

Oct 17

ByChristopher Fifty, Dennis Duan, Ronald G. Junkins, Ehsan Amid, Jure Leskovec, Christopher Ré, Sebastian Thrun

Grote Taalmodellen zoals ChatGPT tonen een opmerkelijke capaciteit om nieuwe concepten te leren tijdens inferentie zonder enige fine-tuning. Visuele modellen die zijn getraind om nieuwe objecten te detecteren tijdens inferentie, zijn echter niet in staat gebleken om dit vermogen na te bootsen, en presteren ofwel slecht of vereisen meta-training en/of fine-tuning op vergelijkbare objecten. In dit werk stellen we een meta-leeralgoritme voor dat Grote Taalmodellen nabootst door nieuwe visuele concepten te leren tijdens inferentie zonder fine-tuning. Onze aanpak maakt gebruik van een bevroren, vooraf getrainde feature extractor, en analoog aan in-context learning, herformuleert het meta-leren als sequentiemodellering over datapunten met bekende labels en een testdatapunt met een onbekend label. Op 8 van de 11 meta-learning benchmarks overtreft of evenaart onze aanpak — zonder meta-training of fine-tuning — het state-of-the-art algoritme, P>M>F, dat op deze benchmarks is getraind.

Benadering van tweelaagse feedforward-netwerken voor efficiënte Transformers
Approximating Two-Layer Feedforward Networks for Efficient Transformers

Oct 16

ByRóbert Csordás, Kazuki Irie, Jürgen Schmidhuber

Hoe kunnen we de reken- en geheugenvereisten van neurale netwerken (NNs) verminderen zonder in te leveren op prestaties? Veel recente werken gebruiken sparse Mixtures of Experts (MoEs) om resource-efficiënte grote taalmodellen (LMs) te bouwen. Hier introduceren we verschillende nieuwe perspectieven op MoEs en presenteren we een algemeen raamwerk dat verschillende methoden verenigt om twee-laagse NNs te benaderen (bijvoorbeeld feedforward-blokken van Transformers), inclusief product-key memories (PKMs). Door inzichten uit dit raamwerk te benutten, stellen we methoden voor om zowel MoEs als PKMs te verbeteren. In tegenstelling tot eerder werk dat MoEs vergelijkt met dense baselines onder de compute-gelijke voorwaarde, is onze evaluatievoorwaarde parameter-gelijk, wat cruciaal is om LMs correct te evalueren. We laten zien dat onze MoEs competitief zijn met de dense Transformer-XL op zowel de WikiText-103 als de enwiki8 datasets op twee verschillende schalen, terwijl ze veel resource-efficiënter zijn. Dit toont aan dat MoEs niet alleen relevant zijn voor extreem grote LMs, maar ook voor resource-efficiënte LMs van elke schaal. Onze code is openbaar.

TEQ: Trainbare Equivalente Transformatie voor Kwantisatie van LLM's
TEQ: Trainable Equivalent Transformation for Quantization of LLMs

Oct 17

ByWenhua Cheng, Yiyang Cai, Kaokao Lv, Haihao Shen

Naarmate grote taalmmodellen (LLMs) steeds meer worden gebruikt, is er een groeiende behoefte aan nieuwe en verbeterde kwantiseringsmethoden die kunnen voldoen aan de computationele eisen van deze moderne architecturen, terwijl de nauwkeurigheid behouden blijft. In dit artikel presenteren we TEQ, een trainbare equivalente transformatie die de FP32-precisie van de modeloutput behoudt, terwijl gebruik wordt gemaakt van kwantisering met lage precisie, met name 3- en 4-bits gewichtskwantisering. Het trainingsproces is lichtgewicht en vereist slechts 1.000 stappen en minder dan 0,1 procent van de trainbare parameters van het oorspronkelijke model. Bovendien voegt de transformatie geen extra rekenkosten toe tijdens de inferentie. Onze resultaten zijn vergelijkbaar met de state-of-the-art (SOTA) methoden voor typische LLMs. Onze aanpak kan worden gecombineerd met andere methoden om nog betere prestaties te bereiken. De code is beschikbaar op https://github.com/intel/neural-compressor.

LAMP: Leer een Bewegingspatroon voor Few-Shot-Gebaseerde Videogeneratie
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation

Oct 16

ByRuiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang

Met de indrukwekkende vooruitgang in diffusiegebaseerde tekst-naar-beeldgeneratie, trekt het uitbreiden van dergelijke krachtige generatieve mogelijkheden naar tekst-naar-video veel aandacht. Bestaande methoden vereisen ofwel grootschalige tekst-video-paren en een groot aantal trainingsbronnen, ofwel leren bewegingen die precies zijn afgestemd op sjabloonvideo's. Het is niet triviaal om een balans te vinden tussen de mate van generatievrijheid en de resourcekosten voor videogeneratie. In onze studie presenteren we een few-shot-gebaseerd afstemmingsframework, LAMP, dat een tekst-naar-beeld diffusiemodel in staat stelt om een specifiek bewegingspatroon te leren met 8~16 video's op een enkele GPU. Specifiek ontwerpen we een pipeline die is gebaseerd op het eerste frame, waarbij een kant-en-klaar tekst-naar-beeldmodel wordt gebruikt voor inhoudsgeneratie, zodat ons afgestemde videodiffusiemodel zich voornamelijk richt op het leren van beweging. De goed ontwikkelde tekst-naar-beeldtechnieken kunnen visueel aantrekkelijke en diverse inhoud bieden als generatievoorwaarden, wat de videokwaliteit en generatievrijheid aanzienlijk verbetert. Om de kenmerken van de temporele dimensie vast te leggen, breiden we de vooraf getrainde 2D-convolutielagen van het T2I-model uit naar onze nieuwe temporeel-ruimtelijke bewegingsleerlagen en passen we de aandachtblokken aan op het temporele niveau. Daarnaast ontwikkelen we een effectieve inferentietruc, gedeelde-ruisbemonstering, die de stabiliteit van video's kan verbeteren met rekenkosten. Onze methode kan ook flexibel worden toegepast op andere taken, zoals animatie van real-world beelden en videobewerking. Uitgebreide experimenten tonen aan dat LAMP effectief het bewegingspatroon kan leren op beperkte data en hoogwaardige video's kan genereren. De code en modellen zijn beschikbaar op https://rq-wu.github.io/projects/LAMP.

CrossCodeEval: Een gevarieerd en meertalig benchmark voor cross-file codecompletie
CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion

Oct 17

ByYangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Hantian Ding, Ming Tan, Nihal Jain, Murali Krishna Ramanathan, Ramesh Nallapati, Parminder Bhatia, Dan Roth, Bing Xiang

Code completion-modellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, maar de huidige populaire evaluatiedatasets, zoals HumanEval en MBPP, richten zich voornamelijk op code completion-taken binnen één bestand. Deze te vereenvoudigde setting schiet tekort in het weergeven van het real-world softwareontwikkelingsscenario, waarbij repositories meerdere bestanden omvatten met talrijke kruisbestandsafhankelijkheden, en het toegang krijgen tot en begrijpen van kruisbestandscontext vaak vereist is om de code correct te voltooien. Om deze kloof te dichten, stellen we CrossCodeEval voor, een diverse en meertalige code completion-benchmark die een diepgaand begrip van kruisbestandscontext vereist om de code nauwkeurig te voltooien. CrossCodeEval is gebouwd op een diverse set van real-world, open-source, permissief gelicenseerde repositories in vier populaire programmeertalen: Python, Java, TypeScript en C#. Om voorbeelden te creëren die strikt kruisbestandscontext vereisen voor nauwkeurige voltooiing, stellen we een eenvoudige maar efficiënte statische-analyse-gebaseerde aanpak voor om het gebruik van kruisbestandscontext binnen het huidige bestand te identificeren. Uitgebreide experimenten met state-of-the-art code-taalmodelen zoals CodeGen en StarCoder tonen aan dat CrossCodeEval extreem uitdagend is wanneer de relevante kruisbestandscontext ontbreekt, en we zien duidelijke verbeteringen wanneer deze context aan de prompt wordt toegevoegd. Echter, ondanks deze verbeteringen, blijft het hoogtepunt van de prestaties opmerkelijk onbereikt, zelfs met het best presterende model, wat aangeeft dat CrossCodeEval ook in staat is om het vermogen van modellen te beoordelen om uitgebreide context te benutten voor betere code completion. Ten slotte hebben we verschillende methoden voor het ophalen van kruisbestandscontext gebenchmarkt, en laten we zien dat CrossCodeEval ook gebruikt kan worden om het vermogen van code-retrievers te meten.

CrossCodeEval: Een gevarieerd en meertalig benchmark voor cross-file codecompletie
CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion

Oct 17

ByYangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Hantian Ding, Ming Tan, Nihal Jain, Murali Krishna Ramanathan, Ramesh Nallapati, Parminder Bhatia, Dan Roth, Bing Xiang