Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De inferentie van transformer-gebaseerde grote taalmodellen bestaat uit twee opeenvolgende fasen: 1) een prefilling-fase om de KV-cache van prompts te berekenen en het eerste token te genereren, en 2) een decodeerfase om de daaropvolgende tokens te genereren. Voor lange prompts moet de KV-cache voor alle tokens tijdens de prefilling-fase worden berekend, wat de tijd die nodig is om het eerste token te genereren aanzienlijk kan verlengen. Hierdoor kan de prefilling-fase een knelpunt worden in het generatieproces. Een open vraag blijft of alle prompt-tokens essentieel zijn voor het genereren van het eerste token. Om dit te beantwoorden introduceren we een nieuwe methode, LazyLLM, die selectief de KV berekent voor tokens die belangrijk zijn voor de voorspelling van het volgende token, zowel in de prefilling- als in de decodeerfase. In tegenstelling tot statische pruning-benaderingen die de prompt in één keer snoeien, stelt LazyLLM taalmodellen in staat om dynamisch verschillende subsets van tokens uit de context te selecteren in verschillende generatiestappen, zelfs als ze in vorige stappen zijn gesnoeid. Uitgebreide experimenten op standaarddatasets voor diverse taken tonen aan dat LazyLLM een generieke methode is die naadloos kan worden geïntegreerd met bestaande taalmodellen om de generatie aanzienlijk te versnellen zonder fine-tuning. Zo versnelt LazyLLM in de taak van multi-document vraagbeantwoording de prefilling-fase van het LLama 2 7B-model met 2,34x terwijl de nauwkeurigheid behouden blijft.
Grote taalmodellen (LLM's) worden verwacht nauwkeurig te reageren, maar vertonen vaak gebrekkige redeneringen of genereren hallucinatoire inhoud. Om deze problemen aan te pakken, zijn studies met het voorvoegsel ``Self-'' zoals Self-Consistency, Self-Improve en Self-Refine gestart. Ze delen een gemeenschappelijkheid: het betrekken van LLM's die zichzelf evalueren en bijwerken om de problemen te verminderen. Desalniettemin ontbreekt bij deze inspanningen een uniform perspectief op samenvatting, aangezien bestaande overzichten zich voornamelijk richten op categorisatie zonder de motivaties achter deze werken te onderzoeken. In dit artikel vatten we een theoretisch kader samen, genaamd Internal Consistency, dat uniforme verklaringen biedt voor fenomenen zoals het gebrek aan redenering en de aanwezigheid van hallucinaties. Internal Consistency beoordeelt de samenhang tussen de latente laag, de decoderingslaag en de responslaag van LLM's op basis van steekproefmethodologieën. Uitbreidend op het Internal Consistency-kader introduceren we een gestroomlijnd maar effectief theoretisch kader dat Internal Consistency kan ontginnen, genaamd Self-Feedback. Het Self-Feedback-kader bestaat uit twee modules: Self-Evaluation en Self-Update. Dit kader is in talrijke studies gebruikt. We classificeren deze studies systematisch op taken en onderzoekslijnen; vatten relevante evaluatiemethoden en benchmarks samen; en verdiepen ons in de vraag, ``Werkt Self-Feedback Echt?'' We stellen verschillende kritische standpunten voor, waaronder de ``Hourglass Evolution of Internal Consistency'', de hypothese ``Consistency Is (Almost) Correctness'' en ``The Paradox of Latent and Explicit Reasoning''. Bovendien schetsen we veelbelovende richtingen voor toekomstig onderzoek. We hebben de experimentele code, referentielijst en statistische gegevens openbaar gemaakt, beschikbaar op https://github.com/IAAR-Shanghai/ICSFSurvey.
Op het gebied van multimodale taalmodellen zijn de meeste methoden gebaseerd op een architectuur die vergelijkbaar is met LLaVA. Deze modellen gebruiken een enkellaagse ViT-feature als visuele prompt, die direct wordt ingevoerd in de taalmodellen naast tekstuele tokens. Wanneer echter lange sequenties van visuele signalen of invoer zoals video's worden verwerkt, kan het self-attention-mechanisme van taalmodellen leiden tot aanzienlijke rekenkosten. Bovendien maakt het gebruik van enkellaagse ViT-features het voor grote taalmodellen moeilijk om visuele signalen volledig waar te nemen. Dit artikel stelt een efficiënt multimodaal taalmodel voor om de rekenkosten te minimaliseren en tegelijkertijd het model in staat te stellen visuele signalen zo uitgebreid mogelijk waar te nemen. Onze methode omvat voornamelijk: (1) het gebruik van cross-attention voor beeld-tekst-interactie, vergelijkbaar met Flamingo. (2) het benutten van hiërarchische ViT-features. (3) de introductie van het Mixture of Experts (MoE)-mechanisme om de effectiviteit van het model te vergroten. Ons model behaalt competitieve scores op openbare multimodale benchmarks en presteert goed in taken zoals beeldbeschrijving en videobeschrijving.
Open generatieve modellen zijn van cruciaal belang voor de gemeenschap, omdat ze fine-tuning mogelijk maken en als basis dienen bij de presentatie van nieuwe modellen. De meeste huidige tekst-naar-audio modellen zijn echter privé en niet toegankelijk voor kunstenaars en onderzoekers om op voort te bouwen. Hier beschrijven we de architectuur en het trainingsproces van een nieuw open-gewichten tekst-naar-audio model, getraind met Creative Commons-data. Onze evaluatie toont aan dat de prestaties van het model concurrerend zijn met de state-of-the-art op verschillende metrieken. Met name de gerapporteerde FDopenl3-resultaten (die de realisme van de gegenereerde audio meten) tonen het potentieel aan voor hoogwaardige stereogeluidssynthese op 44,1kHz.
In dit werk introduceren we ChatQA 2, een Llama3-gebaseerd model dat is ontworpen om de kloof te overbruggen tussen open-access LLM's en toonaangevende propriëtaire modellen (bijv. GPT-4-Turbo) op het gebied van lang-contextbegrip en retrieval-augmented generation (RAG)-mogelijkheden. Deze twee capaciteiten zijn essentieel voor LLM's om grote hoeveelheden informatie te verwerken die niet in een enkele prompt passen en zijn complementair aan elkaar, afhankelijk van de downstream taken en rekenbudgetten. We presenteren een gedetailleerd voortgezet trainingsrecept om het contextvenster van Llama3-70B-base uit te breiden van 8K naar 128K tokens, samen met een drietraps instructieafstemmingsproces om het model's instructievolging, RAG-prestaties en lang-contextbegrip te verbeteren. Onze resultaten tonen aan dat het Llama3-ChatQA-2-70B model een nauwkeurigheid bereikt die vergelijkbaar is met GPT-4-Turbo-2024-0409 op veel lang-contextbegriptaken en het overtreft op de RAG-benchmark. Interessant genoeg vinden we dat de state-of-the-art lang-contextretriever het top-k contextfragmentatieprobleem in RAG kan verlichten, wat de RAG-gebaseerde resultaten voor lang-contextbegriptaken verder verbetert. We bieden ook uitgebreide vergelijkingen tussen RAG en lang-contextoplossingen met behulp van state-of-the-art lang-context LLM's.
Arabische Optical Character Recognition (OCR) en Handwriting Recognition (HWR) vormen unieke uitdagingen vanwege de cursieve en contextgevoelige aard van het Arabische schrift. Deze studie introduceert Qalam, een nieuw foundation model ontworpen voor Arabische OCR en HWR, gebouwd op een SwinV2-encoder en RoBERTa-decoder architectuur. Ons model presteert aanzienlijk beter dan bestaande methoden, met een Word Error Rate (WER) van slechts 0,80% in HWR-taken en 1,18% in OCR-taken. We trainen Qalam op een diverse dataset, waaronder meer dan 4,5 miljoen afbeeldingen van Arabische manuscripten en een synthetische dataset bestaande uit 60k afbeelding-tekst paren. Opmerkelijk is dat Qalam uitstekend omgaat met Arabische diakritische tekens, een cruciaal kenmerk in Arabische geschriften. Bovendien toont het een opmerkelijke vaardigheid om hoogwaardige invoer te verwerken, wat een veelvoorkomende beperking in huidige OCR-systemen aanpakt. Deze vooruitgang benadrukt het potentieel van Qalam als een toonaangevende oplossing voor Arabische schriftherkenning, wat een aanzienlijke sprong in nauwkeurigheid en efficiëntie biedt.
De afgelopen jaren zijn er aanzienlijke vooruitgangen geboekt op het gebied van visueel documentbegrip, waarbij de heersende architectuur bestaat uit een cascade van visie- en taalmodellen. De tekstcomponent kan expliciet worden geëxtraheerd met behulp van externe OCR-modellen in OCR-gebaseerde benaderingen, of alternatief kan het visiemodel worden uitgerust met leesmogelijkheden in OCR-vrije benaderingen. Typisch worden de queries naar het model uitsluitend ingevoerd in de taalcomponent, wat vereist dat de visuele kenmerken het gehele document omvatten. In dit artikel presenteren we VisFocus, een OCR-vrije methode die is ontworpen om de capaciteit van de visuele encoder beter te benutten door deze direct te koppelen aan de taalprompt. Hiervoor vervangen we de downsampling-lagen door lagen die de invoerprompt ontvangen en relevante delen van het document markeren, terwijl andere delen worden genegeerd. We combineren de architectuurverbeteringen met een nieuwe pre-trainings taak, waarbij we taal-masking gebruiken op een fragment van de documenttekst die aan de visuele encoder wordt gevoerd in plaats van de prompt, om het model te voorzien van focusmogelijkheden. Als gevolg hiervan leert VisFocus zijn aandacht te richten op tekstpatches die relevant zijn voor de verstrekte prompt. Onze experimenten tonen aan dat deze prompt-gestuurde visuele encoderingsbenadering de prestaties aanzienlijk verbetert en state-of-the-art resultaten behaalt op verschillende benchmarks.
De Visie van Autonoom Rekenen (ACV), meer dan twee decennia geleden voorgesteld, voorziet rekeningsystemen die zichzelf beheren, vergelijkbaar met biologische organismen, en naadloos aanpassen aan veranderende omgevingen. Ondanks decennia van onderzoek blijft het bereiken van ACV een uitdaging vanwege de dynamische en complexe aard van moderne rekeningsystemen. Recente vooruitgang in Grote Taalmodellen (LLMs) biedt veelbelovende oplossingen voor deze uitdagingen door gebruik te maken van hun uitgebreide kennis, taalbegrip en mogelijkheden voor taakautomatisering. Dit artikel onderzoekt de haalbaarheid van het realiseren van ACV door middel van een LLM-gebaseerd multi-agent raamwerk voor microservicebeheer. We introduceren een vijf niveaus tellende taxonomie voor autonoom serviceonderhoud en presenteren een online evaluatiebenchmark gebaseerd op het Sock Shop microservice demo project om de prestaties van ons raamwerk te beoordelen. Onze bevindingen tonen significante vooruitgang in het bereiken van Niveau 3 autonomie, wat de effectiviteit van LLMs in het detecteren en oplossen van problemen binnen microservice-architecturen benadrukt. Deze studie draagt bij aan de vooruitgang van autonoom rekenen door als eerste LLMs te integreren in microservicebeheer raamwerken, waardoor de weg wordt geëffend voor meer adaptieve en zelfbeherende rekeningsystemen. De code zal beschikbaar worden gesteld op https://aka.ms/ACV-LLM.
Aangezien taalmodelen (LMs) nu beter presteren dan de gemiddelde mens op veel uitdagende taken, is het steeds moeilijker geworden om uitdagende, hoogwaardige en realistische evaluaties te ontwikkelen. Wij pakken dit probleem aan door de mogelijkheden van LMs te onderzoeken om code te genereren voor het oplossen van echte wetenschappelijke onderzoeksproblemen. Met input van wetenschappers en AI-onderzoekers uit 16 diverse subgebieden van de natuurwetenschappen, waaronder wiskunde, natuurkunde, scheikunde, biologie en materiaalkunde, hebben we een door wetenschappers samengestelde codeerbenchmark gemaakt, SciCode. De problemen in SciCode zijn van nature opgedeeld in meerdere subproblemen, waarbij elk kennisrecall, redeneren en codesynthese omvat. In totaal bevat SciCode 338 subproblemen die zijn afgeleid van 80 uitdagende hoofdproblemen. Het biedt optionele beschrijvingen met nuttige wetenschappelijke achtergrondinformatie en door wetenschappers geannoteerde gouden standaardoplossingen en testgevallen voor evaluatie. Claude3.5-Sonnet, het best presterende model van de geteste modellen, kan slechts 4,6% van de problemen oplossen in de meest realistische setting. Wij geloven dat SciCode zowel de vooruitgang van hedendaagse LMs toont in de richting van het worden van nuttige wetenschappelijke assistenten, als inzicht biedt in de ontwikkeling en evaluatie van wetenschappelijke AI in de toekomst.
De inzet van grote taalmodellen (LLMs) wordt vaak beperkt door het geheugenbandbreedte, waarbij de belangrijkste bottleneck de kosten zijn van het overbrengen van modelparameters van het globale geheugen van de GPU naar zijn registers. Wanneer dit wordt gecombineerd met aangepaste kernels die de dequantisatie- en matmul-bewerkingen samenvoegen, kan gewichtsgerichte quantisatie dus snellere inferentie mogelijk maken door de hoeveelheid geheugenverplaatsing te verminderen. Het ontwikkelen van hoogwaardige kernels voor gewichtsgequantiseerde LLMs brengt echter aanzienlijke uitdagingen met zich mee, vooral wanneer de gewichten worden gecomprimeerd tot niet-evenredig verdeelde bitbreedtes (bijvoorbeeld 3 bits) met niet-uniforme, lookup table (LUT)-quantisatie. Dit artikel beschrijft FLUTE, een flexibele lookup table-engine voor LUT-gequantiseerde LLMs, die gebruikmaakt van offline herstructurering van de gequantiseerde gewichtsmatrix om bitmanipulaties geassocieerd met uitpakken te minimaliseren, en vectorisatie en duplicatie van de lookup table om beperkingen in de gedeelde geheugenbandbreedte te verminderen. Bij batchgroottes < 32 en een quantisatiegroepgrootte van 128 (typisch in LLM-inferentie), kan de FLUTE-kernel 2-4x sneller zijn dan bestaande GEMM-kernels. Als een toepassing van FLUTE verkennen we een eenvoudige uitbreiding van lookup table-gebaseerde NormalFloat-quantisatie en passen we deze toe om LLaMA3 te quantiseren naar verschillende configuraties, waarbij we competitieve quantisatieprestaties behalen ten opzichte van sterke baselines en tegelijkertijd een end-to-end doorvoerverhoging van 1,5 tot 2 keer realiseren.
Recente innovaties in het trainen van taalmodellen hebben aangetoond dat het mogelijk is om zeer presterende modellen te creëren die klein genoeg zijn om op een smartphone te draaien. Naarmate deze modellen in een groeiend aantal domeinen worden ingezet, is het van cruciaal belang ervoor te zorgen dat ze afgestemd zijn op menselijke voorkeuren en veiligheidsaspecten. In dit rapport presenteren we onze methodologie voor het veilig afstemmen van de Phi-3-serie taalmodellen. We hebben een "break-fix"-cyclus gebruikt, waarbij we meerdere rondes van datasetcuratie, veiligheidsna-training, benchmarking, red teaming en kwetsbaarheidsidentificatie hebben uitgevoerd om een verscheidenheid aan schadegebieden in zowel enkelvoudige als meervoudige scenario's te dekken. Onze resultaten geven aan dat deze aanpak iteratief de prestaties van de Phi-3-modellen heeft verbeterd over een breed scala aan verantwoorde AI-benchmarks.
Onlangs, met de snelle vooruitgang van generatieve modellen, heeft het vakgebied van visuele tekstgeneratie aanzienlijke vooruitgang geboekt. Het blijft echter een uitdaging om hoogwaardige tekstafbeeldingen te genereren in realistische scenario's, aangezien aan drie kritieke criteria moet worden voldaan: (1) Getrouwheid: de gegenereerde tekstafbeeldingen moeten fotorealistisch zijn en de inhoud moet overeenkomen met de opgegeven voorwaarden; (2) Redelijkheid: de regio's en inhoud van de gegenereerde tekst moeten samenhangen met de scène; (3) Bruikbaarheid: de gegenereerde tekstafbeeldingen moeten gerelateerde taken (bijvoorbeeld tekstdetectie en -herkenning) kunnen ondersteunen. Na onderzoek blijkt dat bestaande methoden, zowel rendering-gebaseerd als diffusie-gebaseerd, moeilijk aan al deze aspecten tegelijk kunnen voldoen, wat hun toepassingsbereik beperkt. Daarom stellen we in dit artikel een visuele tekstgenerator voor (genaamd SceneVTG), die hoogwaardige tekstafbeeldingen in natuurlijke omgevingen kan produceren. Volgens een tweefasenparadigma maakt SceneVTG gebruik van een Multimodaal Taalmodel op grote schaal om redelijke tekstregio's en -inhoud op meerdere schalen en niveaus aan te bevelen, die vervolgens door een conditioneel diffusiemodel als voorwaarden worden gebruikt om tekstafbeeldingen te genereren. Uitgebreide experimenten tonen aan dat de voorgestelde SceneVTG traditionele rendering-gebaseerde methoden en recente diffusie-gebaseerde methoden aanzienlijk overtreft wat betreft getrouwheid en redelijkheid. Bovendien bieden de gegenereerde afbeeldingen superieure bruikbaarheid voor taken die tekstdetectie en tekstherkenning omvatten. Code en datasets zijn beschikbaar op AdvancedLiterateMachinery.
Sparse autoencoders (SAE's) vormen een veelbelovende onbewaakte aanpak voor het identificeren van causaal relevante en interpreteerbare lineaire kenmerken in de activaties van een taalmodel (LM). Om nuttig te zijn voor downstream taken, moeten SAE's de LM-activaties nauwkeurig ontbinden; maar om interpreteerbaar te zijn, moet de ontbinding spaarzaam zijn – twee doelstellingen die met elkaar in spanning staan. In dit artikel introduceren we JumpReLU SAE's, die state-of-the-art reconstructiegetrouwheid bereiken bij een bepaald spaarzaamheidsniveau op Gemma 2 9B-activaties, vergeleken met andere recente ontwikkelingen zoals Gated en TopK SAE's. We laten ook zien dat deze verbetering niet ten koste gaat van de interpreteerbaarheid, aan de hand van zowel handmatige als geautomatiseerde interpreteerbaarheidsstudies. JumpReLU SAE's zijn een eenvoudige aanpassing van standaard (ReLU) SAE's – waarbij we de ReLU vervangen door een discontinue JumpReLU-activatiefunctie – en zijn even efficiënt om te trainen en uit te voeren. Door straight-through-estimators (STE's) op een principiële manier te gebruiken, laten we zien hoe het mogelijk is om JumpReLU SAE's effectief te trainen ondanks de discontinue JumpReLU-functie die in de forward pass van de SAE wordt geïntroduceerd. Evenzo gebruiken we STE's om L0 direct spaarzaam te trainen, in plaats van te trainen op proxies zoals L1, waardoor problemen zoals krimp worden vermeden.
Onlangs heeft tekst-naar-3D-generatie aanzienlijke aandacht getrokken, wat heeft geleid tot opmerkelijke prestatieverbeteringen. Eerdere methoden maken gebruik van end-to-end 3D-generatiemodellen om 3D-Gaussians te initialiseren, multi-view diffusiemodellen om multi-view consistentie af te dwingen, en tekst-naar-beeld diffusiemodellen om details te verfijnen met score-distillatie-algoritmen. Deze methoden vertonen echter twee beperkingen. Ten eerste ontstaan er conflicten in de generatierichtingen, aangezien verschillende modellen diverse 3D-assets proberen te produceren. Ten tweede is het probleem van oververzadiging in score-distillatie nog niet grondig onderzocht en opgelost. Om deze beperkingen aan te pakken, stellen we PlacidDreamer voor, een tekst-naar-3D-framework dat initialisatie, multi-view-generatie en tekst-geconditioneerde generatie harmoniseert met een enkel multi-view diffusiemodel, terwijl tegelijkertijd een nieuw score-distillatie-algoritme wordt gebruikt om een gebalanceerde verzadiging te bereiken. Om de generatierichting te verenigen, introduceren we de Latent-Plane-module, een training-vriendelijke plug-in-uitbreiding die multi-view diffusiemodellen in staat stelt om snelle geometrie-reconstructie te bieden voor initialisatie en verbeterde multi-view-beelden om het tekst-naar-beeld diffusiemodel te personaliseren. Om het oververzadigingsprobleem aan te pakken, stellen we voor om score-distillatie te beschouwen als een multi-doeloptimalisatieprobleem en introduceren we het Balanced Score Distillation-algoritme, dat een Pareto-optimale oplossing biedt die zowel rijke details als gebalanceerde verzadiging bereikt. Uitgebreide experimenten valideren de uitstekende capaciteiten van onze PlacidDreamer. De code is beschikbaar op https://github.com/HansenHuang0823/PlacidDreamer.
Er is aanzienlijke vooruitgang geboekt in automatische audiobeschrijving (AAC) met recente modellen. Deze modellen zijn echter steeds groter geworden naarmate hun prestaties verbeterden. In dit werk stellen we een raamwerk voor kennisdistillatie (KD) voor AAC voor. Onze analyse toont aan dat het in op encoder-decoder gebaseerde AAC-modellen effectiever is om kennis te distilleren in de encoder in vergelijking met de decoder. Hiertoe integreren we encoder-level KD-verlies in de training, naast het standaard begeleide verlies en sequence-level KD-verlies. We onderzoeken twee encoder-level KD-methoden, gebaseerd op mean squared error (MSE)-verlies en contrastief verlies, respectievelijk. Experimentele resultaten tonen aan dat contrastieve KD robuuster is dan MSE KD, met superieure prestaties in situaties met schaarse data. Door audio-only data te benutten in de training binnen het KD-raamwerk, bereikt ons studentmodel competitieve prestaties, met een inferentiesnelheid die 19 keer sneller is. Een online demo is beschikbaar op \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
We presenteren een nieuwe aanpak voor het herstellen van 3D-vorm en gezichtsafhankelijk uiterlijk vanuit een beperkt aantal gekleurde afbeeldingen, wat efficiënte 3D-reconstructie en synthese van nieuwe gezichtspunten mogelijk maakt. Onze methode leert een impliciete neurale representatie in de vorm van een Signed Distance Function (SDF) en een radiance field. Het model wordt progressief getraind door middel van volumetrische rendering via ray marching, en geregulariseerd met leerloze multi-view stereo (MVS) signalen. Centraal in onze bijdrage staat een nieuwe leerstrategie voor impliciete neurale vormfuncties die ervoor zorgt dat ons SDF-veld zo lineair mogelijk is nabij het level-set, waardoor de training robuuster wordt tegen ruis die voortkomt uit de supervisie- en regularisatiesignalen. Zonder gebruik te maken van vooraf getrainde prior kennis, behaalt onze methode, genaamd SparseCraft, state-of-the-art prestaties in zowel synthese van nieuwe gezichtspunten als reconstructie vanuit schaarse gezichtspunten in standaard benchmarks, terwijl minder dan 10 minuten trainings tijd nodig is.