Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren LongLoRA, een efficiënte fine-tuning aanpak die de contextgroottes van vooraf getrainde grote taalmodellen (LLMs) uitbreidt, met beperkte rekenkosten. Normaal gesproken is het trainen van LLMs met lange contextgroottes rekenkundig duur, wat uitgebreide trainingsuren en GPU-bronnen vereist. Het trainen op een contextlengte van 8192 vereist bijvoorbeeld 16x zoveel rekenkosten in de self-attention lagen als bij een contextlengte van 2048. In dit artikel versnellen we de contextuitbreiding van LLMs op twee manieren. Enerzijds, hoewel tijdens de inferentie dichte globale aandacht nodig is, kan het fine-tunen van het model effectief en efficiënt worden uitgevoerd met behulp van sparse lokale aandacht. De voorgestelde shift short attention maakt contextuitbreiding effectief mogelijk, wat leidt tot aanzienlijke rekenbesparingen met vergelijkbare prestaties als fine-tuning met standaard aandacht. Het kan met name worden geïmplementeerd met slechts twee regels code tijdens het trainen, terwijl het optioneel is tijdens de inferentie. Anderzijds herzien we het parameter-efficiënte fine-tuning regime voor contextuitbreiding. Opmerkelijk is dat we ontdekken dat LoRA voor contextuitbreiding goed werkt onder de voorwaarde van trainbare embedding en normalisatie. LongLoRA toont sterke empirische resultaten op verschillende taken op LLaMA2 modellen van 7B/13B tot 70B. LongLoRA breidt LLaMA2 7B uit van 4k context naar 100k, of LLaMA2 70B naar 32k op een enkele 8x A100 machine. LongLoRA breidt de context van modellen uit terwijl hun oorspronkelijke architectuur behouden blijft, en is compatibel met de meeste bestaande technieken, zoals FlashAttention-2. Daarnaast hebben we, om LongLoRA praktisch te maken, een dataset, LongQA, verzameld voor supervised fine-tuning. Deze bevat meer dan 3k lange context vraag-antwoord paren.
Transformer deed zijn intrede op het gebied van natuurlijke taalverwerking en werd later overgeheveld naar het domein van computervisie, waar het uitstekende prestaties laat zien bij visuele taken. Recentelijk is echter Retentive Network (RetNet) opgekomen als een architectuur met het potentieel om Transformer te vervangen, wat brede aandacht heeft getrokken in de NLP-gemeenschap. Daarom stellen we de vraag of het overbrengen van het idee van RetNet naar visie ook uitmuntende prestaties kan opleveren voor visuele taken. Om dit te onderzoeken, combineren we RetNet en Transformer om RMT voor te stellen. Geïnspireerd door RetNet introduceert RMT expliciete verval in de visuele backbone, wat voorkennis met betrekking tot ruimtelijke afstanden toevoegt aan het visuele model. Deze afstandsgerelateerde ruimtelijke prior maakt het mogelijk om expliciet het bereik van tokens dat elke token kan bereiken te controleren. Daarnaast decomponeren we het globale modelleringsproces langs de twee coördinaatassen van de afbeelding om de rekenkosten te verminderen. Uitgebreide experimenten hebben aangetoond dat onze RMT uitzonderlijke prestaties vertoont bij diverse computervisietaken. Zo behaalt RMT bijvoorbeeld een Top1-acc van 84,1% op ImageNet-1k met slechts 4,5G FLOPs. Voor zover wij weten, behaalt RMT de hoogste Top1-acc onder alle modellen wanneer modellen van vergelijkbare grootte zijn en met dezelfde strategie getraind worden. Bovendien overtreft RMT bestaande visuele backbones aanzienlijk in downstream taken zoals objectdetectie, instantiesegmentatie en semantische segmentatie. Ons werk is nog in uitvoering.
Generatieve grote taalmodelen (LLMs) hebben opmerkelijke vooruitgang geboekt in diverse NLP-taken. Deze vooruitgang is echter niet terug te zien in de vertaaltaak, met name bij modellen van gemiddelde grootte (d.w.z. 7B of 13B parameters), die nog steeds achterblijven bij conventionele supervised encoder-decoder vertaalmodellen. Eerdere studies hebben geprobeerd de vertaalcapaciteiten van deze middelgrote LLMs te verbeteren, maar de behaalde winst was beperkt. In deze studie stellen we een nieuwe fine-tuning aanpak voor LLMs voor die specifiek is ontworpen voor de vertaaltaak, waardoor de noodzaak van overvloedige parallelle data, waar traditionele vertaalmodellen meestal op vertrouwen, wordt geëlimineerd. Onze aanpak bestaat uit twee fine-tuning fasen: initiële fine-tuning op monolinguale data gevolgd door verdere fine-tuning op een kleine set van hoogwaardige parallelle data. We introduceren het LLM dat via deze strategie is ontwikkeld als Advanced Language Model-based trAnslator (ALMA). Gebaseerd op LLaMA-2 als ons onderliggende model, laten onze resultaten zien dat het model een gemiddelde verbetering van meer dan 12 BLEU en 12 COMET kan bereiken ten opzichte van zijn zero-shot prestaties over 10 vertaalrichtingen van de WMT'21 (2 richtingen) en WMT'22 (8 richtingen) testdatasets. De prestaties zijn aanzienlijk beter dan alle eerdere werken en zelfs superieur aan het NLLB-54B model en GPT-3.5-text-davinci-003, met slechts 7B of 13B parameters. Deze methode legt de basis voor een nieuw trainingsparadigma in machinaal vertalen.
Het bestuderen van hoe mensen in realistische scenario's omgaan met grote taalmodellen (LLMs) wordt steeds belangrijker vanwege hun brede toepassing in diverse domeinen. In dit artikel introduceren we LMSYS-Chat-1M, een grootschalige dataset die één miljoen realistische gesprekken bevat met 25 state-of-the-art LLMs. Deze dataset is verzameld van 210K unieke IP-adressen in het wild via onze Vicuna-demo en de Chatbot Arena-website. We bieden een overzicht van de inhoud van de dataset, inclusief het curatieproces, basisstatistieken en onderwerpsverdeling, waarbij de diversiteit, originaliteit en schaal ervan worden benadrukt. We demonstreren de veelzijdigheid ervan aan de hand van vier use cases: het ontwikkelen van contentmoderatiemodellen die vergelijkbaar presteren met GPT-4, het opzetten van een veiligheidsbenchmark, het trainen van instructievolgende modellen die vergelijkbaar presteren met Vicuna, en het creëren van uitdagende benchmarkvragen. Wij geloven dat deze dataset een waardevolle bron zal zijn voor het begrijpen en bevorderen van de mogelijkheden van LLMs. De dataset is publiek beschikbaar op https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
Grote taalmodellen (LLMs) hebben de grenzen van natuurlijke taalbegrip verlegd en uitstekende probleemoplossende vaardigheden getoond. Ondanks het grote succes zijn de meeste bestaande open-source LLMs (\bijv. LLaMA-2) nog steeds verre van bevredigend voor het oplossen van wiskundige problemen vanwege de complexe redeneerprocedures. Om deze kloof te overbruggen, stellen we MetaMath voor, een fijn afgestemd taalmodel dat gespecialiseerd is in wiskundig redeneren. Specifiek beginnen we met het bootstrappen van wiskundige vragen door de vraag vanuit meerdere perspectieven te herschrijven zonder extra kennis, wat resulteert in een nieuwe dataset genaamd {MetaMathQA}. Vervolgens stellen we de LLaMA-2-modellen fijn af op MetaMathQA. Experimentele resultaten op twee populaire benchmarks (\d.w.z. GSM8K en MATH) voor wiskundig redeneren laten zien dat MetaMath een reeks open-source LLMs met een aanzienlijke marge overtreft. Ons MetaMath-7B-model behaalt 66,4% op GSM8K en 19,4% op MATH, wat de state-of-the-art modellen van dezelfde grootte met 11,5% en 8,7% overtreft. In het bijzonder behaalt {MetaMath-70B} een nauwkeurigheid van 82,3% op {GSM8K}, wat iets beter is dan {GPT-3.5-Turbo}. We geven de {MetaMathQA}-dataset, de {MetaMath}-modellen met verschillende modelgroottes en de trainingscode vrij voor publiek gebruik.
3D-visuele gronding is een essentiële vaardigheid voor huishoudelijke robots, waardoor ze kunnen navigeren, objecten kunnen manipuleren en vragen kunnen beantwoorden op basis van hun omgeving. Terwijl bestaande benaderingen vaak afhankelijk zijn van uitgebreide gelabelde data of beperkingen vertonen bij het verwerken van complexe taalvragen, stellen wij LLM-Grounder voor, een nieuwe zero-shot, open-vocabulary, op Large Language Models (LLM) gebaseerde 3D-visuele grondingspijplijn. LLM-Grounder maakt gebruik van een LLM om complexe natuurlijke taalvragen te ontleden in semantische componenten en gebruikt een visuele grondingstool, zoals OpenScene of LERF, om objecten in een 3D-scène te identificeren. De LLM evalueert vervolgens de ruimtelijke en gezondverstandrelaties tussen de voorgestelde objecten om een definitieve grondingsbeslissing te nemen. Onze methode vereist geen gelabelde trainingsdata en kan generaliseren naar nieuwe 3D-scènes en willekeurige tekstvragen. We evalueren LLM-Grounder op de ScanRefer-benchmark en tonen state-of-the-art zero-shot grondingsnauwkeurigheid aan. Onze bevindingen geven aan dat LLM's de grondingscapaciteit aanzienlijk verbeteren, vooral voor complexe taalvragen, waardoor LLM-Grounder een effectieve benadering is voor 3D-visie-taaltaken in robotica. Video's en interactieve demo's zijn te vinden op de projectwebsite https://chat-with-nerf.github.io/.
We introduceren het Bittensor Language Model, genaamd "BTLM-3B-8K", een nieuw state-of-the-art open-source taalmodel met 3 miljard parameters. BTLM-3B-8K is getraind op 627B tokens uit de SlimPajama-dataset met een mix van contextlengtes van 2.048 en 8.192. BTLM-3B-8K overtreft alle bestaande modellen met 3B parameters met 2-5,5% op downstream taken. BTLM-3B-8K is zelfs concurrerend met sommige modellen van 7B parameters. Daarnaast biedt BTLM-3B-8K uitstekende prestaties bij lange contexten, waarbij het MPT-7B-8K en XGen-7B-8K overtreft op taken tot een contextlengte van 8.192. We hebben het model getraind op een gereinigde en gededupliceerde SlimPajama-dataset; agressief de \textmu P-hyperparameters en het schema afgestemd; ALiBi-positie-embeddingen gebruikt; en de SwiGLU-nonlineariteit geadopteerd. Op Hugging Face hebben de meest populaire modellen 7B parameters, wat aangeeft dat gebruikers de kwaliteit-grootte verhouding van 7B-modellen prefereren. Het comprimeren van het 7B-parameter model naar een model met 3B parameters, met weinig prestatieverlies, is een belangrijke mijlpaal. BTLM-3B-8K heeft slechts 3GB geheugen nodig met 4-bit precisie en vereist 2,5x minder rekencapaciteit voor inferentie dan 7B-modellen, wat helpt om toegang te openen tot een krachtig taalmodel op mobiele en edge-apparaten. BTLM-3B-8K is beschikbaar onder een Apache 2.0-licentie op Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
In dit werk introduceren we Boolformer, de eerste Transformer-architectuur die is getraind om end-to-end symbolische regressie van Booleaanse functies uit te voeren. Eerst tonen we aan dat het compacte formules kan voorspellen voor complexe functies die niet tijdens de training zijn gezien, wanneer het een schone waarheidstabel krijgt. Vervolgens demonstreren we zijn vermogen om benaderende uitdrukkingen te vinden wanneer het onvolledige en ruisachtige observaties krijgt. We evalueren de Boolformer op een breed scala aan binaire classificatiedatasets uit de praktijk, wat zijn potentieel aantoont als een interpreteerbaar alternatief voor klassieke machine learning-methoden. Tot slot passen we het toe op de veelvoorkomende taak van het modelleren van de dynamiek van genregulerende netwerken. Met behulp van een recente benchmark laten we zien dat Boolformer concurrerend is met state-of-the-art genetische algoritmen, met een snelheidswinst van meerdere ordes van grootte. Onze code en modellen zijn openbaar beschikbaar.