Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Mixtral 8x7B, een Sparse Mixture of Experts (SMoE) taalmodel. Mixtral heeft dezelfde architectuur als Mistral 7B, met het verschil dat elke laag bestaat uit 8 feedforward blokken (d.w.z. experts). Voor elk token selecteert een router-netwerk op elke laag twee experts om de huidige staat te verwerken en hun uitvoer te combineren. Hoewel elk token slechts twee experts ziet, kunnen de geselecteerde experts per tijdstap verschillen. Hierdoor heeft elk token toegang tot 47B parameters, maar gebruikt het slechts 13B actieve parameters tijdens inferentie. Mixtral is getraind met een contextgrootte van 32k tokens en presteert beter of gelijkwaardig aan Llama 2 70B en GPT-3.5 op alle geëvalueerde benchmarks. In het bijzonder presteert Mixtral aanzienlijk beter dan Llama 2 70B op wiskunde, codegeneratie en meertalige benchmarks. We bieden ook een model aan dat is afgestemd op het volgen van instructies, Mixtral 8x7B - Instruct, dat GPT-3.5 Turbo, Claude-2.1, Gemini Pro en Llama 2 70B - chatmodel overtreft op menselijke benchmarks. Zowel het basismodel als het instructiemodel zijn vrijgegeven onder de Apache 2.0-licentie.
State Space Models (SSMs) zijn serieuze concurrenten geworden op het gebied van sequentiële modellering en dagen de dominantie van Transformers uit. Tegelijkertijd heeft Mixture of Experts (MoE) Transformer-gebaseerde LLM's aanzienlijk verbeterd, inclusief recente state-of-the-art open-source modellen. Wij stellen voor dat het potentieel van SSMs voor schaalbaarheid kan worden ontsloten door ze te combineren met MoE. We demonstreren dit met Mamba, een recent SSM-gebaseerd model dat opmerkelijke, Transformer-achtige prestaties behaalt. Ons model, MoE-Mamba, overtreft zowel Mamba als Transformer-MoE. In het bijzonder bereikt MoE-Mamba dezelfde prestaties als Mamba in 2,2x minder trainingsstappen, terwijl de inferentieprestatievoordelen van Mamba ten opzichte van de Transformer behouden blijven.
In onderzoek naar conversatie-AI is er een duidelijke trend waarneembaar richting het ontwikkelen van modellen met een groter aantal parameters, zoals geïllustreerd door modellen als ChatGPT. Hoewel deze uitgebreide modellen steeds betere chatreacties genereren, vereisen ze aanzienlijke rekenkracht en geheugen. Deze studie onderzoekt een relevante vraag: Kan een combinatie van kleinere modellen gezamenlijk vergelijkbare of verbeterde prestaties bereiken ten opzichte van één groot model? We introduceren een benadering genaamd "blending", een eenvoudige maar effectieve methode om meerdere chat-AI's te integreren. Onze empirische bevindingen suggereren dat wanneer specifieke kleinere modellen synergetisch worden gecombineerd, ze mogelijk de capaciteiten van veel grotere tegenhangers kunnen evenaren of overtreffen. Zo kan de integratie van slechts drie modellen van gemiddelde grootte (6B/13B parameters) de prestaties van een aanzienlijk groter model zoals ChatGPT (175B+ parameters) evenaren of zelfs overstijgen. Deze hypothese wordt rigoureus getest met behulp van A/B-testmethodologieën met een grote gebruikersbasis op het Chai-onderzoeksplatform gedurende een periode van dertig dagen. De bevindingen benadrukken het potentieel van de "blending"-strategie als een haalbare aanpak om de effectiviteit van chat-AI te verbeteren zonder een overeenkomstige toename in rekenkracht.
Het gebruik van lange contexten vormt een grote uitdaging voor grote taalmodellen vanwege hun beperkte contextvensterlengte. Hoewel het contextvenster kan worden uitgebreid door fine-tuning, resulteert dit in aanzienlijke kosten tijdens zowel de training als de inferentie, en heeft het een ongunstige impact op de oorspronkelijke capaciteiten van het LLM. In dit werk stellen we Activation Beacon voor, dat de ruwe activaties van het LLM condenseert naar meer compacte vormen, zodat het een veel langere context kan waarnemen met een beperkt contextvenster. Activation Beacon wordt geïntroduceerd als een plug-and-play module voor het LLM. Het behoudt volledig de oorspronkelijke capaciteit van het LLM op korte contexten, terwijl het nieuwe mogelijkheden biedt voor het verwerken van langere contexten. Bovendien werkt het met korte schuivende vensters om de lange context te verwerken, wat een concurrerende geheugen- en tijdefficiëntie oplevert tijdens zowel training als inferentie. Activation Beacon wordt geleerd door de autoregressietaak, geconditioneerd op een mengsel van bakens met diverse condensatieverhoudingen. Dankzij deze aanpak kan het efficiënt worden getraind met alleen korte-sequentiegegevens in slechts 10K stappen, wat minder dan 9 uur kost op een enkele 8xA800 GPU-machine. De experimentele studies tonen aan dat Activation Beacon in staat is om de contextlengte van Llama-2-7B met 100 keer te verlengen (van 4K naar 400K), terwijl het superieure resultaten behaalt op zowel lange-context generatie- als begripstaken. Ons model en code zullen beschikbaar zijn in de BGE-repository.
Ondanks recente vooruitgang in tekst-naar-3D-generatieve methoden, is er een opvallend gebrek aan betrouwbare evaluatiemetrics. Bestaande metrics richten zich meestal op één enkel criterium, zoals hoe goed het gegenereerde asset overeenkomt met de invoertekst. Deze metrics missen de flexibiliteit om zich aan te passen aan verschillende evaluatiecriteria en sluiten mogelijk niet goed aan bij menselijke voorkeuren. Het uitvoeren van gebruikersvoorkeurstudies is een alternatief dat zowel aanpasbaarheid als mensgerichte resultaten biedt. Gebruikersstudies kunnen echter zeer kostbaar zijn om op te schalen. Dit artikel presenteert een automatische, veelzijdige en mensgerichte evaluatiemetric voor tekst-naar-3D-generatieve modellen. Hiertoe ontwikkelen we eerst een promptgenerator met behulp van GPT-4V om evaluatieprompts te genereren, die dienen als invoer om tekst-naar-3D-modellen te vergelijken. Vervolgens ontwerpen we een methode die GPT-4V instrueert om twee 3D-assets te vergelijken volgens door de gebruiker gedefinieerde criteria. Ten slotte gebruiken we deze paarsgewijze vergelijkingsresultaten om deze modellen Elo-ratings toe te kennen. Experimentele resultaten suggereren dat onze metric sterk overeenkomt met menselijke voorkeuren over verschillende evaluatiecriteria.
In dit artikel introduceren we DiarizationLM, een raamwerk om grote taalmodellen (LLM) te benutten voor het nabewerken van de uitvoer van een sprekerdiarizatiesysteem. Met het voorgestelde raamwerk kunnen verschillende doelen worden bereikt, zoals het verbeteren van de leesbaarheid van het gediarizeerde transcript of het verlagen van het woorddiarizatiefoutpercentage (WDER). In dit raamwerk worden de uitvoer van het automatische spraakherkenningssysteem (ASR) en het sprekerdiarizatiesysteem weergegeven als een compact tekstformaat, dat wordt opgenomen in de prompt voor een optioneel gefinetuned LLM. De uitvoer van het LLM kan worden gebruikt als de verfijnde diarizatieresultaten met de gewenste verbetering. Als een nabewerkingsstap kan dit raamwerk eenvoudig worden toegepast op elk kant-en-klaar ASR- en sprekerdiarizatiesysteem zonder bestaande componenten opnieuw te trainen. Onze experimenten tonen aan dat een gefinetuned PaLM 2-S-model het WDER met rel. 25,9% kan verlagen op de Fisher-telefoongesprekdataset en met rel. 31% op de Callhome English-dataset.
Grote taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in code-gerelateerde taken, maar veel LLMs behandelen code als eenvoudige sequenties en negeren de gestructureerde aard ervan. Wij introduceren AST-T5, een nieuw pretrainingsparadigma dat gebruikmaakt van de Abstract Syntax Tree (AST) voor verbeterde codegeneratie, transpilatie en begrip. Door middel van dynamisch programmeren behoudt onze AST-Aware Segmentation de codestructuur, terwijl ons AST-Aware Span Corruption-objectief het model in staat stelt om verschillende codestructuren te reconstrueren. In tegenstelling tot andere modellen vermijdt AST-T5 ingewikkelde programma-analyses of architectuurwijzigingen, waardoor het naadloos integreert met elke encoder-decoder Transformer. Evaluaties tonen aan dat AST-T5 consistent beter presteert dan vergelijkbaar grote taalmodellen in diverse code-gerelateerde taken. Structureel bewustzijn maakt AST-T5 bijzonder krachtig in code-naar-code taken, waarbij het CodeT5 overtreft met 2 punten in de exacte matchscore voor de Bugs2Fix-taak en met 3 punten in de exacte matchscore voor Java-C# Transpilatie in CodeXGLUE. Onze code en model zijn publiekelijk beschikbaar op https://github.com/gonglinyuan/ast_t5.
We presenteren CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation), een benchmark bestaande uit 800 Python-functies (3-13 regels). Elke functie wordt geleverd met een input-output paar, wat leidt tot twee natuurlijke taken: inputvoorspelling en outputvoorspelling. Ten eerste stellen we een generiek recept voor voor het genereren van onze uitvoeringsbenchmark, dat kan worden gebruikt om toekomstige variaties van de benchmark te creëren. Ten tweede evalueren we twintig codemodellen op onze benchmark en ontdekken we dat veel recente hoogscorende modellen op HumanEval niet dezelfde verbeteringen laten zien op onze benchmark. Ten derde tonen we aan dat eenvoudige CoT (Chain of Thought) en fine-tuning schema's de prestaties op onze benchmark kunnen verbeteren, maar nog ver verwijderd zijn van het oplossen ervan. De beste opzet, GPT-4 met chain of thought (CoT), behaalt een pass@1 van 75% en 81% op respectievelijk input- en outputvoorspelling. Daarentegen behaalt Code Llama 34B een pass@1 van 50% en 46% op input- en outputvoorspelling, wat het verschil tussen open en closed source modellen benadrukt. Aangeat geen model in de buurt komt van het perfect uitvoeren van CRUXEval, bieden we voorbeelden van consistente GPT-4-fouten op eenvoudige programma's als een lens om inzicht te krijgen in zijn code-redeneervaardigheden en verbeteringsgebieden.
De opkomst van vooraf getrainde modellen heeft een aanzienlijke impact gehad, van Natural Language Processing (NLP) en Computer Vision tot relationele datasets. Traditioneel worden deze modellen beoordeeld via fijn afgestemde downstream taken. Dit roept echter de vraag op hoe deze modellen efficiënter en effectiever kunnen worden geëvalueerd. In deze studie onderzoeken we een nieuwe aanpak waarbij we de meta-kenmerken die aan elke entiteit zijn gekoppeld, gebruiken als bron van wereldlijke kennis en entiteitsrepresentaties uit de modellen inzetten. We stellen voor om de consistentie tussen deze representaties en de meta-kenmerken te gebruiken als een maatstaf voor het evalueren van vooraf getrainde modellen. De effectiviteit van onze methode wordt aangetoond in verschillende domeinen, waaronder modellen met relationele datasets, grote taalmodellen en beeldmodellen.
Gezien de groeiende behoefte aan automatische 3D-contentcreatiepijplijnen, zijn verschillende 3D-representaties bestudeerd om 3D-objecten uit een enkele afbeelding te genereren. Vanwege de superieure renderingefficiëntie hebben op 3D Gaussian splatting gebaseerde modellen recentelijk uitstekende prestaties geleverd in zowel 3D-reconstructie als -generatie. Benaderingen voor 3D Gaussian splatting voor beeld-naar-3D-generatie zijn vaak optimalisatiegebaseerd, wat veel rekenkundig dure score-distillatiestappen vereist. Om deze uitdagingen te overwinnen, introduceren we een Amortized Generative 3D Gaussian-framework (AGG) dat onmiddellijk 3D Gaussians produceert uit een enkele afbeelding, waardoor de noodzaak voor per-instantie optimalisatie wordt geëlimineerd. Door gebruik te maken van een intermediaire hybride representatie, ontbindt AGG de generatie van 3D Gaussian-locaties en andere uiterlijke attributen voor gezamenlijke optimalisatie. Bovendien stellen we een gecascadeerde pijplijn voor die eerst een grove representatie van de 3D-gegevens genereert en deze later upsamplet met een 3D Gaussian super-resolutiemodule. Onze methode wordt geëvalueerd tegen bestaande optimalisatiegebaseerde 3D Gaussian-frameworks en samplinggebaseerde pijplijnen die andere 3D-representaties gebruiken, waarbij AGG competitieve generatiecapaciteiten laat zien, zowel kwalitatief als kwantitatief, terwijl het meerdere ordes van grootte sneller is. Projectpagina: https://ir1d.github.io/AGG/
In dit technische rapport presenteren we TeleChat, een verzameling van grote taalmodellen (LLMs) met parameters van 3 miljard, 7 miljard en 12 miljard. Het omvat zowel vooraf getrainde taalmodellen als afgestemde chatmodellen die zijn afgestemd op menselijke voorkeuren. TeleChat is aanvankelijk voorgetraind op een uitgebreid corpus dat een diverse verzameling teksten uit zowel het Engels als het Chinees bevat, waaronder biljoenen tokens. Vervolgens wordt het model afgestemd op menselijke voorkeuren, volgens een gedetailleerde methodologie die we beschrijven. We evalueren de prestaties van TeleChat op verschillende taken, waaronder taalbegrip, wiskunde, redeneren, codegeneratie en kennisgebaseerde vraagbeantwoording. Onze bevindingen geven aan dat TeleChat vergelijkbare prestaties behaalt als andere open-source modellen van vergelijkbare grootte op een breed scala aan publieke benchmarks. Om toekomstig onderzoek en toepassingen die gebruikmaken van LLMs te ondersteunen, geven we de afgestemde modelcheckpoints van TeleChat's 7B- en 12B-variant, samen met code en een deel van onze vooraf getrainde data, vrij aan de publieke gemeenschap.