Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Jamba, een nieuw basis groot taal model gebaseerd op een innovatieve hybride Transformer-Mamba mixture-of-experts (MoE) architectuur. Specifiek interleeft Jamba blokken van Transformer- en Mamba-lagen, waardoor het de voordelen van beide modelfamilies benut. MoE wordt toegevoegd in sommige van deze lagen om de modelcapaciteit te vergroten terwijl het actieve parametergebruik beheersbaar blijft. Deze flexibele architectuur maakt configuraties mogelijk die afgestemd zijn op specifieke middelen en doelen. In de specifieke configuratie die we hebben geïmplementeerd, resulteert dit in een krachtig model dat past op een enkele 80GB GPU. Op grote schaal gebouwd, biedt Jamba een hoge doorvoersnelheid en een klein geheugenverbruik in vergelijking met standaard Transformers, en tegelijkertijd state-of-the-art prestaties op standaard taal model benchmarks en lange-context evaluaties. Opmerkelijk is dat het model sterke resultaten laat zien voor contextlengtes tot 256K tokens. We bestuderen verschillende architectuurkeuzes, zoals hoe Transformer- en Mamba-lagen te combineren, en hoe experts te mixen, en laten zien dat sommige ervan cruciaal zijn bij modellering op grote schaal. We beschrijven ook verschillende interessante eigenschappen van deze architecturen die de training en evaluatie van Jamba hebben onthuld, en zijn van plan checkpoints van verschillende ablatie runs vrij te geven, om verder onderzoek naar deze nieuwe architectuur aan te moedigen. We maken de gewichten van onze implementatie van Jamba publiekelijk beschikbaar onder een permissieve licentie.
We presenteren Gecko, een compact en veelzijdig tekstembeddingmodel. Gecko bereikt sterke retrievale prestaties door een belangrijk idee te benutten: het distilleren van kennis uit grote taalmmodellen (LLMs) in een retriever. Ons tweetraps distillatieproces begint met het genereren van diverse, synthetische gepaarde data met behulp van een LLM. Vervolgens verfijnen we de datakwaliteit door een set kandidaatpassages voor elke query op te halen en de positieve en moeilijke negatieve passages opnieuw te labelen met hetzelfde LLM. De effectiviteit van onze aanpak wordt aangetoond door de compactheid van Gecko. Op de Massive Text Embedding Benchmark (MTEB) presteert Gecko met 256 embeddingdimensies beter dan alle bestaande inzendingen met 768 embeddinggrootte. Gecko met 768 embeddingdimensies behaalt een gemiddelde score van 66.31, wat concurreert met 7x grotere modellen en 5x hogere dimensionale embeddings.
Het Large Language Model (LLM) wordt veelvuldig ingezet voor taken zoals intelligente assistenten, tekstsamenvatting, vertaling en multimodale toepassingen op mobiele telefoons. De huidige methoden voor on-device LLM-implementatie behouden echter een trage inferentiesnelheid, wat resulteert in een slechte gebruikerservaring. Om een efficiënte LLM-implementatie op apparaat-GPU's te faciliteren, stellen we vier optimalisatietechnieken voor: (a) een symbolische expressie-gebaseerde aanpak om dynamische vormmodelinferentie te ondersteunen; (b) operatoroptimalisaties en uitvoeringsprioriteitsinstelling om de inferentiesnelheid te verhogen en telefoonvertraging te verminderen; (c) een FP4-kwantisatiemethode genaamd M0E4 om de dekwantisatie-overhead te verminderen; (d) een sub-tensor-gebaseerde techniek om de noodzaak van het kopiëren van de KV-cache na LLM-inferentie te elimineren. Bovendien implementeren we deze methoden in onze mobiele inferentie-engine, Transformer-Lite, die compatibel is met zowel Qualcomm- als MTK-processoren. We hebben de prestaties van Transformer-Lite geëvalueerd met LLM's met verschillende architecturen en parameters variërend van 2B tot 14B. Specifiek behaalden we prefill- en decodering snelheden van 121 tokens/s en 14 tokens/s voor ChatGLM2 6B, en 330 tokens/s en 30 tokens/s voor de kleinere Gemma 2B, respectievelijk. Vergeleken met CPU-gebaseerde FastLLM en GPU-gebaseerde MLC-LLM, bereikt onze engine een versnelling van meer dan 10x voor de prefill-snelheid en 2~3x voor de decodering snelheid.
Referentie-resolutie is een belangrijk probleem, essentieel om context van verschillende soorten te begrijpen en succesvol te hanteren. Deze context omvat zowel eerdere dialoogwisselingen als context die betrekking heeft op niet-conversationele entiteiten, zoals entiteiten op het scherm van de gebruiker of die op de achtergrond actief zijn. Hoewel is aangetoond dat LLM's (Large Language Models) uiterst krachtig zijn voor een verscheidenheid aan taken, blijft hun gebruik bij referentie-resolutie, met name voor niet-conversationele entiteiten, onderbenut. Dit artikel laat zien hoe LLM's kunnen worden gebruikt om een uiterst effectief systeem te creëren voor het oplossen van verwijzingen van verschillende typen, door te demonstreren hoe referentie-resolutie kan worden omgezet in een taalmodelleringsprobleem, ondanks het feit dat het vormen van entiteiten zoals die op het scherm traditioneel niet geschikt zijn om te worden gereduceerd tot een tekstuele modaliteit. We tonen grote verbeteringen aan ten opzichte van een bestaand systeem met vergelijkbare functionaliteit voor verschillende soorten verwijzingen, waarbij ons kleinste model absolute winsten van meer dan 5% behaalt voor verwijzingen op het scherm. We vergelijken ook met GPT-3.5 en GPT-4, waarbij ons kleinste model prestaties bereikt die vergelijkbaar zijn met die van GPT-4, en onze grotere modellen deze aanzienlijk overtreffen.
Hoewel de synthese van nieuwe aanzichten (NVS) aanzienlijke vooruitgang heeft geboekt in 3D-computervisie, vereist het doorgaans een initiële schatting van camera-intrinsieken en -extrinsieken vanuit dichte gezichtspunten. Deze voorbewerking wordt meestal uitgevoerd via een Structure-from-Motion (SfM)-pijplijn, een procedure die traag en onbetrouwbaar kan zijn, vooral in scenario's met schaarse aanzichten waarbij onvoldoende overeenkomende kenmerken beschikbaar zijn voor een nauwkeurige reconstructie. In dit werk combineren we de sterke punten van puntgebaseerde representaties (bijv. 3D Gaussian Splatting, 3D-GS) met end-to-end dichte stereomodellen (DUSt3R) om de complexe maar nog onopgeloste problemen in NVS onder onbeperkte omstandigheden aan te pakken, waaronder uitdagingen zonder pose en met schaarse aanzichten. Ons framework, InstantSplat, verenigt dichte stereopriors met 3D-GS om 3D Gaussians van grootschalige scènes te bouwen vanuit schaarse aanzichten en pose-vrije afbeeldingen in minder dan 1 minuut. Specifiek bestaat InstantSplat uit een Coarse Geometric Initialization (CGI)-module die snel een voorlopige scènestructuur en cameraparameters vaststelt voor alle trainingsaanzichten, gebruikmakend van globaal uitgelijnde 3D-puntkaarten afgeleid van een vooraf getrainde dichte stereopijplijn. Dit wordt gevolgd door de Fast 3D-Gaussian Optimization (F-3DGO)-module, die gezamenlijk de 3D Gaussian-attributen en de geïnitialiseerde poses optimaliseert met pose-regularisatie. Experimenten uitgevoerd op de grootschalige outdoor Tanks & Temples-datasets tonen aan dat InstantSplat de SSIM aanzienlijk verbetert (met 32%) terwijl tegelijkertijd de Absolute Trajectory Error (ATE) met 80% wordt verminderd. Dit maakt InstantSplat tot een haalbare oplossing voor scenario's met pose-vrije en schaarse aanzichten. Projectpagina: instantsplat.github.io.
Dit artikel introduceert een nieuwe en significante uitdaging voor Vision Language Models (VLMs), genaamd Unsolvable Problem Detection (UPD). UPD onderzoekt het vermogen van een VLM om geen antwoorden te geven wanneer het wordt geconfronteerd met onoplosbare problemen in de context van Visual Question Answering (VQA)-taken. UPD omvat drie verschillende instellingen: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD) en Incompatible Visual Question Detection (IVQD). Om het UPD-probleem diepgaand te onderzoeken, tonen uitgebreide experimenten aan dat de meeste VLMs, waaronder GPT-4V en LLaVA-Next-34B, in verschillende mate moeite hebben met onze benchmarks, wat wijst op aanzienlijke ruimte voor verbetering. Om UPD aan te pakken, verkennen we zowel training-vrije als training-gebaseerde oplossingen, waarbij we nieuwe inzichten bieden in hun effectiviteit en beperkingen. We hopen dat onze inzichten, samen met toekomstige inspanningen binnen de voorgestelde UPD-instellingen, het bredere begrip en de ontwikkeling van praktischer en betrouwbaardere VLMs zullen bevorderen.
Kunnen we de gewichten en mechanismen lokaliseren die door een taalmodel worden gebruikt om hele alinea's van zijn trainingsdata te onthouden en op te zeggen? In dit artikel laten we zien dat, hoewel memorisatie verspreid is over meerdere lagen en modelcomponenten, de gradiënten van gememoriseerde alinea's een onderscheidend ruimtelijk patroon hebben, waarbij ze groter zijn in de lagere modellagen dan de gradiënten van niet-gememoriseerde voorbeelden. Bovendien kunnen de gememoriseerde voorbeelden worden afgeleerd door alleen de gewichten met hoge gradiënten te finetunen. We lokaliseren een aandachtskop in een lage laag die vooral betrokken lijkt te zijn bij het memoriseren van alinea's. Deze kop richt zijn aandacht voornamelijk op onderscheidende, zeldzame tokens die het minst frequent zijn in een unigramverdeling op corpusniveau. Vervolgens bestuderen we hoe gelokaliseerd de memorisatie is over de tokens in het voorvoegsel door tokens te verstoren en de veroorzaakte verandering in de decodering te meten. Een paar onderscheidende tokens vroeg in een voorvoegsel kunnen vaak de hele voortzetting verstoren. Over het algemeen zijn gememoriseerde voortzettingen niet alleen moeilijker af te leren, maar ook moeilijker te verstoren dan niet-gememoriseerde voortzettingen.
Recente vooruitgang in deep learning heeft voornamelijk vertrouwd op Transformers vanwege hun data-afhankelijkheid en het vermogen om op grote schaal te leren. De aandachtmodule in deze architecturen vertoont echter een kwadratische tijd- en ruimtecomplexiteit ten opzichte van de invoergrootte, wat hun schaalbaarheid voor modellering van lange sequenties beperkt. Ondanks recente pogingen om efficiënte en effectieve architectuurkernen te ontwerpen voor multidimensionale data, zoals afbeeldingen en multivariate tijdreeksen, zijn bestaande modellen ofwel data-onafhankelijk, of slagen ze er niet in om communicatie tussen en binnen dimensies mogelijk te maken. Recentelijk hebben State Space Models (SSMs), en meer specifiek Selective State Space Models, met een efficiënte hardwarebewuste implementatie, veelbelovend potentieel getoond voor modellering van lange sequenties. Gemotiveerd door het succes van SSMs, presenteren we MambaMixer, een nieuwe architectuur met data-afhankelijke gewichten die een dubbele selectiemechanisme gebruikt over tokens en kanalen, genaamd Selective Token and Channel Mixer. MambaMixer verbindt selectieve mixers met behulp van een gewogen gemiddelde mechanisme, waardoor lagen direct toegang hebben tot vroege kenmerken. Als proof of concept ontwerpen we Vision MambaMixer (ViM2) en Time Series MambaMixer (TSM2) architecturen gebaseerd op het MambaMixer-blok en onderzoeken we hun prestaties in verschillende vision- en tijdreeksvoorspellingstaken. Onze resultaten benadrukken het belang van selectief mengen over zowel tokens als kanalen. In ImageNet-classificatie, objectdetectie en semantische segmentatietaken behaalt ViM2 competitieve prestaties met gevestigde vision-modellen en overtreft het SSM-gebaseerde vision-modellen. In tijdreeksvoorspelling behaalt TSM2 uitstekende prestaties vergeleken met state-of-the-art methoden, terwijl het een aanzienlijk verbeterde rekenkost demonstreert. Deze resultaten tonen aan dat hoewel Transformers, cross-channel aandacht en MLPs voldoende zijn voor goede prestaties in tijdreeksvoorspelling, geen van deze noodzakelijk is.
In een poging om de rekenlast van Transformers te verminderen, heeft onderzoek naar lineaire aandacht aanzienlijke momentum gekregen. De verbeteringsstrategieën voor aandachtmechanismen vereisen echter doorgaans uitgebreide hertraining, wat onpraktisch is voor grote taalmodelen met een enorm aantal parameters. In dit artikel presenteren we DiJiang, een nieuwe Frequency Domain Kernelization-benadering die het mogelijk maakt om een vooraf getrainde standaard Transformer om te zetten in een model met lineaire complexiteit tegen lage trainingskosten. Door een gewogen Quasi-Monte Carlo-methode voor steekproefname te gebruiken, biedt de voorgestelde benadering theoretisch superieure benaderings efficiëntie. Om de rekencomplexiteit van de training verder te verminderen, is onze kernelisatie gebaseerd op Discrete Cosine Transform (DCT)-bewerkingen. Uitgebreide experimenten tonen aan dat de voorgestelde methode vergelijkbare prestaties bereikt als de originele Transformer, maar met aanzienlijk lagere trainingskosten en veel snellere inferentiesnelheden. Onze DiJiang-7B behaalt vergelijkbare prestaties met LLaMA2-7B op verschillende benchmarks, terwijl slechts ongeveer 1/50 van de trainingskosten nodig is. Code is beschikbaar op https://github.com/YuchuanTian/DiJiang.
Aanraking en zicht gaan hand in hand en versterken elkaar in ons vermogen om de wereld te begrijpen. Vanuit een onderzoeksperspectief is het probleem van het combineren van aanraking en zicht onderbelicht en biedt het interessante uitdagingen. Daarom stellen we Tactile-Informed 3DGS voor, een nieuwe aanpak die tactiele data (lokale dieptekaarten) combineert met multi-view visuele data om oppervlakreconstructie en synthese van nieuwe gezichtspunten te bereiken. Onze methode optimaliseert 3D Gaussische primitieven om de geometrie van het object nauwkeurig te modelleren op contactpunten. Door een raamwerk te creëren dat de transmissie op aanraaklocaties vermindert, bereiken we een verfijnde oppervlakreconstructie, wat zorgt voor een uniform gladde dieptekaart. Aanraking is vooral nuttig bij het overwegen van niet-Lambertiaanse objecten (bijv. glanzende of reflecterende oppervlakken), omdat hedendaagse methoden vaak falen in het nauwkeurig reconstrueren van speculaire hooglichten. Door zicht en tactiele waarneming te combineren, bereiken we nauwkeurigere geometrische reconstructies met minder afbeeldingen dan eerdere methoden. We evalueren onze aanpak op objecten met glanzende en reflecterende oppervlakken en demonstreren de effectiviteit ervan, wat aanzienlijke verbeteringen in de reconstructiekwaliteit biedt.