Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit werk introduceert een efficiënte methode om Transformer-gebaseerde Large Language Models (LLMs) te schalen naar oneindig lange inputs met begrensde geheugen- en rekenkosten. Een belangrijk onderdeel van onze voorgestelde aanpak is een nieuwe aandachtstechniek genaamd Infini-attention. De Infini-attention integreert een compressief geheugen in het standaard aandachtmechanisme en combineert zowel gemaskeerde lokale aandacht als langetermijn lineaire aandachtmechanismen in een enkele Transformer-blok. We demonstreren de effectiviteit van onze aanpak op benchmarks voor lange-context taalmodellering, 1M sequentielengte passkey contextblokretrieval en 500K lengte boek samenvattingstaken met 1B en 8B LLMs. Onze aanpak introduceert minimale begrensde geheugenparameters en maakt snelle streaming inferentie mogelijk voor LLMs.
De naald-in-een-hooiberg (NIAH) test, die het vermogen onderzoekt om een stuk informatie (de "naald") uit lange afleidende teksten (de "hooiberg") te halen, is breed geadopteerd om lange-context taalmodelen (LMs) te evalueren. Deze eenvoudige op retrieval gebaseerde test geeft echter alleen een oppervlakkige vorm van lange-context begrip aan. Om een uitgebreidere evaluatie van lange-context LMs te bieden, hebben we een nieuwe synthetische benchmark RULER gecreëerd met flexibele configuraties voor aangepaste sequentielengte en taakcomplexiteit. RULER breidt de standaard NIAH test uit om variaties met diverse typen en hoeveelheden naalden te omvatten. Bovendien introduceert RULER nieuwe taakcategorieën zoals multi-hop tracing en aggregatie om gedrag te testen dat verder gaat dan zoeken in de context. We evalueren tien lange-context LMs met 13 representatieve taken in RULER. Ondanks dat ze bijna perfecte nauwkeurigheid behalen in de standaard NIAH test, vertonen alle modellen grote prestatieverminderingen naarmate de contextlengte toeneemt. Hoewel deze modellen allemaal contextgroottes van 32K tokens of meer claimen, kunnen slechts vier modellen (GPT-4, Command-R, Yi-34B en Mixtral) een bevredigende prestatie behouden bij een lengte van 32K. Onze analyse van Yi-34B, dat een contextlengte van 200K ondersteunt, laat grote ruimte voor verbetering zien naarmate we de invoerlengte en taakcomplexiteit verhogen. We maken RULER open source om uitgebreide evaluatie van lange-context LMs te stimuleren.
Grote Taalmodellen (LLMs) hebben opmerkelijke resultaten behaald, maar hun toenemende vraag naar middelen is een groot obstakel geworden voor de ontwikkeling van krachtige en toegankelijke supermenselijke intelligentie. Dit rapport introduceert JetMoE-8B, een nieuw LLM dat is getraind met minder dan $0,1 miljoen, waarbij 1,25T tokens uit zorgvuldig samengestelde open-source corpora en 30.000 H100 GPU-uren zijn gebruikt. Ondanks de lage kosten toont JetMoE-8B indrukwekkende prestaties, waarbij JetMoE-8B het Llama2-7B-model overtreft en JetMoE-8B-Chat het Llama2-13B-Chat-model overstijgt. Deze resultaten suggereren dat de training van LLMs veel kosteneffectiever kan zijn dan algemeen wordt aangenomen. JetMoE-8B is gebaseerd op een efficiënte Sparsely-gated Mixture-of-Experts (SMoE)-architectuur, bestaande uit aandacht- en feedforward-experts. Beide lagen worden spaarzaam geactiveerd, waardoor JetMoE-8B 8B parameters kan hebben terwijl slechts 2B voor elk invoertoken worden geactiveerd, wat de inferentieberekening met ongeveer 70% vermindert in vergelijking met Llama2-7B. Bovendien is JetMoE-8B zeer open en academisch vriendelijk, waarbij alleen openbare datasets en trainingscode worden gebruikt. Alle trainingsparameters en datamengsels zijn in dit rapport gedetailleerd beschreven om toekomstige inspanningen bij de ontwikkeling van open foundation-modellen te vergemakkelijken. Deze transparantie heeft tot doel samenwerking en verdere vooruitgang op het gebied van toegankelijke en efficiënte LLMs aan te moedigen. De modelgewichten zijn openbaar beschikbaar op https://github.com/myshell-ai/JetMoE.
We introduceren RealmDreamer, een techniek voor het genereren van algemene, voorwaarts gerichte 3D-scènes op basis van tekstbeschrijvingen. Onze techniek optimaliseert een 3D Gaussian Splatting-representatie om complexe tekstprompts te matchen. We initialiseren deze splats door gebruik te maken van state-of-the-art tekst-naar-beeldgeneratoren, hun samples naar 3D te tillen en het occlusievolume te berekenen. Vervolgens optimaliseren we deze representatie over meerdere aanzichten als een 3D-inpainting-taak met beeldconditionele diffusiemodellen. Om de juiste geometrische structuur te leren, integreren we een dieptediffusiemodel door te conditioneren op de samples van het inpainting-model, wat een rijke geometrische structuur oplevert. Ten slotte finetunen we het model met verscherpte samples van beeldgeneratoren. Opmerkelijk is dat onze techniek geen video- of multiview-data vereist en een verscheidenheid aan hoogwaardige 3D-scènes in verschillende stijlen kan synthetiseren, bestaande uit meerdere objecten. De algemeenheid maakt bovendien 3D-synthese mogelijk vanuit een enkele afbeelding.
De toenemende vraag naar virtual reality-toepassingen heeft het belang benadrukt van het creëren van meeslepende 3D-assets. Wij presenteren een tekst-naar-3D 360^{circ} scènegeneratiepijplijn die het mogelijk maakt om uitgebreide 360^{circ} scènes voor omgevingen in de vrije natuur binnen enkele minuten te genereren. Onze aanpak maakt gebruik van de generatieve kracht van een 2D-diffusiemodel en prompt-zelfverfijning om een hoogwaardige en globaal samenhangende panoramische afbeelding te creëren. Deze afbeelding fungeert als een voorlopige "platte" (2D) scèneweergave. Vervolgens wordt deze omgezet in 3D-Gaussiaanse verdelingen, waarbij splatting-technieken worden ingezet om real-time exploratie mogelijk te maken. Om consistente 3D-geometrie te produceren, construeert onze pijplijn een ruimtelijk samenhangende structuur door de 2D-monoculaire diepte af te stemmen op een globaal geoptimaliseerd puntenwolk. Deze puntenwolk dient als de initiële toestand voor de centroïden van de 3D-Gaussiaanse verdelingen. Om problemen met onzichtbare gebieden die inherent zijn aan enkelvoudige invoerweergaven aan te pakken, leggen we semantische en geometrische beperkingen op aan zowel gesynthetiseerde als ingevoerde camerabeelden als regularisaties. Deze begeleiden de optimalisatie van de Gaussiaanse verdelingen, wat helpt bij de reconstructie van onzichtbare gebieden. Samengevat biedt onze methode een globaal consistente 3D-scène binnen een 360^{circ} perspectief, wat een verbeterde meeslepende ervaring biedt in vergelijking met bestaande technieken. Projectwebsite: http://dreamscene360.github.io/
We analyseren hoe goed vooraf getrainde grote taalmodellen (bijv. Llama2, GPT-4, Claude 3, etc.) lineaire en niet-lineaire regressie kunnen uitvoeren wanneer ze in-context voorbeelden krijgen, zonder aanvullende training of gradient-updates. Onze bevindingen laten zien dat verschillende grote taalmodellen (bijv. GPT-4, Claude 3) in staat zijn om regressietaken uit te voeren met een prestatie die rivaliseert met (of zelfs overtreft) die van traditionele supervised methoden zoals Random Forest, Bagging of Gradient Boosting. Op de uitdagende Friedman #2-regressiedataset presteert Claude 3 bijvoorbeeld beter dan veel supervised methoden zoals AdaBoost, SVM, Random Forest, KNN of Gradient Boosting. Vervolgens onderzoeken we hoe goed de prestaties van grote taalmodellen schalen met het aantal in-context voorbeelden. We lenen het begrip 'regret' uit online leren en tonen empirisch aan dat LLM's in staat zijn om een sub-lineair regret te behalen.
Vision-language modellen (VLMs) bestaan doorgaans uit een visuele encoder, bijvoorbeeld CLIP, en een taalmodel (LM) dat de gecodeerde kenmerken interpreteert om downstream taken op te lossen. Ondanks opmerkelijke vooruitgang kampen VLMs met verschillende tekortkomingen vanwege de beperkte mogelijkheden van visuele encoders, zoals "blindheid" voor bepaalde beeldkenmerken, visuele hallucinaties, enzovoort. Om deze problemen aan te pakken, onderzoeken we het verbreden van de visuele coderingsmogelijkheden van VLMs. We benchmarken eerst uitgebreid verschillende visuele encoders met verschillende inductieve biases voor het oplossen van VLM-taken. We observeren dat er geen enkele coderingsconfiguratie is die consistent de beste prestaties levert over verschillende taken, en dat encoders met verschillende biases verrassend vergelijkbaar kunnen presteren. Gemotiveerd door deze bevinding introduceren we een methode, genaamd BRAVE, die kenmerken van meerdere bevroren encoders consolideert tot een veelzijdigere representatie die direct als invoer aan een bevroren LM kan worden gevoed. BRAVE behaalt state-of-the-art prestaties op een breed scala aan captioning- en VQA-benchmarks en vermindert de eerder genoemde problemen van VLMs aanzienlijk, terwijl het minder trainbare parameters vereist dan bestaande methoden en een meer gecomprimeerde representatie heeft. Onze resultaten benadrukken het potentieel van het incorporeren van verschillende visuele biases voor een breder en meer contextueel visueel begrip van VLMs.
Dit onderzoek onderzoekt of decoder-only Transformers zoals LLaMA, die oorspronkelijk zijn ontworpen voor grote taalmodelen (LLMs), kunnen worden aangepast voor het gebied van computervisie. We "LLaMAficeer" eerst stap voor stap een standaard ViT om deze af te stemmen op de architectuur van LLaMA, en ontdekken dat het direct toepassen van een casual masker op de self-attention een aandachtscollaps veroorzaakt, wat resulteert in het falen van het netwerktrainingsproces. We stellen voor om het class-token achter de beeldtokens te plaatsen met een post-sequence class-token techniek om deze uitdaging te overwinnen, waardoor causale self-attention efficiënt de informatie van het hele beeld kan vastleggen. Daarnaast ontwikkelen we een soft mask-strategie die geleidelijk een casual masker introduceert in de self-attention aan het begin van de training om het optimalisatiegedrag te vergemakkelijken. Het aangepaste model, genaamd image LLaMA (iLLaMA), lijkt qua architectuur op LLaMA en maakt directe supervised learning mogelijk. De causale self-attention verhoogt de rekenkundige efficiëntie en leert complexe representaties door de rang van de aandachtmappen te verhogen. iLLaMA kan de prestaties van zijn encoder-only tegenhangers evenaren, met een top-1 nauwkeurigheid van 75,1% op ImageNet met slechts 5,7M parameters. Het opschalen van het model naar ~310M en pre-trainen op ImageNet-21K verhoogt de nauwkeurigheid verder naar 86,0%. Uitgebreide experimenten tonen de betrouwbare eigenschappen van iLLaMA aan: calibratie, vorm-textuur bias, compatibiliteit met kwantisatie, ADE20K segmentatie en CIFAR transfer learning. We hopen dat onze studie nieuwe inzichten kan aanwakkeren voor het ontwerp van visuele modellen in de golf van LLMs. Pre-getrainde modellen en codes zijn hier beschikbaar.
Bestaande datasets voor audio-begrip richten zich voornamelijk op enkelvoudige interacties (bijvoorbeeld audio-beschrijvingen, audio-vraagbeantwoording) voor het beschrijven van audio in natuurlijke taal, waardoor het begrijpen van audio via interactieve dialoog beperkt blijft. Om dit gat te dichten, introduceren we Audio Dialogues: een multi-turn dialoogdataset met 163.8k samples voor algemene geluiden en muziek. Naast dialogen bevat Audio Dialogues ook vraag-antwoordparen om meerdere input-audio's samen te begrijpen en te vergelijken. Audio Dialogues maakt gebruik van een op prompts gebaseerde aanpak en beschrijvingsannotaties uit bestaande datasets om multi-turn dialogen te genereren met behulp van een Large Language Model (LLM). We evalueren bestaande audio-augmented large language-modellen op onze voorgestelde dataset om de complexiteit en toepasbaarheid van Audio Dialogues aan te tonen. Onze code voor het genereren van de dataset zal openbaar beschikbaar worden gemaakt. Gedetailleerde prompts en gegenereerde dialogen zijn te vinden op de demo-website https://audiodialogues.github.io/.
Het recente succes van vooraf getrainde foundation vision-language modellen maakt Open-Vocabulary Segmentatie (OVS) mogelijk. Ondanks de veelbelovende prestaties, introduceert deze aanpak zware computationele overhead door twee uitdagingen: 1) de grote modelgroottes van de backbone; 2) de hoge kosten tijdens het fine-tunen. Deze uitdagingen belemmeren de brede toepasbaarheid en betaalbaarheid van deze OVS-strategie in real-world scenario's. Hoewel traditionele methoden zoals modelcompressie en efficiënt fine-tunen deze uitdagingen kunnen aanpakken, zijn ze vaak gebaseerd op heuristieken. Dit betekent dat hun oplossingen niet eenvoudig kunnen worden overgedragen en hertraining op verschillende modellen vereisen, wat gepaard gaat met kosten. In de context van efficiënte OVS streven we ernaar om prestaties te bereiken die vergelijkbaar zijn met of zelfs beter dan eerdere OVS-werken gebaseerd op grote vision-language foundation modellen, door gebruik te maken van kleinere modellen die lagere trainingskosten met zich meebrengen. De kernstrategie is om onze efficiëntie principieel te maken en daardoor naadloos overdraagbaar van het ene OVS-framework naar andere zonder verdere aanpassing. Uitgebreide experimenten op diverse OVS-benchmarks demonstreren onze superieure balans tussen segmentatienauwkeurigheid en rekenkosten in vergelijking met eerdere werken. Onze code is beschikbaar op https://github.com/Xujxyang/OpenTrans.