Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmmodellen (LLMs) hebben indrukwekkende successen behaald op veel benchmarks voor wiskundig redeneren. Er is echter een groeiende bezorgdheid dat een deel van deze prestaties eigenlijk datasetvervuiling weerspiegelt, waarbij gegevens die sterk lijken op benchmarkvragen in de trainingsdata terechtkomen, in plaats van een echt redeneervermogen. Om deze bewering rigoureus te onderzoeken, hebben we Grade School Math 1000 (GSM1k) ontwikkeld. GSM1k is ontworpen om de stijl en complexiteit van de gevestigde GSM8k-benchmark, de gouden standaard voor het meten van elementair wiskundig redeneren, te weerspiegelen. We zorgen ervoor dat de twee benchmarks vergelijkbaar zijn op belangrijke metrieken zoals menselijke oplossingspercentages, aantal stappen in de oplossing, grootte van het antwoord, en meer. Bij het evalueren van toonaangevende open- en closed-source LLMs op GSM1k, observeren we nauwkeurigheidsdalingen tot wel 13%, waarbij verschillende modelfamilies (bijv. Phi en Mistral) tekenen van systematische overfitting vertonen bij bijna alle modelgroottes. Tegelijkertijd vertonen veel modellen, vooral die aan de frontlinie (bijv. Gemini/GPT/Claude), minimale tekenen van overfitting. Verdere analyse suggereert een positieve relatie (Spearman's r^2=0.32) tussen de kans van een model om een voorbeeld uit GSM8k te genereren en de prestatiekloof tussen GSM8k en GSM1k, wat erop wijst dat veel modellen GSM8k mogelijk gedeeltelijk hebben gememoriseerd.
Beeldbewerking heeft aanzienlijke vooruitgang geboekt met de introductie van tekst-geconditioneerde diffusiemodellen. Ondanks deze vooruitgang blijft het naadloos toevoegen van objecten aan afbeeldingen op basis van tekstuele instructies, zonder gebruikersgegenereerde invoermaskers, een uitdaging. Wij pakken dit aan door gebruik te maken van het inzicht dat het verwijderen van objecten (Inpaint) aanzienlijk eenvoudiger is dan het omgekeerde proces van het toevoegen ervan (Paint), wat wordt toegeschreven aan het gebruik van segmentatiemaskerdatasets samen met inpainting-modellen die binnen deze maskers inpainten. Door gebruik te maken van deze realisatie, implementeren we een geautomatiseerde en uitgebreide pijplijn om een gefilterde grootschalige afbeeldingsdataset te creëren die paren van afbeeldingen en hun corresponderende object-verwijderde versies bevat. Met behulp van deze paren trainen we een diffusiemodel om het inpainting-proces om te keren, waardoor objecten effectief aan afbeeldingen worden toegevoegd. In tegenstelling tot andere bewerkingsdatasets, bevat de onze natuurlijke doelafbeeldingen in plaats van synthetische; bovendien behoudt het door constructie consistentie tussen bron en doel. Daarnaast gebruiken we een groot Vision-Language Model om gedetailleerde beschrijvingen te geven van de verwijderde objecten en een Large Language Model om deze beschrijvingen om te zetten in diverse, natuurlijktaalinstructies. We tonen aan dat het getrainde model bestaande modellen zowel kwalitatief als kwantitatief overtreft, en we geven de grootschalige dataset samen met de getrainde modellen vrij voor de gemeenschap.
Traditionele benaderingen van reinforcement learning from human feedback (RLHF) die vertrouwen op parametrische modellen zoals het Bradley-Terry-model, schieten tekort in het vastleggen van intransitiviteit en irrationaliteit in menselijke voorkeuren. Recente ontwikkelingen suggereren dat het direct werken met voorkeurskansen een nauwkeuriger weerspiegeling van menselijke voorkeuren kan opleveren, wat een flexibelere en preciezere afstemming van taalmogelijk mogelijk maakt. In dit artikel stellen we een methode voor op basis van zelfspel voor de afstemming van taalmogelijk, waarbij het probleem wordt behandeld als een constant-sum tweespelersspel gericht op het identificeren van het Nash-evenwichtsbeleid. Onze aanpak, genaamd Self-Play Preference Optimization (SPPO), benadert het Nash-evenwicht door middel van iteratieve beleidsupdates en geniet van een theoretische convergentiegarantie. Onze methode kan effectief de log-waarschijnlijkheid van het gekozen antwoord verhogen en die van het afgewezen antwoord verlagen, wat niet triviaal kan worden bereikt met symmetrische paarsgewijze verliesfuncties zoals Direct Preference Optimization (DPO) en Identity Preference Optimization (IPO). In onze experimenten, waarbij we slechts 60k prompts (zonder antwoorden) uit de UltraFeedback-dataset gebruiken en zonder enige prompt-augmentatie, door gebruik te maken van een vooraf getraind voorkeursmodel PairRM met slechts 0,4B parameters, kan SPPO een model verkrijgen door fine-tuning van Mistral-7B-Instruct-v0.2 dat een state-of-the-art lengte-gecontroleerde win-rate van 28,53% behaalt tegen GPT-4-Turbo op AlpacaEval 2.0. Het presteert ook beter dan de (iteratieve) DPO en IPO op MT-Bench en de Open LLM Leaderboard. Opmerkelijk is dat de sterke prestaties van SPPO worden bereikt zonder aanvullende externe supervisie (bijv. antwoorden, voorkeuren, etc.) van GPT-4 of andere sterkere taalmogelijk.
Dit onderzoek presenteert een gerichte analyse van modelbewerkingen, gericht op het nieuwste grote taalmodel, Llama-3. We onderzoeken de effectiviteit van populaire modelbewerkingstechnieken - ROME, MEMIT en EMMET, die zijn ontworpen voor precieze interventies op laagniveau. We identificeren de meest effectieve lagen voor gerichte bewerkingen door middel van een evaluatie die tot 4096 bewerkingen omvat, verdeeld over drie verschillende strategieën: sequentiële bewerking, batchbewerking en een hybride aanpak die we sequentiële-batchbewerking noemen. Onze bevindingen geven aan dat het vergroten van de batchgrootte van bewerkingen de modelprestaties sterker kan verslechteren dan het sequentieel gebruiken van kleinere bewerkingsbatches voor hetzelfde aantal bewerkingen. Hiermee stellen we dat sequentiële modelbewerking een belangrijk onderdeel is voor het schalen van modelbewerkingsmethoden en dat toekomstig onderzoek zich zou moeten richten op methoden die zowel batch- als sequentiële bewerking combineren. Deze observatie suggereert een mogelijke beperking in huidige modelbewerkingsmethoden die streven naar grotere batchgroottes, en we hopen dat dit de weg vrijmaakt voor toekomstig onderzoek naar het optimaliseren van batchgroottes en modelbewerkingsprestaties.
Grote taalmmodellen (LLMs) hebben audioverwerking aanzienlijk vooruitgeholpen door middel van audiocodecs die audio omzetten in discrete tokens, waardoor taalmodeltechnieken kunnen worden toegepast op audiogegevens. Traditionele codecs werken echter vaak op hoge bitrates of binnen beperkte domeinen zoals spraak en missen de semantische aanwijzingen die nodig zijn voor efficiënt taalmodelgebruik. Om deze uitdagingen aan te pakken, introduceren we SemantiCodec, een nieuwe codec die is ontworpen om audio te comprimeren tot minder dan honderd tokens per seconde voor diverse audiotypes, waaronder spraak, algemene audio en muziek, zonder kwaliteitsverlies. SemantiCodec beschikt over een dual-encoderarchitectuur: een semantische encoder die gebruikmaakt van een zelfsupervised AudioMAE, gediscretiseerd via k-means clustering op uitgebreide audiogegevens, en een akoestische encoder om de resterende details vast te leggen. De uitvoer van de semantische en akoestische encoder wordt gebruikt om audio te reconstrueren via een op diffusiemodellen gebaseerde decoder. SemantiCodec wordt aangeboden in drie varianten met tokensnelheden van 25, 50 en 100 per seconde, die een reeks ultra-lage bitrates ondersteunen tussen 0,31 kbps en 1,43 kbps. Experimentele resultaten tonen aan dat SemantiCodec de state-of-the-art Descript-codec aanzienlijk overtreft in reconstructiekwaliteit. Onze resultaten suggereren ook dat SemantiCodec aanzienlijk rijkere semantische informatie bevat dan alle geëvalueerde audiocodecs, zelfs bij aanzienlijk lagere bitrates. Onze code en demo's zijn beschikbaar op https://haoheliu.github.io/SemantiCodec/.
Grote taalmodellen (LLMs) kampen met een lage efficiëntie vanwege de mismatch tussen de vereisten van auto-regressieve decodering en het ontwerp van de meeste hedendaagse GPU's. Specifiek moeten miljarden tot biljoenen parameters via de beperkte geheugenbandbreedte naar de GPU-cache worden geladen voor berekeningen, terwijl slechts een kleine batch tokens daadwerkelijk wordt verwerkt. Als gevolg besteedt de GPU het grootste deel van de tijd aan geheugenoverdracht in plaats van aan berekeningen. Recentelijk wordt parallelle decodering, een type speculatieve decodering-algoritme, steeds populairder en heeft het indrukwekkende efficiëntieverbeteringen laten zien bij het genereren. Het introduceert extra decoderingkoppen in grote modellen, waardoor ze meerdere opeenvolgende tokens gelijktijdig kunnen voorspellen en deze kandidaat-voortzettingen in één decoderingstap kunnen verifiëren. Deze benadering wijkt echter af van het trainingsdoel van volgende-token-voorspelling dat tijdens de pre-training wordt gebruikt, wat resulteert in een lage trefkans voor kandidaat-tokens. In dit paper stellen we een nieuw speculatief decodering-algoritme voor, Clover, dat sequentiële kennis integreert in het parallelle decoderingproces. Deze verbetering verhoogt de trefkans van speculatoren en verhoogt daarmee de algehele efficiëntie. Clover geeft de sequentiële kennis van vooraf gespeculeerde tokens door via de Regressieve Verbinding en gebruikt vervolgens een Attention Decoder om deze gespeculeerde tokens te integreren. Daarnaast bevat Clover een Augmenting Block dat de verborgen toestanden aanpast om beter aan te sluiten bij het doel van speculatieve generatie in plaats van volgende-token-voorspelling. De experimentele resultaten tonen aan dat Clover de baseline met respectievelijk tot 91% op Baichuan-Small en 146% op Baichuan-Large overtreft, en de prestaties van de voorheen best presterende methode, Medusa, met respectievelijk tot 37% op Baichuan-Small en 57% op Baichuan-Large overstijgt.
Onlangs heeft 3D Gaussian Splatting, als een nieuwe 3D-representatie, aandacht gekregen vanwege de snelle renderingsnelheid en hoge renderkwaliteit. Dit gaat echter gepaard met een hoog geheugengebruik; bijvoorbeeld kan een goed getraind Gaussisch veld drie miljoen Gaussische primitieven en meer dan 700 MB geheugen gebruiken. Wij schrijven dit hoge geheugengebruik toe aan het gebrek aan aandacht voor de relatie tussen de primitieven. In dit artikel stellen we een geheugenefficiënt Gaussisch veld voor, genaamd SUNDAE, met spectrale pruning en neurale compensatie. Enerzijds construeren we een grafiek op de verzameling van Gaussische primitieven om hun relatie te modelleren en ontwerpen we een spectrale down-sampling module om primitieven te verwijderen terwijl gewenste signalen behouden blijven. Anderzijds benutten we, om het kwaliteitsverlies door het verwijderen van Gaussische primitieven te compenseren, een lichtgewicht neuraal netwerk om gesplatte features te mixen, wat effectief kwaliteitsverliezen compenseert en tegelijkertijd de relatie tussen primitieven vastlegt in zijn gewichten. We demonstreren de prestaties van SUNDAE met uitgebreide resultaten. Zo kan SUNDAE bijvoorbeeld een PSNR van 26,80 bereiken bij 145 FPS met een geheugengebruik van 104 MB, terwijl het standaard Gaussian splatting-algoritme een PSNR van 25,60 bereikt bij 160 FPS met een geheugengebruik van 523 MB, op de Mip-NeRF360 dataset. De code is publiekelijk beschikbaar op https://runyiyang.github.io/projects/SUNDAE/.
Het volgen van objecten in driedimensionale ruimte is cruciaal voor autonoom rijden. Om veiligheid tijdens het rijden te garanderen, moet de tracker objecten betrouwbaar kunnen volgen over verschillende frames en hun toestanden, zoals snelheid en versnelling, accuraat kunnen schatten in het heden. Bestaande werken richten zich vaak op de associatietaak, terwijl ze ofwel de modelprestaties op toestandsschatting verwaarlozen, ofwel complexe heuristieken inzetten om de toestanden te voorspellen. In dit artikel stellen we STT voor, een Stateful Tracking-model gebouwd met Transformers, dat objecten in de scènes consistent kan volgen en tegelijkertijd hun toestanden nauwkeurig kan voorspellen. STT verwerkt rijke visuele, geometrische en bewegingssignalen via een langetermijnhistorie van detecties en wordt gezamenlijk geoptimaliseerd voor zowel de data-associatie- als de toestandsschattingstaken. Omdat standaard trackingmetrieken zoals MOTA en MOTP de gecombineerde prestaties van de twee taken in het bredere spectrum van objecttoestanden niet vastleggen, breiden we deze uit met nieuwe metrieken genaamd S-MOTA en MOTPS die deze beperking aanpakken. STT behaalt competitieve real-time prestaties op de Waymo Open Dataset.
Applicatieontwikkelaars adverteren hun apps door productpagina's te maken met app-afbeeldingen en te bieden op zoektermen. Het is dan cruciaal dat de app-afbeeldingen zeer relevant zijn voor de zoektermen. Oplossingen voor dit probleem vereisen een beeld-tekst-matchingmodel om de kwaliteit van de match tussen de gekozen afbeelding en de zoektermen te voorspellen. In dit werk presenteren we een nieuwe aanpak om een app-afbeelding te matchen met zoektermen op basis van het finetunen van een vooraf getraind LXMERT-model. We tonen aan dat we, vergeleken met het CLIP-model en een baseline die een Transformer-model gebruikt voor zoektermen en een ResNet-model voor afbeeldingen, de matchingnauwkeurigheid aanzienlijk verbeteren. We evalueren onze aanpak met behulp van twee sets labels: door adverteerders geassocieerde (afbeelding, zoekterm)-paren voor een gegeven applicatie, en menselijke beoordelingen voor de relevantie tussen (afbeelding, zoekterm)-paren. Onze aanpak behaalt een AUC-score van 0,96 voor de door adverteerders geassocieerde grondwaarheid, wat de transformer+ResNet-baseline en het gefinetunde CLIP-model met respectievelijk 8% en 14% overtreft. Voor door mensen gelabelde grondwaarheid behaalt onze aanpak een AUC-score van 0,95, wat de transformer+ResNet-baseline en het gefinetunde CLIP-model met respectievelijk 16% en 17% overtreft.