Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate grote taalmodellen verbeteren, neemt de interesse toe in technieken die de mogelijkheden van deze modellen benutten om hun eigen uitvoer te verfijnen. In dit werk introduceren we Shepherd, een taalmodel dat specifiek is afgestemd om reacties te beoordelen en verfijningen voor te stellen, en dat verder gaat dan de mogelijkheden van een niet-afgestemd model om diverse fouten te identificeren en suggesties te geven om deze te verhelpen. De kern van onze aanpak is een hoogwaardige feedbackdataset, die we samenstellen uit gemeenschapsfeedback en menselijke annotaties. Hoewel Shepherd klein is (7B parameters), zijn zijn beoordelingen gelijkwaardig of zelfs beter dan die van gevestigde modellen zoals ChatGPT. Bij evaluatie met GPT-4 bereikt Shepherd een gemiddelde win-rate van 53-87% in vergelijking met concurrerende alternatieven. In menselijke evaluaties presteert Shepherd consistent beter dan andere modellen en eindigt het gemiddeld op gelijke hoogte met ChatGPT.
Muziekgeneratie heeft een groeiende interesse gewekt met de vooruitgang van diepe generatieve modellen. Het genereren van muziek op basis van tekstuele beschrijvingen, bekend als tekst-naar-muziek, blijft echter uitdagend vanwege de complexiteit van muzikale structuren en de hoge samplefrequentievereisten. Ondanks het belang van deze taak vertonen heersende generatieve modellen beperkingen in muziekkwaliteit, computationele efficiëntie en generalisatie. Dit artikel introduceert JEN-1, een universeel hoogwaardig model voor tekst-naar-muziekgeneratie. JEN-1 is een diffusiemodel dat zowel autoregressieve als niet-autoregressieve training omvat. Door in-context learning voert JEN-1 verschillende generatietaken uit, waaronder tekstgestuurde muziekgeneratie, muziekinpainting en voortzetting. Evaluaties tonen aan dat JEN-1 superieure prestaties levert in vergelijking met state-of-the-art methoden op het gebied van tekst-muziekalignering en muziekkwaliteit, terwijl het computationele efficiëntie behoudt. Onze demo's zijn beschikbaar op http://futureverse.com/research/jen/demos/jen1.
Recente ontwikkelingen met grote taalmodellen (LLM) illustreren hun diverse mogelijkheden. Wij stellen een nieuw algoritme voor, gefaseerde speculatieve decodering, om LLM-inferentie te versnellen in scenario's met kleine batches en op apparaten. We pakken de lage rekenintensiteit van inferentie met kleine batches aan door voort te bouwen op eerder werk in speculatieve decodering. Ten eerste herstructureren we de speculatieve batch als een boom, wat de generatiekosten verlaagt en het verwachte aantal tokens per batch verhoogt. Ten tweede voegen we een tweede fase van speculatieve decodering toe. Samen verminderen we de latentie van decodering in een enkele batch met 3,16x bij een GPT-2-L-model met 762M parameters, terwijl de uitvoerkwaliteit perfect behouden blijft.
False negatives (FN) in 3D-objectdetectie, zoals het missen van voorspellingen van voetgangers, voertuigen of andere obstakels, kunnen leiden tot potentieel gevaarlijke situaties in autonoom rijden. Hoewel dit een kritiek probleem is, wordt het in veel huidige 3D-detectiemethoden onvoldoende onderzocht. In dit werk stellen we Hard Instance Probing (HIP) voor, een algemene pipeline die FN op een meerfasige manier identificeert en modellen begeleidt om zich te richten op het opsporen van moeilijke instanties. Voor 3D-objectdetectie concretiseren we deze methode als FocalFormer3D, een eenvoudige maar effectieve detector die uitblinkt in het opsporen van moeilijke objecten en het verbeteren van de voorspellingsherinnering. FocalFormer3D kenmerkt zich door een meerfasige querygeneratie om moeilijke objecten te ontdekken en een box-level transformerdecoder om efficiënt objecten te onderscheiden uit een groot aantal objectkandidaten. Experimentele resultaten op de nuScenes- en Waymo-datasets valideren de superieure prestaties van FocalFormer3D. Dit voordeel leidt tot sterke prestaties op zowel detectie als tracking, in zowel LiDAR- als multimodale instellingen. Opmerkelijk is dat FocalFormer3D een 70,5 mAP en 73,9 NDS behaalt op de nuScenes-detectiebenchmark, terwijl de nuScenes-trackingbenchmark een 72,1 AMOTA laat zien, waarmee beide de eerste plaats innemen op de nuScenes LiDAR-leaderboard. Onze code is beschikbaar op https://github.com/NVlabs/FocalFormer3D.