Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vermogen om complexe visuele informatie nauwkeurig te interpreteren is een cruciaal onderwerp voor multimodale grote taalmodellen (MLLMs). Recent onderzoek toont aan dat verbeterde visuele waarneming hallucinaties aanzienlijk vermindert en de prestaties verbetert bij taken die gevoelig zijn voor resolutie, zoals optische tekenherkenning en documentanalyse. Een aantal recente MLLMs bereikt dit doel door gebruik te maken van een mix van visuele encoders. Ondanks hun succes ontbreekt het aan systematische vergelijkingen en gedetailleerde ablatiestudies die kritieke aspecten aanpakken, zoals expertsselectie en de integratie van meerdere visuele experts. Deze studie biedt een uitgebreide verkenning van het ontwerpruimte voor MLLMs met behulp van een mix van visuele encoders en resoluties. Onze bevindingen onthullen verschillende onderliggende principes die gemeenschappelijk zijn voor diverse bestaande strategieën, wat leidt tot een gestroomlijnde maar effectieve ontwerpaanpak. We ontdekken dat het eenvoudig samenvoegen van visuele tokens van een set complementaire visuele encoders even effectief is als complexere mengarchitecturen of strategieën. Daarnaast introduceren we Pre-Alignment om de kloof te overbruggen tussen visueel gerichte encoders en taaltokens, waardoor de samenhang van het model wordt verbeterd. De resulterende familie van MLLMs, Eagle, overtreft andere toonaangevende open-source modellen op belangrijke MLLM-benchmarks. Modellen en code: https://github.com/NVlabs/Eagle
De algemene capaciteiten van Large Language Models (LLM) zijn sterk afhankelijk van de samenstelling en selectie van uitgebreide pretrainingsdatasets, die door verschillende instellingen als handelsgeheimen worden behandeld. Om dit probleem te verlichten, maken wij de details van een universeel toepasbare dataprocessingpipeline openbaar en valideren we de effectiviteit en het potentieel ervan door een competitieve LLM-baseline te introduceren. Specifiek bestaat de dataprocessingpipeline uit een brede verzameling om de schaal te vergroten en herweging om de kwaliteit te verbeteren. Vervolgens pretrainen we een 7B-model, BaichuanSEED, met 3T tokens die door onze pipeline zijn verwerkt, zonder enige opzettelijke optimalisatie voor downstreamtaken, gevolgd door een eenvoudig maar effectief stadium van supervised fine-tuning. BaichuanSEED toont consistentie en voorspelbaarheid gedurende de training en behaalt vergelijkbare prestaties op uitgebreide benchmarks met verschillende geavanceerde commerciële grote taalmodellen, zoals Qwen1.5 en Llama3. We voeren ook verschillende heuristische experimenten uit om het potentieel voor verdere optimalisatie van downstreamtaken, zoals wiskunde en codering, te bespreken.
Dit artikel introduceert Dolphin, een innovatieve decoder-decoder-architectuur voor energie-efficiënte verwerking van lange contexten in taalmodelen. Onze aanpak richt zich op de aanzienlijke energieconsumptie en latentie-uitdagingen die inherent zijn aan on-device modellen. Dolphin maakt gebruik van een compacte decoder met 0,5B parameters om uitgebreide contextuele informatie te destilleren in een geheugenembedding, waardoor de invoerlengte voor het primaire 7B-parameter decodermodel aanzienlijk wordt verminderd. Geïnspireerd door visie-taalmodelen, hergebruiken we de beeldembeddingprojector om lange tekstuele contexten te coderen, waarbij we uitgebreide context effectief behandelen als een aparte modaliteit. Deze innovatieve methode maakt het mogelijk om aanzienlijk langere contexten te verwerken zonder de gebruikelijke rekenkundige overhead die gepaard gaat met uitgebreide invoerreeksen. Empirische evaluaties tonen een 10-voudige verbetering in energie-efficiëntie en een 5-voudige vermindering in latentie in vergelijking met conventionele methoden voor volledige contextverwerking, zonder verlies van kwaliteit van het antwoord. Ons werk draagt bij aan de ontwikkeling van duurzamere en schaalbare taalmodelen voor on-device toepassingen, en adresseert de kritieke behoefte aan energie-efficiënte en responsieve AI-technologieën in omgevingen met beperkte middelen, terwijl de nauwkeurigheid om lange contexten te begrijpen behouden blijft. Dit onderzoek heeft implicaties voor het bredere veld van natuurlijke taalverwerking, met name op het gebied van efficiënt modelontwerp voor omgevingen met beperkte middelen. Door geavanceerdere AI-mogelijkheden op edge-apparaten mogelijk te maken, opent Dolphin de weg voor geavanceerde taalverwerking in een breed scala aan toepassingen waar rekenkundige middelen schaars zijn. Het Dolphin-model is publiekelijk beschikbaar op https://huggingface.co/NexaAIDev/Dolphin.
We introduceren LLaVA-MoD, een nieuw framework ontworpen om de efficiënte training van kleinschalige Multimodale Taalmodellen (s-MLLM) mogelijk te maken door kennis te distilleren uit grootschalige MLLM (l-MLLM). Onze aanpak adresseert twee fundamentele uitdagingen in MLLM-distillatie. Ten eerste optimaliseren we de netwerkstructuur van s-MLLM door een sparse Mixture of Experts (MoE)-architectuur te integreren in het taalmodel, waardoor een balans wordt gevonden tussen computationele efficiëntie en model-expressiviteit. Ten tweede stellen we een progressieve kennisoverdrachtstrategie voor om een uitgebreide kennisoverdracht te garanderen. Deze strategie begint met mimic-distillatie, waarbij we de Kullback-Leibler (KL)-divergentie tussen uitvoeringsverdelingen minimaliseren om het studentmodel in staat te stellen het begrip van het leraarnetwerk na te bootsen. Vervolgens introduceren we voorkeursdistillatie via Direct Preference Optimization (DPO), waarbij de sleutel ligt in het behandelen van l-MLLM als het referentiemodel. Tijdens deze fase wordt het vermogen van s-MLLM om superieure en inferieure voorbeelden te onderscheiden aanzienlijk verbeterd ten opzichte van l-MLLM, wat resulteert in een betere student die zijn leraar overtreft, met name in hallucinatiebenchmarks. Uitgebreide experimenten tonen aan dat LLaVA-MoD bestaande modellen overtreft op verschillende multimodale benchmarks, terwijl het een minimaal aantal geactiveerde parameters en lage computationele kosten behoudt. Opmerkelijk is dat LLaVA-MoD, met slechts 2B geactiveerde parameters, Qwen-VL-Chat-7B gemiddeld met 8,8% overtreft op benchmarks, waarbij slechts 0,3% van de trainingsdata en 23% trainbare parameters worden gebruikt. Deze resultaten onderstrepen het vermogen van LLaVA-MoD om effectief uitgebreide kennis te distilleren uit zijn leraarmodel, wat de weg vrijmaakt voor de ontwikkeling van efficiëntere MLLM's. De code zal beschikbaar zijn op: https://github.com/shufangxun/LLaVA-MoD.
Bij inferentie van Large Language Models (LLM) wordt de uitvoerlengte van een LLM-verzoek doorgaans beschouwd als niet a priori bekend. Als gevolg hiervan hanteren de meeste LLM-serversystemen een eenvoudige First-come-first-serve (FCFS) planningsstrategie, wat leidt tot Head-Of-Line (HOL) blokkering en verminderde doorvoer en servicekwaliteit. In dit artikel heroverwegen we deze aanname -- we tonen aan dat, hoewel het voorspellen van de exacte generatielengte van elk verzoek onhaalbaar is, het wel mogelijk is om de relatieve rangschikking van uitvoerlengtes in een batch van verzoeken te voorspellen, door gebruik te maken van leren om te rangschikken. De rangschikkingsinformatie biedt waardevolle richtlijnen voor het plannen van verzoeken. Op basis van dit inzicht ontwikkelen we een nieuwe planner voor LLM-inferentie en -serving die het shortest-job-first (SJF) schema beter kan benaderen dan bestaande benaderingen. We integreren deze planner met het state-of-the-art LLM-serversysteem en tonen aanzienlijke prestatieverbeteringen aan in verschillende belangrijke toepassingen: 2,8x lagere latentie in chatbotserving en 6,5x hogere doorvoer in synthetische datageneratie. Onze code is beschikbaar op https://github.com/hao-ai-lab/vllm-ltr.git.
Het ontwikkelen van expertise voor grote taalmmodellen (LLMs) om taken in specifieke domeinen op te lossen, vereist vaak specifieke afstemming met gekalibreerd gedrag voor verwachte stabiele uitkomsten. Om de hoge kosten te vermijden die gepaard gaan met de handmatige voorbereiding van instructiedatasets en trainingsbronnen van honderden uren, vormt het gebruik van open kennis, waaronder een overvloed aan low rank adaptation (LoRA) modellen en instructiedatasets, een goed uitgangspunt. Bestaande methoden voor model- en dataselectie richten zich echter op de prestaties van algemene capaciteiten, terwijl de kenniskloof die zichtbaar wordt bij domeinspecifieke implementatie wordt verwaarloosd. In deze studie stellen we voor om deze kloof te overbruggen door enkele door mensen geannoteerde voorbeelden (d.w.z. K-shot) te introduceren om de taakexpertise van LLMs met open kennis te bevorderen. Specifiek ontwikkelen we een efficiënte en schaalbare pijplijn om op kosteneffectieve wijze taakexperts te produceren, waarbij K-shot data ingrijpen bij het selecteren van de meest veelbelovende expertkandidaten en de taakrelevante instructies. Een mixture-of-expert (MoE) systeem wordt gebouwd om optimaal gebruik te maken van individuele, maar complementaire kennis tussen meerdere experts. We onthullen de twee sleutels tot het succes van een MoE-systeem: 1) het naleven van K-shot, en 2) het vasthouden aan diversiteit. Voor het eerste zorgen we ervoor dat modellen die daadwerkelijk probleemoplossende vaardigheden bezitten op K-shot worden geselecteerd, in plaats van modellen die slechts gissen. Daarnaast worden tijdens de dataselectie instructies die taakrelevante contexten delen met K-shot geprioriteerd. Voor het laatste benadrukken we de diversiteit van de samenstellende experts en die van de fine-tuning instructies gedurende het hele model- en dataselectieproces. Uitgebreide experimentele resultaten bevestigen de superioriteit van onze aanpak ten opzichte van bestaande methoden bij het gebruik van open kennis over verschillende taken. Codes en modellen zullen later worden vrijgegeven.
Het versnellen van de bemonsteringssnelheid van diffusiemodellen blijft een belangrijke uitdaging. Recente score-distillatiemethoden distilleren een zwaar leraarmodel naar een eenstaps studentgenerator, die wordt geoptimaliseerd door het verschil te berekenen tussen de twee scorefuncties op de monsters die door het studentmodel worden gegenereerd. Er doet zich echter een score-mismatchprobleem voor in de vroege fase van het distillatieproces, omdat bestaande methoden zich voornamelijk richten op het gebruik van het eindpunt van vooraf getrainde diffusiemodellen als leraarmodellen, waarbij het belang van het convergentietraject tussen de studentgenerator en het leraarmodel over het hoofd wordt gezien. Om dit probleem aan te pakken, breiden we het score-distillatieproces uit door het volledige convergentietraject van leraarmodellen te introduceren en stellen we Distribution Backtracking Distillation (DisBack) voor voor het distilleren van studentgeneratoren. DisBack bestaat uit twee fasen: Degradatie Registratie en Distributie Terugspoelen. Degradatie Registratie is ontworpen om het convergentietraject van leraarmodellen te verkrijgen, waarbij het degradatiepad wordt vastgelegd van het getrainde leraarmodel naar de ongetrainde initiële studentgenerator. Het degradatiepad vertegenwoordigt impliciet de tussenliggende distributies van leraarmodellen. Vervolgens traint Distributie Terugspoelen een studentgenerator om de tussenliggende distributies terug te spoelen om het convergentietraject van leraarmodellen te benaderen. Uitgebreide experimenten tonen aan dat DisBack snellere en betere convergentie bereikt dan de bestaande distillatiemethode en vergelijkbare generatieprestaties behaalt. Opmerkelijk is dat DisBack eenvoudig te implementeren is en kan worden gegeneraliseerd naar bestaande distillatiemethoden om de prestaties te verbeteren. Onze code is openbaar beschikbaar op https://github.com/SYZhang0805/DisBack.
De exponentiële groei van wetenschappelijke literatuur vereist geavanceerde tools voor effectieve kennisverkenning. Wij presenteren Knowledge Navigator, een systeem ontworpen om verkennende zoekmogelijkheden te verbeteren door de opgehaalde documenten van brede thematische zoekopdrachten te organiseren en structureren in een navigeerbare, tweelaagse hiërarchie van benoemde en beschrijvende wetenschappelijke onderwerpen en subonderwerpen. Deze gestructureerde organisatie biedt een overzicht van de onderzoeksonderwerpen in een domein, terwijl het ook iteratief zoeken en diepere kennisontdekking binnen specifieke subonderwerpen mogelijk maakt door gebruikers in staat te stellen hun focus te verfijnen en aanvullende relevante documenten op te halen. Knowledge Navigator combineert de mogelijkheden van LLM's met clustergebaseerde methoden om een effectieve blader-methode te bieden. Wij demonstreren de effectiviteit van onze aanpak door automatische en handmatige evaluaties op twee nieuwe benchmarks, CLUSTREC-COVID en SCITOC. Onze code, prompts en benchmarks zijn publiekelijk beschikbaar gemaakt.
Voor Mixture-of-Experts (MoE)-modellen zal een ongelijke belasting van experts leiden tot routeringscollaps of een verhoogde rekenkundige overhead. Bestaande methoden gebruiken vaak een hulploss om belastingbalans te bevorderen, maar een grote hulploss introduceert niet-verwaarloosbare interferentiegradiënten in de training en schaadt daardoor de modelprestaties. Om de belastingbalans te beheersen zonder ongewenste gradiënten tijdens de training te produceren, stellen we Loss-Free Balancing voor, gekenmerkt door een strategie voor belastingbalans zonder hulploss. Concreet past Loss-Free Balancing, vóór de top-K-routeringsbeslissing, eerst een expert-specifieke bias toe op de routeringsscores van elke expert. Door de bias van elke expert dynamisch bij te werken op basis van de recente belasting, kan Loss-Free Balancing consistent een gebalanceerde verdeling van de expertbelasting handhaven. Bovendien, omdat Loss-Free Balancing geen interferentiegradiënten produceert, verhoogt het ook de bovengrens van de modelprestaties die worden behaald met MoE-training. We valideren de prestaties van Loss-Free Balancing op MoE-modellen met tot 3B parameters getraind op tot 200B tokens. Experimentele resultaten tonen aan dat Loss-Free Balancing zowel betere prestaties als een betere belastingbalans bereikt in vergelijking met traditionele strategieën voor belastingbalans die worden gecontroleerd door een hulploss.
Hoewel de Mamba-architectuur superieure inferentie-efficiëntie en competitieve prestaties vertoont bij kort-context natuurlijke taalverwerking (NLP)-taken, suggereert empirisch bewijs dat het vermogen om lange contexten te begrijpen beperkt is in vergelijking met transformer-gebaseerde modellen. In deze studie onderzoeken we de lange-context efficiëntieproblemen van de Mamba-modellen en introduceren we ReMamba, dat het vermogen van Mamba om lange contexten te begrijpen verbetert. ReMamba integreert selectieve compressie en aanpassingstechnieken binnen een tweestaps hervoorwaarts proces, wat resulteert in minimale extra inferentiekosten. Experimentele resultaten op de LongBench en L-Eval benchmarks tonen de effectiviteit van ReMamba aan, met verbeteringen van respectievelijk 3,2 en 1,6 punten ten opzichte van de basislijnen, en prestaties die bijna gelijk zijn aan transformer-modellen van dezelfde grootte.
We onderzoeken hoe voorspellingsmodellen voor de volgende token kunnen worden verbeterd om in-context imitatieleren uit te voeren op een echte robot, waarbij de robot nieuwe taken uitvoert door contextuele informatie te interpreteren die tijdens de invoerfase wordt verstrekt, zonder de onderliggende beleidsparameters bij te werken. We stellen de In-Context Robot Transformer (ICRT) voor, een causale transformer die autoregressieve voorspellingen uitvoert op sensomotorische trajecten zonder te vertrouwen op linguïstische data of een beloningsfunctie. Deze formulering maakt flexibele en trainingsvrije uitvoering van nieuwe taken mogelijk tijdens de testfase, bereikt door het model te voorzien van sensomotorische trajecten van de nieuwe taak, bestaande uit beeldobservaties, acties en statetupels, verzameld via menselijke teleoperatie. Experimenten met een Franka Emika robot tonen aan dat de ICRT zich kan aanpassen aan nieuwe taken die door prompts worden gespecificeerd, zelfs in omgevingsconfiguraties die verschillen van zowel de prompt als de trainingsdata. In een multitask-omgevingsopstelling presteert ICRT aanzienlijk beter dan de huidige state-of-the-art voorspellingsmodellen voor de volgende token in robotica bij het generaliseren naar onbekende taken. Code, checkpoints en data zijn beschikbaar op https://icrt.dev/
Het gebruik van delen van bestaande modellen om nieuwe modellen te herbouwen, vaak aangeduid als voorbeeldgebaseerd modelleren, is een klassieke methodologie binnen het domein van computergraphics. Eerdere werken richten zich voornamelijk op vormcompositie, waardoor ze moeilijk te gebruiken zijn voor realistische compositie van 3D-objecten die uit echte scènes zijn vastgelegd. Dit leidt tot het combineren van meerdere NeRF's in een enkele 3D-scène om naadloze uiterlijke blending te bereiken. De huidige SeamlessNeRF-methode heeft echter moeite met interactief bewerken en harmonieuze stitching voor echte scènes vanwege zijn gradientgebaseerde strategie en rastergebaseerde representatie. Daarom presenteren we een voorbeeldgebaseerde modelleermethode die meerdere Gaussische velden combineert in een puntgebaseerde representatie met behulp van sample-geleide synthese. Specifiek creëren we voor compositie een GUI om meerdere velden in realtime te segmenteren en te transformeren, waardoor een semantisch betekenisvolle compositie van modellen die worden gerepresenteerd door 3D Gaussian Splatting (3DGS) eenvoudig kan worden verkregen. Voor textuurblending wordt, vanwege de discrete en onregelmatige aard van 3DGS, het rechtstreeks toepassen van gradientpropagatie zoals bij SeamlessNeRF niet ondersteund. Daarom wordt een nieuwe sampling-gebaseerde kloningsmethode voorgesteld om de blending te harmoniseren terwijl de oorspronkelijke rijke textuur en inhoud behouden blijven. Onze workflow bestaat uit drie stappen: 1) realtime segmentatie en transformatie van een Gaussisch model met behulp van een goed afgestemde GUI, 2) KNN-analyse om grenspunten te identificeren in het snijgebied tussen de bron- en doelmodellen, en 3) tweefase-optimalisatie van het doelmodel met behulp van sampling-gebaseerd klonen en gradientbeperkingen. Uitgebreide experimentele resultaten valideren dat onze aanpak eerdere werken aanzienlijk overtreft in termen van realistische synthese, wat de praktische bruikbaarheid aantoont. Meer demo's zijn beschikbaar op https://ingra14m.github.io/gs_stitching_website.
De afgelopen jaren is aanzienlijke vooruitgang geboekt bij het creëren van fotorealistische en bestuurbare 3D-avatars uitsluitend op basis van video's van echte mensen. Een kernuitdaging die echter nog steeds resteert, is het fijnmazige en gebruiksvriendelijke bewerken van kledingstijlen door middel van tekstuele beschrijvingen. Hiertoe presenteren wij TEDRA, de eerste methode die tekstgebaseerde aanpassingen van een avatar mogelijk maakt, waarbij de hoge kwaliteit, ruimte-tijd coherentie en dynamiek van de avatar behouden blijven, en waarbij controle over skeletpose en camerahoek mogelijk is. We beginnen met het trainen van een model om een bestuurbare en hoogwaardige digitale replica van de echte acteur te creëren. Vervolgens personaliseren we een vooraf getraind generatief diffusiemodel door het af te stemmen op verschillende frames van het echte personage, vastgelegd vanuit verschillende camerahoeken, om ervoor te zorgen dat de digitale representatie de dynamiek en bewegingen van de echte persoon nauwkeurig weergeeft. Dit tweestapsproces vormt de basis voor onze aanpak van dynamische avatar-bewerking. Met behulp van dit gepersonaliseerde diffusiemodel passen we de dynamische avatar aan op basis van een gegeven tekstprompt, waarbij we onze Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) gebruiken binnen een modelgebaseerd begeleidingskader. Daarnaast stellen we een tijdstap-annealingstrategie voor om hoogwaardige bewerkingen te garanderen. Onze resultaten tonen een duidelijke verbetering ten opzichte van eerder werk in functionaliteit en visuele kwaliteit.