Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel introduceert de Block Transformer-architectuur, die hiërarchisch globaal-naar-lokaal modelleren toepast op autoregressieve transformers om de inferentieknelpunten van self-attention te verminderen. Om self-attention toe te passen, moet de key-value (KV) cache van alle voorgaande sequenties bij elke decodeerstap uit het geheugen worden opgehaald. Hierdoor wordt deze KV-cache-IO een significant knelpunt bij batch-inferentie. We merken op dat deze kosten voortkomen uit het toepassen van self-attention op de globale context, daarom isoleren we de dure knelpunten van globaal modelleren naar de lagere lagen en passen we snel lokaal modelleren toe in de bovenste lagen. Om de resterende kosten in de lagere lagen te verminderen, aggregeren we invoertokens in blokken van vaste grootte en passen we vervolgens self-attention toe op dit grove niveau. Contextinformatie wordt samengevoegd in een enkele embedding om de bovenste lagen in staat te stellen het volgende blok tokens te decoderen, zonder globale aandacht. Vrij van de knelpunten van globale aandacht, kunnen de bovenste lagen de rekenhardware volledig benutten om de inferentie-doorvoer te maximaliseren. Door gebruik te maken van globale en lokale modules, toont de Block Transformer-architectuur een 10-20x hogere inferentie-doorvoer in vergelijking met standaard transformers met equivalente perplexiteit. Ons werk introduceert een nieuwe aanpak om de inferentie van taalmodel te optimaliseren door een innovatieve toepassing van globaal-naar-lokaal modelleren. Code is beschikbaar op https://github.com/itsnamgyu/block-transformer.
De snelle ontwikkeling van Multimodale Grote Taalmodellen (MLLMs) zoals GPT-4V heeft een belangrijke stap gezet in de richting van kunstmatige algemene intelligentie. Bestaande methoden richten zich voornamelijk op het afstemmen van visuele encoders op LLMs door middel van supervised fine-tuning (SFT) om LLMs multimodale vaardigheden te geven, waardoor het inherente vermogen van MLLMs om op meerdere talen te reageren geleidelijk afneemt naarmate het trainingsproces vordert. Empirisch hebben we vastgesteld dat de onevenwichtige SFT-datasets, die voornamelijk bestaan uit Engelstalige afbeelding-tekstparen, leiden tot een aanzienlijk verminderde prestaties in niet-Engelse talen. Dit komt door het falen van het afstemmen van de visuele encoder en de LLM met meertalige tokens tijdens het SFT-proces. In dit artikel introduceren we Parrot, een nieuwe methode die tekstuele begeleiding gebruikt om visuele tokenafstemming op taalniveau te sturen. Parrot maakt de visuele tokens afhankelijk van diverse taalinputs en gebruikt Mixture-of-Experts (MoE) om de afstemming van meertalige tokens te bevorderen. Specifiek, om de afstemming van niet-Engelse visuele tokens te verbeteren, berekenen we de cross-attention met behulp van de initiële visuele kenmerken en tekstuele embeddings, waarvan het resultaat vervolgens wordt gevoed in de MoE-router om de meest relevante experts te selecteren. De geselecteerde experts zetten vervolgens de initiële visuele tokens om in taal-specifieke visuele tokens. Bovendien, gezien het huidige gebrek aan benchmarks voor het evalueren van meertalige capaciteiten binnen het veld, hebben we een Massive Multilingual Multimodal Benchmark verzameld en beschikbaar gesteld, die 6 talen, 15 categorieën en 12.000 vragen omvat, genaamd MMMB. Onze methode toont niet alleen state-of-the-art prestaties op meertalige MMBench en MMMB, maar blinkt ook uit in een breed scala aan multimodale taken. Zowel de broncode als de trainingsdataset van Parrot zullen publiekelijk beschikbaar worden gemaakt.
Taken met mobiele apparaten worden steeds vaker een populair scenario voor multi-modale AI-toepassingen. Huidige Multi-modale Large Language Models (MLLMs), beperkt door hun trainingsdata, hebben niet het vermogen om effectief te functioneren als bedieningsassistenten. In plaats daarvan worden MLLM-gebaseerde agents, die hun capaciteiten vergroten door het aanroepen van tools, geleidelijk toegepast in dit scenario. Echter, de twee belangrijkste navigatie-uitdagingen in taken met mobiele apparaten, navigatie van de voortgang van de taak en navigatie van de focusinhoud, worden aanzienlijk gecompliceerd onder de single-agent architectuur van bestaand werk. Dit komt door de te lange tokenreeksen en het afwisselende tekst-beeld dataformaat, wat de prestaties beperkt. Om deze navigatie-uitdagingen effectief aan te pakken, stellen we Mobile-Agent-v2 voor, een multi-agent architectuur voor bedieningsassistentie van mobiele apparaten. De architectuur bestaat uit drie agents: een planningsagent, een beslissingsagent en een reflectieagent. De planningsagent genereert de voortgang van de taak, waardoor de navigatie door eerdere handelingen efficiënter wordt. Om de focusinhoud te behouden, hebben we een geheugeneenheid ontworpen die wordt bijgewerkt met de voortgang van de taak. Daarnaast observeert de reflectieagent de resultaten van elke handeling om foutieve operaties te corrigeren en eventuele fouten dienovereenkomstig af te handelen. Experimentele resultaten geven aan dat Mobile-Agent-v2 een verbetering van meer dan 30% bereikt in taakvoltooiing vergeleken met de single-agent architectuur van Mobile-Agent. De code is open-source beschikbaar op https://github.com/X-PLUG/MobileAgent.
Bestaande methoden voor het creëren van 3D-modellen vanuit één afbeelding omvatten doorgaans een tweestaps proces: eerst worden multi-view afbeeldingen gegenereerd, waarna deze afbeeldingen worden gebruikt voor 3D-reconstructie. Het apart trainen van deze twee fasen leidt echter tot aanzienlijke databias in de inferentiefase, wat de kwaliteit van de gereconstrueerde resultaten beïnvloedt. Wij introduceren een geïntegreerd 3D-generatieframework, genaamd Ouroboros3D, dat diffusiegebaseerde multi-view afbeeldingsgeneratie en 3D-reconstructie combineert in een recursief diffusieproces. In ons framework worden deze twee modules gezamenlijk getraind via een zelfconditioneringsmechanisme, waardoor ze zich kunnen aanpassen aan elkaars kenmerken voor robuuste inferentie. Tijdens het multi-view denoisingproces gebruikt het multi-view diffusiemodel de 3D-aware kaarten die door de reconstructiemodule in de vorige tijdstap zijn gerenderd als aanvullende voorwaarden. Het recursieve diffusieframework met 3D-aware feedback verenigt het gehele proces en verbetert de geometrische consistentie. Experimenten tonen aan dat ons framework superieur presteert ten opzichte van het gescheiden trainen van deze twee fasen en bestaande methoden die ze combineren in de inferentiefase. Projectpagina: https://costwen.github.io/Ouroboros3D/
Transformers zijn snel de voorkeurskeuze geworden voor audioclassificatie, waarbij ze methoden gebaseerd op CNN's overtreffen. Audio Spectrogram Transformers (AST's) vertonen echter een kwadratische schaling door self-attention. Het verwijderen van deze kwadratische self-attention-kosten vormt een aantrekkelijke richting. Recentelijk hebben state space models (SSM's), zoals Mamba, potentieel getoond voor taal- en visietaken in dit opzicht. In deze studie onderzoeken we of afhankelijkheid van self-attention noodzakelijk is voor audioclassificatietaken. Door Audio Mamba (AuM) te introduceren, het eerste self-attention-vrije, puur op SSM gebaseerde model voor audioclassificatie, willen we deze vraag beantwoorden. We evalueren AuM op diverse audio-datasets - bestaande uit zes verschillende benchmarks - waar het vergelijkbare of betere prestaties behaalt in vergelijking met een gevestigd AST-model.
Lay-outgeneratie is de hoeksteen bij het bereiken van geautomatiseerd grafisch ontwerp, waarbij het positioneren en bepalen van de grootte van verschillende multimodale ontwerpelementen op een visueel aantrekkelijke en beperkingen-volgende manier vereist is. Eerdere benaderingen zijn ofwel inefficiënt voor grootschalige toepassingen of missen flexibiliteit voor uiteenlopende ontwerpeisen. Ons onderzoek introduceert een uniform raamwerk voor geautomatiseerde lay-outgeneratie voor grafisch ontwerp, waarbij gebruik wordt gemaakt van het multimodale grote taalmodel (MLLM) om diverse ontwerptaken te accommoderen. In tegenstelling hiermee maakt onze data-gedreven methode gebruik van gestructureerde tekst (JSON-formaat) en visuele instructieafstemming om lay-outs te genereren onder specifieke visuele en tekstuele beperkingen, waaronder door de gebruiker gedefinieerde specificaties in natuurlijke taal. We hebben uitgebreide experimenten uitgevoerd en state-of-the-art (SOTA) prestaties behaald op openbare multimodale lay-outgeneratiebenchmarks, wat de effectiviteit van onze methode aantoont. Bovendien, erkennend dat bestaande datasets beperkingen hebben in het vastleggen van de complexiteit van real-world grafische ontwerpen, stellen we twee nieuwe datasets voor voor veel uitdagendere taken (gebruikersbeperkte generatie en complexe posters), wat het nut van ons model in real-life situaties verder valideert. Gekenmerkt door zijn superieure toegankelijkheid en aanpasbaarheid, automatiseert deze aanpak grootschalige grafische ontwerptaken verder. De code en datasets zullen openbaar beschikbaar zijn op https://github.com/posterllava/PosterLLaVA.
Eerdere werken hebben zero-shot tekst-naar-spraak aangetoond door een generatief taalmodel te gebruiken op audiokens die zijn verkregen via een neuraal audiocodec. Het blijft echter uitdagend om deze aan te passen aan scenario's met lage latentie. In dit artikel presenteren we LiveSpeech - een volledig autoregressieve aanpak op basis van een taalmodel voor zero-shot tekst-naar-spraak, waardoor streaming van de uitvoeraudio met lage latentie mogelijk wordt. Om meerdere tokenvoorspellingen binnen een enkele decoderingsstap mogelijk te maken, stellen we (1) het gebruik van adaptieve codebookverliesgewichten voor die rekening houden met de bijdrage van het codebook in elk frame en zich richten op moeilijke gevallen, en (2) het groeperen van codebooks en het parallel verwerken van groepen. Experimenten tonen aan dat onze voorgestelde modellen competitieve resultaten behalen ten opzichte van state-of-the-art baselines wat betreft nauwkeurigheid van de inhoud, sprekerovereenkomst, audiokwaliteit en inferentiesnelheid, terwijl ze geschikt zijn voor streamingtoepassingen met lage latentie.
Aanzienlijke vooruitgang in videodiffusiemodellen heeft grote vorderingen gebracht op het gebied van tekst-naar-video (T2V) synthese. Bestaande T2V-synthesemodellen hebben echter moeite om complexe bewegingsdynamiek nauwkeurig te genereren, wat leidt tot een vermindering van de realistische weergave van video's. Een mogelijke oplossing is het verzamelen van enorme hoeveelheden data en het trainen van het model hierop, maar dit zou extreem kostbaar zijn. Om dit probleem te verlichten, herformuleren we in dit artikel het typische T2V-generatieproces als een op zoektocht gebaseerd generatiepijplijn. In plaats van het opschalen van de modeltraining, gebruiken we bestaande video's als de bewegingsprior-database. Specifiek verdelen we het T2V-generatieproces in twee stappen: (i) Voor een gegeven promptinput doorzoeken we bestaande tekst-video-datasets om video's te vinden met tekstlabels die nauw aansluiten bij de promptbewegingen. We stellen een op maat gemaakt zoekalgoritme voor dat de nadruk legt op objectbewegingskenmerken. (ii) Opgehaalde video's worden verwerkt en gedistilleerd tot bewegingspriors om een vooraf getraind basis-T2V-model te finetunen, waarna de gewenste video's worden gegenereerd met behulp van de inputprompt. Door gebruik te maken van de priors die zijn verkregen uit de gezochte video's, verbeteren we de realistische weergave van de gegenereerde video's. Alle bewerkingen kunnen worden uitgevoerd op een enkele NVIDIA RTX 4090 GPU. We valideren onze methode tegen state-of-the-art T2V-modellen met diverse promptinputs. De code zal openbaar worden gemaakt.
Reinforcement Learning from Human Feedback (RLHF) is cruciaal geweest voor het recente succes van Large Language Models (LLM's), maar het is vaak een complex en kwetsbaar proces. In het klassieke RLHF-raamwerk wordt eerst een beloningsmodel getraind om menselijke voorkeuren te representeren, dat vervolgens wordt gebruikt door een online reinforcement learning (RL)-algoritme om het LLM te optimaliseren. Een prominent probleem bij dergelijke methoden is beloningsoveroptimalisatie of beloningshacking, waarbij de prestaties zoals gemeten door het geleerde proxy-beloningsmodel toenemen, maar de werkelijke kwaliteit stagneert of zelfs verslechtert. Direct Alignment Algorithms (DAA's) zoals Direct Preference Optimization zijn ontstaan als alternatieven voor de klassieke RLHF-pipeline door de beloningsmodelleringsfase te omzeilen. Hoewel DAA's geen apart proxy-beloningsmodel gebruiken, verslechteren ze echter nog steeds door overoptimalisatie. Hoewel het zogenaamde beloningshacking-fenomeen niet goed gedefinieerd is voor DAA's, ontdekken we toch vergelijkbare trends: bij hogere KL-budgets vertonen DAA-algoritmen vergelijkbare degradatiepatronen als hun klassieke RLHF-tegenhangers. In het bijzonder vinden we dat DAA-methoden niet alleen verslechteren over een breed scala aan KL-budgets, maar ook vaak al voordat zelfs maar één epoch van de dataset is voltooid. Door uitgebreid empirisch onderzoek formuleert en formaliseert dit werk het probleem van beloningsoveroptimalisatie of hacking voor DAA's en onderzoekt het de gevolgen ervan over verschillende doelstellingen, trainingsregimes en modelschalen.
Grote-taalmodellen (LLMs) zijn buitengewoon succesvol gebleken bij taken zoals complexe dialoogbegrip, redeneren en coderen vanwege hun emergente vaardigheden. Deze emergente vaardigheden zijn uitgebreid met multimodaliteit om beeld-, audio- en videomogelijkheden te omvatten. Aanbevelingssystemen zijn daarentegen van cruciaal belang geweest voor informatiezoekbehoeften en het ontdekken van items. Recentelijk zijn er pogingen gedaan om LLMs toe te passen voor aanbevelingen. Een moeilijkheid bij de huidige pogingen is dat het onderliggende LLM meestal niet is getraind op de gegevens van het aanbevelingssysteem, die grotendeels gebruikersinteractiesignalen bevatten en vaak niet publiekelijk beschikbaar zijn. Een andere moeilijkheid is dat gebruikersinteractiesignalen vaak een ander patroon hebben dan natuurlijke taaltekst, en het is momenteel onduidelijk of de LLM-trainingsopstelling meer niet-triviale kennis kan leren uit interactiesignalen in vergelijking met traditionele aanbevelingssysteemmethoden. Ten slotte is het moeilijk om meerdere LLMs te trainen voor verschillende use-cases, en om de oorspronkelijke taal- en redeneervaardigheden te behouden bij het leren van aanbevelingssysteemgegevens. Om deze drie beperkingen aan te pakken, stellen we een Item-Taalmodel (ILM) voor, dat bestaat uit een item-encoder om tekst-uitgelijnde itemrepresentaties te produceren die gebruikersinteractiesignalen coderen, en een bevroren LLM die deze itemrepresentaties kan begrijpen met behoud van vooraf getrainde kennis. We voeren uitgebreide experimenten uit die zowel het belang van de taal-uitlijning als van gebruikersinteractiekennis in de item-encoder aantonen.
We introduceren Xmodel-LM, een compact en efficiënt taalmodel van 1,1 miljard parameters, voorgetraind op meer dan 2 biljoen tokens. Het model is getraind op onze zelfgebouwde dataset (Xdata), die een balans vindt tussen Chinese en Engelse corpora op basis van optimalisatie voor downstream taken. Ondanks zijn kleinere omvang toont Xmodel-LM opmerkelijke prestaties en overtreft het bestaande open-source taalmodellen van vergelijkbare schaal. Onze modelcheckpoints en code zijn openbaar toegankelijk op GitHub via https://github.com/XiaoduoAILab/XmodelLM.
Grote Taalmodellen (LLMs) hebben indrukwekkende capaciteiten getoond in verschillende taken, maar hun enorme parameteraantallen beperken hun toepasbaarheid in omgevingen met beperkte middelen. Kennisdistillatie (KD) biedt een haalbare oplossing door expertise over te dragen van grote leraarmodellen naar compacte studentmodellen. Traditionele KD-technieken staan echter voor specifieke uitdagingen wanneer ze worden toegepast op LLMs, waaronder beperkte toegang tot LLM-uitvoer, aanzienlijke capaciteitsverschillen tussen leraar en student, en het inherente miskalibratieprobleem. In dit werk presenteren we PLaD, een nieuw voorkeursgebaseerd LLM-distillatieraamwerk. PLaD benut het capaciteitsverschil tussen leraar en student om pseudo-voorkeursparen te genereren waarbij leraaruitvoer de voorkeur krijgt boven studentuitvoer. Vervolgens maakt PLaD gebruik van een rangschikkingsverlies om de schatting van sequentiewaarschijnlijkheid door de student te herkalibreren, wat de focus van de student richt op het begrijpen van de relatieve kwaliteit van uitvoer in plaats van simpelweg de leraar na te bootsen. PLaD omzeilt de noodzaak van toegang tot de interne toestanden van het leraar-LLM, pakt de expressiviteitsbeperkingen van de student aan en vermindert het miskalibratieprobleem van de student. Door uitgebreide experimenten op twee sequentiegeneratietaken en met verschillende LLMs, demonstreren we de effectiviteit van ons voorgestelde PLaD-raamwerk.