Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De recente opkomst van Multimodale Grote Taalmodellen (MLLMs) heeft het landschap van AI-onderzoek en -industrie fundamenteel hervormd en een veelbelovend pad naar de volgende AI-mijlpaal belicht. Er blijven echter aanzienlijke uitdagingen bestaan die verhinderen dat MLLMs praktisch toepasbaar zijn in de echte wereld. De meest opvallende uitdaging komt voort uit de enorme kosten van het draaien van een MLLM met een massief aantal parameters en uitgebreide berekeningen. Als gevolg hiervan moeten de meeste MLLMs worden geïmplementeerd op hoogpresterende cloudservers, wat hun toepassingsmogelijkheden zoals mobiel, offline, energiegevoelige en privacybeschermende scenario's sterk beperkt. In dit werk presenteren we MiniCPM-V, een reeks efficiënte MLLMs die op eindapparaten kunnen worden geïmplementeerd. Door de nieuwste MLLM-technieken in architectuur, voorafgaande training en afstemming te integreren, heeft de nieuwste MiniCPM-Llama3-V 2.5 verschillende opmerkelijke kenmerken: (1) Sterke prestaties, die GPT-4V-1106, Gemini Pro en Claude 3 overtreffen op OpenCompass, een uitgebreide evaluatie over 11 populaire benchmarks, (2) sterke OCR-capaciteit en 1,8M pixel hoge-resolutie beeldperceptie bij elke beeldverhouding, (3) betrouwbaar gedrag met lage hallucinatiepercentages, (4) meertalige ondersteuning voor 30+ talen, en (5) efficiënte implementatie op mobiele telefoons. Belangrijker nog, MiniCPM-V kan worden gezien als een representatief voorbeeld van een veelbelovende trend: De modelgroottes die nodig zijn om bruikbaar (bijv. GPT-4V) niveau prestaties te bereiken, nemen snel af, samen met de snelle groei van de rekenkracht aan de eindkant. Dit toont gezamenlijk aan dat GPT-4V niveau MLLMs die op eindapparaten worden geïmplementeerd steeds meer mogelijk worden, wat in de nabije toekomst een breder spectrum van real-world AI-toepassingen ontsluit.
Dialoog vormt de meest natuurlijke manier van mens-computerinteractie (HCI). Recente vooruitgang in spraaktaalmodellen (SLM) heeft spraakgebaseerde conversatie-AI aanzienlijk verbeterd. Deze modellen zijn echter beperkt tot beurtgebaseerde gesprekken en missen het vermogen om in realtime gesproken scenario's met mensen te interacteren, bijvoorbeeld door onderbroken te worden wanneer de gegenereerde inhoud niet bevredigend is. Om deze beperkingen aan te pakken, onderzoeken we full-duplexmodellering (FDM) in interactieve spraaktaalmodellen (iSLM), met de focus op het verbeteren van realtime-interactie en, meer expliciet, het verkennen van het essentiële vermogen tot onderbreking. We introduceren een nieuw modelontwerp, namelijk het luisteren-tijdens-spreken taalmodel (LSLM), een end-to-end systeem uitgerust met zowel luister- als spreekkanalen. Ons LSLM maakt gebruik van een token-gebaseerde decoder-only TTS voor spraakgeneratie en een streaming self-supervised learning (SSL) encoder voor realtime audio-input. LSLM integreert beide kanalen voor autoregressieve generatie en detecteert beurtwisseling in realtime. Drie fusiestrategieën -- vroege fusie, middelste fusie en late fusie -- worden onderzocht, waarbij middelste fusie een optimale balans bereikt tussen spraakgeneratie en realtime-interactie. Twee experimentele opzetten, commandogebaseerde FDM en stemgebaseerde FDM, demonstreren de robuustheid van LSLM tegen ruis en de gevoeligheid voor diverse instructies. Onze resultaten benadrukken het vermogen van LSLM om duplexcommunicatie te bereiken met minimale impact op bestaande systemen. Deze studie beoogt de ontwikkeling van interactieve spraakdialoogsystemen te bevorderen, waardoor hun toepasbaarheid in real-world contexten wordt verbeterd.
Het implementeren van Retrieval-Augmented Generation (RAG)-systemen is van nature complex en vereist een diepgaand begrip van data, use cases en ingewikkelde ontwerpbeslissingen. Daarnaast brengt het evalueren van deze systemen aanzienlijke uitdagingen met zich mee, waarbij zowel de nauwkeurigheid van het ophalen als de kwaliteit van de generatie beoordeeld moeten worden via een veelzijdige aanpak. Wij introduceren RAG Foundry, een open-source framework voor het versterken van grote taalmodellen voor RAG-use cases. RAG Foundry integreert data-creatie, training, inferentie en evaluatie in een enkele workflow, wat het creëren van data-augmented datasets voor het trainen en evalueren van grote taalmodellen in RAG-omgevingen vergemakkelijkt. Deze integratie maakt snelle prototyping en experimentatie met diverse RAG-technieken mogelijk, waardoor gebruikers eenvoudig datasets kunnen genereren en RAG-modellen kunnen trainen met behulp van interne of gespecialiseerde kennisbronnen. We demonstreren de effectiviteit van het framework door Llama-3- en Phi-3-modellen te versterken en af te stemmen met diverse RAG-configuraties, waarbij consistente verbeteringen worden getoond over drie kennisintensieve datasets. De code is vrijgegeven als open-source op https://github.com/IntelLabs/RAGFoundry.
We presenteren Lumina-mGPT, een familie van multimodale autoregressieve modellen die in staat zijn tot diverse visuele en taaltaken, met name uitblinkend in het genereren van flexibele, fotorealistische afbeeldingen vanuit tekstbeschrijvingen. In tegenstelling tot bestaande autoregressieve benaderingen voor beeldgeneratie, maakt Lumina-mGPT gebruik van een vooraf getrainde decoder-only transformer als een uniform raamwerk voor het modelleren van multimodale tokenreeksen. Onze belangrijkste inzicht is dat een eenvoudige decoder-only transformer met multimodale Generative PreTraining (mGPT), die gebruikmaakt van het next-token prediction-doel op massieve interleaved tekst-beeldreeksen, brede en algemene multimodale capaciteiten kan leren, waardoor fotorealistische tekst-naar-beeldgeneratie wordt verlicht. Op basis van deze vooraf getrainde modellen stellen we Flexible Progressive Supervised Finetuning (FP-SFT) voor op hoogwaardige beeld-tekstparen om hun potentieel volledig te ontsluiten voor hoog-esthetische beeldgeneratie op elke resolutie, terwijl hun algemene multimodale capaciteiten behouden blijven. Bovendien introduceren we Ominiponent Supervised Finetuning (Omni-SFT), dat Lumina-mGPT transformeert in een foundation-model dat naadloos omnipotente taakunificatie bereikt. Het resulterende model toont veelzijdige multimodale capaciteiten, waaronder visuele generatietaken zoals flexibele tekst-naar-beeldgeneratie en controleerbare generatie, visuele herkenningstaken zoals segmentatie en diepteschatting, en visie-taaltaken zoals multiturn visuele vraagbeantwoording. Daarnaast analyseren we de verschillen en overeenkomsten tussen diffusiegebaseerde en autoregressieve methoden in een directe vergelijking.
We introduceren MeshAnything V2, een autoregressieve transformer die Artist-Created Meshes (AM) genereert die zijn uitgelijnd met gegeven vormen. Het kan worden geïntegreerd met diverse 3D-assetproductiepijplijnen om hoogwaardige, zeer controleerbare AM-generatie te bereiken. MeshAnything V2 overtreft eerdere methoden zowel in efficiëntie als prestaties bij gebruik van modellen van dezelfde grootte. Deze verbeteringen zijn te danken aan onze nieuw voorgestelde mesh-tokenisatiemethode: Adjacent Mesh Tokenization (AMT). In tegenstelling tot eerdere methoden die elk vlak met drie hoekpunten representeren, gebruikt AMT waar mogelijk een enkel hoekpunt. Vergeleken met eerdere methoden vereist AMT gemiddeld ongeveer de helft van de tokensequentielengte om hetzelfde mesh te representeren. Bovendien zijn de tokensequenties van AMT compacter en beter gestructureerd, wat fundamenteel ten goede komt aan AM-generatie. Onze uitgebreide experimenten tonen aan dat AMT de efficiëntie en prestaties van AM-generatie aanzienlijk verbetert. Projectpagina: https://buaacyw.github.io/meshanything-v2/
Modelgebaseerde evaluatie staat centraal in succesvolle modelontwikkeling – zowel als beloningsmodel voor training, als vervanging van menselijke evaluatie. Om dergelijke evaluatoren te trainen, is de standaardaanpak het verzamelen van een grote hoeveelheid menselijke voorkeursbeoordelingen over modelreacties, wat kostbaar is en de data veroudert naarmate modellen verbeteren. In dit werk presenteren we een aanpak die beoogt evaluatoren te verbeteren zonder menselijke annotaties, waarbij alleen synthetische trainingsdata wordt gebruikt. Uitgaande van ongelabelde instructies, genereert ons iteratieve zelfverbeteringsschema contrasterende modeluitvoer en traint een LLM-as-a-Judge om redeneersporen en uiteindelijke beoordelingen te produceren, waarbij deze training bij elke nieuwe iteratie wordt herhaald met de verbeterde voorspellingen. Zonder gelabelde voorkeursdata kan onze Self-Taught Evaluator een sterk LLM (Llama3-70B-Instruct) verbeteren van 75.4 naar 88.3 (88.7 met meerderheidsstemming) op RewardBench. Dit overtreft veelgebruikte LLM-beoordelaars zoals GPT-4 en evenaart de prestaties van de best presterende beloningsmodellen die zijn getraind met gelabelde voorbeelden.
Instructie-afstemming speelt een cruciale rol bij het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Ondanks de enorme hoeveelheid open instructiedatasets, is het naïef trainen van een LLM op alle bestaande instructies niet optimaal en praktisch. Om de meest waardevolle datapunten te identificeren, zijn er methoden voor data-evaluatie en -selectie voorgesteld in de velden van natuurlijke taalverwerking (NLP) en deep learning. Echter, in de context van instructie-afstemming bestaat er nog steeds een kennislacune over welke soorten data-evaluatiemetrics kunnen worden gebruikt en hoe deze kunnen worden geïntegreerd in het selectiemechanisme. Om deze kloof te overbruggen, presenteren we een uitgebreid overzicht van bestaande literatuur over data-evaluatie en -selectie, specifiek voor instructie-afstemming van LLM's. We categoriseren systematisch alle toepasbare methoden in kwaliteitsgebaseerde, diversiteitsgebaseerde en belangrijkheidsgebaseerde methoden, waarbij een uniforme, fijnmazige taxonomie wordt gestructureerd. Voor elke categorie worden representatieve methoden uitgelegd om het landschap van relevant onderzoek te beschrijven. Daarnaast wordt een vergelijking gemaakt tussen de nieuwste methoden op basis van hun officieel gerapporteerde resultaten om diepgaande discussies te bieden over hun beperkingen. Tot slot vatten we de open uitdagingen samen en stellen we veelbelovende richtingen voor toekomstige studies voor. Alle gerelateerde inhoud is beschikbaar op https://github.com/yuleiqin/fantastic-data-engineering.
De kwaliteit van video-tekstparen bepaalt in essentie de bovengrens van tekst-naar-video-modellen. Momenteel kampen de datasets die voor het trainen van deze modellen worden gebruikt met aanzienlijke tekortkomingen, waaronder lage temporele consistentie, ondermaatse bijschriften, inferieure videokwaliteit en een onevenwichtige dataverdeling. Het gangbare videocuratieproces, dat afhankelijk is van beeldmodellen voor tagging en handmatige, op regels gebaseerde curatie, resulteert in een hoge computationele belasting en laat onzuivere data achter. Hierdoor ontbreekt het aan geschikte trainingsdatasets voor tekst-naar-video-modellen. Om dit probleem aan te pakken, presenteren we VidGen-1M, een superieure trainingsdataset voor tekst-naar-video-modellen. Deze dataset, geproduceerd via een grof-naar-fijn-curatiestrategie, garandeert hoogwaardige video's en gedetailleerde bijschriften met uitstekende temporele consistentie. Wanneer deze dataset wordt gebruikt om het videogeneratiemodel te trainen, leidt dit tot experimentele resultaten die die van andere modellen overtreffen.
In dit artikel stellen we ProCreate voor, een eenvoudige en gemakkelijk te implementeren methode om de steekproefdiversiteit en creativiteit van diffusiegebaseerde beeldgeneratieve modellen te verbeteren en de reproductie van trainingsdata te voorkomen. ProCreate werkt op een set referentiebeelden en stuwt de gegenereerde beeldembedding actief weg van de referentie-embeddingen tijdens het generatieproces. We introduceren FSCG-8 (Few-Shot Creative Generation 8), een few-shot creatieve generatiedataset met acht verschillende categorieën – die verschillende concepten, stijlen en settings omvatten – waarin ProCreate de hoogste steekproefdiversiteit en -getrouwheid bereikt. Bovendien tonen we aan dat ProCreate effectief is in het voorkomen van het repliceren van trainingsdata in een grootschalige evaluatie met behulp van trainings tekstprompts. De code en FSCG-8 zijn beschikbaar op https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. De projectpagina is beschikbaar op https://procreate-diffusion.github.io.
De vooruitgang van natuurlijke taalverwerking (NLP) in de biologie hangt af van het vermogen van modellen om complexe biomedische literatuur te interpreteren. Traditionele modellen hebben vaak moeite met de complexe en domeinspecifieke taal in dit vakgebied. In dit artikel presenteren we BioMamba, een vooraf getraind model dat specifiek is ontworpen voor biomedische tekstanalyse. BioMamba bouwt voort op de Mamba-architectuur en is vooraf getraind op een uitgebreid corpus van biomedische literatuur. Onze empirische studies tonen aan dat BioMamba aanzienlijk beter presteert dan modellen zoals BioBERT en algemene Mamba-modellen bij diverse biomedische taken. Zo behaalt BioMamba bijvoorbeeld een 100-voudige reductie in perplexiteit en een 4-voudige reductie in kruis-entropieverlies op de BioASQ-testset. We geven een overzicht van de modelarchitectuur, het vooraf trainen en de fine-tuningtechnieken. Daarnaast stellen we de code en het getrainde model beschikbaar om verder onderzoek te vergemakkelijken.
Multi-agent leer-algoritmen zijn succesvol geweest in het genereren van supermenselijke planning in een breed scala aan spellen, maar hebben weinig impact gehad op het ontwerp van geïmplementeerde multi-agent planners. Een belangrijk knelpunt bij het toepassen van deze technieken op multi-agent planning is dat ze miljarden stappen ervaring vereisen. Om de studie van multi-agent planning op deze schaal mogelijk te maken, presenteren we GPUDrive, een GPU-versnelde, multi-agent simulator gebouwd bovenop de Madrona Game Engine die meer dan een miljoen stappen ervaring per seconde kan genereren. Observatie-, belonings- en dynamiekfuncties worden rechtstreeks in C++ geschreven, waardoor gebruikers complexe, heterogene agentgedragingen kunnen definiëren die worden omgezet naar hoogwaardige CUDA. We laten zien dat we met GPUDrive effectief reinforcement learning-agenten kunnen trainen over vele scenario's in de Waymo Motion-dataset, wat resulteert in zeer effectieve doelbereikende agenten in minuten voor individuele scenario's en algemeen capabele agenten in een paar uur. We leveren deze getrainde agenten mee als onderdeel van de codebase op https://github.com/Emerge-Lab/gpudrive.
Compositionele visuele redeneermethoden, die een complexe vraag vertalen naar een gestructureerde samenstelling van uitvoerbare visuele taken, hebben een sterk potentieel getoond in ingewikkelde multimodale taken. Dankzij recente vooruitgang in grote taalmodellen (LLM's) is deze multimodale uitdaging naar een nieuw niveau gebracht door LLM's te behandelen als few-shot/zero-shot planners, oftewel vision-language (VL) programmering. Hoewel dergelijke methoden talrijke voordelen bieden, kampen ze met uitdagingen door fouten in de planning van LLM's of onnauwkeurigheid van visuele uitvoeringsmodules, waardoor ze achterblijven bij niet-compositionele modellen. In dit werk ontwikkelen we een "plug-and-play"-methode, ExoViP, om fouten in zowel de plannings- als uitvoeringsfasen te corrigeren via introspectieve verificatie. We gebruiken verificatiemodules als "exoskeletten" om bestaande VL-programmeringsschema's te versterken. Specifiek maakt onze voorgestelde verificatiemodule gebruik van een mix van drie sub-verifiers om voorspellingen na elke redeneerstap te valideren, waarna de voorspellingen van de visuele module worden gekalibreerd en de door LLM's geplande redeneerspoor wordt verfijnd. Experimentele resultaten op twee representatieve VL-programmeringsmethoden laten consistente verbeteringen zien op vijf compositionele redeneertaken op standaard benchmarks. Gezien dit geloven we dat ExoViP betere prestaties en generalisatie kan bevorderen op open-domein multimodale uitdagingen.
De recente opkomst van open-source grote taalmodellen (LLMs) stelt ontwikkelaars in staat om AI-gebaseerde oplossingen te creëren terwijl ze controle behouden over aspecten zoals privacy en naleving, waardoor ze governance en eigendom over het implementatieproces van het model kunnen uitoefenen. Om deze LLMs te gebruiken, zijn inferentie-engines nodig. Deze engines laden de gewichten van het model op beschikbare resources, zoals GPU's, en verwerken queries om antwoorden te genereren. De snelheid van inferentie, of prestaties, van het LLM is cruciaal voor real-time toepassingen, aangezien het miljoenen of miljarden floating point operaties per inferentie berekent. Recentelijk zijn geavanceerde inferentie-engines zoals vLLM ontstaan, die nieuwe mechanismen zoals efficiënt geheugenbeheer incorporeren om state-of-the-art prestaties te bereiken. In dit artikel analyseren we de prestaties, met name de doorvoer (tokens gegenereerd per tijdseenheid), van 20 LLMs met behulp van twee inferentiebibliotheken: vLLM en HuggingFace's pipelines. We onderzoeken hoe verschillende hyperparameters, die ontwikkelaars moeten configureren, de inferentieprestaties beïnvloeden. Onze resultaten laten zien dat doorvoerlandschappen onregelmatig zijn, met duidelijke pieken, wat het belang van hyperparameteroptimalisatie benadrukt om maximale prestaties te bereiken. We tonen ook aan dat het toepassen van hyperparameteroptimalisatie bij het upgraden of downgraden van het GPU-model dat wordt gebruikt voor inferentie de doorvoer van HuggingFace pipelines gemiddeld met respectievelijk 9,16% en 13,7% kan verbeteren.
Geavanceerde AI-assistenten combineren state-of-the-art grote taalmodellen (LLMs) en toegang tot tools om autonoom complexe taken uit te voeren namens gebruikers. Hoewel de nuttigheid van dergelijke assistenten aanzienlijk kan toenemen met toegang tot gebruikersinformatie, zoals e-mails en documenten, roept dit privacyzorgen op over het delen van ongepaste informatie met derden zonder toezicht van de gebruiker. Om informatie-delende assistenten te sturen om zich te gedragen in overeenstemming met privacyverwachtingen, stellen we voor om contextuele integriteit (CI) te operationaliseren, een raamwerk dat privacy gelijkstelt aan de juiste doorstroming van informatie in een bepaalde context. In het bijzonder ontwerpen en evalueren we een aantal strategieën om de informatie-delende acties van assistenten CI-conform te maken. Onze evaluatie is gebaseerd op een nieuwe benchmark voor het invullen van formulieren, samengesteld uit synthetische data en menselijke annotaties, en toont aan dat het aanzetten van state-of-the-art LLMs tot CI-gebaseerd redeneren sterke resultaten oplevert.