Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel voorspelling van het volgende token wordt beschouwd als een veelbelovende weg naar kunstmatige algemene intelligentie, heeft het moeite gehad om uit te blinken in multimodale taken, die nog steeds gedomineerd worden door diffusiemodellen (bijv. Stabiele Diffusie) en compositionele benaderingen (bijv. CLIP gecombineerd met LLM's). In dit artikel introduceren we Emu3, een nieuwe reeks toonaangevende multimodale modellen die uitsluitend zijn getraind met voorspelling van het volgende token. Door afbeeldingen, tekst en video's te tokenizen in een discrete ruimte, trainen we een enkele transformer vanaf nul op een mix van multimodale sequenties. Emu3 presteert beter dan verschillende gevestigde taakspecifieke modellen in zowel generatie- als perceptietaken, waarbij vlaggenschipmodellen zoals SDXL en LLaVA-1.6 worden overtroffen, terwijl de noodzaak voor diffusie- of compositionele architecturen wordt geëlimineerd. Emu3 is ook in staat om video's van hoge kwaliteit te genereren door het volgende token in een videosequentie te voorspellen. We vereenvoudigen complexe multimodale modelontwerpen door ons te concentreren op een enkelvoudige focus: tokens, waardoor het grote potentieel wordt ontsloten voor schaalvergroting zowel tijdens training als inferentie. Onze resultaten tonen aan dat voorspelling van het volgende token een veelbelovende weg is naar het opbouwen van algemene multimodale intelligentie voorbij taal. We stellen belangrijke technieken en modellen open-source om verder onderzoek in deze richting te ondersteunen.
In dit artikel introduceren we MIO, een nieuw grondleggend model gebouwd op multimodale tokens, in staat om spraak, tekst, afbeeldingen en video's te begrijpen en genereren op een end-to-end, autoregressieve manier. Terwijl de opkomst van grote taalmodellen (LLM's) en multimodale grote taalmodellen (MM-LLM's) vooruitgang in kunstmatige algemene intelligentie stimuleert door hun veelzijdige mogelijkheden, ontbreekt het hen nog steeds aan echte elk-naar-elk begrip en generatie. Onlangs heeft de release van GPT-4o het opmerkelijke potentieel van elk-naar-elk LLM's voor complexe real-world taken laten zien, waardoor omnidirectionele invoer en uitvoer over afbeeldingen, spraak en tekst mogelijk is. Echter, het is gesloten-bron en ondersteunt niet de generatie van multimodale onderling geweven sequenties. Om deze lacune aan te pakken, presenteren we MIO, dat getraind is op een mix van discrete tokens over vier modaliteiten met behulp van causale multimodale modellering. MIO doorloopt een viertraps trainingsproces: (1) uitlijningsvooraftraining, (2) onderlinge vooraftraining, (3) spraak-versterkte vooraftraining, en (4) uitgebreide begeleide fijnafstemming op diverse tekstuele, visuele en spraaktaken. Onze experimentele resultaten geven aan dat MIO competitieve, en in sommige gevallen superieure, prestaties vertoont in vergelijking met eerdere dual-modale baselines, elk-naar-elk model baselines, en zelfs modaliteit-specifieke baselines. Bovendien toont MIO geavanceerde mogelijkheden inherent aan zijn elk-naar-elk functie, zoals onderlinge video-tekst generatie, keten-van-visueel-denken redenering, visuele richtlijn generatie, instructieve beeldbewerking, enzovoort.
Eerlijkheid is een fundamenteel principe voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden, waarbij deze modellen moeten erkennen wat ze wel en niet weten en in staat moeten zijn om hun kennis op een trouwe manier uit te drukken. Ondanks veelbelovende ontwikkelingen vertonen huidige LLM's nog steeds aanzienlijke oneerlijke gedragingen, zoals zelfverzekerd verkeerde antwoorden presenteren of niet in staat zijn om uit te drukken wat ze weten. Bovendien staat onderzoek naar de eerlijkheid van LLM's ook voor uitdagingen, waaronder variërende definities van eerlijkheid, moeilijkheden bij het onderscheiden tussen bekende en onbekende kennis, en een gebrek aan alomvattend begrip van gerelateerd onderzoek. Om deze kwesties aan te pakken, bieden we een overzicht van de eerlijkheid van LLM's, waarbij we de verduidelijking ervan, evaluatiebenaderingen en strategieën voor verbetering behandelen. Bovendien bieden we inzichten voor toekomstig onderzoek, met als doel verdere verkenning op dit belangrijke gebied te inspireren.
Het schalen van de modelgrootte vormt een aanzienlijke uitdaging voor de implementatie en inferentie van Grote Taalmodellen (LLM's). Vanwege de redundantie in LLM-gewichten heeft recent onderzoek zich gericht op het verder verlagen van de gewichtskwantisering naar extreem lage bits (zelfs tot 2 bits). Dit vermindert geheugenvereisten, optimaliseert opslagkosten en verlaagt de geheugenbandbreedte tijdens inferentie. Echter, vanwege numerieke representatielimieten heeft traditionele schaalgebaseerde gewichtskwantisering moeite om dergelijke extreem lage bits te bereiken. Recente onderzoeken naar Vector Quantization (VQ) voor LLM's hebben het potentieel aangetoond voor extreem lage-bits modelkwantisering door vectoren te comprimeren tot indices met behulp van zoektabellen. In dit artikel introduceren we Vector Post-Training Quantization (VPTQ) voor extreem lage-bits kwantisering van LLM's. We gebruiken Tweede-Orde Optimalisatie om het LLM VQ-probleem te formuleren en onze kwantisatiealgoritme-ontwerp te begeleiden door de optimalisatie op te lossen. We verfijnen de gewichten verder met Kanaalonafhankelijke Tweede-Orde Optimalisatie voor een gedetailleerde VQ. Bovendien stellen we, door het ontleden van het optimalisatieprobleem, een beknopt en effectief codeboek-initialisatiealgoritme voor. We breiden VPTQ ook uit om residuale en uitschieterkwantisering te ondersteunen, wat de modelnauwkeurigheid verbetert en het model verder comprimeert. Onze experimentele resultaten tonen aan dat VPTQ de modelkwantisatie-perplexiteit verlaagt met 0.01-0.34 op LLaMA-2, 0.38-0.68 op Mistral-7B, 4.41-7.34 op LLaMA-3 ten opzichte van SOTA op 2-bit, met een gemiddelde nauwkeurigheidsverbetering van 0.79-1.5% op LLaMA-2, 1% op Mistral-7B, 11-22% op LLaMA-3 voor QA-taken gemiddeld. We gebruiken slechts 10.4-18.6% van de uitvoeringstijd van het kwantisatiealgoritme, wat resulteert in een 1.6-1.8 keer hogere inferentiedoorvoer in vergelijking met SOTA.
Documentinhoudsanalyse is een cruciaal onderzoeksgebied in de computervisie. Ondanks significante vooruitgang in methoden zoals OCR, lay-outdetectie en formuleherkenning, hebben bestaande open-source oplossingen moeite om consequent hoogwaardige inhoudsextractie te leveren vanwege de diversiteit in documenttypen en -inhoud. Om deze uitdagingen aan te pakken, presenteren we MinerU, een open-source oplossing voor hoogwaardige documentinhoudsextractie. MinerU maakt gebruik van geavanceerde PDF-Extract-Kit modellen om effectief inhoud uit diverse documenten te extraheren en past nauwkeurig afgestemde voorverwerkings- en nabewerkingsregels toe om de nauwkeurigheid van de uiteindelijke resultaten te waarborgen. Experimentele resultaten tonen aan dat MinerU consequent hoge prestaties behaalt over verschillende soorten documenten, waardoor de kwaliteit en consistentie van de inhoudsextractie aanzienlijk worden verbeterd. Het open-source project MinerU is beschikbaar op https://github.com/opendatalab/MinerU.
We presenteren PhysGen, een nieuw methode voor het genereren van beeld-naar-video die een enkele afbeelding en een invoerconditie (bijv. kracht en koppel toegepast op een object in de afbeelding) omzet om een realistische, fysiek plausibele en temporeel consistente video te produceren. Ons belangrijk inzicht is om op model gebaseerde fysieke simulatie te integreren met een op data gebaseerd video-generatieproces, waardoor plausibele dynamiek in de beeldruimte mogelijk wordt. In de kern van ons systeem bevinden zich drie kerncomponenten: (i) een beeldbegrijpingsmodule die effectief de geometrie, materialen en fysieke parameters van de afbeelding vastlegt; (ii) een beeldruimte dynamische simulatiemodel dat starre lichaamsfysica en afgeleide parameters gebruikt om realistisch gedrag te simuleren; en (iii) een op beeld gebaseerde renderings- en verfijningsmodule die generatieve videodiffusie benut om realistische videobeelden te produceren met de gesimuleerde beweging. De resulterende video's zijn realistisch zowel qua fysica als uiterlijk en zijn zelfs nauwkeurig controleerbaar, met superieure resultaten ten opzichte van bestaande op data gebaseerde beeld-naar-video generatiewerken via kwantitatieve vergelijking en uitgebreide gebruikersstudie. De resulterende video's van PhysGen kunnen worden gebruikt voor verschillende downstream-toepassingen, zoals het omzetten van een afbeelding in een realistische animatie of het mogelijk maken voor gebruikers om met de afbeelding te interacteren en verschillende dynamieken te creëren. Projectpagina: https://stevenlsw.github.io/physgen/
Voorkeurs optimalisatiemethoden beginnen doorgaans met training met een goed getraind SFT-model als referentiemodel. In RLHF en DPO wordt tijdens het voorkeurs optimalisatieproces een regularisatieterm gebruikt om te voorkomen dat het beleidsmodel te ver afdwaalt van de distributie van het referentiemodel, waardoor het genereren van abnormale reacties wordt vermeden. Wanneer het referentiemodel al goed is uitgelijnd met de gegeven data of slechts kleine aanpassingen vereist, kan deze aanpak een goed uitgelijnd model opleveren. Als het referentiemodel echter niet is uitgelijnd met de gegeven data en aanzienlijke afwijking van zijn huidige staat vereist, kan een regularisatieterm het modeluitlijning daadwerkelijk belemmeren. In dit onderzoek stellen we Modulated Intervention Preference Optimization (MIPO) voor om dit probleem aan te pakken. MIPO moduleert de mate van interventie vanuit het referentiemodel op basis van hoe goed de gegeven data ermee is uitgelijnd. Als de data goed is uitgelijnd, wordt de interventie verhoogd om te voorkomen dat het beleidsmodel aanzienlijk afwijkt van het referentiemodel. Daarentegen wordt de tussenkomst verminderd als de uitlijning slecht is, om uitgebreidere training te vergemakkelijken. We vergelijken de prestaties van MIPO en DPO met behulp van Mistral-7B en Llama3-8B in Alpaca Eval 2.0 en MT-Bench. De experimentele resultaten tonen aan dat MIPO consequent beter presteert dan DPO in verschillende evaluatiescenario's.
Deze paper introduceert een nieuwe benadering voor het gebruik van Grote Taalmodellen (LLM's) voor classificatietaken, die doorgaans worden afgehandeld met behulp van Machine Learning (ML) modellen. In tegenstelling tot ML modellen die sterk afhankelijk zijn van gegevensreiniging en kenmerktechniek, stroomlijnt deze methode het proces met behulp van LLM's. Deze paper stelt een nieuw concept voor genaamd "Taalmodel Leren (LML)" aangedreven door een nieuwe methode genaamd "Data-Augmented Prediction (DAP)". De classificatie wordt uitgevoerd door LLM's met behulp van een methode die lijkt op mensen die handmatig de gegevens verkennen en begrijpen en classificaties beslissen met behulp van gegevens als referentie. Trainingsgegevens worden samengevat en geëvalueerd om de kenmerken te bepalen die leiden tot de classificatie van elk label het meest. In het proces van DAP gebruikt het systeem de samenvatting van de gegevens om automatisch een query te maken, die wordt gebruikt om relevante rijen uit de dataset op te halen. Een classificatie wordt gegenereerd door de LLM met behulp van de samenvatting van de gegevens en relevante rijen, waarbij een bevredigende nauwkeurigheid wordt gegarandeerd, zelfs bij complexe gegevens. Het gebruik van gegevenssamenvatting en vergelijkbare gegevens in DAP zorgt voor contextbewuste besluitvorming. De voorgestelde methode gebruikt de woorden "Optreden als een Verklaarbaar Machine Learning Model" in de prompt om de interpreteerbaarheid van de voorspellingen te verbeteren door gebruikers in staat te stellen de logica achter elke voorspelling te bekijken. In sommige testgevallen behaalde het systeem een nauwkeurigheid van boven de 90%, wat de effectiviteit van het systeem aantoont en het potentieel om conventionele ML modellen te overtreffen in verschillende scenario's. De code is beschikbaar op https://github.com/Pro-GenAI/LML-DAP
Lange-termijngeheugen is significant voor agenten, waar inzichten een cruciale rol spelen. Echter, het opkomen van irrelevante inzichten en het gebrek aan algemene inzichten kunnen de effectiviteit van inzichten aanzienlijk ondermijnen. Om dit probleem op te lossen, introduceren we in dit artikel de Multi-Scale Insight Agent (MSI-Agent), een belichaamde agent ontworpen om de plannings- en besluitvormingsvaardigheden van LLM's te verbeteren door inzichten effectief samen te vatten en te gebruiken over verschillende schalen. MSI bereikt dit door middel van de ervaringsselecteur, inzichtgenerator en inzichtselecteur. Door gebruik te maken van een drievoudige pijplijn kan MSI taakspecifieke en hoog-niveau inzichten genereren, deze opslaan in een database en vervolgens relevante inzichten daaruit gebruiken om te helpen bij besluitvorming. Onze experimenten tonen aan dat MSI beter presteert dan een andere inzichtstrategie bij het plannen met GPT3.5. Bovendien gaan we dieper in op de strategieën voor het selecteren van initiële ervaring en inzicht, met als doel LLM te voorzien van meer nuttige en relevante inzichten voor betere besluitvorming. Onze observaties geven ook aan dat MSI betere robuustheid vertoont bij het omgaan met domeinverschuivende scenario's.
Ondanks recente vooruitgang in grote taalmodellen (LLM's), is hun prestatie op complexe redeneervraagstukken die multi-stap denken en het combineren van verschillende vaardigheden vereisen nog steeds beperkt. Om dit aan te pakken, stellen we een nieuw raamwerk HDFlow voor complex redeneren met LLM's voor dat op een adaptieve manier snelle en langzame denkmodi combineert. Onze aanpak bestaat uit twee belangrijke componenten: 1) een nieuwe benadering voor langzaam, doelbewust redeneren genaamd Dynamische Workflow, die automatisch complexe problemen opdeelt in meer behapbare subtaken en dynamisch een workflow ontwerpt om gespecialiseerde LLM's of symbolisch redenerende tools samen te stellen om subtaken op te lossen; 2) Hybride Denken, een algemeen raamwerk dat op basis van probleemcomplexiteit dynamisch snel en langzaam denken combineert. Tot slot stellen we een eenvoudig op te schalen methode voor om automatisch een grootschalige dataset van 27K uitdagende redeneervraagstukken voor complex redeneren te synthetiseren en een hybride denkafstemmingsmethode die kleinere LLM's traint op deze dataset om de snel/langzaam hybride redeneerstrategieën te internaliseren. Experimenten op vier redeneerbenchmarkdatasets tonen aan dat ons langzame denken met dynamische workflows aanzienlijk beter presteert dan Chain-of-Thought, en hybride denken de hoogste nauwkeurigheid behaalt terwijl het een effectieve balans biedt tussen rekenkundige efficiëntie en prestatie. Het fijnafstemmen met behulp van onze hybride denkaanpak verhoogt ook aanzienlijk de complexe redeneervaardigheden van open-source taalmodellen. De resultaten tonen de belofte van langzaam denken, dynamische workflows en hybride denken in het uitbreiden van de grenzen van complex probleemoplossing met LLM's. Code en data worden vrijgegeven op \url{https://github.com/wenlinyao/HDFlow.}.