Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Visueel wiskundig redeneren, als een fundamentele visuele redeneervaardigheid, heeft brede aandacht gekregen van de Large Multimodal Models (LMMs)-gemeenschap. Bestaande benchmarks, zoals MathVista en MathVerse, richten zich meer op resultaatgerichte prestaties maar verwaarlozen de onderliggende principes in kennisverwerving en generalisatie. Geïnspireerd door menselijk wiskundig redeneren, introduceren we WE-MATH, de eerste benchmark die specifiek is ontworpen om de probleemoplossingsprincipes te verkennen die verder gaan dan end-to-end prestaties. We hebben zorgvuldig 6,5K visuele wiskundige problemen verzameld en gecategoriseerd, die 67 hiërarchische kennisconcepten en vijf lagen van kennisgranulariteit omvatten. We ontleden samengestelde problemen in subproblemen volgens de vereiste kennisconcepten en introduceren een nieuwe vierdimensionale metriek, namelijk Onvoldoende Kennis (IK), Onvoldoende Generalisatie (IG), Volledige Beheersing (CM), en Uit het Hoofd Leren (RM), om inherente problemen in het redeneerproces van LMMs hiërarchisch te beoordelen. Met WE-MATH voeren we een grondige evaluatie uit van bestaande LMMs in visueel wiskundig redeneren en onthullen we een negatieve correlatie tussen oplossingsstappen en probleemspecifieke prestaties. We bevestigen dat het IK-probleem van LMMs effectief kan worden verbeterd via kennisuitbreidingsstrategieën. Opvallender is dat de primaire uitdaging van GPT-4o significant is verschoven van IK naar IG, waardoor het de eerste LMM is die naar het kennisgeneralisatiestadium is gevorderd. In tegenstelling daartoe vertonen andere LMMs een duidelijke neiging tot Uit het Hoofd Leren - ze lossen samengestelde problemen met meerdere kennisconcepten correct op, maar falen bij het beantwoorden van subproblemen. We verwachten dat WE-MATH nieuwe wegen zal openen voor vooruitgang in visueel wiskundig redeneren voor LMMs. De WE-MATH-gegevens en evaluatiecode zijn beschikbaar op https://github.com/We-Math/We-Math.
We presenteren een raamwerk voor intuïtieve robotprogrammering door niet-experts, waarbij gebruik wordt gemaakt van natuurlijke taalprompts en contextuele informatie van het Robot Operating System (ROS). Ons systeem integreert grote taalmodellen (LLMs), waardoor niet-experts taakvereisten aan het systeem kunnen communiceren via een chatinterface. Belangrijke kenmerken van het raamwerk zijn: integratie van ROS met een AI-agent die verbonden is met een breed scala aan open-source en commerciële LLMs, automatische extractie van een gedrag uit de LLM-output en uitvoering van ROS-acties/services, ondersteuning voor drie gedragsmodi (sequentie, gedragsboom, toestandsmachine), imitatieleren voor het toevoegen van nieuwe robotacties aan de bibliotheek van mogelijke acties, en LLM-reflectie via menselijke en omgevingsfeedback. Uitgebreide experimenten valideren het raamwerk, waarbij robuustheid, schaalbaarheid en veelzijdigheid worden aangetoond in diverse scenario's, waaronder langetermijntaken, herschikkingen op tafelbladen en remote supervisory control. Om de adoptie van ons raamwerk te vergemakkelijken en de reproduceerbaarheid van onze resultaten te ondersteunen, hebben we onze code open-source gemaakt. U kunt deze vinden op: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
Documenten zijn visueel rijke structuren die informatie overbrengen via tekst, evenals tabellen, figuren, paginalay-outs of lettertypen. Hoewel moderne document- retrievalsystemen sterke prestaties vertonen bij het matchen van query's met tekst, hebben ze moeite om visuele aanwijzingen efficiënt te benutten, wat hun prestaties beperkt bij praktische documentretrievaltoepassingen zoals Retrieval Augmented Generation. Om huidige systemen te benchmarken op visueel rijke documentretrieval, introduceren we de Visual Document Retrieval Benchmark ViDoRe, die bestaat uit verschillende pagina-niveau retrievalthandelingen die meerdere domeinen, talen en instellingen omvatten. De inherente tekortkomingen van moderne systemen motiveren de introductie van een nieuw retrievalmodelarchitectuur, ColPali, dat gebruikmaakt van de documentbegripcapaciteiten van recente Vision Language Models om hoogwaardige gecontextualiseerde embeddings te produceren uitsluitend vanuit afbeeldingen van documentpagina's. In combinatie met een late interactie-matchingmechanisme presteert ColPali aanzienlijk beter dan moderne documentretrievalpijplijnen, terwijl het aanzienlijk sneller en end-to-end trainbaar is.
De datamix voor het vooraf trainen van grote taalmodellen heeft een aanzienlijke invloed op de prestaties, maar hoe een effectieve mix bepaald kan worden, blijft onduidelijk. Wij stellen RegMix voor om automatisch een hoogpresterende datamix te identificeren door dit te formuleren als een regressietaak. RegMix omvat het trainen van een reeks kleine modellen met diverse datamixen en het aanpassen van een regressiemodel om hun prestaties te voorspellen op basis van hun respectievelijke mixen. Met het aangepaste regressiemodel simuleren we de hoogst gerangschikte mix en gebruiken we deze om een grootschalig model te trainen met een rekenkracht die vele malen groter is. Om RegMix empirisch te valideren, trainen we 512 modellen met 1M parameters voor 1B tokens van verschillende mixen om het regressiemodel aan te passen en de optimale mix te vinden. Met deze mix trainen we een model met 1B parameters voor 25B tokens (d.w.z. 1000x groter en 25x langer), wat volgens ons het beste presteert onder 64 kandidaatmodellen met 1B parameters en andere mixen. Bovendien toont onze methode superieure prestaties in vergelijking met menselijke selectie en behaalt resultaten die overeenkomen met of DoReMi overtreffen, terwijl slechts 10% van het rekenbudget wordt gebruikt. Onze experimenten tonen ook aan dat (1) Datamixen een significante invloed hebben op de prestaties met variaties in enkeltaakprestaties van tot 14,6%; (2) Webcorpora in plaats van data die als hoogwaardig worden beschouwd, zoals Wikipedia, de sterkste positieve correlatie hebben met downstreamprestaties; (3) Domeinen op complexe manieren interageren die vaak tegen het gezond verstand ingaan, waardoor automatische benaderingen zoals RegMix nodig zijn; (4) De effecten van datamixen gaan verder dan schaalwetten, en onze benadering vangt de complexiteit door alle domeinen samen te beschouwen. Onze code is beschikbaar op https://github.com/sail-sg/regmix.
Recent onderzoek suggereert dat boomzoekalgoritmen (bijv. Monte Carlo Tree Search) de prestaties van LLM's aanzienlijk kunnen verbeteren bij complexe wiskundige redeneertaken. Ze vereisen echter vaak meer dan 10 keer de rekenkracht van gretige decodering vanwege inefficiënte zoekstrategieën, wat hun inzet in praktische toepassingen bemoeilijkt. Deze studie introduceert een nieuw geleid boomzoekalgoritme met dynamische knooppuntselectie en berekening van het verkenningsbudget op knooppuntniveau (maximaal aantal kinderen) om dit probleem aan te pakken. Door rekening te houden met de voortgang van de zoektocht naar het uiteindelijke antwoord (geschiedenis) en de begeleiding van een waardenetwerk (toekomst) dat is getraind zonder stapsgewijze annotaties, selecteert ons algoritme iteratief het meest veelbelovende boomknooppunt voordat het wordt uitgebreid binnen de grenzen van het toegewezen rekenbudget. Experimenten uitgevoerd op de GSM8K- en TabMWP-datasets tonen aan dat onze aanpak niet alleen competitieve prestaties biedt, maar ook aanzienlijk lagere rekenkosten heeft in vergelijking met baseline-methoden.
Grote Multimodale Modellen (LMMs) vertonen indrukwekkende cross-modale begrips- en redeneervaardigheden, die vaak worden beoordeeld via meerkeuzevragen (MCQs) die een afbeelding, een vraag en verschillende opties bevatten. Veel benchmarks die voor dergelijke evaluaties worden gebruikt, lijden echter aan systematische vooroordelen. Opmerkelijk is dat Grote Taalmodellen (LLMs) zonder enige visuele waarnemingscapaciteit toch aanzienlijke prestaties behalen, wat de geloofwaardigheid van deze evaluaties ondermijnt. Om dit probleem aan te pakken terwijl de efficiëntie van MCQ-evaluaties behouden blijft, stellen we MMEvalPro voor, een benchmark die Type-I-fouten vermijdt door middel van een trilogie-evaluatiepijplijn en strengere metrieken. Voor elke originele vraag uit bestaande benchmarks verrijken menselijke annotatoren deze door één waarnemingsvraag en één kennisanker-vraag te creëren via een zorgvuldig annotatieproces. MMEvalPro bestaat uit 2.138 vraag-tripletten, wat neerkomt op 6.414 afzonderlijke vragen. Twee derde van deze vragen is handmatig gelabeld door menselijke experts, terwijl de rest afkomstig is uit bestaande benchmarks (MMMU, ScienceQA en MathVista). In vergelijking met de bestaande benchmarks tonen onze experimenten met de nieuwste LLMs en LMMs aan dat MMEvalPro uitdagender is (de beste LMM blijft 31,73% achter op menselijke prestaties, vergeleken met een gemiddeld verschil van 8,03% in eerdere benchmarks) en betrouwbaarder (de beste LLM blijft 23,09% achter op de beste LMM, terwijl het verschil voor eerdere benchmarks slechts 14,64% was). Onze diepgaande analyse verklaart de reden voor het grote prestatieverschil en rechtvaardigt de betrouwbaarheid van de evaluatie, wat het significante potentieel voor het bevorderen van toekomstig onderzoek onderstreept.
In dit artikel nemen we een nieuwe benadering voor autoregressieve beeldgeneratie die gebaseerd is op twee hoofdingrediënten. Het eerste is waveletbeeldcodering, waarmee de visuele details van een beeld kunnen worden getokeniseerd van grove naar fijne details door de informatie te ordenen, beginnend met de meest significante bits van de meest significante waveletcoëfficiënten. Het tweede is een variant van een taalmodeltransformer waarvan de architectuur is herontworpen en geoptimaliseerd voor tokenreeksen in deze 'wavelettaal'. De transformer leert de significante statistische correlaties binnen een tokenreeks, die de manifestaties zijn van bekende correlaties tussen de waveletsubbanden op verschillende resoluties. We presenteren experimentele resultaten met conditionering op het generatieproces.
Dit artikel introduceert een methode voor zero-shot videorestauratie met behulp van vooraf getrainde beeldrestauratie-diffusiemodellen. Traditionele methoden voor videorestauratie vereisen vaak hertraining voor verschillende instellingen en hebben moeite met beperkte generalisatie over verschillende degradatietypen en datasets. Onze aanpak gebruikt een hiërarchische token-samenvoegstrategie voor keyframes en lokale frames, gecombineerd met een hybride correspondentiemechanisme dat optische stroom en feature-based nearest neighbor matching (latente samenvoeging) combineert. We tonen aan dat onze methode niet alleen topprestaties behaalt in zero-shot videorestauratie, maar ook getrainde modellen aanzienlijk overtreft in generalisatie over diverse datasets en extreme degradaties (8x superresolutie en videoruisonderdrukking met hoge standaarddeviatie). We presenteren bewijs via kwantitatieve metingen en visuele vergelijkingen op verschillende uitdagende datasets. Bovendien werkt onze techniek met elk 2D-restauratiediffusiemodel, wat een veelzijdig en krachtig hulpmiddel biedt voor videoverbeteringstaken zonder uitgebreide hertraining. Dit onderzoek leidt tot efficiëntere en breder toepasbare videorestauratietechnologieën, die vooruitgang ondersteunen in vakgebieden die hoogwaardige video-uitvoer vereisen. Bekijk onze projectpagina voor videoresultaten op https://jimmycv07.github.io/DiffIR2VR_web/.
Direct Preference Optimization (DPO) heeft zich bewezen als effectief voor het verbeteren van de prestaties van grote taalmodelen (LLMs) bij downstream taken zoals redeneren en afstemming. In dit werk stellen we Step-Controlled DPO (SCDPO) voor, een methode om automatisch stapsgewijze foutensupervisie te bieden door negatieve voorbeelden te creëren van wiskundige redeneerpatronen die vanaf een specifieke stap fouten beginnen te maken. Door deze voorbeelden toe te passen in DPO-training, kan SCDPO het model beter afstemmen om redeneerfouten te begrijpen en nauwkeurige redeneerstappen te produceren. We passen SCDPO toe op zowel code-geïntegreerde als chain-of-thought oplossingen, en tonen empirisch aan dat het consistent betere prestaties oplevert vergeleken met naïeve DPO op drie verschillende SFT-modellen, waaronder één bestaand SFT-model en twee modellen die we hebben gefinetuned. Kwalitatieve analyse van de krediettoewijzing van SCDPO en DPO toont de effectiviteit van SCDPO aan bij het identificeren van fouten in wiskundige oplossingen. Vervolgens passen we SCDPO toe op een InternLM2-20B model, wat resulteert in een 20B model dat hoge scores behaalt van 88,5% op GSM8K en 58,1% op MATH, en daarmee concurreert met alle andere open-source LLMs, wat het grote potentieel van onze methode aantoont.
Stijloverdracht is een creatief proces dat is ontworpen om een afbeelding te creëren die de essentie van het origineel behoudt, terwijl het de visuele stijl van een andere omarmt. Hoewel diffusiemodellen indrukwekkende generatieve kracht hebben getoond in gepersonaliseerde, onderwerp- of stijlgedreven toepassingen, hebben bestaande state-of-the-art methoden nog steeds moeite om een naadloze balans te bereiken tussen inhoudsbehoud en stijlverbetering. Het versterken van de invloed van de stijl kan bijvoorbeeld vaak de structurele integriteit van de inhoud ondermijnen. Om deze uitdagingen aan te pakken, ontleden we de stijloverdrachttaak in drie kernelementen: 1) Stijl, gericht op de esthetische kenmerken van de afbeelding; 2) Ruimtelijke Structuur, betreffende de geometrische rangschikking en compositie van visuele elementen; en 3) Semantische Inhoud, die het conceptuele betekenis van de afbeelding vastlegt. Geleid door deze principes introduceren we InstantStyle-Plus, een benadering die de integriteit van de originele inhoud prioriteert terwijl de doelstijl naadloos wordt geïntegreerd. Specifiek bereikt onze methode stijlinjectie via een efficiënt, lichtgewicht proces, gebruikmakend van het geavanceerde InstantStyle-framework. Om het inhoudsbehoud te versterken, starten we het proces met een omgekeerde inhoudslatente ruis en een veelzijdige plug-and-play tile ControlNet om de intrinsieke lay-out van de originele afbeelding te behouden. We integreren ook een globale semantische adapter om de trouw van de semantische inhoud te verbeteren. Om te voorkomen dat stijlinformatie wordt verwaterd, wordt een stijlextractor gebruikt als discriminator om aanvullende stijlbegeleiding te bieden. Codes zullen beschikbaar zijn op https://github.com/instantX-research/InstantStyle-Plus.
Verbeteringen in de mogelijkheden van taalmodellen hebben hun toepassingen in de richting van langere contexten geduwd, waardoor evaluatie en ontwikkeling van lange contexten een actief onderzoeksgebied is geworden. Echter, veel uiteenlopende use-cases worden samengebracht onder de parapluterm "lange context", simpelweg gedefinieerd door de totale lengte van de invoer van het model, waaronder bijvoorbeeld Needle-in-a-Haystack-taken, boekensamenvatting en informatieaggregatie. Gezien hun uiteenlopende moeilijkheidsgraad, beargumenteren we in dit position paper dat het samenvoegen van verschillende taken op basis van hun contextlengte onproductief is. Als gemeenschap hebben we een preciezere woordenschat nodig om te begrijpen wat lange-contexttaken vergelijkbaar of verschillend maakt. We stellen voor om de taxonomie van lange context uit te pakken op basis van de eigenschappen die ze moeilijker maken bij langere contexten. We stellen twee orthogonale assen van moeilijkheid voor: (I) Diffusie: Hoe moeilijk is het om de benodigde informatie in de context te vinden? (II) Omvang: Hoeveel benodigde informatie is er te vinden? We onderzoeken de literatuur over lange context, bieden rechtvaardiging voor deze taxonomie als een informatieve beschrijving, en plaatsen de literatuur in relatie daarmee. We concluderen dat de meest moeilijke en interessante situaties, waarvan de benodigde informatie zeer lang en sterk verspreid is binnen de invoer, ernstig onderbelicht zijn. Door een beschrijvende woordenschat te gebruiken en de relevante eigenschappen van moeilijkheid in lange context te bespreken, kunnen we beter geïnformeerd onderzoek in dit gebied uitvoeren. We roepen op tot een zorgvuldige ontwerp van taken en benchmarks met duidelijk lange context, waarbij rekening wordt gehouden met de kenmerken die het kwalitatief anders maken dan kortere context.
Dit artikel introduceert Embarrassingly Easy Text-to-Speech (E2 TTS), een volledig niet-autoregressief zero-shot tekst-naar-spraaksysteem dat menselijke natuurlijkheid biedt en state-of-the-art sprekersgelijkenis en verstaanbaarheid. In het E2 TTS-framework wordt de tekstinvoer omgezet in een tekenreeks met vul-tokens. De op flow-matching gebaseerde mel-spectrogramgenerator wordt vervolgens getraind op basis van de audio-invultaak. In tegenstelling tot veel eerdere werken vereist het geen extra componenten (bijv. duurmodel, grafeem-naar-foneem) of complexe technieken (bijv. monotone uitlijningszoektocht). Ondanks zijn eenvoud bereikt E2 TTS state-of-the-art zero-shot TTS-mogelijkheden die vergelijkbaar zijn met of beter dan eerdere werken, waaronder Voicebox en NaturalSpeech 3. De eenvoud van E2 TTS maakt ook flexibiliteit mogelijk in de invoerrepresentatie. We stellen verschillende varianten van E2 TTS voor om de bruikbaarheid tijdens inferentie te verbeteren. Zie https://aka.ms/e2tts/ voor demosamples.
Persoonsgenerieke audio-gestuurde gezichtsgeneratie is een uitdagende taak in de computer vision. Eerdere methoden hebben opmerkelijke vooruitgang geboekt in audiovisuele synchronisatie, maar er bestaat nog steeds een aanzienlijke kloof tussen de huidige resultaten en praktische toepassingen. De uitdagingen zijn tweeledig: 1) Het behouden van unieke individuele kenmerken voor het bereiken van hoogwaardige lipsynchronisatie. 2) Het genereren van hoogwaardige gezichtsweergaven met real-time prestaties. In dit artikel stellen we een nieuw gegeneraliseerd audio-gestuurd framework voor, genaamd RealTalk, dat bestaat uit een audio-naar-expressie transformer en een hoogwaardige expressie-naar-gezicht renderer. In het eerste component houden we rekening met zowel identiteits- als intrapersoonlijke variatiekenmerken die gerelateerd zijn aan sprekende lipbewegingen. Door cross-modale aandacht te integreren op de verrijkte gezichtspriors, kunnen we lipbewegingen effectief afstemmen op audio, waardoor we een grotere precisie bereiken in expressievoorspelling. In het tweede component ontwerpen we een lichtgewicht facial identity alignment (FIA) module, die een lipvorm-controle structuur en een gezichtstextuur-referentiestructuur omvat. Dit nieuwe ontwerp stelt ons in staat om fijne details in real-time te genereren, zonder afhankelijk te zijn van complexe en inefficiënte feature alignment modules. Onze experimentele resultaten, zowel kwantitatief als kwalitatief, op openbare datasets tonen de duidelijke voordelen van onze methode aan op het gebied van lip-spraak synchronisatie en generatiekwaliteit. Bovendien is onze methode efficiënt en vereist ze minder rekenbronnen, waardoor ze goed geschikt is om te voldoen aan de behoeften van praktische toepassingen.
Recente ontwikkelingen in Large Language Models (LLMs) hebben LLM-agents in staat gesteld om autonoom wereldinformatie te verzamelen en hierover te redeneren om complexe problemen op te lossen. Gezien deze mogelijkheid is er een groeiende interesse ontstaan in het inzetten van LLM-agents voor het voorspellen van internationale gebeurtenissen, wat besluitvorming kan beïnvloeden en beleidsontwikkeling op internationale schaal kan vormgeven. Ondanks deze groeiende interesse ontbreekt het aan een rigoureus benchmark voor de voorspellingscapaciteit en betrouwbaarheid van LLM-agents. Om deze leemte aan te pakken, introduceren we MIRAI, een nieuwe benchmark die is ontworpen om LLM-agents systematisch te evalueren als temporele voorspellers in de context van internationale gebeurtenissen. Onze benchmark beschikt over een agent-omgeving met tools voor toegang tot een uitgebreide database van historische, gestructureerde gebeurtenissen en tekstuele nieuwsartikelen. We verfijnen de GDELT-gebeurtenisdatabase door zorgvuldige opschoning en parsing om een reeks relationele voorspellingstaken met verschillende voorspellingshorizonnen samen te stellen, waarbij de vaardigheden van LLM-agents worden beoordeeld van kortetermijn- tot langetermijnvoorspellingen. We implementeren verder API's om LLM-agents in staat te stellen verschillende tools te gebruiken via een code-gebaseerde interface. Samenvattend evalueert MIRAI de capaciteiten van de agents op drie dimensies: 1) autonoom kritieke informatie verzamelen en integreren uit grote mondiale databases; 2) codes schrijven met domeinspecifieke API's en bibliotheken voor toolgebruik; en 3) gezamenlijk redeneren over historische kennis uit diverse formaten en tijden om toekomstige gebeurtenissen nauwkeurig te voorspellen. Door middel van uitgebreide benchmarking streven we ernaar een betrouwbaar kader te creëren voor het beoordelen van de capaciteiten van LLM-agents in het voorspellen van internationale gebeurtenissen, en zo bij te dragen aan de ontwikkeling van nauwkeurigere en betrouwbaardere modellen voor internationale relatieanalyse.
Grote Taalmodellen (LLMs) hebben indrukwekkende vaardigheden getoond in diverse taken binnen natuurlijke taalverwerking (NLP), waarbij steeds complexere redeneringen betrokken zijn. Kennisredenering, een primair type redenering, heeft als doel nieuwe kennis af te leiden uit bestaande kennis. Hoewel dit uitgebreid is bestudeerd in de context van kennisgrafieken (KGs), blijft kennisredenering in LLMs onderbelicht. In dit artikel introduceren we Chain-of-Knowledge, een uitgebreid raamwerk voor kennisredenering, inclusief methodologieën voor zowel datasetconstructie als modeltraining. Voor datasetconstructie creëren we KnowReason via regelontginning op KGs. Voor modeltraining observeren we regeloverfitting veroorzaakt door naïeve training. Daarom versterken we CoK met een trial-and-error-mechanisme dat het menselijke proces van interne kennisverkenning simuleert. We voeren uitgebreide experimenten uit met KnowReason. Onze resultaten tonen de effectiviteit van CoK in het verfijnen van LLMs, niet alleen in kennisredenering, maar ook in algemene redeneerbenchmarks.
Diffusie-gebaseerde modellen hebben groot potentieel getoond in het genereren van hoogwaardige afbeeldingen met diverse lay-outs, wat downstream perceptietaken kan bevorderen. Echter, een volledig automatische lay-outgeneratie die alleen wordt aangedreven door taal en een geschikte metriek voor het meten van meerdere gegenereerde instanties is nog niet goed onderzocht. In dit werk presenteren we Auto Cherry-Picker (ACP), een nieuw framework dat hoogwaardige multimodale trainingsvoorbeelden genereert om perceptie en multimodale training te versterken. Beginnend met een eenvoudige lijst van natuurlijke taalconcepten, laten we grote taalmodellen (LLMs) een gedetailleerde beschrijving genereren en redelijke lay-outs ontwerpen. Vervolgens gebruiken we een kant-en-klaar tekst-naar-afbeelding model om meerdere afbeeldingen te genereren. Daarna worden de gegenereerde data verfijnd met behulp van een uitgebreid ontworpen metriek om de kwaliteit te waarborgen. In het bijzonder presenteren we een nieuwe metriek, Composite Layout and Image Score (CLIS), om de gegenereerde afbeeldingen eerlijk te evalueren. Onze synthetische hoogwaardige voorbeelden verbeteren de prestaties in diverse scenario's door de initiële conceptlijst aan te passen, vooral bij het aanpakken van uitdagingen gerelateerd aan long-tailed distributie en onevenwichtige datasets. Experimentele resultaten op downstream taken tonen aan dat Auto Cherry-Picker de prestaties van bestaande modellen aanzienlijk kan verbeteren. Daarnaast hebben we grondig onderzoek gedaan naar de correlatie tussen CLIS en prestatieverbeteringen in downstream taken, en we ontdekken dat een betere CLIS-score resulteert in betere prestaties. Deze bevinding toont het potentieel van evaluatiemetrieken voor diverse visuele perceptie- en MLLM-taken. Code zal beschikbaar worden gesteld.
We presenteren OmniJARVIS, een nieuw Vision-Language-Action (VLA)-model voor instructievolgende agents in de open wereld van Minecraft. In tegenstelling tot eerdere werken die ofwel tekstuele doelen uitsturen naar aparte controllers ofwel direct controlecommando's produceren, kiest OmniJARVIS een andere aanpak om zowel sterke redeneer- als efficiënte besluitvormingscapaciteiten te waarborgen via een uniforme tokenisatie van multimodale interactiedata. Ten eerste introduceren we een zelfgesuperviseerde methode om een gedragscodering te leren die gediscretiseerde tokens produceert voor gedragstrajecten tau = {o_0, a_0, dots} en een imitatieleren (IL)-beleidsdecoder die op deze tokens is geconditioneerd. Deze aanvullende gedragstokens worden toegevoegd aan de vocabulaire van voorgetrainde Multimodale Taalmodellen (MLMs). Met deze encoder verpakken we vervolgens langetermijn multimodale interacties, waaronder taakinstructies, herinneringen, gedachten, observaties, tekstuele reacties, gedragstrajecten, enz., in uniforme tokenreeksen en modelleren we deze met autoregressieve transformatoren. Dankzij de semantisch betekenisvolle gedragstokens kan het resulterende VLA-model, OmniJARVIS, redeneren (door ketens van gedachten te produceren), plannen, vragen beantwoorden en handelen (door gedragstokens te produceren voor de IL-beleidsdecoder). OmniJARVIS toont uitstekende prestaties op een uitgebreide verzameling van atomische, programmatische en open-einde taken in de open wereld van Minecraft. Onze analyse onthult verder de cruciale ontwerp principes in de vorming van interactiedata, uniforme tokenisatie en de schaalbaarheidspotentie ervan.
De inzet van Large Language Models (LLMs) op edge-apparaten wordt steeds belangrijker om de intelligentie op het apparaat zelf te verbeteren. Gewichtskwantisering is cruciaal om het geheugenverbruik van LLMs op apparaten te verminderen. Echter, vereisen LLMs met een laag aantal bits mixed precision matrixvermenigvuldiging (mpGEMM) van gewichten met lage precisie en activaties met hoge precisie tijdens inferentie. Bestaande systemen, die geen native ondersteuning bieden voor mpGEMM, nemen hun toevlucht tot het dekwantiseren van gewichten voor berekeningen met hoge precisie. Deze indirecte aanpak kan leiden tot een aanzienlijke inferentie-overhead. In dit artikel introduceren we T-MAC, een innovatieve methode gebaseerd op lookup-tabellen (LUT) die is ontworpen voor efficiënte inferentie van LLMs met een laag aantal bits (d.w.z. gewichtskwantisatie LLMs) op CPU's. T-MAC ondersteunt mpGEMM direct zonder dekwantisatie, terwijl het tegelijkertijd vermenigvuldigingen elimineert en het aantal benodigde optellingen reduceert. Specifiek transformeert T-MAC de traditionele, datatype-gerichte vermenigvuldiging naar bitgewijze tabelopzoekingen, en maakt het een uniforme en schaalbare mpGEMM-oplossing mogelijk. Onze LUT-gebaseerde kernels schalen lineair met de bitbreedte van de gewichten. Geëvalueerd op LLM-modellen met een laag aantal bits zoals Llama en BitNet, toont T-MAC een toename in doorvoer van maximaal 4x en een reductie in energieverbruik van 70% in vergelijking met llama.cpp. Voor BitNet-b1.58-3B levert T-MAC een doorvoer van 30 tokens/s met één kern en 71 tokens/s met acht kernen op de M2-Ultra, en 11 tokens/s op minder krachtige apparaten zoals de Raspberry Pi 5, wat aanzienlijk hoger is dan de gemiddelde leessnelheid van een volwassene. T-MAC, met zijn LUT-gebaseerde rekenparadigma, baant de weg voor de praktische inzet van LLMs met een laag aantal bits op resource-beperkte edge-apparaten zonder in te leveren op rekenkundige efficiëntie. Het systeem is open-source beschikbaar op https://github.com/microsoft/T-MAC.
Zelfgesuperviseerd leren (SSL) heeft spraaktechnologieën geholpen om zich uit te breiden naar meer talen door de behoefte aan gelabelde data te verminderen. Modellen zijn echter nog ver verwijderd van het ondersteunen van de meer dan 7000 talen wereldwijd. Wij stellen XEUS voor, een Cross-lingual Encoder for Universal Speech, getraind op meer dan 1 miljoen uur aan data uit 4057 talen, waardoor de taaldekking van SSL-modellen verviervoudigd wordt. We combineren 1 miljoen uur spraak uit bestaande publiek toegankelijke corpora met een nieuw gecreëerd corpus van meer dan 7400 uur uit 4057 talen, dat publiekelijk beschikbaar zal worden gemaakt. Om de diverse omstandigheden van meertalige spraakdata te hanteren, verrijken we de typische SSL-methode van gemaskeerde voorspelling met een nieuw dereverberatie-doel, wat de robuustheid vergroot. We evalueren XEUS op verschillende benchmarks en laten zien dat het consistent beter presteert of vergelijkbare resultaten behaalt als state-of-the-art (SOTA) SSL-modellen voor een verscheidenheid aan taken. XEUS vestigt een nieuwe SOTA op de ML-SUPERB benchmark: het overtreft MMS 1B en w2v-BERT 2.0 v2 met respectievelijk 0,8% en 4,4%, ondanks het hebben van minder parameters of pre-trainingsdata. Checkpoints, code en data zijn te vinden op https://www.wavlab.org/activities/2024/xeus/.
Videogeneratiemodellen hebben indrukwekkende mogelijkheden getoond voor het produceren van monoscopische video's, maar de generatie van 3D-stereoscopische video's blijft onderbelicht. Wij stellen een pose-vrije en trainingsvrije aanpak voor voor het genereren van 3D-stereoscopische video's met behulp van een standaard monoscopisch videogeneratiemodel. Onze methode vervormt een gegenereerde monoscopische video naar camerabeelden op een stereoscopische basislijn met behulp van geschatte videodiepte en maakt gebruik van een nieuw frame-matrix video-inpainting framework. Dit framework benut het videogeneratiemodel om frames in te vullen die vanuit verschillende tijdstippen en gezichtspunten worden waargenomen. Deze effectieve aanpak genereert consistente en semantisch coherente stereoscopische video's zonder scène-optimalisatie of model-finetuning. Bovendien ontwikkelen we een disocclusion boundary re-injection-schema dat de kwaliteit van video-inpainting verder verbetert door de negatieve effecten die worden doorgegeven vanuit gedisoccludeerde gebieden in de latente ruimte te verminderen. We valideren de effectiviteit van onze voorgestelde methode door experimenten uit te voeren op video's van verschillende generatieve modellen, waaronder Sora [4], Lumiere [2], WALT [8] en Zeroscope [42]. De experimenten tonen aan dat onze methode een significante verbetering biedt ten opzichte van eerdere methoden. De code zal worden vrijgegeven op https://daipengwa.github.io/SVG_ProjectPage.
Onlangs zijn er verschillende gespecialiseerde Large Language Models (LLMs) voor Named Entity Recognition (NER) verschenen die zijn afgestemd op instructies. In vergelijking met traditionele NER-benaderingen beschikken deze modellen over sterke generalisatiecapaciteiten. Bestaande LLMs richten zich voornamelijk op zero-shot NER in out-of-distributie scenario's, waarbij ze worden verfijnd op een groot aantal entiteitsklassen die vaak sterk of volledig overlappen met test sets. In dit werk stellen we in plaats daarvan SLIMER voor, een benadering die is ontworpen om nooit eerder geziene named entity tags aan te pakken door het model te instrueren met minder voorbeelden en door gebruik te maken van een prompt die is verrijkt met definities en richtlijnen. Experimenten tonen aan dat definities en richtlijnen betere prestaties opleveren, sneller en robuuster leren, vooral bij het labelen van onbekende Named Entities. Bovendien presteert SLIMER vergelijkbaar met state-of-the-art benaderingen in out-of-distributie zero-shot NER, terwijl het wordt getraind op een beperkte set tags.
Reinforcement learning met menselijke feedback (RLHF) is een populaire strategie om grote taalmmodellen (LLMs) af te stemmen op gewenst gedrag. Beloningsmodellering is een cruciale stap in RLHF. Het verzamelen van gepaarde voorkeursdata voor het trainen van beloningsmodellen is echter vaak kostbaar en tijdrovend, vooral voor domeinspecifieke voorkeuren die expertannotatie vereisen. Om deze uitdaging aan te pakken, stellen we het Domain knowledge merged Reward Model (DogeRM) voor, een nieuw framework dat domeinspecifieke kennis integreert in een algemeen beloningsmodel door middel van modelmerging. De experimenten tonen aan dat DogeRM de prestaties verbetert op verschillende benchmarks en bieden een gedetailleerde analyse die de effecten van modelmerging laat zien, wat het grote potentieel aantoont om modelafstemming te vergemakkelijken.
LLM's verwerken tekst als reeksen tokens die ruwweg overeenkomen met woorden, waarbij minder voorkomende woorden worden weergegeven door meerdere tokens. Individuele tokens zijn echter vaak semantisch niet gerelateerd aan de betekenissen van de woorden/concepten waaruit ze bestaan. Bijvoorbeeld, de tokenizer van Llama-2-7b splitst het woord "northeastern" in de tokens ['_n', 'ort', 'he', 'astern'], waarvan geen enkel token overeenkomt met semantisch betekenisvolle eenheden zoals "north" of "east." Evenzo kunnen de algemene betekenissen van eigennamen zoals "Neil Young" en uitdrukkingen met meerdere woorden zoals "break a leg" niet direct worden afgeleid uit hun samenstellende tokens. Mechanistisch gezien, hoe zetten LLM's dergelijke willekeurige groepen tokens om in nuttige hogere-niveau representaties? In dit werk ontdekken we dat de laatste token-representaties van eigennamen en woorden met meerdere tokens een uitgesproken "uitwissingseffect" vertonen, waarbij informatie over vorige en huidige tokens snel wordt vergeten in de vroege lagen. Gebruikmakend van deze observatie, stellen we een methode voor om het impliciete vocabulaire van een autoregressieve LLM "uit te lezen" door verschillen in token-representaties tussen lagen te onderzoeken, en presenteren we de resultaten van deze methode voor Llama-2-7b en Llama-3-8B. Voor zover wij weten, is dit de eerste poging om het impliciete vocabulaire van een LLM te onderzoeken.
Exact unlearning werd aanvankelijk geïntroduceerd als een privacymechanisme waarmee een gebruiker op verzoek hun gegevens uit machine learning-modellen kon terugtrekken. Kort daarna werden inexacte schema's voorgesteld om de onpraktische kosten van exact unlearning te verminderen. Meer recent wordt unlearning vaak besproken als een benadering voor het verwijderen van ontoelaatbare kennis, d.w.z. kennis die het model niet zou moeten bezitten, zoals ongelicentieerd auteursrechtelijk beschermd materiaal, onnauwkeurige of kwaadaardige informatie. Het idee is dat als het model een bepaalde kwaadaardige capaciteit niet heeft, het ook niet voor het bijbehorende kwaadaardige doel kan worden gebruikt. In dit artikel herzien we het paradigma waarin unlearning wordt gebruikt in Large Language Models (LLMs) en belichten we een onderliggende inconsistentie die voortkomt uit in-context learning. Unlearning kan een effectief controlemechanisme zijn voor de trainingsfase, maar het voorkomt niet dat het model tijdens de inferentie een ontoelaatbare handeling uitvoert. We introduceren het concept van ununlearning, waarbij ongeleerde kennis opnieuw wordt geïntroduceerd in-context, waardoor het model effectief in staat is zich te gedragen alsof het de vergeten kennis kent. Als gevolg hiervan stellen we dat contentfiltering voor ontoelaatbare kennis vereist zal zijn en dat zelfs exacte unlearning-schema's niet voldoende zijn voor effectieve contentregulering. We bespreken de haalbaarheid van ununlearning voor moderne LLMs en onderzoeken bredere implicaties.
We beschrijven de nauwkeurige voorspelling van affiniteiten voor ligand-eiwitinteracties (LPI), ook wel bekend als geneesmiddel-doelwitinteracties (DTI), met behulp van instructie-fijn afgestelde, vooraf getrainde generatieve kleine taalmodellen (SLMs). We behaalden nauwkeurige voorspellingen voor een reeks affiniteitswaarden die geassocieerd zijn met ligand-eiwitinteracties op out-of-sample data in een zero-shot setting. Alleen de SMILES-string van het ligand en de aminozuursequentie van het eiwit werden gebruikt als modelinputs. Onze resultaten tonen een duidelijke verbetering ten opzichte van machine learning (ML) en op vrije-energieperturbatie (FEP+) gebaseerde methoden in het nauwkeurig voorspellen van een reeks ligand-eiwitinteractie-affiniteiten, wat kan worden benut om geneesmiddelontwikkelingscampagnes tegen uitdagende therapeutische doelwitten verder te versnellen.
Het volgen van meerdere instructies is een cruciale vaardigheid voor grote taalmmodellen (LLMs). Het evalueren van deze vaardigheid brengt aanzienlijke uitdagingen met zich mee: (i) beperkte samenhang tussen meerdere instructies, (ii) positionele bias waarbij de volgorde van instructies de prestaties van het model beïnvloedt, en (iii) een gebrek aan objectief verifieerbare taken. Om deze problemen aan te pakken, introduceren we een benchmark die is ontworpen om de vaardigheden van modellen om meerdere instructies te volgen te evalueren via taken voor sequentieel instructie volgen (SIFo). In SIFo is de succesvolle voltooiing van meerdere instructies verifieerbaar door alleen de laatste instructie te onderzoeken. Onze benchmark evalueert het volgen van instructies met behulp van vier taken (tekstwijziging, vraagbeantwoording, wiskunde en het volgen van beveiligingsregels), die elk verschillende aspecten van sequentieel instructie volgen beoordelen. Onze evaluatie van populaire LLMs, zowel closed-source als open-source, toont aan dat recentere en grotere modellen aanzienlijk beter presteren dan hun oudere en kleinere tegenhangers op de SIFo-taken, wat de effectiviteit van de benchmark bevestigt. Alle modellen hebben moeite met het volgen van reeksen instructies, wat wijst op een belangrijk gebrek aan robuustheid van de huidige taalmmodellen.
Frontier AI-systemen, waaronder grote taalmodellen (LLMs), hebben een toenemende invloed op de epistemologie van menselijke gebruikers. Deze invloed kan heersende maatschappelijke waarden versterken, wat mogelijk bijdraagt aan de verankering van misplaatste morele overtuigingen en, als gevolg daarvan, de voortzetting van problematische morele praktijken op grote schaal. Wij introduceren progress alignment als een technische oplossing om dit dreigende risico te mitigeren. Progress alignment-algoritmen leren de mechanismen van menselijke morele vooruitgang na te bootsen, waardoor de gevoeligheid van bestaande alignment-methoden voor hedendaagse morele blinde vlekken wordt aangepakt. Om onderzoek naar progress alignment te bevorderen, introduceren wij ProgressGym, een experimenteel raamwerk dat het mogelijk maakt om de mechanismen van morele vooruitgang uit de geschiedenis te leren, teneinde toekomstige vooruitgang in real-world morele beslissingen te faciliteren. Gebruikmakend van 9 eeuwen historische tekst en 18 historische LLMs, maakt ProgressGym het mogelijk om real-world progress alignment-uitdagingen te codificeren in concrete benchmarks. Specifiek introduceren wij drie kernuitdagingen: het volgen van evoluerende waarden (PG-Follow), het preventief anticiperen op morele vooruitgang (PG-Predict), en het reguleren van de feedbackloop tussen menselijke en AI-waardeveranderingen (PG-Coevolve). Alignment-methoden zonder een temporele dimensie zijn niet toepasbaar op deze taken. Als reactie hierop presenteren wij levenslange en extrapolatieve algoritmen als baseline-methoden van progress alignment, en bouwen wij een open leaderboard om nieuwe algoritmen en uitdagingen te verzamelen. Het raamwerk en het leaderboard zijn beschikbaar op respectievelijk https://github.com/PKU-Alignment/ProgressGym en https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.