Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Seed-Music, een suite van muziekgeneratiesystemen die in staat zijn om hoogwaardige muziek te produceren met fijnmazige stijlcontrole. Ons geïntegreerd kader maakt gebruik van zowel auto-regressieve taalmodellering als diffusiebenaderingen om twee belangrijke muziekcreatie-workflows te ondersteunen: gecontroleerde muziekgeneratie en post-productiebewerking. Voor gecontroleerde muziekgeneratie maakt ons systeem vocale muziekgeneratie mogelijk met prestatiecontroles van multimodale invoer, waaronder stijlbeschrijvingen, audioreferenties, muzikale partituren en stemopdrachten. Voor post-productiebewerking biedt het interactieve tools voor het bewerken van songteksten en vocale melodieën rechtstreeks in de gegenereerde audio. We moedigen lezers aan om naar demo-audiovoorbeelden te luisteren op https://team.doubao.com/seed-music.
Transformers vormen de hoeksteen van moderne diepgaande leermodellen. Traditioneel vertrouwen deze modellen op multi-layer perceptron (MLP) lagen om informatie tussen kanalen te mengen. In dit artikel introduceren we de Kolmogorov-Arnold Transformer (KAT), een nieuw architectuur dat MLP-lagen vervangt door Kolmogorov-Arnold Network (KAN) lagen om de expressiviteit en prestaties van het model te verbeteren. Het integreren van KANs in transformers is echter geen gemakkelijke taak, vooral bij opschaling. Specifiek identificeren we drie belangrijke uitdagingen: (C1) Basale functie. De standaard B-spline functie die in KANs wordt gebruikt, is niet geoptimaliseerd voor parallel rekenen op moderne hardware, wat resulteert in langzamere inferentiesnelheden. (C2) Parameter- en Berekeningsefficiëntie. KAN vereist een unieke functie voor elk invoer-uitvoerpaar, wat de berekening extreem groot maakt. (C3) Gewichtsinitialisatie. Het initialiseren van gewichten in KANs is bijzonder uitdagend vanwege hun aanpasbare activatiefuncties, die cruciaal zijn voor het bereiken van convergentie in diepe neurale netwerken. Om de eerder genoemde uitdagingen te overwinnen, stellen we drie belangrijke oplossingen voor: (S1) Rationele basis. We vervangen B-spline functies door rationale functies om de compatibiliteit met moderne GPU's te verbeteren. Door dit te implementeren in CUDA bereiken we snellere berekeningen. (S2) Groeps-KAN. We delen de activatiegewichten via een groep neuronen om de rekenbelasting te verminderen zonder prestaties op te offeren. (S3) Variatiebehoudende initialisatie. We initialiseren de activatiegewichten zorgvuldig om ervoor te zorgen dat de activatievariatie over lagen behouden blijft. Met deze ontwerpen schaalt KAT effectief en presteert het beter dan traditionele op MLP gebaseerde transformers.
Transformer-gebaseerde grote taalmodellen (LLM's) worden steeds belangrijker in verschillende domeinen. De kwadratische tijdscomplexiteit van de aandachtsoperatie vormt echter een aanzienlijke uitdaging voor het schalen naar langere contexten vanwege de extreem hoge inferentievertraging en GPU-geheugenverbruik voor het cachen van sleutel-waarde (KV) vectoren. Dit artikel stelt RetrievalAttention voor, een trainingvrije benadering om aandachtsberekeningen te versnellen. Om te profiteren van de dynamische schaarse eigenschap van aandacht, bouwt RetrievalAttention benaderende naburige zoekindexen (ANNS) op basis van KV-vectoren in CPU-geheugen en haalt tijdens de generatie de meest relevante op via vectorzoekopdrachten. Vanwege de out-of-distribution (OOD) tussen queryvectoren en sleutelvectoren, moeten kant-en-klare ANNS-indexen nog steeds O(N) (meestal 30% van alle sleutels) gegevens scannen voor nauwkeurige opvraging, wat niet optimaal is voor de hoge spaarzaamheid. RetrievalAttention identificeert eerst de OOD-uitdaging van op ANNS gebaseerde aandacht en lost deze op via een aandachtbewust vectorzoekalgoritme dat zich kan aanpassen aan vragen en slechts 1-3% van de gegevens hoeft te benaderen, waardoor een sublineaire tijdscomplexiteit wordt bereikt. RetrievalAttention verlaagt aanzienlijk de inferentiekosten van LLM's met lange contexten met veel lagere GPU-geheugenvereisten, terwijl de modelnauwkeurigheid behouden blijft. Vooral RetrievalAttention heeft slechts 16 GB GPU-geheugen nodig om 128K tokens te verwerken in LLM's met 8B parameters, wat in staat is om één token te genereren in 0,188 seconden op een enkele NVIDIA RTX4090 (24GB).
We introduceren jina-embeddings-v3, een nieuw tekst-embeddingmodel met 570 miljoen parameters, dat state-of-the-art prestaties behaalt op meertalige data en taken voor het ophalen van lange contexten, waarbij contextlengtes tot 8192 tokens worden ondersteund. Het model bevat een reeks taakspecifieke Low-Rank Adaptation (LoRA) adapters om hoogwaardige embeddings te genereren voor het ophalen van query-documenten, clustering, classificatie en tekstovereenkomsten. Daarnaast is Matryoshka Representation Learning geïntegreerd in het trainingsproces, waardoor flexibele inkorting van embeddingdimensies mogelijk is zonder prestatieverlies. Evaluatie op de MTEB benchmark toont aan dat jina-embeddings-v3 beter presteert dan de nieuwste eigen embeddings van OpenAI en Cohere op Engelse taken, terwijl het superieure prestaties behaalt in vergelijking met multilingual-e5-large-instruct op alle meertalige taken.
Visie-taalmodellen zijn recentelijk geëvolueerd tot veelzijdige systemen die in staat zijn tot hoge prestaties over een reeks taken, zoals documentbegrip, visuele vraagbeantwoording en gronding, vaak in zero-shot instellingen. Begrip van strips, een complex en veelzijdig gebied, heeft veel baat bij deze vooruitgang. Strips, als medium, combineren rijke visuele en tekstuele verhalen, waarbij AI-modellen worden uitgedaagd met taken die variëren van beeldclassificatie, objectdetectie, instantiesegmentatie, tot diepere verhaalbegrip via opeenvolgende panelen. De unieke structuur van strips - gekenmerkt door creatieve variaties in stijl, leesvolgorde en niet-lineaire verhaalvertelling - presenteert echter een reeks uitdagingen die onderscheidend zijn van die in andere visueel-taalgebieden. In deze survey presenteren we een uitgebreid overzicht van het begrip van strips vanuit zowel dataset- als taalperspectieven. Onze bijdragen zijn vijfvoudig: (1) We analyseren de structuur van het stripmedium, waarbij we de onderscheidende samenstellende elementen ervan in detail beschrijven; (2) We onderzoeken de veelgebruikte datasets en taken in stripsonderzoek, waarbij we de rol ervan bij het bevorderen van het vakgebied benadrukken; (3) We introduceren het Layer of Comics Understanding (LoCU) framework, een nieuw taxonomie dat visie-taaltaken binnen strips herdefinieert en de basis legt voor toekomstig werk; (4) We bieden een gedetailleerd overzicht en categorisatie van bestaande methoden volgens het LoCU-framework; (5) Tot slot benadrukken we huidige onderzoeksuitdagingen en stellen we richtingen voor voor toekomstige verkenning, met name in de context van visie-taalmodellen toegepast op strips. Deze survey is de eerste die een op taken gericht framework voor stripintelligentie voorstelt en heeft als doel om toekomstig onderzoek te begeleiden door kritieke hiaten in gegevensbeschikbaarheid en taakdefinitie aan te pakken. Een project dat verband houdt met deze survey is beschikbaar op https://github.com/emanuelevivoli/awesome-comics-understanding.
Grote Taalmodellen (LLM's) zijn onmisbaar geworden in tal van praktische toepassingen. Helaas brengt het fijnafstemmen van deze modellen op grote schaal, vooral in gefedereerde omgevingen waar gegevensprivacy en communicatie-efficiëntie cruciaal zijn, aanzienlijke uitdagingen met zich mee. Bestaande methoden grijpen vaak terug op parameter-efficiënt fijnafstemmen (PEFT) om communicatie-overhead te verminderen, maar dit gaat meestal ten koste van de modelnauwkeurigheid. Om deze beperkingen aan te pakken, stellen wij federale volledige-parameterafstemming op schaal voor voor LLM's (Ferret), de eerste first-order methode met gedeelde willekeurigheid om schaalbare volledige-parameterafstemming van LLM's over gedecentraliseerde gegevensbronnen mogelijk te maken met behoud van concurrerende modelnauwkeurigheid. Ferret bereikt dit door drie aspecten: (1) het maakt gebruik van veelgebruikte first-order methoden voor efficiënte lokale updates; (2) het projecteert deze updates in een laag-dimensionale ruimte om de communicatie-overhead aanzienlijk te verminderen; en (3) het reconstrueert lokale updates vanuit deze laag-dimensionale ruimte met gedeelde willekeurigheid om effectieve volledige-parameter wereldwijde aggregatie te vergemakkelijken, wat zorgt voor snelle convergentie en concurrerende uiteindelijke prestaties. Onze rigoureuze theoretische analyses en inzichten, samen met uitgebreide experimenten, tonen aan dat Ferret de schaalbaarheid van bestaande gefedereerde volledige-parameterafstemmingsbenaderingen aanzienlijk verbetert door hoge rekenkundige efficiëntie, verminderde communicatie-overhead en snelle convergentie te bereiken, terwijl concurrerende modelnauwkeurigheid wordt gehandhaafd. Onze implementatie is beschikbaar op https://github.com/allen4747/Ferret.
We introduceren Diagram of Thought (DoT), een raamwerk dat iteratief redeneren in grote taalmodellen (LLM's) modelleert als de constructie van een gerichte acyclische graaf (DAG) binnen één model. In tegenstelling tot traditionele benaderingen die redeneren voorstellen als lineaire ketens of bomen, organiseert DoT proposities, kritieken, verfijningen en verificaties in een samenhangende DAG-structuur, waardoor het model complexe redeneerpaden kan verkennen met behoud van logische consistentie. Elke knoop in het diagram komt overeen met een propositie die is voorgesteld, bekritiseerd, verfijnd of geverifieerd, waardoor het LLM iteratief zijn redenering kan verbeteren via feedback in natuurlijke taal. Door gebruik te maken van auto-regressieve volgende-token voorspelling met rol-specifieke tokens, vergemakkelijkt DoT naadloze overgangen tussen het voorstellen van ideeën en het kritisch evalueren ervan, waardoor rijkere feedback wordt geboden dan binair signaal. Bovendien formaliseren we het DoT-raamwerk met behulp van Topos Theorie, waardoor een wiskundige basis wordt geboden die logische consistentie en degelijkheid in het redeneerproces waarborgt. Deze benadering verbetert zowel de training als de inferentieprocessen binnen een enkel LLM, waardoor de noodzaak voor meerdere modellen of externe controlemechanismen wordt geëlimineerd. DoT biedt een conceptueel raamwerk voor het ontwerpen van redeneermodellen van de volgende generatie, waarbij de nadruk ligt op trainings-efficiëntie, robuuste redeneervaardigheden en theoretische onderbouwing. De code is beschikbaar op https://github.com/diagram-of-thought/diagram-of-thought.
Open-vocabulary audio-taalmodellen, zoals CLAP, bieden een veelbelovende benadering voor zero-shot audio-classificatie (ZSAC) door classificatie mogelijk te maken met elke willekeurige set categorieën die zijn gespecificeerd met natuurlijke taal prompts. In dit artikel stellen we een eenvoudige maar effectieve methode voor om ZSAC te verbeteren met CLAP. Specifiek stappen we af van de conventionele methode van het gebruiken van prompts met abstracte categorie labels (bijv. Geluid van een orgel) naar prompts die geluiden beschrijven met hun inherente beschrijvende kenmerken in een diverse context (bijv. De diepe en resonante tonen van het orgel vulden de kathedraal). Om dit te bereiken, stellen we eerst ReCLAP voor, een CLAP-model dat is getraind met herschreven audiobijschriften voor verbeterd begrip van geluiden in het wild. Deze herschreven bijschriften beschrijven elk geluidsevenement in het originele bijschrift met hun unieke onderscheidende kenmerken. ReCLAP presteert beter dan alle baselines op zowel multimodale audio-tekst ophaling als ZSAC. Vervolgens, om zero-shot audio-classificatie te verbeteren met ReCLAP, stellen we prompt-augmentatie voor. In tegenstelling tot de traditionele methode van het gebruiken van handgeschreven sjabloon prompts, genereren we aangepaste prompts voor elk uniek label in de dataset. Deze aangepaste prompts beschrijven eerst het geluidsevenement in het label en gebruiken ze vervolgens in diverse scènes. Onze voorgestelde methode verbetert de prestaties van ReCLAP op ZSAC met 1%-18% en overtreft alle baselines met 1% - 55%.
Visuele Vraag-Antwoord (VQA) is een belangrijke toepassing geworden in verschillende toepassingen om de gebruikerservaring te verbeteren, met name nadat Vision-Language Modellen (VLM's) goede resultaten behaalden in zero-shot inferentie. Het evalueren van verschillende VLM's voor een toepassingsvereiste met behulp van een gestandaardiseerd kader in praktijksituaties blijft echter uitdagend. Dit artikel introduceert een uitgebreid kader voor het evalueren van VLM's die zijn afgestemd op VQA-taken in praktijksituaties. We presenteren een nieuw dataset afgeleid van gevestigde VQA-benchmarks, geannoteerd met taaktypen, toepassingsdomeinen en kennistypen, drie belangrijke praktische aspecten waarop taken kunnen variëren. We introduceren ook GoEval, een multimetrische evaluatiemaatstaf ontwikkeld met behulp van GPT-4o, met een correlatiefactor van 56.71% met menselijke beoordelingen. Onze experimenten met tien toonaangevende VLM's tonen aan dat er geen enkel model universeel uitblinkt, waardoor een passende selectie een cruciale ontwerpbeslissing is. Eigen modellen zoals Gemini-1.5-Pro en GPT-4o-mini presteren over het algemeen beter dan anderen, hoewel open-source modellen zoals InternVL-2-8B en CogVLM-2-Llama-3-19B competitieve krachten tonen in specifieke contexten, terwijl ze extra voordelen bieden. Deze studie begeleidt de selectie van VLM's op basis van specifieke taakeisen en resourcebeperkingen, en kan ook worden uitgebreid naar andere visie-taal taken.
Reinforcement learning from human feedback (RLHF) is een van de belangrijkste technieken die grote taalmodellen (LLMs) helpen om instructies op te volgen en behulpzame en onschadelijke antwoorden te geven. Hoewel er directe optimalisatiemethoden voor beleid bestaan, maken state-of-the-art LLMs gebruik van op RL gebaseerde methoden (meestal PPO) in RLHF om het beleid te trainen om goede antwoorden te genereren die worden geleid door een beloningsmodel dat is geleerd van voorkeursgegevens. De voornaamste uitdaging van deze methoden is de onnauwkeurigheid van het tussenliggende beloningsmodel, vooral bij taken voor codegeneratie die langdurige en complexe redeneringen vereisen om een antwoord te beoordelen. We constateren dat de betrouwbaarheid van het beloningsmodel varieert tussen antwoorden die verschillende beloningen hebben gekregen. Dit motiveert ons om de monsters te filteren waarvan de beloningen mogelijk onbetrouwbaar zijn om het signaal-ruisverhouding tijdens het leren van het beleid te verbeteren, resulterend in Beleidsfiltratie voor Proximale Beleidsoptimalisatie (PF-PPO). Om een geschikte beleidsfiltratiestrategie te kiezen voor een gegeven beloningsmodel, dient de determinatiecoëfficiënt (R^2) tussen beloningen en daadwerkelijke scores op gefilterde monsters als een goede metriek en helpt ons bij het vinden van verschillende veelbelovende strategieën. We voeren uitgebreide experimenten uit om de effectiviteit van PF-PPO bij codegeneratietaken te valideren, en constateren dat sommige varianten van PF-PPO zeer effectief zijn en een nieuwe state-of-the-art prestatie behalen bij modellen met 7 miljard parameters op HumanEval, MBPP, en een nieuwe en uitdagendere benchmark van LeetCode Contest.
Röntgenfoto's van de borstkas (CXR) zijn een belangrijk diagnostisch hulpmiddel dat in ziekenhuizen wordt gebruikt om de toestand van patiënten te beoordelen en veranderingen in de loop van de tijd te volgen. Generatieve modellen, specifiek op diffusie gebaseerde modellen, hebben veelbelovende resultaten laten zien bij het genereren van realistische synthetische röntgenfoto's. Deze modellen richten zich echter voornamelijk op conditionele generatie met behulp van gegevens van één tijdstip, dat wil zeggen meestal CXR's die op een specifiek moment zijn genomen met hun bijbehorende verslagen, waardoor hun klinische bruikbaarheid wordt beperkt, met name voor het vastleggen van temporele veranderingen. Om deze beperking aan te pakken, stellen we een nieuw raamwerk voor, EHRXDiff, dat toekomstige CXR-beelden voorspelt door eerdere CXR's te integreren met daaropvolgende medische gebeurtenissen, zoals recepten, laboratoriummetingen, enz. Ons raamwerk volgt dynamisch de ziekteprogressie en voorspelt deze op basis van een latente diffusiemodel, geconditioneerd door het vorige CXR-beeld en een geschiedenis van medische gebeurtenissen. We evalueren uitgebreid de prestaties van ons raamwerk op drie belangrijke aspecten, waaronder klinische consistentie, demografische consistentie en visuele realisme. We tonen aan dat ons raamwerk hoogwaardige, realistische toekomstige beelden genereert die mogelijke temporele veranderingen vastleggen, wat wijst op het potentieel ervan voor verdere ontwikkeling als een klinisch simulatiehulpmiddel. Dit zou waardevolle inzichten kunnen bieden voor patiëntenmonitoring en behandelplanning in de medische sector.
Recente studies hebben vastgesteld dat taalmodellen, vooraf getraind op alleen tekstuele datasets, vaak elementaire visuele kennis missen, bijvoorbeeld de kleuren van alledaagse objecten. Gemotiveerd door deze observatie, vragen we ons af of een soortgelijk tekort bestaat wat betreft auditieve kennis. Om deze vraag te beantwoorden, construeren we een nieuwe dataset genaamd AuditoryBench, die bestaat uit twee nieuwe taken voor het evalueren van auditieve kennis. Op basis van onze analyse met behulp van de benchmark, vinden we dat taalmodellen ook lijden aan een ernstig gebrek aan auditieve kennis. Om deze beperking aan te pakken, stellen we AudioBERT voor, een nieuwe methode om de auditieve kennis van BERT uit te breiden via een opvraaggebaseerde benadering. Eerst detecteren we auditieve kennisgebieden in prompts om ons opvraagmodel efficiënt te bevragen. Vervolgens injecteren we audiokennis in BERT en schakelen we over op lage-rang aanpassing voor effectieve aanpassing wanneer audiokennis vereist is. Onze experimenten tonen aan dat AudioBERT zeer effectief is, met superieure prestaties op de AuditoryBench. De dataset en code zijn beschikbaar op https://github.com/HJ-Ok/AudioBERT.
Ons onderzoek onderzoekt de doeltreffendheid van het gebruik van geavanceerde machine learning methoden om captchas van het reCAPTCHAv2-systeem van Google op te lossen. We evalueren de effectiviteit van geautomatiseerde systemen bij het oplossen van captchas door geavanceerde YOLO-modellen te gebruiken voor beeldsegmentatie en classificatie. Ons belangrijkste resultaat is dat we 100% van de captchas kunnen oplossen, terwijl eerdere onderzoeken slechts 68-71% oplosten. Bovendien suggereren onze bevindingen dat er geen significant verschil is in het aantal uitdagingen dat mensen en bots moeten oplossen om de captchas in reCAPTCHAv2 te doorstaan. Dit impliceert dat huidige AI-technologieën geavanceerde op beeld gebaseerde captchas kunnen omzeilen. We kijken ook onder de motorkap van reCAPTCHAv2 en vinden bewijs dat reCAPTCHAv2 sterk leunt op cookie- en browsergeschiedenisgegevens bij het beoordelen of een gebruiker al dan niet menselijk is. De code wordt samen met dit artikel verstrekt.
Aanbevelingssystemen maken vaak gebruik van tekstuele informatie om hun voorspellingen te verbeteren, vooral in koude start- of zero-shot aanbevelingsscenario's, waar traditionele samenwerkingsfilteringsbenaderingen niet kunnen worden gebruikt. Er zijn de afgelopen jaren veel benaderingen voorgesteld om tekstuele informatie te mijnen voor aanbevelingssystemen, waarbij zintransformatoren de meest prominente zijn. Deze modellen zijn echter getraind om semantische gelijkenis te voorspellen zonder gebruik te maken van interactiegegevens met verborgen patronen die specifiek zijn voor aanbevelingssystemen. In dit artikel stellen we beeFormer voor, een raamwerk voor het trainen van zintransformatormodellen met interactiegegevens. We tonen aan dat onze modellen getraind met beeFormer kennis kunnen overdragen tussen datasets en beter presteren dan niet alleen semantische gelijkenis zintransformatoren, maar ook traditionele samenwerkingsfilteringsmethoden. We laten ook zien dat training op meerdere datasets uit verschillende domeinen kennis ophoopt in een enkel model, waardoor de mogelijkheid ontstaat om universele, domeinagnostische zintransformatormodellen te trainen om tekstuele representaties te mijnen voor aanbevelingssystemen. We stellen de broncode, getrainde modellen en aanvullende details beschikbaar om de replicatie van onze experimenten mogelijk te maken op https://github.com/recombee/beeformer.
Grafeme-naar-foneem (G2P) conversie is cruciaal in spraakverwerking, met name voor toepassingen zoals spraaksynthese. G2P systemen moeten taalkundig inzicht en contextueel bewustzijn hebben van talen met polyfone woorden en contextafhankelijke fonemen. Grote taalmodellen (LLM's) hebben onlangs aanzienlijk potentieel aangetoond in verschillende taaltaken, wat suggereert dat hun fonetische kennis kan worden benut voor G2P. In dit artikel evalueren we de prestaties van LLM's in G2P conversie en introduceren we methoden voor het geven van instructies en post-processing die LLM-uitvoer verbeteren zonder extra training of gelabelde gegevens. We presenteren ook een benchmark dataset die is ontworpen om de prestaties van G2P te beoordelen op zinsniveau fonetische uitdagingen van de Perzische taal. Onze resultaten tonen aan dat door de voorgestelde methoden toe te passen, LLM's traditionele G2P-tools kunnen overtreffen, zelfs in een ondervertegenwoordigde taal zoals het Perzisch, waarbij het potentieel van het ontwikkelen van LLM-ondersteunde G2P-systemen wordt benadrukt.