Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In het tijdperk van grote taalmodellen is Mixture-of-Experts (MoE) een veelbelovende architectuur voor het beheren van rekenkosten bij het opschalen van modelparameters. Echter, conventionele MoE-architecturen zoals GShard, die de top-K van N experts activeren, kampen met uitdagingen bij het waarborgen van expertspecialisatie, d.w.z. dat elke expert niet-overlappende en gerichte kennis verwerft. Als reactie hierop stellen we de DeepSeekMoE-architectuur voor, gericht op ultieme expertspecialisatie. Deze omvat twee hoofdstrategieën: (1) het fijn segmenteren van de experts in mN experts en het activeren van mK daaruit, wat een flexibelere combinatie van geactiveerde experts mogelijk maakt; (2) het isoleren van K_s experts als gedeelde experts, met als doel gemeenschappelijke kennis vast te leggen en redundantie in gerouteerde experts te verminderen. Beginnend op een bescheiden schaal met 2B parameters, tonen we aan dat DeepSeekMoE 2B vergelijkbare prestaties behaalt met GShard 2.9B, dat 1,5 keer zoveel expertparameters en rekenkracht heeft. Bovendien benadert DeepSeekMoE 2B bijna de prestaties van zijn dichte tegenhanger met hetzelfde aantal totale parameters, wat de bovengrens van MoE-modellen bepaalt. Vervolgens schalen we DeepSeekMoE op naar 16B parameters en laten we zien dat het vergelijkbare prestaties behaalt met LLaMA2 7B, met slechts ongeveer 40% van de rekenkracht. Daarnaast valideren onze eerste inspanningen om DeepSeekMoE op te schalen naar 145B parameters consistent de aanzienlijke voordelen ten opzichte van de GShard-architectuur, en tonen we aan dat de prestaties vergelijkbaar zijn met DeepSeek 67B, met slechts 28,5% (mogelijk zelfs 18,2%) van de rekenkracht.
Content creators streven vaak naar het maken van gepersonaliseerde afbeeldingen met persoonlijke onderwerpen die verder gaan dan de mogelijkheden van conventionele tekst-naar-beeldmodellen. Bovendien willen ze mogelijk dat de resulterende afbeelding een specifieke locatie, stijl, sfeer en meer omvat. Bestaande personalisatiemethoden kunnen inleveren op personalisatievermogen of de afstemming op complexe tekstuele prompts. Deze afweging kan de vervulling van gebruikersprompts en onderwerptrouw belemmeren. Wij stellen een nieuwe aanpak voor die zich richt op personalisatiemethoden voor een enkele prompt om dit probleem aan te pakken. We noemen onze aanpak prompt-uitgelijnde personalisatie. Hoewel dit beperkend kan lijken, blinkt onze methode uit in het verbeteren van tekstafstemming, waardoor het mogelijk wordt om afbeeldingen te creëren met complexe en gedetailleerde prompts, wat een uitdaging kan vormen voor huidige technieken. In het bijzonder houdt onze methode het gepersonaliseerde model afgestemd op een doelprompt door gebruik te maken van een aanvullende score-distillatie-samplingterm. We demonstreren de veelzijdigheid van onze methode in multi- en single-shot instellingen en laten verder zien dat het meerdere onderwerpen kan samenstellen of inspiratie kan gebruiken van referentieafbeeldingen, zoals kunstwerken. We vergelijken onze aanpak kwantitatief en kwalitatief met bestaande baselines en state-of-the-art technieken.
Reinforcement Learning from Human Feedback (RLHF) is een cruciale technologie geworden voor het afstemmen van taalmodellen op menselijke waarden en intenties, waardoor modellen nuttigere en veiligere reacties kunnen genereren. Beloningsmodellen worden getraind als proxies voor menselijke voorkeuren om de optimalisatie van reinforcement learning aan te sturen. Hoewel beloningsmodellen vaak als centraal worden beschouwd voor het bereiken van hoge prestaties, worden ze in praktische toepassingen geconfronteerd met de volgende uitdagingen: (1) Onjuiste en ambiguë voorkeursparen in de dataset kunnen het beloningsmodel belemmeren om menselijke intenties nauwkeurig vast te leggen. (2) Beloningsmodellen die zijn getraind op data van een specifieke verdeling, hebben vaak moeite om te generaliseren naar voorbeelden buiten die verdeling en zijn niet geschikt voor iteratieve RLHF-training. In dit rapport proberen we deze twee problemen aan te pakken. (1) Vanuit een dataperspectief stellen we een methode voor om de sterkte van voorkeuren binnen de data te meten, gebaseerd op een stemmechanisme van meerdere beloningsmodellen. Experimentele resultaten bevestigen dat data met variërende voorkeurssterktes verschillende invloeden hebben op de prestaties van het beloningsmodel. We introduceren een reeks nieuwe methoden om de invloed van onjuiste en ambiguë voorkeuren in de dataset te verminderen en hoogwaardige voorkeursdata optimaal te benutten. (2) Vanuit een algoritmisch perspectief introduceren we contrastief leren om het vermogen van beloningsmodellen te verbeteren om gekozen en afgewezen reacties te onderscheiden, waardoor de generalisatie van het model wordt verbeterd. Bovendien gebruiken we meta-leren om het beloningsmodel in staat te stellen het vermogen te behouden om subtiele verschillen in out-of-distribution voorbeelden te onderscheiden, en deze aanpak kan worden gebruikt voor iteratieve RLHF-optimalisatie.
Point-based radiance field rendering heeft indrukwekkende resultaten laten zien voor nieuwe weergavesynthese, en biedt een overtuigende combinatie van renderkwaliteit en rekenkundige efficiëntie. Echter, ook de nieuwste benaderingen in dit domein zijn niet zonder hun tekortkomingen. 3D Gaussian Splatting [Kerbl en Kopanas et al. 2023] worstelt bij het renderen van zeer gedetailleerde scènes, vanwege vervaging en wazige artefacten. Aan de andere kant kan ADOP [Rückert et al. 2022] scherpere afbeeldingen verwerken, maar het neurale reconstructienetwerk vermindert de prestaties, het heeft moeite met temporele instabiliteit en het is niet in staat om grote gaten in de puntenwolk effectief aan te pakken. In dit artikel presenteren we TRIPS (Trilinear Point Splatting), een benadering die ideeën combineert van zowel Gaussian Splatting als ADOP. Het fundamentele concept achter onze nieuwe techniek omvat het rasteriseren van punten in een beeldpiramide in schermruimte, waarbij de selectie van de piramidelaag wordt bepaald door de geprojecteerde puntgrootte. Deze benadering maakt het mogelijk om willekeurig grote punten te renderen met behulp van een enkele trilineaire schrijfbewerking. Vervolgens wordt een lichtgewicht neuraal netwerk gebruikt om een gatvrije afbeelding te reconstrueren, inclusief details die verder gaan dan de splat-resolutie. Belangrijk is dat onze renderpipeline volledig differentieerbaar is, waardoor automatische optimalisatie van zowel puntgroottes als posities mogelijk is. Onze evaluatie toont aan dat TRIPS de bestaande state-of-the-art methoden overtreft wat betreft renderkwaliteit, terwijl een real-time framerate van 60 frames per seconde op algemeen beschikbare hardware wordt gehandhaafd. Deze prestaties strekken zich uit tot uitdagende scenario's, zoals scènes met ingewikkelde geometrie, uitgestrekte landschappen en auto-belichte beelden.
Recente onderzoeken tonen aan dat het gebruik van reinforcement learning (RL) met kwaliteitsbeloningen de kwaliteit van gegenereerde afbeeldingen in tekst-naar-afbeelding (T2I) generatie kan verbeteren. Echter, een eenvoudige aggregatie van meerdere beloningen kan leiden tot overoptimalisatie in bepaalde metrieken en verslechtering in andere, en het is uitdagend om handmatig de optimale gewichten te vinden. Een effectieve strategie om meerdere beloningen gezamenlijk te optimaliseren in RL voor T2I-generatie is zeer gewenst. Dit artikel introduceert Parrot, een nieuw multi-beloning RL-framework voor T2I-generatie. Door het gebruik van batchgewijze Pareto-optimale selectie identificeert Parrot automatisch de optimale afweging tussen verschillende beloningen tijdens de RL-optimalisatie van de T2I-generatie. Daarnaast past Parrot een gezamenlijke optimalisatiebenadering toe voor het T2I-model en het promptuitbreidingsnetwerk, wat de generatie van kwaliteitsbewuste tekstprompts faciliteert en zo de uiteindelijke beeldkwaliteit verder verbetert. Om het mogelijke catastrofale vergeten van de originele gebruikersprompt door promptuitbreiding tegen te gaan, introduceren we originele prompt-gerichte begeleiding tijdens de inferentie, waardoor de gegenereerde afbeelding trouw blijft aan de gebruikersinvoer. Uitgebreide experimenten en een gebruikersstudie tonen aan dat Parrot verschillende baseline-methoden overtreft op diverse kwaliteitscriteria, waaronder esthetiek, menselijke voorkeur, beeldemotie en tekst-afbeelding uitlijning.
Het inspecteren van de informatie die is gecodeerd in de verborgen representaties van grote taalmmodellen (LLM's) kan het gedrag van modellen verklaren en hun afstemming met menselijke waarden verifiëren. Gezien de mogelijkheden van LLM's om voor mensen begrijpelijke tekst te genereren, stellen we voor om het model zelf te gebruiken om zijn interne representaties in natuurlijke taal uit te leggen. We introduceren een raamwerk genaamd Patchscopes en laten zien hoe het kan worden gebruikt om een breed scala aan onderzoeksvragen over de berekeningen van een LLM te beantwoorden. We tonen aan dat eerdere interpreteerbaarheidsmethoden die gebaseerd zijn op het projecteren van representaties in de vocabulaire-ruimte en het ingrijpen in de LLM-berekeningen, kunnen worden gezien als speciale gevallen van dit raamwerk. Bovendien kunnen verschillende van hun tekortkomingen, zoals het falen bij het inspecteren van vroege lagen of een gebrek aan expressiviteit, worden verholpen door een Patchscope. Naast het verenigen van eerdere inspectietechnieken, opent Patchscopes ook nieuwe mogelijkheden, zoals het gebruik van een krachtiger model om de representaties van een kleiner model uit te leggen, en ontgrendelt het nieuwe toepassingen, zoals zelfcorrectie in multi-hop redenering.
In de kern van de geneeskunde ligt de arts-patiëntdialoog, waar vaardige anamnese de weg effent voor een accurate diagnose, effectief beheer en blijvend vertrouwen. Kunstmatige Intelligentie (AI)-systemen die diagnostische dialogen kunnen voeren, zouden de toegankelijkheid, consistentie en kwaliteit van zorg kunnen vergroten. Het benaderen van de expertise van clinici blijft echter een grote uitdaging. Hier introduceren we AMIE (Articulate Medical Intelligence Explorer), een op Large Language Models (LLM) gebaseerd AI-systeem dat is geoptimaliseerd voor diagnostische dialogen. AMIE maakt gebruik van een innovatieve, op zelfspel gebaseerde gesimuleerde omgeving met geautomatiseerde feedbackmechanismen om leren te schalen over diverse ziektebeelden, specialismen en contexten. We hebben een raamwerk ontworpen voor het evalueren van klinisch betekenisvolle prestatie-aspecten, waaronder anamnese, diagnostische nauwkeurigheid, beheersingsredenering, communicatievaardigheden en empathie. We vergeleken de prestaties van AMIE met die van huisartsen (PCPs) in een gerandomiseerd, dubbelblind cross-over onderzoek van tekstgebaseerde consulten met gevalideerde patiëntacteurs in de stijl van een Objective Structured Clinical Examination (OSCE). De studie omvatte 149 casussen van klinische aanbieders uit Canada, het VK en India, 20 PCPs voor vergelijking met AMIE, en evaluaties door specialisten en patiëntacteurs. AMIE toonde een grotere diagnostische nauwkeurigheid en superieure prestaties op 28 van de 32 aspecten volgens specialisten en op 24 van de 26 aspecten volgens patiëntacteurs. Ons onderzoek kent enkele beperkingen en moet met de nodige voorzichtigheid worden geïnterpreteerd. Clinici waren beperkt tot onbekende synchrone tekstchat, wat grootschalige LLM-patiëntinteracties mogelijk maakt, maar niet representatief is voor de gebruikelijke klinische praktijk. Hoewel verder onderzoek nodig is voordat AMIE naar de echte wereld kan worden vertaald, vertegenwoordigen de resultaten een mijlpaal in de richting van conversatiegerichte diagnostische AI.
Grote taalmodellen die getraind zijn op enorme corpora van gegevens van het web kunnen gevoelige of privégegevens onthouden en reproduceren, wat zowel juridische als ethische zorgen oproept. Het afleren, of het afstemmen van modellen om informatie uit hun trainingsgegevens te vergeten, biedt ons een manier om privégegevens na de training te beschermen. Hoewel er verschillende methoden bestaan voor dergelijk afleren, is het onduidelijk in hoeverre deze resulteren in modellen die equivalent zijn aan die waarbij de te vergeten gegevens nooit zijn geleerd. Om deze uitdaging aan te pakken, presenteren we TOFU, een Task of Fictitious Unlearning, als een benchmark die bedoeld is om ons begrip van afleren te verdiepen. We bieden een dataset van 200 diverse synthetische auteurprofielen, elk bestaande uit 20 vraag-antwoordparen, en een subset van deze profielen genaamd de forget set die dient als doelwit voor afleren. We stellen een reeks metriek samen die samen een holistisch beeld geven van de effectiviteit van afleren. Tot slot bieden we een set basisresultaten van bestaande afleralgoritmen. Belangrijk is dat geen van de baselines die we beschouwen effectief afleren laten zien, wat blijvende inspanningen motiveert om benaderingen voor afleren te ontwikkelen die modellen effectief afstemmen zodat ze zich echt gedragen alsof ze nooit op de forget data zijn getraind.
Dynamische synthese van nieuwe perspectieven heeft als doel de temporele evolutie van visuele inhoud in video's vast te leggen. Bestaande methoden hebben moeite om beweging en structuur te onderscheiden, vooral in scenario's waar cameraposities onbekend of beperkt zijn in vergelijking met objectbeweging. Bovendien is het, met alleen informatie uit referentiebeelden, buitengewoon uitdagend om onzichtbare gebieden die verborgen of gedeeltelijk waargenomen zijn in de gegeven video's, te hallucineren. Om deze problemen aan te pakken, finetunen we eerst een vooraf getraind RGB-D diffusiemodel op de videoframes met behulp van een aanpassingstechniek. Vervolgens destilleren we de kennis van het gefinetunede model naar een 4D-representatie die zowel dynamische als statische Neural Radiance Fields (NeRF) componenten omvat. De voorgestelde pijplijn bereikt geometrische consistentie terwijl de scène-identiteit behouden blijft. We voeren uitgebreide experimenten uit om de effectiviteit van de voorgestelde methode kwalitatief en kwantitatief te evalueren. Onze resultaten tonen de robuustheid en het nut van onze aanpak in uitdagende gevallen, wat de dynamische synthese van nieuwe perspectieven verder vooruithelpt.
Multi-modale grote taalmodellen hebben indrukwekkende prestaties laten zien bij verschillende taken in verschillende modaliteiten. Bestaande multi-modale modellen leggen echter vooral de nadruk op het vastleggen van globale informatie binnen elke modaliteit, terwijl het belang van het waarnemen van lokale informatie tussen modaliteiten wordt verwaarloosd. Hierdoor ontbreekt het deze modellen aan het vermogen om de fijnmazige details van invoergegevens effectief te begrijpen, wat hun prestaties beperkt bij taken die een meer genuanceerd begrip vereisen. Om deze beperking aan te pakken, is er een dringende behoefte aan het ontwikkelen van modellen die een fijnmazig begrip over meerdere modaliteiten mogelijk maken, waardoor hun toepasbaarheid op een breed scala aan taken wordt verbeterd. In dit artikel stellen we LEGO voor, een taalversterkt multi-modale grondingsmodel. Naast het vastleggen van globale informatie, zoals andere multi-modale modellen, blinkt ons voorgestelde model uit in taken die een gedetailleerd begrip van lokale informatie binnen de invoer vereisen. Het toont een nauwkeurige identificatie en lokalisatie van specifieke regio's in afbeeldingen of momenten in video's. Om dit doel te bereiken, hebben we een gevarieerde pijplijn voor datasetconstructie ontworpen, wat resulteert in een multi-modale, multi-granulariteit dataset voor modeltraining. De code, dataset en demo van ons model zijn te vinden op https://github.com/lzw-lzw/LEGO.
Diffusiegebaseerde videobewerking heeft indrukwekkende kwaliteit bereikt en kan zowel de globale stijl, lokale structuur als attributen van gegeven video-invoer transformeren, volgens tekstuele bewerkingsprompts. Dergelijke oplossingen brengen echter doorgaans zware geheugen- en rekenkosten met zich mee om temporeel coherente frames te genereren, hetzij in de vorm van diffusie- inversie en/of cross-frame aandacht. In dit artikel voeren we een analyse uit van dergelijke inefficiënties en stellen we eenvoudige maar effectieve aanpassingen voor die aanzienlijke versnellingen mogelijk maken terwijl de kwaliteit behouden blijft. Bovendien introduceren we Object-Centric Diffusion, afgekort als OCD, om de latentie verder te verminderen door berekeningen meer toe te wijzen aan bewerkte voorgrondregio's die naar alle waarschijnlijkheid belangrijker zijn voor de perceptuele kwaliteit. We bereiken dit door twee nieuwe voorstellen: i) Object-Centric Sampling, waarbij de diffusiestappen die worden besteed aan opvallende regio's of de achtergrond worden ontkoppeld, en het grootste deel van de modelcapaciteit aan de eerste wordt toegewezen, en ii) Object-Centric 3D Token Merging, wat de kosten van cross-frame aandacht vermindert door redundante tokens in onbelangrijke achtergrondregio's samen te voegen. Beide technieken zijn direct toepasbaar op een gegeven videobewerkingsmodel zonder hertraining, en kunnen de geheugen- en rekenkosten ervan drastisch verminderen. We evalueren onze voorstellen op inversiegebaseerde en controlesignaalgebaseerde bewerkingspijplijnen en tonen een latentiereductie tot 10x bij een vergelijkbare synthesekwaliteit.
Dit artikel introduceert contrastieve uitlijningsinstructies (AlignInstruct) om twee uitdagingen in machinaal vertalen (MT) bij grote taalmodelen (LLMs) aan te pakken. De eerste is de uitbreiding van ondersteunde talen naar voorheen onbekende talen. De tweede betreft het gebrek aan data in talen met weinig bronnen. Modelafstemming via MT-instructies (MTInstruct) is een rechttoe rechtaan aanpak voor de eerste uitdaging. MTInstruct wordt echter beperkt door zwakke cross-linguale signalen die inherent zijn aan de tweede uitdaging. AlignInstruct benadrukt cross-linguale supervisie via een cross-linguale discriminator die is opgebouwd met behulp van statistische woorduitlijningen. Onze resultaten, gebaseerd op het afstemmen van de BLOOMZ-modellen (1b1, 3b en 7b1) in maximaal 24 onbekende talen, toonden aan dat: (1) LLMs effectief onbekende talen kunnen vertalen met MTInstruct; (2) AlignInstruct leidde tot consistente verbeteringen in vertaalkwaliteit over 48 vertaalrichtingen waarbij Engels betrokken was; (3) Discriminator-gebaseerde instructies presteerden beter dan hun generatieve tegenhangers als cross-linguale instructies; (4) AlignInstruct verbeterde de prestaties in 30 zero-shot richtingen.
We tonen aan dat inhoud op het web vaak in vele talen wordt vertaald, en de lage kwaliteit van deze multi-way vertalingen suggereert dat ze waarschijnlijk zijn gemaakt met behulp van Machinevertaling (MT). Multi-way parallelle, machinaal gegenereerde inhoud domineert niet alleen de vertalingen in talen met minder bronnen; het vormt ook een groot deel van de totale webinhoud in die talen. We vinden ook bewijs van een selectiebias in het type inhoud dat in vele talen wordt vertaald, wat consistent is met het massaal vertalen van Engelse inhoud van lage kwaliteit naar vele talen met minder bronnen, via MT. Ons werk roept serieuze zorgen op over het trainen van modellen zoals meertalige grote taalmodellen op zowel eentalige als tweetalige data die van het web zijn geschraapt.