Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wiskundig redeneren vormt een aanzienlijke uitdaging voor taalmodellen vanwege de complexe en gestructureerde aard ervan. In dit artikel introduceren we DeepSeekMath 7B, dat voortbouwt op het vooraf trainen van DeepSeek-Coder-Base-v1.5 7B met 120B wiskundige tokens afkomstig van Common Crawl, samen met natuurlijke taal- en coderingsdata. DeepSeekMath 7B heeft een indrukwekkende score van 51,7% behaald op het competitieniveau MATH-benchmark zonder gebruik te maken van externe toolkits en stemtechnieken, wat het prestatieniveau van Gemini-Ultra en GPT-4 benadert. Zelfconsistentie over 64 samples van DeepSeekMath 7B behaalt 60,9% op MATH. Het wiskundig redeneervermogen van DeepSeekMath is toe te schrijven aan twee belangrijke factoren: Ten eerste benutten we het aanzienlijke potentieel van publiek beschikbare webdata via een zorgvuldig ontworpen dataselectiepijplijn. Ten tweede introduceren we Group Relative Policy Optimization (GRPO), een variant van Proximal Policy Optimization (PPO), dat het wiskundig redeneervermogen versterkt terwijl het geheugengebruik van PPO gelijktijdig wordt geoptimaliseerd.
Text-to-image-modellen bieden een nieuw niveau van creatieve flexibiliteit door gebruikers in staat te stellen het beeldgeneratieproces te sturen via natuurlijke taal. Het blijft echter een uitdaging om met deze modellen hetzelfde onderwerp consistent weer te geven bij diverse prompts. Bestaande benaderingen fine-tunen het model om het nieuwe woorden aan te leren die specifieke door de gebruiker geleverde onderwerpen beschrijven, of voegen beeldconditionering toe aan het model. Deze methoden vereisen tijdrovende optimalisatie per onderwerp of grootschalige voorafgaande training. Bovendien hebben ze moeite om gegenereerde beelden af te stemmen op tekstprompts en ondervinden ze problemen bij het weergeven van meerdere onderwerpen. Hier presenteren we ConsiStory, een trainingsvrije aanpak die consistente onderwerpgeneratie mogelijk maakt door de interne activeringen van het vooraf getrainde model te delen. We introduceren een onderwerpgedreven gedeeld aandachtblok en correspondentiegebaseerde feature-injectie om onderwerpconsistentie tussen beelden te bevorderen. Daarnaast ontwikkelen we strategieën om lay-outdiversiteit te stimuleren terwijl de onderwerpconsistentie behouden blijft. We vergelijken ConsiStory met een reeks baselines en demonstreren state-of-the-art prestaties op het gebied van onderwerpconsistentie en tekstafstemming, zonder ook maar één optimalisatiestap te vereisen. Ten slotte kan ConsiStory zich natuurlijk uitbreiden naar scenario's met meerdere onderwerpen en zelfs trainingsvrije personalisatie mogelijk maken voor veelvoorkomende objecten.
Om de open-sourcegemeenschap een beter inzicht te geven in Mixture-of-Experts (MoE)-gebaseerde grote taalmodellen (LLMs), trainen en publiceren we OpenMoE, een reeks volledig open-source en reproduceerbare decoder-only MoE LLMs, variërend van 650M tot 34B parameters en getraind op meer dan 1T tokens. Ons onderzoek bevestigt dat MoE-gebaseerde LLMs een gunstigere kosten-effectiviteitsverhouding kunnen bieden dan dichte LLMs, wat het potentiële nut voor toekomstige LLM-ontwikkeling benadrukt. Een andere belangrijke bijdrage van deze studie is een diepgaande analyse van de routeringsmechanismen binnen onze OpenMoE-modellen, wat leidt tot drie significante bevindingen: Context-Onafhankelijke Specialisatie, Vroegtijdig Routeringsleren en Drop-naar-het-Einde. We ontdekten dat routeringsbeslissingen in MoE-modellen voornamelijk gebaseerd zijn op token-ID's, met minimale contextrelevantie. De token-naar-expert-toewijzingen worden vroeg in de pre-trainingsfase bepaald en blijven grotendeels ongewijzigd. Deze onvolmaakte routering kan leiden tot prestatieverlies, vooral bij sequentiële taken zoals meerzijdige gesprekken, waarbij tokens die later in een reeks verschijnen, eerder geneigd zijn te worden gedropt. Ten slotte heroverwegen we ons ontwerp op basis van de bovengenoemde observaties en analyses. Om toekomstige MoE LLM-ontwikkeling te vergemakkelijken, stellen we potentiële strategieën voor om de geconstateerde problemen te mitigeren en de standaard MoE LLM-ontwerpen verder te verbeteren.
State-space modellen (SSM's) hebben recentelijk concurrerende prestaties laten zien ten opzichte van transformers bij grootschalige taalmodelleringsbenchmarks, terwijl ze lineaire tijd- en geheugencomplexiteit bereiken als functie van sequentielengte. Mamba, een recent uitgebracht SSM-model, toont indrukwekkende prestaties in zowel taalmodellering als taken voor het verwerken van lange sequenties. Tegelijkertijd hebben mixture-of-expert (MoE) modellen opmerkelijke prestaties getoond terwijl ze de reken- en latentiekosten van inferentie aanzienlijk verlagen, ten koste van een groter geheugenverbruik. In dit artikel presenteren we BlackMamba, een nieuwe architectuur die de Mamba SSM combineert met MoE om de voordelen van beide te benutten. We demonstreren dat BlackMamba concurrerend presteert ten opzichte van zowel Mamba als transformer-baselines, en overtreft in inferentie- en trainings-FLOPs. We trainen volledig en openbaren 340M/1.5B en 630M/2.8B BlackMamba-modellen op 300B tokens van een aangepaste dataset. We tonen aan dat BlackMamba zowel de voordelen van SSM- als MoE-architecturen erft en combineert, waarbij lineaire-complexiteit generatie van SSM wordt gecombineerd met goedkope en snelle inferentie van MoE. We geven alle gewichten, checkpoints en inferentiecode openbaar. Inferentiecode is beschikbaar op: https://github.com/Zyphra/BlackMamba
Interpretable machine learning is de afgelopen decennium enorm in belang toegenomen, aangewakkerd door de opkomst van steeds grotere datasets en diepe neurale netwerken. Tegelijkertijd hebben grote taalmodelen (LLMs) opmerkelijke prestaties laten zien in een breed scala aan taken, wat kansen biedt om mogelijkheden binnen interpretable machine learning opnieuw te overdenken. Met name het vermogen om in natuurlijke taal uit te leggen stelt LLMs in staat om de schaal en complexiteit van patronen die aan een mens kunnen worden gepresenteerd, te vergroten. Deze nieuwe mogelijkheden brengen echter ook nieuwe uitdagingen met zich mee, zoals hallucinerende verklaringen en enorme rekenkosten. In dit position paper beginnen we met een overzicht van bestaande methoden om het opkomende veld van LLM-interpretatie te evalueren (zowel het interpreteren van LLMs als het gebruik van LLMs voor uitleg). Wij stellen dat LLMs, ondanks hun beperkingen, de kans bieden om interpretability opnieuw te definiëren met een ambitieuzere scope in vele toepassingen, inclusief het auditen van LLMs zelf. We belichten twee opkomende onderzoeksprioriteiten voor LLM-interpretatie: het gebruik van LLMs om nieuwe datasets direct te analyseren en om interactieve verklaringen te genereren.
Het afstemmen van taalmodelen (LMs) op gecureerde menselijke feedback is cruciaal om hun gedrag in praktijktoepassingen te beheersen. Verschillende recente beleidsoptimalisatiemethoden, zoals DPO en SLiC, dienen als veelbelovende alternatieven voor de traditionele Reinforcement Learning from Human Feedback (RLHF)-aanpak. In de praktijk komt menselijke feedback vaak in de vorm van een gerangschikte lijst van meerdere reacties om de kosten van het lezen van prompts te amortiseren. Meerdere reacties kunnen ook worden gerangschikt door beloningsmodellen of AI-feedback. Er ontbreekt een dergelijke studie over het direct aanpassen aan een lijst van reacties. In dit werk formuleren we de afstemming van LMs als een lijstgewijs rangschikkingsprobleem en beschrijven we het Listwise Preference Optimization (LiPO)-framework, waarbij het beleid mogelijk effectiever kan leren van een gerangschikte lijst van plausibele reacties gegeven de prompt. Dit perspectief legt een expliciete verbinding met Learning-to-Rank (LTR), waar de meeste bestaande voorkeursoptimalisatiewerkzaamheden kunnen worden gekoppeld aan bestaande rangschikkingsdoelen, vooral paarsgewijze. In navolging van deze verbinding bieden we een onderzoek naar rangschikkingsdoelen die niet goed zijn bestudeerd voor LM-afstemming, met DPO en SLiC als speciale gevallen wanneer de lijstgrootte twee is. In het bijzonder belichten we een specifieke methode, LiPO-{\lambda}, die gebruikmaakt van een state-of-the-art lijstgewijs rangschikkingsdoel en elk voorkeurspaar op een meer geavanceerde manier weegt. We laten zien dat LiPO-{\lambda} DPO en SLiC met een duidelijke marge kan overtreffen op twee voorkeursafstemmingstaken.
Recente tekst-naar-video diffusiemodellen hebben indrukwekkende vooruitgang geboekt. In de praktijk willen gebruikers vaak de mogelijkheid hebben om objectbeweging en camerabeweging onafhankelijk te kunnen beheersen voor het maken van aangepaste video's. Huidige methoden richten zich echter niet op het afzonderlijk beheersen van objectbeweging en camerabeweging in een ontkoppelde manier, wat de bestuurbaarheid en flexibiliteit van tekst-naar-video modellen beperkt. In dit artikel introduceren we Direct-a-Video, een systeem dat gebruikers in staat stelt om onafhankelijk bewegingen voor één of meerdere objecten en/of camerabewegingen te specificeren, alsof ze een video regisseren. We stellen een eenvoudige maar effectieve strategie voor voor de ontkoppelde beheersing van objectbeweging en camerabeweging. Objectbeweging wordt beheerst via ruimtelijke cross-attention modulatie met behulp van de inherente prioriteiten van het model, zonder dat extra optimalisatie nodig is. Voor camerabeweging introduceren we nieuwe temporele cross-attention lagen om kwantitatieve camerabewegingsparameters te interpreteren. We gebruiken verder een augmentatie-gebaseerde aanpak om deze lagen op een kleine dataset op een zelfgesuperviseerde manier te trainen, waardoor expliciete bewegingsannotatie overbodig wordt. Beide componenten werken onafhankelijk, waardoor individuele of gecombineerde beheersing mogelijk is, en kunnen generaliseren naar open-domein scenario's. Uitgebreide experimenten tonen de superioriteit en effectiviteit van onze methode aan. Projectpagina: https://direct-a-video.github.io/.
We introduceren InteractiveVideo, een gebruikersgericht framework voor videogeneratie. In tegenstelling tot traditionele generatieve benaderingen die werken op basis van door gebruikers aangeleverde afbeeldingen of tekst, is ons framework ontworpen voor dynamische interactie, waardoor gebruikers het generatieve model tijdens het hele generatieproces kunnen instrueren via verschillende intuïtieve mechanismen, zoals tekst- en afbeeldingsprompts, schilderen, slepen-en-neerzetten, enz. We stellen een Synergistisch Multimodaal Instructiemechanisme voor, dat is ontworpen om multimodale instructies van gebruikers naadloos te integreren in generatieve modellen, waardoor een coöperatieve en responsieve interactie tussen gebruikersinvoer en het generatieve proces wordt gefaciliteerd. Deze aanpak maakt iteratieve en fijnmazige verfijning van het generatieresultaat mogelijk door middel van precieze en effectieve gebruikersinstructies. Met InteractiveVideo krijgen gebruikers de flexibiliteit om belangrijke aspecten van een video nauwkeurig aan te passen. Ze kunnen de referentieafbeelding bewerken, semantiek aanpassen en videobewegingen verfijnen totdat aan hun vereisten volledig is voldaan. Code, modellen en een demo zijn beschikbaar op https://github.com/invictus717/InteractiveVideo.
Gestructureerd snoeien van moderne grote taalmodellen (LLMs) is naar voren gekomen als een manier om hun hoge rekenbehoeften te verminderen. Breedtesnoei verkleint de grootte van projectie-gewichtmatrices (bijvoorbeeld door aandachtskoppen te verwijderen) terwijl het aantal lagen behouden blijft. Dieptesnoei daarentegen verwijdert hele lagen of blokken, terwijl de grootte van de overgebleven gewichten ongewijzigd blijft. Het meeste huidige onderzoek richt zich op ofwel alleen breedtesnoei of een combinatie van breedte- en dieptesnoei, met weinig vergelijkende analyse tussen de twee eenheden (breedte versus diepte) wat betreft hun impact op de inferentie-efficiëntie van LLMs. In dit werk tonen we aan dat een eenvoudige dieptesnoeiaanpak kan concurreren met recente breedtesnoeimethoden wat betreft zero-shot taakprestaties. Onze snoeimethode verbetert de inferentiesnelheden, vooral onder geheugenbeperkte omstandigheden die beperkte batchgroottes vereisen voor het uitvoeren van LLMs, waar breedtesnoei niet effectief is. We hopen dat dit werk kan helpen bij het implementeren van LLMs op lokale en edge-apparaten.
Het uitbreiden van grote taalmodellen (LLMs) om audio te begrijpen — inclusief niet-spraakgeluiden en non-verbale spraak — is van cruciaal belang voor diverse real-world toepassingen van LLMs. In dit artikel stellen we Audio Flamingo voor, een nieuw audiotalenmodel met 1) sterke audio-begripvaardigheden, 2) het vermogen om zich snel aan te passen aan onbekende taken via in-context leren en retrieval, en 3) sterke multi-turn dialoogvaardigheden. We introduceren een reeks trainingstechnieken, architectuurontwerp en datastrategieën om ons model met deze vaardigheden te versterken. Uitgebreide evaluaties over verschillende audio-begriptaken bevestigen de effectiviteit van onze methode, waarbij nieuwe state-of-the-art benchmarks worden gevestigd.
Er bestaat een zintuiglijke kloof tussen de aarde die mensen bewonen en de digitale domeinen waarin moderne AI-agenten worden gecreëerd. Om AI-agenten te ontwikkelen die net zo flexibel kunnen waarnemen, denken en handelen als mensen in realistische omgevingen, is het essentieel om de realiteitskloof tussen de digitale en fysieke werelden te overbruggen. Hoe kunnen we agenten belichamen in een omgeving die even rijk en divers is als die waarin wij leven, zonder de beperkingen die worden opgelegd door echte hardware en controle? Met dit doel introduceren we V-IRL: een platform dat agenten in staat stelt om op schaal te interageren met de echte wereld in een virtuele, maar realistische omgeving. Ons platform dient als een speelplaats voor het ontwikkelen van agenten die diverse praktische taken kunnen uitvoeren, en als een uitgebreide testomgeving voor het meten van vooruitgang in vaardigheden die variëren van waarneming en besluitvorming tot interactie met real-world data over de hele wereld.
In het licht van recente vooruitgang in multimodale Large Language Models (LLMs), is er toenemende aandacht voor het opschalen ervan van beeld-tekstgegevens naar meer informatieve real-world video's. Vergeleken met statische afbeeldingen, stelt video unieke uitdagingen voor effectieve grootschalige voorafgaande training vanwege de modellering van zijn spatiotemporele dynamiek. In dit artikel gaan we in op dergelijke beperkingen in video-taal voorafgaande training met een efficiënte videodecompositie die elke video representeert als keyframes en temporele bewegingen. Deze worden vervolgens aangepast aan een LLM met behulp van goed ontworpen tokenizers die visuele en temporele informatie discretiseren als een paar tokens, waardoor een verenigde generatieve voorafgaande training van video's, afbeeldingen en tekst mogelijk wordt. Tijdens inferentie worden de gegenereerde tokens van de LLM zorgvuldig teruggebracht naar de oorspronkelijke continue pixelruimte om diverse video-inhoud te creëren. Ons voorgestelde framework is zowel in staat om beeld- en video-inhoud te begrijpen als te genereren, zoals blijkt uit de competitieve prestaties op 13 multimodale benchmarks in beeld- en videobegrip en -generatie. Onze code en modellen zullen beschikbaar zijn op https://video-lavit.github.io.
De kracht van grote taalmodellen (LLMs) is aangetoond door middel van talrijke gegevens en rekenbronnen. De toepassing van taalmodellen op mobiele apparaten wordt echter geconfronteerd met enorme uitdagingen op het gebied van reken- en geheugenkosten, waardoor er dringend behoefte is aan kleine taalmodellen met hoge prestaties. Beperkt door het zeer complexe trainingsproces, zijn er veel details voor het optimaliseren van taalmodellen die zelden zorgvuldig zijn bestudeerd. In deze studie, gebaseerd op een klein taalmodel met 1B parameters, ontwerpen we zorgvuldig een reeks empirische studies om het effect van elke component te analyseren. Drie perspectieven worden voornamelijk besproken, namelijk neurale architectuur, parameterinitialisatie en optimalisatiestrategie. Verschillende ontwerpformules worden empirisch bewezen bijzonder effectief te zijn voor kleine taalmodellen, waaronder tokenizercompressie, architectuuraanpassingen, parameterovererving en meervoudige trainingsrondes. Vervolgens trainen we PanGu-pi-1B Pro en PanGu-pi-1.5B Pro op 1.6T meertalige corpora, volgens de vastgestelde formules. Experimentele resultaten tonen aan dat de verbeterde optimalisatie en architectuur een opmerkelijke gemiddelde verbetering van 8.87 opleveren op benchmark-evaluatiesets voor PanGu-pi-1B Pro. Daarnaast overtreft PanGu-pi-1.5B Pro een reeks SOTA-modellen met grotere modelgroottes, wat de superieure prestaties valideert. De code zal binnenkort worden vrijgegeven (https://github.com/YuchuanTian/RethinkTinyLM).
Recente studies hebben aangetoond dat code-taalmodelleermodellen op grote schaal aanzienlijke prestatieverbeteringen laten zien bij downstream taken, zoals codegeneratie. De meeste bestaande werken over code-representatie leren trainen echter modellen op een schaal van honderden miljoenen parameters met zeer beperkte pretrainingscorpora. In dit werk versterken we code-representatie leren met een enorme hoeveelheid codedata via een tweestaps pretrainingsschema. We trainen eerst de encoders via een mix die zowel willekeur in gemaskeerde taalmodellering als het structurele aspect van programmeertalen benut. Vervolgens verbeteren we de representaties via contrastief leren met harde negatieven en harde positieven die op een onbewaakte manier worden geconstrueerd. We ontwikkelen een kant-en-klare encodermodel dat consequent de bestaande modellen overtreft op een breed scala aan downstream taken met grote marges. Om de factoren te begrijpen die bijdragen aan succesvol code-representatie leren, voeren we gedetailleerde ablatie-onderzoeken uit en delen we onze bevindingen over (i) een op maat gemaakt en effectief token-level denoisingschema voor broncode; (ii) het belang van harde negatieven en harde positieven; (iii) hoe het voorgestelde bimodale contrastieve leren de prestaties van cross-linguale semantische zoekopdrachten verbetert; en (iv) hoe de pretrainingsschema's bepalen hoe de prestaties van downstream taken schalen met de modelgrootte.
Grootschalige Text-to-Image (T2I) diffusiemodellen hebben de afgelopen jaren een revolutie teweeggebracht in beeldgeneratie. Hoewel ze over diverse en hoogwaardige generatiemogelijkheden beschikken, blijft het vertalen van deze mogelijkheden naar gedetailleerde beeldbewerking een uitdaging. In dit artikel stellen we DiffEditor voor om twee zwakke punten in bestaande diffusiegebaseerde beeldbewerking aan te pakken: (1) in complexe scenario's ontbreekt het vaak aan nauwkeurigheid in de bewerkingsresultaten en vertonen ze onverwachte artefacten; (2) het ontbreekt aan flexibiliteit om bewerkingsoperaties te harmoniseren, zoals het bedenken van nieuwe inhoud. In onze oplossing introduceren we beeldprompts in gedetailleerde beeldbewerking, die samenwerken met de tekstprompt om de bewerkingsinhoud beter te beschrijven. Om de flexibiliteit te vergroten terwijl de inhoudsconsistentie behouden blijft, combineren we lokaal stochastische differentiaalvergelijkingen (SDE) met de gewone differentiaalvergelijking (ODE) sampling. Daarnaast integreren we regionale scoregebaseerde gradiëntbegeleiding en een tijdreizstrategie in de diffusiesampling, wat de bewerkingskwaliteit verder verbetert. Uitgebreide experimenten tonen aan dat onze methode efficiënt state-of-the-art prestaties kan bereiken bij verschillende gedetailleerde beeldbewerkingstaken, waaronder bewerkingen binnen een enkele afbeelding (bijvoorbeeld objectverplaatsing, formaatwijziging en inhoudsversleping) en tussen afbeeldingen (bijvoorbeeld uiterlijk vervangen en objectplakken). Onze broncode is vrijgegeven op https://github.com/MC-E/DragonDiffusion.