Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren DeepSeek-Prover-V1.5, een open-source taalmodel ontworpen voor stellingenbewijzen in Lean 4, dat DeepSeek-Prover-V1 verbetert door zowel de trainings- als de inferentieprocessen te optimaliseren. Het model is voorgetraind op DeepSeekMath-Base met specialisatie in formele wiskundige talen en ondergaat supervised fine-tuning met behulp van een verbeterde dataset voor formeel stellingenbewijzen, afgeleid van DeepSeek-Prover-V1. Verdere verfijning wordt bereikt door reinforcement learning op basis van feedback van een bewijsassistent (RLPAF). Naast de single-pass benadering voor het genereren van volledige bewijzen van DeepSeek-Prover-V1, stellen we RMaxTS voor, een variant van Monte-Carlo tree search die een intrinsieke-beloningsgedreven verkenningstrategie gebruikt om diverse bewijspaden te genereren. DeepSeek-Prover-V1.5 toont aanzienlijke verbeteringen ten opzichte van DeepSeek-Prover-V1 en behaalt nieuwe state-of-the-art resultaten op de testset van de middelbare schoolniveau miniF2F-benchmark (63,5%) en de bachelor-niveau ProofNet-benchmark (25,3%).
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt, maar het gangbare leerparadigma behandelt LLMs als passieve informatieopslagplaatsen, waarbij hun potentieel voor actief leren en afstemming wordt verwaarloosd. Sommige benaderingen trainen LLMs met hun eigen gegenereerde synthetische data, waarbij de mogelijkheid van actieve afstemming wordt onderzocht. Er bestaat echter nog steeds een groot verschil tussen deze eenmalige afstemmingsmethoden en de continue automatische afstemming van mensen. In dit artikel introduceren we I-SHEEP, een Iteratief Zelf-Verbeteringsparadigma. Dit mensachtige paradigma stelt LLMs in staat om zichzelf vanaf nul continu af te stemmen zonder externe input. Vergeleken met de eenmalige afstemmingsmethode Dromedary (sun2023principledriven), die verwijst naar de eerste iteratie in dit artikel, kan I-SHEEP de capaciteiten van zowel Qwen- als Llama-modellen aanzienlijk verbeteren. I-SHEEP behaalt een maximale relatieve verbetering van 78,2\% in de Alpaca Eval, 24,0\% in de MT Bench, en een absolute stijging van 8,88\% in de IFEval-nauwkeurigheid over opeenvolgende iteraties in het Qwen-1.5 72B-model. Daarnaast overtreft I-SHEEP het basismodel in verschillende standaard benchmark-generatietaken, met een gemiddelde verbetering van 24,77\% in code-generatietaken, 12,04\% in TrivialQA, en 20,29\% in SQuAD. We bieden ook nieuwe inzichten op basis van de experimentresultaten. Onze codes, datasets en modellen zijn beschikbaar op https://anonymous.4open.science/r/I-SHEEP.
Het trainen van een neuraal netwerk is een monolithische onderneming, vergelijkbaar met het uithakken van kennis in steen: zodra het proces is voltooid, is het bewerken van de kennis in een netwerk bijna onmogelijk, aangezien alle informatie is verdeeld over de gewichten van het netwerk. Hier onderzoeken we een eenvoudig, overtuigend alternatief door de representatiekracht van diepe neurale netwerken te combineren met de flexibiliteit van een database. Door de taak van beeldclassificatie op te splitsen in beeldgelijkenis (van een vooraf getrainde embedding) en zoeken (via snelle nearest neighbor retrieval uit een kennisdatabase), bouwen we een eenvoudig en flexibel visueel geheugen met de volgende belangrijke mogelijkheden: (1.) De mogelijkheid om flexibel gegevens toe te voegen op verschillende schalen: van individuele voorbeelden tot hele klassen en gegevens op miljardenschaal; (2.) De mogelijkheid om gegevens te verwijderen door middel van ontleren en geheugenpruning; (3.) Een interpreteerbaar beslissingsmechanisme waarop we kunnen ingrijpen om het gedrag te sturen. Samen demonstreren deze mogelijkheden uitgebreid de voordelen van een expliciet visueel geheugen. We hopen dat het kan bijdragen aan een discussie over hoe kennis zou moeten worden gerepresenteerd in diepe vision-modellen – verder dan het uithakken in ``stenen'' gewichten.
Dataset-distillatie of -condensatie heeft als doel een grootschalige trainingsdataset te comprimeren tot een veel kleinere synthetische dataset, zodat de trainingsprestaties van de gedistilleerde en originele sets op neurale netwerken vergelijkbaar zijn. Hoewel het aantal trainingsmonsters aanzienlijk kan worden verminderd, zijn de huidige state-of-the-art methoden sterk afhankelijk van enorme soft labels om bevredigende prestaties te bereiken. Als gevolg hiervan kan de benodigde opslag zelfs vergelijkbaar zijn met die van originele datasets, vooral voor grootschalige datasets. Om dit probleem op te lossen, stellen we in plaats van het opslaan van deze zware labels een nieuw label-verlichtingsframework voor, genaamd HeLlO, dat gericht is op effectieve image-to-label projectors, waarmee synthetische labels direct online kunnen worden gegenereerd uit synthetische afbeeldingen. Specifiek maken we, om dergelijke projectors te construeren, gebruik van voorkennis in open-source foundation modellen, zoals CLIP, en introduceren we een LoRA-achtige fine-tuning strategie om de kloof tussen vooraf getrainde en doelverdelingen te verkleinen, zodat originele modellen voor soft-label generatie kunnen worden gedistilleerd in een groep low-rank matrices. Bovendien wordt een effectieve beeldoptimalisatiemethode voorgesteld om de potentiële fout tussen de originele en gedistilleerde labelgeneratoren verder te verminderen. Uitgebreide experimenten tonen aan dat we met slechts ongeveer 0,003% van de originele opslag die nodig is voor een complete set soft labels, vergelijkbare prestaties bereiken als de huidige state-of-the-art dataset-distillatiemethoden op grootschalige datasets. Onze code zal beschikbaar worden gesteld.
Het synthetiseren van video's met rijke bewegingen en temporele consistentie blijft een uitdaging in kunstmatige intelligentie, vooral bij het omgaan met langere tijdsduren. Bestaande tekst-naar-video (T2V) modellen maken vaak gebruik van ruimtelijke cross-attentie voor tekstcontrole, waarbij verschillende frame-generaties op equivalente wijze worden begeleid zonder framespecifieke tekstuele begeleiding. Hierdoor is het vermogen van het model om de temporele logica in prompts te begrijpen en video's met samenhangende beweging te genereren beperkt. Om deze beperking aan te pakken, introduceren we FancyVideo, een innovatieve videogenerator die het bestaande tekstcontrolemechanisme verbetert met de goed ontworpen Cross-frame Textual Guidance Module (CTGM). Specifiek integreert CTGM de Temporal Information Injector (TII), Temporal Affinity Refiner (TAR) en Temporal Feature Booster (TFB) respectievelijk aan het begin, midden en einde van cross-attentie om framespecifieke tekstuele begeleiding te bereiken. Ten eerste injecteert TII framespecifieke informatie uit latente kenmerken in tekstcondities, waardoor cross-frame tekstcondities worden verkregen. Vervolgens verfijnt TAR de correlatiematrix tussen cross-frame tekstcondities en latente kenmerken langs de tijdsdimensie. Tot slot versterkt TFB de temporele consistentie van latente kenmerken. Uitgebreide experimenten, bestaande uit zowel kwantitatieve als kwalitatieve evaluaties, tonen de effectiviteit van FancyVideo aan. Onze aanpak behaalt state-of-the-art T2V-generatieresultaten op de EvalCrafter-benchmark en vergemakkelijkt de synthese van dynamische en consistente video's. De video-resultaten zijn beschikbaar op https://fancyvideo.github.io/, en we zullen onze code en modelgewichten openbaar beschikbaar maken.
Hoewel veel capaciteiten van taalmodelen (LMs) verbeteren met een groter trainingsbudget, is de invloed van schaal op hallucinaties nog niet volledig begrepen. Hallucinaties komen in vele vormen voor, en er is geen universeel geaccepteerde definitie. We richten ons daarom op het bestuderen van alleen die hallucinaties waarbij een correct antwoord letterlijk in de trainingsset voorkomt. Om de inhoud van de trainingsdata volledig te controleren, construeren we een op een kennisgrafiek (KG) gebaseerde dataset en gebruiken deze om een reeks steeds grotere LMs te trainen. We ontdekken dat voor een vaste dataset grotere en langer getrainde LMs minder hallucineren. Echter, hallucineren op ≤5% van de trainingsdata vereist een model dat een orde van grootte groter is, en dus een orde van grootte meer rekenkracht, dan Hoffmann et al. (2022) rapporteerden als optimaal. Gezien deze kostbaarheid bestuderen we hoe hallucinatiedetectoren afhankelijk zijn van schaal. Hoewel we zien dat de grootte van de detector de prestaties op de uitvoer van een vast LM verbetert, vinden we een omgekeerde relatie tussen de schaal van het LM en de detecteerbaarheid van zijn hallucinaties.
Hoewel het trainen van grote taalmodellen (LLMs) vanaf nul inderdaad kan leiden tot modellen met unieke capaciteiten en sterke punten, brengt dit aanzienlijke kosten met zich mee en kan het redundantie in competenties veroorzaken. Kennisfusie heeft als doel bestaande LLMs met diverse architecturen en capaciteiten te integreren tot een krachtiger LLM door middel van lichtgewicht voortgezette training, waardoor de noodzaak voor kostbare LLM-ontwikkeling wordt verminderd. In dit werk stellen we een nieuw framework voor voor de kennisfusie van chat-LLMs via twee hoofdstadia, wat resulteert in FuseChat. Ten eerste voeren we paarsgewijze kennisfusie uit op bron-chat-LLMs met verschillende structuren en schalen om meerdere doel-LLMs met identieke structuur en grootte te creëren via lichtgewicht fine-tuning. Tijdens dit proces wordt een op statistieken gebaseerde tokenuitlijningsbenadering geïntroduceerd als hoeksteen voor het fuseren van LLMs met verschillende structuren. Ten tweede voegen we deze doel-LLMs samen binnen de parameterruimte, waarbij we een nieuwe methode voorstellen om de samenvoegingscoëfficiënten te bepalen op basis van de omvang van parameterupdates voor en na fine-tuning. We implementeren en valideren FuseChat met zes prominente chat-LLMs met diverse architecturen en schalen, waaronder OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct en Qwen-1.5-Chat-72B. Experimentele resultaten op twee instructievolgende benchmarks, AlpacaEval 2.0 en MT-Bench, tonen de superioriteit van FuseChat-7B aan ten opzichte van baseline-modellen van verschillende groottes. Ons model is zelfs vergelijkbaar met het grotere Mixtral-8x7B-Instruct en benadert GPT-3.5-Turbo-1106 op MT-Bench. Onze code, modelgewichten en gegevens zijn openbaar beschikbaar op https://github.com/fanqiwan/FuseAI.
Het Mixture of Experts (MoE)-framework is een populaire architectuur geworden voor grote taalmodellen vanwege de superieure prestaties ten opzichte van dichte modellen. Het trainen van MoE's vanaf nul op grote schaal is echter buitengewoon kostbaar. Bestaande methoden verminderen dit door meerdere dichte expertmodellen onafhankelijk voor te trainen en deze te gebruiken om een MoE te initialiseren. Dit gebeurt door de feed-forward netwerken (FFN) van de experts te gebruiken om de experts van de MoE te initialiseren, terwijl andere parameters worden samengevoegd. Deze methode beperkt echter het hergebruik van dichte modelparameters tot alleen de FFN-lagen, waardoor de voordelen bij het "upcyclen" van deze modellen naar MoE's worden beperkt. Wij stellen BAM (Branch-Attend-Mix) voor, een eenvoudige maar effectieve methode die dit tekort aanpakt. BAM maakt optimaal gebruik van gespecialiseerde dichte modellen door niet alleen hun FFN te gebruiken om de MoE-lagen te initialiseren, maar ook de aandachtsparameters van de experts volledig te benutten door ze te initialiseren in een zachte variant van Mixture of Attention (MoA)-lagen. We onderzoeken twee methoden voor het upcyclen van aandachtsparameters: 1) het initialiseren van aparte aandachtsexperts uit dichte modellen, inclusief alle aandachtsparameters voor de beste modelprestaties; en 2) het delen van sleutel- en waardeparameters over alle experts om de inferentie-efficiëntie te verbeteren. Om de efficiëntie verder te verbeteren, passen we een parallelle aandachtstransformerarchitectuur toe op MoE's, waardoor de aandachtsexperts en FFN-experts gelijktijdig kunnen worden berekend. Onze experimenten met zaadmodellen variërend van 590 miljoen tot 2 miljard parameters tonen aan dat BAM de baseline overtreft in zowel perplexiteit als prestaties op downstream taken, binnen dezelfde computationele en databeperkingen.
Dit artikel introduceert PeriodWave-Turbo, een model voor het genereren van hoogwaardige en efficiënte golfvormen via adversarial flow matching optimalisatie. Recentelijk zijn conditionele flow matching (CFM) generatieve modellen met succes toegepast voor taken in golfvormgeneratie, waarbij gebruik wordt gemaakt van een enkel vectorveldschattingsdoel voor training. Hoewel deze modellen hoogwaardige golfvormsignalen kunnen genereren, vereisen ze aanzienlijk meer ODE-stappen in vergelijking met GAN-gebaseerde modellen, die slechts één generatiestap nodig hebben. Bovendien ontbreekt er vaak hoogfrequente informatie in de gegenereerde samples vanwege een ruw vectorveldschatting, wat een nauwkeurige hoogfrequente reproductie niet garandeert. Om deze beperking aan te pakken, verbeteren we vooraf getrainde CFM-gebaseerde generatieve modellen door een vaste-stap generatoraanpassing te incorporeren. We gebruikten reconstructieverliezen en adversarial feedback om de generatie van hoogwaardige golfvormen te versnellen. Door adversarial flow matching optimalisatie is slechts 1.000 stappen van fine-tuning nodig om state-of-the-art prestaties te bereiken op verschillende objectieve metrieken. Bovendien hebben we de inferentiesnelheid aanzienlijk verminderd van 16 stappen naar 2 of 4 stappen. Daarnaast bereikt PeriodWave-Turbo, door het opschalen van de backbone van PeriodWave van 29M naar 70M parameters voor verbeterde generalisatie, ongekende prestaties, met een perceptuele evaluatie van spraakkwaliteit (PESQ) score van 4.454 op de LibriTTS dataset. Audiovoorbeelden, broncode en checkpoints zullen beschikbaar zijn op https://github.com/sh-lee-prml/PeriodWave.
Gesprekken tussen mensen en modellen bieden een inkijk in real-world scenario's, gedrag en behoeften van gebruikers, en zijn daarom een waardevolle bron voor modelontwikkeling en onderzoek. Terwijl bedrijven met winstoogmerk gebruikersgegevens verzamelen via de API's van hun modellen en deze intern gebruiken om hun eigen modellen te verbeteren, loopt de open source- en onderzoeksgemeenschap achter. Wij introduceren de ShareLM-collectie, een uniforme set van menselijke gesprekken met grote taalmodellen, en de bijbehorende plugin, een webextensie voor het vrijwillig bijdragen van gebruikers-modelgesprekken. Waar weinig platforms hun chats delen, voegt de ShareLM-plugin deze functionaliteit toe, waardoor gebruikers gesprekken van de meeste platforms kunnen delen. De plugin stelt gebruikers in staat om hun gesprekken te beoordelen, zowel op gespreks- als op reactieniveau, en gesprekken die ze privé willen houden te verwijderen voordat deze ooit de lokale opslag van de gebruiker verlaten. We geven de plugin-gesprekken vrij als onderdeel van de ShareLM-collectie en roepen op tot meer gemeenschapsinspanningen op het gebied van open mens-modeldata. De code, plugin en data zijn beschikbaar.
Novel View Synthesis (NVS) en 3D-generatie hebben recentelijk aanzienlijke verbeteringen bereikt. Deze werken richten zich echter voornamelijk op beperkte categorieën of synthetische 3D-assets, wat de generalisatie naar uitdagende real-world scènes belemmert en het directe gebruik met 2D-synthese verhindert. Bovendien zijn deze methoden sterk afhankelijk van cameraposities, wat hun toepasbaarheid in de praktijk beperkt. Om deze problemen te overwinnen, stellen we MVInpainter voor, waarbij 3D-bewerking wordt herformuleerd als een multi-view 2D-inpainting-taak. Specifiek inpaint MVInpainter gedeeltelijk multi-view afbeeldingen met referentierichtlijnen in plaats van moeizaam een geheel nieuwe weergave vanaf nul te genereren, wat de complexiteit van in-the-wild NVS aanzienlijk vereenvoudigt en gebruikmaakt van ongemaskeerde aanwijzingen in plaats van expliciete positievoorwaarden. Om consistentie tussen verschillende weergaven te garanderen, wordt MVInpainter versterkt door video-priors uit bewegingscomponenten en uiterlijkrichtlijnen uit geconcateneerde referentie key&value-attentie. Bovendien integreert MVInpainter slot attention om hoogwaardige optische stroomkenmerken uit ongemaskeerde regio's te aggregeren, waardoor camerabeweging wordt gecontroleerd zonder afhankelijkheid van posities tijdens training en inferentie. Uitgebreide experimenten op zowel objectgerichte als voorwaarts gerichte datasets bevestigen de effectiviteit van MVInpainter, inclusief diverse taken zoals multi-view objectverwijdering, synthese, invoeging en vervanging. De projectpagina is te vinden op https://ewrfcas.github.io/MVInpainter/.
Het beoordelen van de mogelijkheden van grote taalmodellen (LLMs) is vaak een uitdaging, deels omdat het moeilijk is om taken te vinden waaraan ze niet zijn blootgesteld tijdens de training. We zetten een stap om deze uitdaging aan te pakken door ons te richten op een nieuwe taak: symbolische grafische programma's, een populaire representatie voor grafische inhoud die visuele data procedureel genereert. LLMs hebben veelbelovende vooruitgang geboekt in programmasynthese, maar begrijpen ze ook symbolische grafische programma's? In tegenstelling tot conventionele programma's kunnen symbolische grafische programma's worden vertaald naar grafische inhoud. Hier karakteriseren we het begrip van een LLM van symbolische programma's in termen van hun vermogen om vragen te beantwoorden die gerelateerd zijn aan de grafische inhoud. Deze taak is uitdagend omdat de vragen moeilijk te beantwoorden zijn vanuit de symbolische programma's alleen – toch zouden ze eenvoudig te beantwoorden zijn vanuit de corresponderende grafische inhoud, zoals we bevestigen via een menselijk experiment. Om symbolische programma's te begrijpen, hebben LLMs mogelijk het vermogen nodig om zich voor te stellen hoe de corresponderende grafische inhoud eruit zou zien zonder direct toegang te hebben tot de gerenderde visuele inhoud. We gebruiken deze taak om LLMs te evalueren door een grote benchmark te creëren voor het semantische begrip van symbolische grafische programma's. Deze benchmark is gebouwd via programma-grafische correspondentie, waardoor er minimale menselijke inspanning nodig is. We evalueren huidige LLMs op onze benchmark om een eerste beoordeling te geven van hun vermogen om te redeneren over visuele scènes vanuit programma's. We ontdekken dat deze taak bestaande LLMs onderscheidt en dat modellen die als goed worden beschouwd in redeneren beter presteren. Tot slot introduceren we Symbolic Instruction Tuning (SIT) om dit vermogen te verbeteren. Specifiek vragen we GPT4-o met vragen en afbeeldingen die gegenereerd zijn door symbolische programma's. Deze data worden vervolgens gebruikt om een LLM te finetunen. We ontdekken ook dat SIT-data het algemene vermogen van LLMs om instructies te volgen kunnen verbeteren.