Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Er is aanzienlijke vooruitgang geboekt in gepersonaliseerde beeldgeneratie met methoden zoals Textual Inversion, DreamBooth en LoRA. Toch wordt hun toepasbaarheid in de praktijk belemmerd door hoge opslageisen, tijdrovende fine-tuningprocessen en de noodzaak van meerdere referentiebeelden. Aan de andere kant hebben bestaande methoden op basis van ID-embedding, hoewel ze slechts één enkele forward inference vereisen, ook hun uitdagingen: ze vereisen ofwel uitgebreide fine-tuning over talrijke modelparameters, zijn niet compatibel met community vooraf getrainde modellen, of slagen er niet in om een hoge gezichtsfideliteit te behouden. Om deze beperkingen aan te pakken, introduceren we InstantID, een krachtige oplossing gebaseerd op een diffusiemodel. Onze plug-and-play module beheert beeldpersonalisatie in verschillende stijlsoorten met slechts één gezichtsbeeld, terwijl een hoge fideliteit wordt gegarandeerd. Om dit te bereiken, ontwerpen we een nieuw IdentityNet door sterke semantische en zwakke ruimtelijke voorwaarden op te leggen, waarbij gezichts- en landmerkbeelden worden geïntegreerd met tekstuele prompts om de beeldgeneratie te sturen. InstantID toont uitzonderlijke prestaties en efficiëntie, wat zeer nuttig blijkt in praktische toepassingen waar identiteitsbehoud van cruciaal belang is. Bovendien integreert ons werk naadloos met populaire vooraf getrainde tekst-naar-beeld diffusiemodellen zoals SD1.5 en SDXL, en fungeert het als een aanpasbare plugin. Onze codes en vooraf getrainde checkpoints zullen beschikbaar zijn op https://github.com/InstantID/InstantID.
Dit artikel introduceert AIM, een verzameling van vision-modellen die vooraf zijn getraind met een autoregressief doel. Deze modellen zijn geïnspireerd door hun tekstuele tegenhangers, zoals Large Language Models (LLM's), en vertonen vergelijkbare schaaleigenschappen. Specifiek belichten we twee belangrijke bevindingen: (1) de prestaties van de visuele kenmerken schalen zowel met de modelcapaciteit als met de hoeveelheid data, (2) de waarde van de doelfunctie correleert met de prestaties van het model op downstream taken. We illustreren de praktische implicatie van deze bevindingen door een AIM-model met 7 miljard parameters voor te trainen op 2 miljard afbeeldingen, dat 84,0% behaalt op ImageNet-1k met een bevroren trunk. Interessant is dat we zelfs op deze schaal geen teken van verzadiging in prestaties waarnemen, wat suggereert dat AIM mogelijk een nieuwe grens vertegenwoordigt voor het trainen van grootschalige vision-modellen. Het vooraf trainen van AIM is vergelijkbaar met het vooraf trainen van LLM's en vereist geen afbeeldingsspecifieke strategie om de training op grote schaal te stabiliseren.
Middelgrote grote taalmodellen (LLM's) -- die met 7B of 13B parameters -- vertonen veelbelovende prestaties op het gebied van machinaal vertalen (MT). Echter, zelfs de best presterende 13B LLM-gebaseerde vertaalmodellen, zoals ALMA, halen niet het niveau van state-of-the-art conventionele encoder-decoder vertaalmodellen of grootschalige LLM's zoals GPT-4. In deze studie overbruggen we dit prestatieverschil. We beoordelen eerst de tekortkomingen van supervised fine-tuning voor LLM's in de MT-taak, waarbij we de kwaliteitsproblemen in de referentiedata benadrukken, ondanks dat deze door mensen zijn gegenereerd. Vervolgens introduceren we, in tegenstelling tot SFT dat referentievertalingen nabootst, Contrastive Preference Optimization (CPO), een nieuwe aanpak die modellen traint om adequate maar niet perfecte vertalingen te vermijden. Door CPO toe te passen op ALMA-modellen met slechts 22K parallelle zinnen en 12M parameters, worden aanzienlijke verbeteringen behaald. Het resulterende model, genaamd ALMA-R, kan de prestaties van de winnaars van de WMT-competitie en GPT-4 evenaren of overtreffen op de WMT'21, WMT'22 en WMT'23 testdatasets.
Het trainen van LLM's met grote contextlengtes is doorgaans rekenkundig kostbaar, waarbij uitgebreide trainingsuren en GPU-bronnen nodig zijn. Bestaande methoden voor het uitbreiden van lange contexten vereisen meestal aanvullende trainingsprocedures om overeenkomstige lange-contextvensters te ondersteunen, waarbij lange-contexttrainingsdata (bijv. 32k) nodig is en hoge GPU-trainingskosten worden verondersteld. Om de bovengenoemde problemen aan te pakken, stellen we een efficiënte en extreme lengte-uitbreidingsmethode voor Large Language Models voor, genaamd E²-LLM, met slechts één trainingsprocedure en aanzienlijk gereduceerde rekenkosten, waardoor ook de noodzaak om lange-contextdata te verzamelen wordt weggenomen. Concreet vereist de trainingsdata van onze E²-LLM slechts een korte lengte (bijv. 4k), wat de afstemmingskosten aanzienlijk verlaagt. Ten tweede wordt de trainingsprocedure op het korte trainingscontextvenster slechts één keer uitgevoerd, en kunnen we verschillende evaluatiecontextvensters ondersteunen tijdens de inferentie. Ten derde introduceren we in E²-LLM, gebaseerd op RoPE-positie-embeddingen, twee verschillende augmentatiemethoden op de schaal- en positie-indexparameters voor verschillende samples tijdens de training. Dit heeft tot doel het model robuuster te maken voor de verschillende relatieve verschillen bij het direct interpoleren van de willekeurige contextlengte tijdens de inferentie. Uitgebreide experimentele resultaten op meerdere benchmarkdatasets demonstreren de effectiviteit van onze E²-LLM op uitdagende lange-contexttaken.
Ondanks de algemene capaciteiten van grote vooraf getrainde taalmodelen, profiteren ze consistent van verdere aanpassing om gewenste gedragingen beter te bereiken. Het afstemmen van deze modellen is echter steeds meer bronnenintensief geworden, of zelfs onmogelijk wanneer de modelgewichten privé zijn. Wij introduceren proxy-tuning, een lichtgewicht decodeeralgoritme dat bovenop black-box taalmodelen opereert om het resultaat te bereiken van het direct afstemmen van het model, maar door alleen toegang te hebben tot de voorspellingen over het uitvoervocabulaire. Onze methode stemt in plaats daarvan een kleiner taalmodel af en past vervolgens het verschil tussen de voorspellingen van het afgestemde en niet-afgestemde kleine taalmodel toe om de oorspronkelijke voorspellingen van het basismodel in de richting van afstemming te verschuiven, terwijl de voordelen van grootschalige voorafgaande training behouden blijven. In experimenten, wanneer we proxy-tuning toepassen op Llama2-70B met proxies van slechts 7B grootte, kunnen we 88% van het gat tussen Llama2-70B en de echt afgestemde chatversie dichten, wanneer geëvalueerd over kennis-, redeneer- en veiligheidsbenchmarks. Interessant genoeg zijn proxy-afgestemde modellen bij testen op TruthfulQA zelfs waarheidsgetrouwer dan direct afgestemde modellen, mogelijk omdat decodeertijdbegeleiding de feitelijke kennis van het model beter behoudt. Vervolgens demonstreren we de algemeenheid van proxy-tuning door het toe te passen voor domeinaanpassing op code, en taakspecifieke finetuning op vraag-antwoord- en wiskundeproblemen. Ons werk toont de belofte aan van het gebruik van kleine afgestemde taalmodelen om grote, mogelijk propriëtaire taalmodelen efficiënt aan te passen via decodeertijdbegeleiding.
Grote Taalmodellen (LLMs) staan erom bekend een beperkte extrapolatiecapaciteit te hebben buiten hun vooraf getrainde contextvenster, wat hun toepassing in downstreamtaken met lange invoeren beperkt. Recente studies hebben geprobeerd het contextvenster van LLMs uit te breiden door aanpassingen aan te brengen in rotary position embedding (RoPE), een populaire positioneringscoderingmethode die wordt gebruikt door bekende LLMs zoals LLaMA, PaLM en GPT-NeoX. Eerdere werken zoals Position Interpolation (PI) en YaRN zijn echter resource-intensief en missen vergelijkende experimenten om hun toepasbaarheid te beoordelen. In dit werk identificeren we de inherente behoefte van LLMs aan aandachtentropie (d.w.z. de informatie-entropie van aandachtsscores) om stabiliteit te behouden en introduceren we een nieuwe uitbreiding van RoPE die het aanpassen van de basisfrequentie van RoPE combineert met het schalen van de aandacht-logits om LLMs efficiënt te laten aanpassen aan een groter contextvenster. We valideren de superioriteit van onze methode in zowel fine-tuningprestaties als robuustheid over verschillende contextvenstergroottes bij diverse contextvragende taken. Opmerkelijk is dat onze methode het contextvenster van LLaMA-2-7B-Chat uitbreidt naar 16.384 met slechts 100 samples en 6 trainingsstappen, wat buitengewone efficiëntie aantoont. Tot slot onderzoeken we ook hoe datasamenstellingen en trainingscurricula de uitbreiding van het contextvenster beïnvloeden voor specifieke downstreamtaken, waarbij we fine-tuning van LLMs met lange gesprekken als een goed startpunt suggereren. We geven onze code en SFT-data vrij op https://github.com/GAIR-NLP/Entropy-ABF.
Generatieve modellen hebben een opmerkelijke vaardigheid getoond in het synthetiseren van hoogwaardige tekst, afbeeldingen en video's. Voor videogeneratie vertonen hedendaagse tekst-naar-video-modellen indrukwekkende mogelijkheden, waarbij ze visueel verbluffende video's creëren. Desalniettemin vormt het evalueren van dergelijke video's aanzienlijke uitdagingen. Huidig onderzoek maakt voornamelijk gebruik van geautomatiseerde metrieken zoals FVD, IS en CLIP Score. Deze metrieken bieden echter een onvolledige analyse, met name in de temporele beoordeling van video-inhoud, waardoor ze onbetrouwbare indicatoren zijn van de werkelijke videokwaliteit. Bovendien, hoewel gebruikersstudies het potentieel hebben om de menselijke perceptie nauwkeurig weer te geven, worden ze belemmerd door hun tijdrovende en arbeidsintensieve aard, waarbij de resultaten vaak worden beïnvloed door subjectieve vooroordelen. In dit artikel onderzoeken we de beperkingen die inherent zijn aan bestaande metrieken en introduceren we een nieuwe evaluatiepijplijn, de Text-to-Video Score (T2VScore). Deze metriek integreert twee cruciale criteria: (1) Tekst-Video Afstemming, die de nauwkeurigheid van de video in het weergeven van de gegeven tekstbeschrijving onderzoekt, en (2) Videokwaliteit, die de algehele productiekwaliteit van de video beoordeelt met een mix van experts. Bovendien presenteren we, om de voorgestelde metrieken te evalueren en toekomstige verbeteringen te vergemakkelijken, de TVGE-dataset, waarin menselijke beoordelingen van 2.543 tekst-naar-video gegenereerde video's op de twee criteria zijn verzameld. Experimenten op de TVGE-dataset tonen de superioriteit van de voorgestelde T2VScore aan in het bieden van een betere metriek voor tekst-naar-video generatie.
De afgelopen jaren hebben machine learning-modellen zoals DALL-E, Craiyon en Stable Diffusion aanzienlijke aandacht gekregen vanwege hun vermogen om hoogwaardige afbeeldingen te genereren op basis van beknopte beschrijvingen. Tegelijkertijd laten quantumcomputing veelbelovende ontwikkelingen zien, met name op het gebied van quantum machine learning, dat gebruikmaakt van quantummechanica om te voldoen aan de toenemende rekenvereisten van traditionele machine learning-algoritmen. Dit artikel onderzoekt de integratie van quantum machine learning en variatie-quantumcircuits om de effectiviteit van diffusiegebaseerde afbeeldingsgeneratiemodellen te vergroten. Specifiek gaan we in op twee uitdagingen van klassieke diffusiemodellen: hun lage sampling snelheid en de uitgebreide parametervereisten. We introduceren twee quantumdiffusiemodellen en vergelijken hun prestaties met die van hun klassieke tegenhangers aan de hand van MNIST-cijfers, Fashion MNIST en CIFAR-10. Onze modellen overtreffen de klassieke modellen met een vergelijkbaar aantal parameters wat betreft de prestatiemetingen FID, SSIM en PSNR. Bovendien introduceren we een consistentiemodel met een unitaire single sampling-architectuur die het diffusieproces combineert in één stap, waardoor een snelle één-staps afbeeldingsgeneratie mogelijk wordt.
Ondanks de meest recente opmerkelijke vooruitgang in generatieve modellering, blijft de efficiënte generatie van hoogwaardige 3D-assets op basis van tekstuele prompts een uitdagende taak. Een belangrijke uitdaging ligt in de schaarste van data: de meest uitgebreide 3D-datasets omvatten slechts miljoenen assets, terwijl hun 2D-tegenhangers miljarden tekst-afbeeldingparen bevatten. Om dit aan te pakken, stellen we een nieuwe aanpak voor die gebruikmaakt van de kracht van grote, vooraf getrainde 2D-diffusiemodellen. Meer specifiek fine-tunt onze aanpak, HexaGen3D, een vooraf getraind tekst-naar-afbeeldingmodel om gezamenlijk 6 orthografische projecties en het corresponderende latente triplane te voorspellen. Vervolgens decoderen we deze latente representaties om een getextureerd mesh te genereren. HexaGen3D vereist geen per-sample optimalisatie en kan in 7 seconden hoogwaardige en diverse objecten afleiden uit tekstuele prompts, wat een aanzienlijk betere kwaliteit-latentie-afweging biedt in vergelijking met bestaande benaderingen. Bovendien toont HexaGen3D een sterke generalisatie naar nieuwe objecten of composities.