Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Reka Core, Flash en Edge, een reeks krachtige multimodale taalmodellen die vanaf nul zijn getraind door Reka. De Reka-modellen zijn in staat om tekst, afbeeldingen, video en audio-invoer te verwerken en te redeneren. Dit technische rapport bespreekt details van de training van enkele van deze modellen en biedt uitgebreide evaluatieresultaten. We laten zien dat Reka Edge en Reka Flash niet alleen state-of-the-art zijn, maar ook veel grotere modellen overtreffen, waardoor ze een buitengewone waarde bieden voor hun respectieve rekenklasse. Ondertussen benadert ons meest capabele en grootste model, Reka Core, de beste frontier-modellen in zowel automatische evaluaties als blinde menselijke evaluaties. Op benchmarks voor beeldvragen (bijv. MMMU, VQAv2) presteert Core competitief ten opzichte van GPT4-V. Tegelijkertijd staat Core op multimodale chat gerangschikt als het op één na meest geprefereerde model onder een blinde derde-partij menselijke evaluatieopzet, waarbij het andere modellen zoals Claude 3 Opus overtreft. Op tekstbenchmarks presteert Core niet alleen competitief ten opzichte van andere frontier-modellen op een reeks goed gevestigde benchmarks (bijv. MMLU, GSM8K), maar overtreft het ook GPT4-0613 in menselijke evaluatie. Op videovragen (Perception-Test) overtreft Core Gemini Ultra. De modellen worden in productie geleverd op http://chat.reka.ai. Een showcase van niet-selectief gekozen kwalitatieve voorbeelden is ook te vinden op http://showcase.reka.ai.
We introduceren Blink, een nieuwe benchmark voor multimodale taalmodellen (LLMs) die zich richt op kernvaardigheden voor visuele perceptie die niet voorkomen in andere evaluaties. De meeste Blink-taken kunnen door mensen "in een oogwenk" worden opgelost (bijvoorbeeld relatieve diepteschatting, visuele correspondentie, forensische detectie en multi-view redenering). We constateren echter dat deze perceptie-intensieve taken aanzienlijke uitdagingen vormen voor huidige multimodale LLMs, omdat ze zich moeilijk laten bemiddelen via natuurlijke taal. Blink herformuleert 14 klassieke computervisietaken tot 3.807 meerkeuzevragen, gekoppeld aan één of meerdere afbeeldingen en visuele prompting. Terwijl mensen gemiddeld een nauwkeurigheid van 95,70% behalen, blijkt Blink verrassend uitdagend voor bestaande multimodale LLMs: zelfs de best presterende GPT-4V en Gemini behalen nauwkeurigheden van respectievelijk 51,26% en 45,72%, slechts 13,17% en 7,63% hoger dan willekeurig gokken, wat aangeeft dat dergelijke perceptievaardigheden nog niet zijn "ontstaan" in recente multimodale LLMs. Onze analyse benadrukt ook dat gespecialiseerde CV-modellen deze problemen veel beter kunnen oplossen, wat potentiële verbeteringsroutes suggereert voor de toekomst. We geloven dat Blink de gemeenschap zal stimuleren om multimodale LLMs te helpen inlopen op het niveau van menselijke visuele perceptie.
Clipart, een vooraf gemaakte vorm van grafische kunst, biedt een handige en efficiënte manier om visuele inhoud te illustreren. Traditionele workflows om statische clipart-afbeeldingen om te zetten in bewegende sequenties zijn arbeidsintensief en tijdrovend, waarbij talrijke ingewikkelde stappen zoals rigging, sleutelanimaties en tussentekeningen betrokken zijn. Recente vooruitgang in tekst-naar-video-generatie heeft groot potentieel om dit probleem op te lossen. Toch worstelt de directe toepassing van tekst-naar-video-generatiemodellen vaak met het behouden van de visuele identiteit van clipart-afbeeldingen of het genereren van cartoonachtige bewegingen, wat resulteert in onbevredigende animatieresultaten. In dit artikel introduceren we AniClipart, een systeem dat statische clipart-afbeeldingen omzet in hoogwaardige bewegingssequenties onder begeleiding van tekst-naar-video-priors. Om cartoonachtige en vloeiende beweging te genereren, definiëren we eerst Bézier-curven over de keypoints van de clipart-afbeelding als een vorm van bewegingsregularisatie. Vervolgens aligneren we de bewegingsbanen van de keypoints met de opgegeven tekstprompt door het optimaliseren van het Video Score Distillation Sampling (VSDS)-verlies, dat voldoende kennis van natuurlijke beweging codeert binnen een voorgetraind tekst-naar-video-diffusiemodel. Met een differentieerbaar As-Rigid-As-Possible vormvervormingsalgoritme kan onze methode end-to-end worden geoptimaliseerd terwijl de vervormingsrigiditeit behouden blijft. Experimentele resultaten tonen aan dat de voorgestelde AniClipart consistent beter presteert dan bestaande beeld-naar-video-generatiemodellen, wat betreft tekst-video-alignering, behoud van visuele identiteit en bewegingsconsistentie. Bovendien demonstreren we de veelzijdigheid van AniClipart door het aan te passen voor het genereren van een breder scala aan animatieformaten, zoals gelaagde animatie, wat topologische veranderingen mogelijk maakt.
Het fine-tunen van vooraf getrainde grote taalmodellen (LLMs) voor diverse downstream taken heeft opmerkelijke successen laten zien en heeft de interesse gewekt van zowel academici als praktijkmensen. Om ervoor te zorgen dat dergelijke fine-tuned LLMs overeenkomen met menselijke voorkeuren, zijn technieken zoals RLHF en DPO ontstaan. Tegelijkertijd is er een groeiende interesse in modellen met een kleiner aantal parameters. In dit werk, waarbij we OpenLLaMA 3Bv2 als basismodel gebruiken, beschrijven we het recept dat is gebruikt om de OpenBezoar-familie van modellen te fine-tunen. In dit recept: We genereren eerst synthetische fine-tuning data voor instructies met behulp van een open en commercieel niet-beperkende variant van het Falcon-40B-model dat is fine-tuned voor instructies, onder drie schema's gebaseerd op: LaMini-LM, WizardLM/Evol-Instruct (met databricks-dolly-15k als een seed dataset) en Orca (met de Flan Collection als een seed dataset), waarna we deze generaties filteren met GPT-4 als een menselijke proxy. Vervolgens voeren we kosteneffectieve supervised fine-tuning uit op basis van QLoRA, sequentieel met elk schema. Het resulterende checkpoint wordt verder fine-tuned met een subset van de HH-RLHF dataset om distributieverschuiving te minimaliseren voordat we de DPO-loss gebruiken om het uiteindelijke checkpoint te verkrijgen. Evaluatie wordt uitgevoerd met de taken/metrieken van de LM Eval Harness, evenals op MT-Bench met behulp van het "LLM-as-a-judge" framework met Claude 2.1, waarbij wordt geconstateerd dat het uiteindelijke checkpoint, "OpenBezoar-HH-RLHF-DPO", superieure prestaties laat zien ten opzichte van veel modellen op de schaal van 3B parameters, en zelfs het topmodel in een van de categorieën op de Huggingface Open LLM Leaderboard overtreft. We publiceren de checkpoints "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", samen met onze gegenereerde datasets op HuggingFace op https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc en onze codebase op https://bitbucket.org/paladinanalytics/workspace/projects/OP.