Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Reka Core, Flash und Edge vor, eine Serie leistungsstarker multimodaler Sprachmodelle, die von Reka von Grund auf neu trainiert wurden. Reka-Modelle können Text-, Bild-, Video- und Audioeingaben verarbeiten und damit argumentieren. Dieser technische Bericht erörtert Einzelheiten des Trainings einiger dieser Modelle und liefert umfassende Evaluierungsergebnisse. Wir zeigen, dass Reka Edge und Reka Flash nicht nur auf dem neuesten Stand der Technik sind, sondern auch viele wesentlich größere Modelle übertreffen und übermäßige Werte für ihre jeweilige Rechenklasse liefern. In der Zwischenzeit nähert sich unser leistungsfähigstes und größtes Modell, Reka Core, den besten Frontmodelle sowohl bei automatischen Evaluierungen als auch bei blinden menschlichen Evaluierungen an. Bei Bildfragen (z. B. MMMU, VQAv2) erzielt Core wettbewerbsfähige Leistungen im Vergleich zu GPT4-V. Auf multimodalem Chat rangiert Core unter einer blinden Evaluierung durch Dritte als das zweitbeliebteste Modell und übertrifft andere Modelle wie Claude 3 Opus. Bei Textbenchmarks erzielt Core nicht nur wettbewerbsfähige Leistungen im Vergleich zu anderen Frontmodellen auf einer Reihe etablierter Benchmarks (z. B. MMLU, GSM8K), sondern übertrifft auch GPT4-0613 bei menschlicher Evaluierung. Bei der Beantwortung von Videofragen (Perception-Test) übertrifft Core Gemini Ultra. Die Modelle werden in der Produktion unter http://chat.reka.ai bereitgestellt. Eine Auswahl nicht selektierter qualitativer Beispiele finden Sie auch unter http://showcase.reka.ai.
Wir stellen Blink vor, einen neuen Benchmark für multimodale Sprachmodelle (LLMs), der sich auf grundlegende visuelle Wahrnehmungsfähigkeiten konzentriert, die in anderen Bewertungen nicht zu finden sind. Die meisten Blink-Aufgaben können von Menschen "im Handumdrehen" gelöst werden (z. B. relative Tiefenschätzung, visuelle Korrespondenz, forensische Erkennung und Multi-View-Argumentation). Allerdings stellen wir fest, dass diese wahrnehmungsintensiven Aufgaben signifikante Herausforderungen für aktuelle multimodale LLMs darstellen, da sie sich gegen die Vermittlung durch natürliche Sprache wehren. Blink formatiert 14 klassische Computer Vision Aufgaben in 3.807 Multiple-Choice-Fragen um, gepaart mit einzelnen oder mehreren Bildern und visuellen Hinweisen. Während Menschen durchschnittlich eine Genauigkeit von 95,70% erreichen, ist Blink überraschend herausfordernd für bestehende multimodale LLMs: Selbst die leistungsstärksten GPT-4V und Gemini erzielen Genauigkeiten von 51,26% bzw. 45,72%, nur 13,17% bzw. 7,63% höher als zufälliges Raten, was darauf hindeutet, dass solche Wahrnehmungsfähigkeiten in aktuellen multimodalen LLMs noch nicht "aufgetaucht" sind. Unsere Analyse zeigt auch, dass spezialisierte CV-Modelle diese Probleme viel besser lösen könnten, was potenzielle Wege für zukünftige Verbesserungen nahelegt. Wir glauben, dass Blink die Gemeinschaft dazu anregen wird, multimodale LLMs auf das Niveau der menschlichen visuellen Wahrnehmung zu bringen.
Clipart, eine vorgefertigte grafische Kunstform, bietet einen bequemen und effizienten Weg, um visuelle Inhalte zu illustrieren. Traditionelle Workflows zur Umwandlung statischer Clipart-Bilder in Bewegungssequenzen sind mühsam und zeitaufwendig, da sie zahlreiche komplexe Schritte wie Rigging, Keyframe-Animation und Zwischenbildberechnung umfassen. Die jüngsten Fortschritte in der Text-zu-Video-Generierung haben großes Potenzial, um dieses Problem zu lösen. Dennoch haben direkte Anwendungen von Text-zu-Video-Generierungsmodellen oft Schwierigkeiten, die visuelle Identität von Clipart-Bildern beizubehalten oder Cartoon-artige Bewegungen zu erzeugen, was zu unbefriedigenden Animationsresultaten führt. In diesem Paper stellen wir AniClipart vor, ein System, das statische Clipart-Bilder in hochwertige Bewegungssequenzen umwandelt, die von Text-zu-Video-Prioritäten geleitet werden. Um Cartoon-artige und flüssige Bewegungen zu erzeugen, definieren wir zunächst Bézier-Kurven über den Schlüsselpunkten des Clipart-Bildes als Form der Bewegungsregulierung. Anschließend bringen wir die Bewegungsbahnen der Schlüsselpunkte mit dem bereitgestellten Textprompt in Einklang, indem wir den Video Score Distillation Sampling (VSDS)-Verlust optimieren, der angemessenes Wissen über natürliche Bewegungen in einem vorab trainierten Text-zu-Video-Diffusionsmodell kodiert. Mit einem differenzierbaren As-Rigid-As-Possible-Formdeformationsalgorithmus kann unsere Methode end-to-end optimiert werden, während die Deformationssteifigkeit erhalten bleibt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene AniClipart konsistent bessere Leistungen als bestehende Bild-zu-Video-Generierungsmodelle in Bezug auf Text-Video-Abstimmung, Erhaltung der visuellen Identität und Bewegungskonsistenz erzielt. Darüber hinaus zeigen wir die Vielseitigkeit von AniClipart, indem wir es anpassen, um eine breitere Palette von Animationsformaten zu generieren, wie z.B. Schichtanimation, die topologische Veränderungen ermöglicht.
Die Feinabstimmung von vortrainierten LLMs für verschiedene nachgelagerte Aufgaben hat eine bemerkenswerte Erfolgsgeschichte gezeigt und das Interesse sowohl von Akademikern als auch von Praktikern geweckt. Um sicherzustellen, dass solche feinabgestimmten LLMs mit menschlichen Präferenzen übereinstimmen, sind Techniken wie RLHF und DPO entstanden. Gleichzeitig wächst das Interesse an kleineren Parameterzahlen für Modelle. In dieser Arbeit beschreiben wir unter Verwendung von OpenLLaMA 3Bv2 als Basismodell das Rezept, das zur Feinabstimmung der OpenBezoar-Modellfamilie verwendet wird. In diesem Rezept: Generieren wir zunächst synthetische Daten zur Feinabstimmung von Anweisungen unter Verwendung einer offenen und kommerziell nicht einschränkenden Variante des Falcon-40B-Modells unter drei Schemata basierend auf: LaMini-LM, WizardLM/Evol-Instruct (mit databricks-dolly-15k als Ausgangsdatensatz) und Orca (mit der Flan Collection als Ausgangsdatensatz), filtern dann diese Generationen unter Verwendung von GPT-4 als menschlichem Proxy. Anschließend führen wir eine kosteneffektive, auf QLoRA basierende überwachte Feinabstimmung nacheinander mit jedem Schema durch. Der resultierende Kontrollpunkt wird weiter mit einem Teil des HH-RLHF-Datensatzes feinabgestimmt, um Verschiebungen in der Verteilung zu minimieren, bevor der DPO-Verlust verwendet wird, um den endgültigen Kontrollpunkt zu erhalten. Die Bewertung erfolgt mit den LM Eval Harness-Aufgaben/Metriken sowie auf MT-Bench unter Verwendung des "LLM-als-Richter"-Rahmens mit Claude 2.1, wobei festgestellt wird, dass der endgültige Kontrollpunkt "OpenBezoar-HH-RLHF-DPO" eine überlegene Leistung im Vergleich zu vielen Modellen im Maßstab von 3B-Parametern zeigt und sogar das Top-Modell in einer der Kategorien auf der Huggingface Open LLM Leaderboard übertrifft. Wir veröffentlichen die Kontrollpunkte "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" zusammen mit unseren generierten Datensätzen auf HuggingFace unter https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc und unserem Codebase unter https://bitbucket.org/paladinanalytics/workspace/projects/OP.