papers.title

papers.description

Reka Core, Flash und Edge: Eine Serie leistungsstarker multimodaler Sprachmodelle
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Apr 18

ByAitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie

Wir stellen Reka Core, Flash und Edge vor, eine Serie leistungsstarker multimodaler Sprachmodelle, die von Reka von Grund auf neu trainiert wurden. Reka-Modelle können Text-, Bild-, Video- und Audioeingaben verarbeiten und damit argumentieren. Dieser technische Bericht erörtert Einzelheiten des Trainings einiger dieser Modelle und liefert umfassende Evaluierungsergebnisse. Wir zeigen, dass Reka Edge und Reka Flash nicht nur auf dem neuesten Stand der Technik sind, sondern auch viele wesentlich größere Modelle übertreffen und übermäßige Werte für ihre jeweilige Rechenklasse liefern. In der Zwischenzeit nähert sich unser leistungsfähigstes und größtes Modell, Reka Core, den besten Frontmodelle sowohl bei automatischen Evaluierungen als auch bei blinden menschlichen Evaluierungen an. Bei Bildfragen (z. B. MMMU, VQAv2) erzielt Core wettbewerbsfähige Leistungen im Vergleich zu GPT4-V. Auf multimodalem Chat rangiert Core unter einer blinden Evaluierung durch Dritte als das zweitbeliebteste Modell und übertrifft andere Modelle wie Claude 3 Opus. Bei Textbenchmarks erzielt Core nicht nur wettbewerbsfähige Leistungen im Vergleich zu anderen Frontmodellen auf einer Reihe etablierter Benchmarks (z. B. MMLU, GSM8K), sondern übertrifft auch GPT4-0613 bei menschlicher Evaluierung. Bei der Beantwortung von Videofragen (Perception-Test) übertrifft Core Gemini Ultra. Die Modelle werden in der Produktion unter http://chat.reka.ai bereitgestellt. Eine Auswahl nicht selektierter qualitativer Beispiele finden Sie auch unter http://showcase.reka.ai.

BLINK: Multimodale große Sprachmodelle können sehen, aber nicht wahrnehmen.
BLINK: Multimodal Large Language Models Can See but Not Perceive

Apr 18

ByXingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna

Wir stellen Blink vor, einen neuen Benchmark für multimodale Sprachmodelle (LLMs), der sich auf grundlegende visuelle Wahrnehmungsfähigkeiten konzentriert, die in anderen Bewertungen nicht zu finden sind. Die meisten Blink-Aufgaben können von Menschen "im Handumdrehen" gelöst werden (z. B. relative Tiefenschätzung, visuelle Korrespondenz, forensische Erkennung und Multi-View-Argumentation). Allerdings stellen wir fest, dass diese wahrnehmungsintensiven Aufgaben signifikante Herausforderungen für aktuelle multimodale LLMs darstellen, da sie sich gegen die Vermittlung durch natürliche Sprache wehren. Blink formatiert 14 klassische Computer Vision Aufgaben in 3.807 Multiple-Choice-Fragen um, gepaart mit einzelnen oder mehreren Bildern und visuellen Hinweisen. Während Menschen durchschnittlich eine Genauigkeit von 95,70% erreichen, ist Blink überraschend herausfordernd für bestehende multimodale LLMs: Selbst die leistungsstärksten GPT-4V und Gemini erzielen Genauigkeiten von 51,26% bzw. 45,72%, nur 13,17% bzw. 7,63% höher als zufälliges Raten, was darauf hindeutet, dass solche Wahrnehmungsfähigkeiten in aktuellen multimodalen LLMs noch nicht "aufgetaucht" sind. Unsere Analyse zeigt auch, dass spezialisierte CV-Modelle diese Probleme viel besser lösen könnten, was potenzielle Wege für zukünftige Verbesserungen nahelegt. Wir glauben, dass Blink die Gemeinschaft dazu anregen wird, multimodale LLMs auf das Niveau der menschlichen visuellen Wahrnehmung zu bringen.

AniClipart: Clipart-Animation mit Text-zu-Video-Vorkenntnissen
AniClipart: Clipart Animation with Text-to-Video Priors

Apr 18

ByRonghuan Wu, Wanchao Su, Kede Ma, Jing Liao

Clipart, eine vorgefertigte grafische Kunstform, bietet einen bequemen und effizienten Weg, um visuelle Inhalte zu illustrieren. Traditionelle Workflows zur Umwandlung statischer Clipart-Bilder in Bewegungssequenzen sind mühsam und zeitaufwendig, da sie zahlreiche komplexe Schritte wie Rigging, Keyframe-Animation und Zwischenbildberechnung umfassen. Die jüngsten Fortschritte in der Text-zu-Video-Generierung haben großes Potenzial, um dieses Problem zu lösen. Dennoch haben direkte Anwendungen von Text-zu-Video-Generierungsmodellen oft Schwierigkeiten, die visuelle Identität von Clipart-Bildern beizubehalten oder Cartoon-artige Bewegungen zu erzeugen, was zu unbefriedigenden Animationsresultaten führt. In diesem Paper stellen wir AniClipart vor, ein System, das statische Clipart-Bilder in hochwertige Bewegungssequenzen umwandelt, die von Text-zu-Video-Prioritäten geleitet werden. Um Cartoon-artige und flüssige Bewegungen zu erzeugen, definieren wir zunächst Bézier-Kurven über den Schlüsselpunkten des Clipart-Bildes als Form der Bewegungsregulierung. Anschließend bringen wir die Bewegungsbahnen der Schlüsselpunkte mit dem bereitgestellten Textprompt in Einklang, indem wir den Video Score Distillation Sampling (VSDS)-Verlust optimieren, der angemessenes Wissen über natürliche Bewegungen in einem vorab trainierten Text-zu-Video-Diffusionsmodell kodiert. Mit einem differenzierbaren As-Rigid-As-Possible-Formdeformationsalgorithmus kann unsere Methode end-to-end optimiert werden, während die Deformationssteifigkeit erhalten bleibt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene AniClipart konsistent bessere Leistungen als bestehende Bild-zu-Video-Generierungsmodelle in Bezug auf Text-Video-Abstimmung, Erhaltung der visuellen Identität und Bewegungskonsistenz erzielt. Darüber hinaus zeigen wir die Vielseitigkeit von AniClipart, indem wir es anpassen, um eine breitere Palette von Animationsformaten zu generieren, wie z.B. Schichtanimation, die topologische Veränderungen ermöglicht.

OpenBezoar: Kleine, kostengünstige und offene Modelle, die auf Mischungen von Anweisungsdaten trainiert sind.
OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Apr 18

ByChandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake

Die Feinabstimmung von vortrainierten LLMs für verschiedene nachgelagerte Aufgaben hat eine bemerkenswerte Erfolgsgeschichte gezeigt und das Interesse sowohl von Akademikern als auch von Praktikern geweckt. Um sicherzustellen, dass solche feinabgestimmten LLMs mit menschlichen Präferenzen übereinstimmen, sind Techniken wie RLHF und DPO entstanden. Gleichzeitig wächst das Interesse an kleineren Parameterzahlen für Modelle. In dieser Arbeit beschreiben wir unter Verwendung von OpenLLaMA 3Bv2 als Basismodell das Rezept, das zur Feinabstimmung der OpenBezoar-Modellfamilie verwendet wird. In diesem Rezept: Generieren wir zunächst synthetische Daten zur Feinabstimmung von Anweisungen unter Verwendung einer offenen und kommerziell nicht einschränkenden Variante des Falcon-40B-Modells unter drei Schemata basierend auf: LaMini-LM, WizardLM/Evol-Instruct (mit databricks-dolly-15k als Ausgangsdatensatz) und Orca (mit der Flan Collection als Ausgangsdatensatz), filtern dann diese Generationen unter Verwendung von GPT-4 als menschlichem Proxy. Anschließend führen wir eine kosteneffektive, auf QLoRA basierende überwachte Feinabstimmung nacheinander mit jedem Schema durch. Der resultierende Kontrollpunkt wird weiter mit einem Teil des HH-RLHF-Datensatzes feinabgestimmt, um Verschiebungen in der Verteilung zu minimieren, bevor der DPO-Verlust verwendet wird, um den endgültigen Kontrollpunkt zu erhalten. Die Bewertung erfolgt mit den LM Eval Harness-Aufgaben/Metriken sowie auf MT-Bench unter Verwendung des "LLM-als-Richter"-Rahmens mit Claude 2.1, wobei festgestellt wird, dass der endgültige Kontrollpunkt "OpenBezoar-HH-RLHF-DPO" eine überlegene Leistung im Vergleich zu vielen Modellen im Maßstab von 3B-Parametern zeigt und sogar das Top-Modell in einer der Kategorien auf der Huggingface Open LLM Leaderboard übertrifft. Wir veröffentlichen die Kontrollpunkte "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" zusammen mit unseren generierten Datensätzen auf HuggingFace unter https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc und unserem Codebase unter https://bitbucket.org/paladinanalytics/workspace/projects/OP.

Reka Core, Flash und Edge: Eine Serie leistungsstarker multimodaler Sprachmodelle

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Apr 18

BLINK: Multimodale große Sprachmodelle können sehen, aber nicht wahrnehmen.

BLINK: Multimodal Large Language Models Can See but Not Perceive

Apr 18

ByXingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna

AniClipart: Clipart-Animation mit Text-zu-Video-Vorkenntnissen

AniClipart: Clipart Animation with Text-to-Video Priors

Apr 18

ByRonghuan Wu, Wanchao Su, Kede Ma, Jing Liao

OpenBezoar: Kleine, kostengünstige und offene Modelle, die auf Mischungen von Anweisungsdaten trainiert sind.

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Apr 18

ByChandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake