Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Reka Core, Flash et Edge, une série de modèles de langage multimodaux puissants, entraînés à partir de zéro par Reka. Les modèles Reka sont capables de traiter et de raisonner à partir de textes, d'images, de vidéos et d'audios. Ce rapport technique détaille l'entraînement de certains de ces modèles et fournit des résultats d'évaluation complets. Nous montrons que Reka Edge et Reka Flash non seulement atteignent l'état de l'art, mais surpassent également de nombreux modèles beaucoup plus volumineux, offrant une valeur exceptionnelle pour leur classe de calcul. Par ailleurs, notre modèle le plus performant et le plus grand, Reka Core, se rapproche des meilleurs modèles de pointe à la fois dans les évaluations automatiques et les évaluations humaines en aveugle. Sur les benchmarks de question-réponse d'images (par exemple MMMU, VQAv2), Core se montre compétitif par rapport à GPT4-V. De plus, dans le cadre du chat multimodal, Core se classe comme le deuxième modèle le plus préféré lors d'une évaluation humaine en aveugle par un tiers, surpassant d'autres modèles tels que Claude 3 Opus. Sur les benchmarks de texte, Core non seulement rivalise avec d'autres modèles de pointe sur un ensemble de benchmarks bien établis (par exemple MMLU, GSM8K), mais surpasse également GPT4-0613 dans les évaluations humaines. Sur le benchmark de question-réponse vidéo (Perception-Test), Core surpasse Gemini Ultra. Les modèles sont déployés en production sur http://chat.reka.ai. Une vitrine d'exemples qualitatifs non sélectionnés est également disponible sur http://showcase.reka.ai.
Nous présentons Blink, un nouveau benchmark pour les modèles de langage multimodaux (LLMs) qui se concentre sur les capacités fondamentales de perception visuelle absentes des autres évaluations. La plupart des tâches de Blink peuvent être résolues par les humains "en un clin d'œil" (par exemple, l'estimation de la profondeur relative, la correspondance visuelle, la détection de falsifications et le raisonnement multi-vues). Cependant, nous constatons que ces tâches exigeantes en perception posent des défis significatifs aux LLMs multimodaux actuels, car elles résistent à la médiation par le langage naturel. Blink reformate 14 tâches classiques de vision par ordinateur en 3 807 questions à choix multiples, associées à une ou plusieurs images et à des invites visuelles. Alors que les humains obtiennent une précision moyenne de 95,70 %, Blink s'avère étonnamment difficile pour les LLMs multimodaux existants : même les meilleurs modèles, GPT-4V et Gemini, atteignent des précisions de 51,26 % et 45,72 %, seulement 13,17 % et 7,63 % supérieures à une réponse aléatoire, indiquant que ces capacités de perception n'ont pas encore "émergé" dans les LLMs multimodaux récents. Notre analyse souligne également que les modèles spécialisés en vision par ordinateur pourraient résoudre ces problèmes bien mieux, suggérant des voies potentielles d'amélioration future. Nous croyons que Blink stimulera la communauté à aider les LLMs multimodaux à rattraper le niveau de perception visuelle humaine.
Clipart, une forme d'art graphique préfabriquée, offre un moyen pratique et efficace d'illustrer du contenu visuel. Les workflows traditionnels pour convertir des images clipart statiques en séquences animées sont laborieux et chronophages, impliquant de nombreuses étapes complexes comme le rigging, l'animation clé et l'interpolation. Les récents progrès dans la génération de texte-à-vidéo présentent un grand potentiel pour résoudre ce problème. Néanmoins, l'application directe des modèles de génération texte-à-vidéo peine souvent à préserver l'identité visuelle des images clipart ou à générer des mouvements de style cartoon, ce qui entraîne des résultats d'animation insatisfaisants. Dans cet article, nous présentons AniClipart, un système qui transforme des images clipart statiques en séquences animées de haute qualité guidées par des a priori texte-à-vidéo. Pour générer des mouvements fluides et de style cartoon, nous définissons d'abord des courbes de Bézier sur les points clés de l'image clipart comme forme de régularisation du mouvement. Nous alignons ensuite les trajectoires de mouvement des points clés avec l'invite textuelle fournie en optimisant la perte de distillation de score vidéo (VSDS), qui encode une connaissance adéquate du mouvement naturel au sein d'un modèle de diffusion texte-à-vidéo préentraîné. Avec un algorithme de déformation de forme As-Rigid-As-Possible différentiable, notre méthode peut être optimisée de bout en bout tout en maintenant la rigidité de la déformation. Les résultats expérimentaux montrent que le système AniClipart proposé surpasse systématiquement les modèles existants de génération image-à-vidéo en termes d'alignement texte-vidéo, de préservation de l'identité visuelle et de cohérence du mouvement. De plus, nous démontrons la polyvalence d'AniClipart en l'adaptant pour générer une gamme plus large de formats d'animation, tels que l'animation en couches, qui permet des changements topologiques.
L'affinage par instruction de grands modèles de langage (LLM) pré-entraînés pour diverses tâches en aval a démontré un succès remarquable et a capté l'intérêt tant des universitaires que des praticiens. Pour garantir que ces LLM affinés s'alignent sur les préférences humaines, des techniques telles que RLHF (Reinforcement Learning from Human Feedback) et DPO (Direct Preference Optimization) ont émergé. Parallèlement, l'intérêt pour des modèles avec un nombre de paramètres plus réduit s'accroît. Dans ce travail, en utilisant OpenLLaMA 3Bv2 comme modèle de base, nous décrivons la méthode utilisée pour affiner la famille de modèles OpenBezoar. Dans cette méthode : Nous générons d'abord des données synthétiques d'affinage par instruction en utilisant une variante ouverte et non restrictive commercialement du modèle Falcon-40B affiné par instruction, selon trois schémas basés sur : LaMini-LM, WizardLM/Evol-Instruct (avec databricks-dolly-15k comme jeu de données de départ) et Orca (avec la collection Flan comme jeu de données de départ), puis nous filtrons ces générations en utilisant GPT-4 comme proxy humain. Nous effectuons ensuite un affinage supervisé basé sur QLoRA de manière séquentielle avec chaque schéma. Le point de contrôle résultant est ensuite affiné avec un sous-ensemble du jeu de données HH-RLHF pour minimiser le décalage de distribution avant d'utiliser la perte DPO pour obtenir le point de contrôle final. L'évaluation est réalisée avec les târiques/métriques de LM Eval Harness ainsi que sur MT-Bench en utilisant le cadre "LLM-as-a-judge" avec Claude 2.1, avec la conclusion que le point de contrôle final, "OpenBezoar-HH-RLHF-DPO", démontre une performance supérieure à de nombreux modèles à l'échelle des 3B paramètres, surpassant même le meilleur modèle dans l'une des catégories du tableau de bord Open LLM de Huggingface. Nous publions les points de contrôle "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", ainsi que nos jeux de données générés sur HuggingFace à l'adresse https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc et notre base de code à l'adresse https://bitbucket.org/paladinanalytics/workspace/projects/OP.