Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Reka Core, Flash y Edge, una serie de potentes modelos de lenguaje multimodal entrenados desde cero por Reka. Los modelos Reka son capaces de procesar y razonar con entradas de texto, imágenes, video y audio. Este informe técnico discute detalles del entrenamiento de algunos de estos modelos y proporciona resultados de evaluación exhaustivos. Demostramos que Reka Edge y Reka Flash no solo están a la vanguardia, sino que también superan a muchos modelos mucho más grandes, ofreciendo un valor desproporcionado para su clase de cómputo. Mientras tanto, nuestro modelo más capaz y grande, Reka Core, se acerca a los mejores modelos frontera tanto en evaluaciones automáticas como en evaluaciones humanas ciegas. En benchmarks de respuesta a preguntas sobre imágenes (por ejemplo, MMMU, VQAv2), Core compite de manera competitiva con GPT4-V. Además, en chat multimodal, Core se posiciona como el segundo modelo más preferido en una evaluación humana ciega realizada por terceros, superando a otros modelos como Claude 3 Opus. En benchmarks de texto, Core no solo compite de manera competitiva con otros modelos frontera en un conjunto de benchmarks bien establecidos (por ejemplo, MMLU, GSM8K), sino que también supera a GPT4-0613 en evaluación humana. En respuesta a preguntas sobre video (Perception-Test), Core supera a Gemini Ultra. Los modelos están disponibles en producción en http://chat.reka.ai. Una muestra de ejemplos cualitativos no seleccionados también se puede encontrar en http://showcase.reka.ai.
Presentamos Blink, un nuevo punto de referencia para modelos de lenguaje multimodal (LLMs) que se centra en habilidades fundamentales de percepción visual no abordadas en otras evaluaciones. La mayoría de las tareas de Blink pueden ser resueltas por humanos "en un abrir y cerrar de ojos" (por ejemplo, estimación de profundidad relativa, correspondencia visual, detección forense y razonamiento multivista). Sin embargo, encontramos que estas tareas que demandan percepción representan desafíos significativos para los LLMs multimodales actuales, ya que resisten la mediación a través del lenguaje natural. Blink reformatea 14 tareas clásicas de visión por computadora en 3,807 preguntas de opción múltiple, acompañadas de una o varias imágenes y sugerencias visuales. Mientras que los humanos obtienen un 95.70% de precisión en promedio, Blink resulta sorprendentemente desafiante para los LLMs multimodales existentes: incluso los mejores modelos, GPT-4V y Gemini, logran precisiones de 51.26% y 45.72%, solo 13.17% y 7.63% por encima de la elección aleatoria, lo que indica que tales habilidades de percepción aún no han "emergido" en los LLMs multimodales recientes. Nuestro análisis también destaca que los modelos especializados en visión por computadora podrían resolver estos problemas de manera mucho más efectiva, sugiriendo posibles vías para futuras mejoras. Creemos que Blink estimulará a la comunidad a ayudar a los LLMs multimodales a alcanzar el nivel de percepción visual humana.
Clipart, una forma de arte gráfico preelaborado, ofrece una manera conveniente y eficiente de ilustrar contenido visual. Los flujos de trabajo tradicionales para convertir imágenes de clipart estáticas en secuencias de movimiento son laboriosos y consumen mucho tiempo, involucrando numerosos pasos intrincados como el rigging, la animación clave y la interpolación. Los avances recientes en la generación de texto a video tienen un gran potencial para resolver este problema. Sin embargo, la aplicación directa de modelos de generación de texto a video a menudo lucha por mantener la identidad visual de las imágenes de clipart o generar movimientos de estilo cartoon, lo que resulta en resultados de animación insatisfactorios. En este artículo, presentamos AniClipart, un sistema que transforma imágenes de clipart estáticas en secuencias de movimiento de alta calidad guiadas por conocimientos previos de texto a video. Para generar movimientos de estilo cartoon y suaves, primero definimos curvas de Bézier sobre los puntos clave de la imagen de clipart como una forma de regularización del movimiento. Luego, alineamos las trayectorias de movimiento de los puntos clave con el texto proporcionado optimizando la pérdida de Video Score Distillation Sampling (VSDS), que codifica conocimientos adecuados de movimiento natural dentro de un modelo de difusión de texto a video preentrenado. Con un algoritmo de deformación de forma As-Rigid-As-Possible diferenciable, nuestro método puede optimizarse de extremo a extremo mientras mantiene la rigidez de la deformación. Los resultados experimentales muestran que el AniClipart propuesto supera consistentemente a los modelos existentes de generación de imagen a video, en términos de alineación texto-video, preservación de la identidad visual y consistencia del movimiento. Además, demostramos la versatilidad de AniClipart adaptándolo para generar una gama más amplia de formatos de animación, como la animación por capas, que permite cambios topológicos.
El ajuste fino de instrucciones en LLMs preentrenados para diversas tareas posteriores ha demostrado un éxito notable y ha capturado el interés tanto de académicos como de profesionales. Para garantizar que estos LLMs ajustados se alineen con las preferencias humanas, han surgido técnicas como RLHF y DPO. Al mismo tiempo, existe un creciente interés en modelos con un menor número de parámetros. En este trabajo, utilizando OpenLLaMA 3Bv2 como modelo base, describimos la receta empleada para ajustar la familia de modelos OpenBezoar. En esta receta: primero generamos datos sintéticos de ajuste fino de instrucciones utilizando una variante de ajuste fino de instrucciones abierta y sin restricciones comerciales del modelo Falcon-40B bajo tres esquemas basados en: LaMini-LM, WizardLM/Evol-Instruct (utilizando databricks-dolly-15k como conjunto de datos inicial) y Orca (utilizando la Colección Flan como conjunto de datos inicial), luego filtramos estas generaciones utilizando GPT-4 como proxy humano. Posteriormente, realizamos un ajuste fino supervisado basado en QLoRA de manera secuencial con cada esquema. El punto de control resultante se ajusta aún más con un subconjunto del conjunto de datos HH-RLHF para minimizar el cambio de distribución antes de utilizar la pérdida DPO para obtener el punto de control final. La evaluación se realiza con las tareas/métricas de LM Eval Harness, así como en MT-Bench utilizando el marco "LLM-as-a-judge" con Claude 2.1, encontrando que el punto de control final, "OpenBezoar-HH-RLHF-DPO", demuestra un rendimiento superior sobre muchos modelos en la escala de 3B parámetros, incluso superando al modelo principal en una de las categorías del Huggingface Open LLM Leaderboard. Publicamos los puntos de control "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", junto con nuestros conjuntos de datos generados en HuggingFace en https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc y nuestro código base en https://bitbucket.org/paladinanalytics/workspace/projects/OP.