Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos la familia de modelos Yi, una serie de modelos de lenguaje y multimodales que demuestran capacidades sólidas en múltiples dimensiones. La familia de modelos Yi se basa en modelos de lenguaje preentrenados de 6B y 34B, los cuales extendemos para crear modelos de chat, modelos de contexto largo de 200K, modelos con escalado de profundidad y modelos de visión-lenguaje. Nuestros modelos base logran un rendimiento destacado en una amplia gama de benchmarks como MMLU, y nuestros modelos de chat ajustados obtienen una alta tasa de preferencia humana en plataformas de evaluación principales como AlpacaEval y Chatbot Arena. Basándonos en nuestra infraestructura escalable de supercomputación y la arquitectura clásica de transformadores, atribuimos el rendimiento de los modelos Yi principalmente a la calidad de los datos, resultado de nuestros esfuerzos en ingeniería de datos. Para el preentrenamiento, construimos un corpus de 3.1 billones de tokens en inglés y chino utilizando un pipeline en cascada de deduplicación y filtrado de calidad. Para el ajuste fino, refinamos un conjunto de datos de instrucciones de pequeña escala (menos de 10K) a través de múltiples iteraciones, de modo que cada instancia ha sido verificada directamente por nuestros ingenieros de aprendizaje automático. Para visión-lenguaje, combinamos el modelo de lenguaje de chat con un codificador de transformadores de visión y entrenamos el modelo para alinear las representaciones visuales con el espacio semántico del modelo de lenguaje. Además, extendemos la longitud de contexto a 200K mediante un preentrenamiento continuo ligero y demostramos un rendimiento sólido en tareas de recuperación de "aguja en un pajar". Mostramos que extender la profundidad del punto de control preentrenado a través del preentrenamiento continuo mejora aún más el rendimiento. Creemos que, dados nuestros resultados actuales, continuar escalando los parámetros del modelo utilizando datos optimizados de manera exhaustiva conducirá a modelos frontera aún más potentes.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha surgido como un enfoque dominante para alinear las salidas de los Modelos de Lenguaje de Gran Escala (LLM) con las preferencias humanas. Inspirados por el éxito del RLHF, estudiamos el rendimiento de múltiples algoritmos que aprenden de la retroalimentación (Iteración de Expertos, Optimización de Políticas Proximales (PPO), Aprendizaje por Refuerzo Condicionado por Retorno) en la mejora de las capacidades de razonamiento de los LLM. Investigamos tanto recompensas dispersas como densas proporcionadas al LLM, tanto de manera heurística como a través de un modelo de recompensa aprendido. Además, comenzamos con múltiples tamaños de modelos e inicializaciones, tanto con como sin datos de ajuste fino supervisado (SFT). En general, encontramos que todos los algoritmos tienen un rendimiento comparable, siendo la Iteración de Expertos la que mejor funciona en la mayoría de los casos. Sorprendentemente, encontramos que la complejidad de muestreo de la Iteración de Expertos es similar a la de PPO, requiriendo como máximo del orden de 10^6 muestras para converger desde un punto de control preentrenado. Investigamos por qué ocurre esto, concluyendo que durante el entrenamiento por refuerzo, los modelos no logran explorar significativamente más allá de las soluciones ya producidas por los modelos SFT. Además, discutimos un equilibrio entre las métricas maj@1 y pass@96 durante el entrenamiento SFT y cómo, por el contrario, el entrenamiento por refuerzo mejora ambas simultáneamente. Finalmente, concluimos discutiendo las implicaciones de nuestros hallazgos para el RLHF y el futuro papel del aprendizaje por refuerzo en el ajuste fino de los LLM.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han desbloqueado nuevas capacidades y aplicaciones; sin embargo, evaluar su alineación con las preferencias humanas sigue presentando desafíos significativos. Para abordar este problema, presentamos Chatbot Arena, una plataforma abierta para evaluar LLMs basada en preferencias humanas. Nuestra metodología emplea un enfoque de comparación por pares y aprovecha la contribución de una base de usuarios diversa a través de crowdsourcing. La plataforma ha estado operativa durante varios meses, acumulando más de 240K votos. Este artículo describe la plataforma, analiza los datos recopilados hasta el momento y explica los métodos estadísticos probados que utilizamos para una evaluación y clasificación eficiente y precisa de los modelos. Confirmamos que las preguntas generadas por crowdsourcing son lo suficientemente diversas y discriminantes, y que los votos humanos obtenidos mediante crowdsourcing concuerdan bien con los de evaluadores expertos. Estos análisis establecen colectivamente una base sólida para la credibilidad de Chatbot Arena. Debido a su valor único y apertura, Chatbot Arena se ha convertido en una de las tablas de clasificación de LLMs más referenciadas, ampliamente citada por desarrolladores y empresas líderes en el campo. Nuestra demostración está disponible públicamente en https://chat.lmsys.org.
La edición de imágenes basada en puntos ha atraído una atención notable desde la aparición de DragGAN. Recientemente, DragDiffusion ha llevado aún más lejos la calidad generativa al adaptar esta técnica de arrastre a modelos de difusión. A pesar de estos grandes éxitos, este esquema de arrastre presenta dos inconvenientes principales, a saber, el seguimiento impreciso de puntos y la supervisión de movimiento incompleta, lo que puede resultar en resultados de arrastre insatisfactorios. Para abordar estos problemas, construimos un marco de edición basado en arrastre estable y preciso, denominado StableDrag, mediante el diseño de un método de seguimiento de puntos discriminativo y una estrategia de mejora latente basada en confianza para la supervisión del movimiento. El primero nos permite localizar con precisión los puntos de manejo actualizados, mejorando así la estabilidad de la manipulación de largo alcance, mientras que el segundo es responsable de garantizar que el latente optimizado sea de la mayor calidad posible en todos los pasos de manipulación. Gracias a estos diseños únicos, instanciamos dos tipos de modelos de edición de imágenes, incluidos StableDrag-GAN y StableDrag-Diff, que logran un rendimiento de arrastre más estable, a través de extensos experimentos cualitativos y evaluación cuantitativa en DragBench.
Las herramientas son esenciales para que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) obtengan información actualizada y realicen acciones significativas en entornos externos. El trabajo existente sobre LLMs aumentados con herramientas se centra principalmente en la amplia cobertura de herramientas y la flexibilidad para añadir nuevas. Sin embargo, un aspecto crítico que, sorprendentemente, ha sido poco estudiado es simplemente cuán precisa es la forma en que un LLM utiliza las herramientas para las que ha sido entrenado. Descubrimos que los LLMs existentes, incluidos GPT-4 y LLMs de código abierto específicamente ajustados para el uso de herramientas, solo alcanzan una tasa de precisión en el rango del 30% al 60%, lejos de ser confiables en la práctica. Proponemos un método inspirado en la biología para LLMs aumentados con herramientas, llamado ensayo y error simulado (STE, por sus siglas en inglés), que orquesta tres mecanismos clave para comportamientos exitosos en el uso de herramientas en sistemas biológicos: ensayo y error, imaginación y memoria. Específicamente, STE aprovecha la "imaginación" de un LLM para simular escenarios plausibles de uso de una herramienta, después de lo cual el LLM interactúa con la herramienta para aprender de su retroalimentación de ejecución. Tanto la memoria a corto como a largo plazo se emplean para mejorar la profundidad y amplitud de la exploración, respectivamente. Experimentos exhaustivos en ToolBench muestran que STE mejora sustancialmente el aprendizaje de herramientas para LLMs tanto en entornos de aprendizaje en contexto como de ajuste fino, logrando un aumento del 46.7% en Mistral-Instruct-7B y permitiéndole superar a GPT-4. También demostramos un aprendizaje continuo efectivo de herramientas mediante una simple estrategia de repetición de experiencias.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) como GPT-4V han demostrado recientemente avances increíbles en diversas tareas de visión y lenguaje. Nos adentramos en el razonamiento deductivo basado en visión, un ámbito más sofisticado pero menos explorado, y descubrimos puntos ciegos previamente no expuestos en los VLMs de última generación (SOTA). Específicamente, utilizamos las Matrices Progresivas de Raven (RPMs) para evaluar las capacidades de los VLMs para realizar razonamientos relacionales y deductivos de múltiples pasos basándose únicamente en pistas visuales. Realizamos evaluaciones exhaustivas de varios VLMs populares empleando estrategias estándar como el aprendizaje en contexto, la autoconsistencia y la Cadena de Pensamientos (CoT) en tres conjuntos de datos diversos, incluyendo el test de coeficiente intelectual Mensa, IntelligenceTest y RAVEN. Los resultados revelan que, a pesar de las impresionantes capacidades de los Modelos de Lenguaje (LLMs) en el razonamiento basado en texto, todavía estamos lejos de alcanzar una competencia comparable en el razonamiento deductivo visual. Descubrimos que ciertas estrategias estándar que son efectivas cuando se aplican a los LLMs no se trasladan sin problemas a los desafíos presentados por las tareas de razonamiento visual. Además, un análisis detallado revela que los VLMs tienen dificultades para resolver estas tareas principalmente porque no pueden percibir y comprender múltiples patrones abstractos confusos en los ejemplos de RPMs.
Anteriormente se creía que las capacidades matemáticas emergían en los modelos de lenguaje comunes solo a una escala muy grande o requerían un extenso pre-entrenamiento en matemáticas. Este artículo demuestra que el modelo LLaMA-2 7B con un pre-entrenamiento común ya exhibe fuertes habilidades matemáticas, como lo evidencia su impresionante precisión del 97,7% y 72,0% en los benchmarks GSM8K y MATH, respectivamente, al seleccionar la mejor respuesta de 256 generaciones aleatorias. El principal problema con el modelo base actual es la dificultad para elicitar consistentemente sus capacidades matemáticas inherentes. Notablemente, la precisión de la primera respuesta cae al 49,5% y 7,9% en los benchmarks GSM8K y MATH, respectivamente. Encontramos que simplemente escalar los datos de SFT puede mejorar significativamente la confiabilidad de generar respuestas correctas. Sin embargo, el potencial para un escalamiento extenso está limitado por la escasez de preguntas matemáticas disponibles públicamente. Para superar esta limitación, empleamos datos sintéticos, los cuales resultan ser casi tan efectivos como los datos reales y no muestran una clara saturación cuando se escalan hasta aproximadamente un millón de muestras. Este enfoque sencillo logra una precisión del 82,6% en GSM8K y 40,6% en MATH utilizando modelos LLaMA-2 7B, superando a los modelos anteriores en un 14,2% y 20,8%, respectivamente. También proporcionamos insights sobre los comportamientos de escalamiento en diferentes complejidades de razonamiento y tipos de errores.
Presentamos Pix2Gif, un modelo de difusión guiado por movimiento para la generación de imagen a GIF (video). Abordamos este problema de manera diferente formulando la tarea como un problema de traducción de imágenes dirigido por indicaciones de texto y magnitud de movimiento, como se muestra en la figura de avance. Para garantizar que el modelo se adhiera a la guía de movimiento, proponemos un nuevo módulo de deformación guiado por movimiento que transforma espacialmente las características de la imagen fuente condicionadas por los dos tipos de indicaciones. Además, introducimos una pérdida perceptual para asegurar que el mapa de características transformado permanezca en el mismo espacio que la imagen objetivo, garantizando consistencia y coherencia en el contenido. En preparación para el entrenamiento del modelo, seleccionamos meticulosamente los datos extrayendo fotogramas coherentes del conjunto de datos TGIF de video-caption, que proporciona información rica sobre los cambios temporales de los sujetos. Después del preentrenamiento, aplicamos nuestro modelo de manera zero-shot a varios conjuntos de datos de video. Experimentos cualitativos y cuantitativos extensos demuestran la efectividad de nuestro modelo: no solo captura la indicación semántica del texto, sino también las espaciales de la guía de movimiento. Entrenamos todos nuestros modelos utilizando un solo nodo con 16 GPUs V100. El código, el conjunto de datos y los modelos están disponibles públicamente en: https://hiteshk03.github.io/Pix2Gif/.
La radiografía se aplica ampliamente para la obtención de imágenes por transmisión debido a su mayor penetración en comparación con la luz natural. Al renderizar proyecciones de rayos X desde nuevas perspectivas, los métodos existentes basados principalmente en NeRF presentan tiempos de entrenamiento prolongados y velocidades de inferencia lentas. En este artículo, proponemos un marco basado en splatting de Gaussianas 3D, denominado X-Gaussian, para la síntesis de nuevas vistas en rayos X. En primer lugar, rediseñamos un modelo de nube de puntos Gaussianas radiativas inspirado en la naturaleza isotrópica de la imagen de rayos X. Nuestro modelo excluye la influencia de la dirección de la vista al aprender a predecir la intensidad de radiación de los puntos 3D. Basado en este modelo, desarrollamos una Rasterización Radiativa Diferenciable (DRR) con implementación en CUDA. En segundo lugar, personalizamos una estrategia de Inicialización Uniforme de Cuboide con Ángulo-Posición (ACUI) que utiliza directamente los parámetros del escáner de rayos X para calcular la información de la cámara y luego muestrea uniformemente las posiciones de los puntos dentro de un cuboide que engloba el objeto escaneado. Los experimentos muestran que nuestro X-Gaussian supera a los métodos más avanzados en 6.5 dB, mientras que disfruta de menos del 15% del tiempo de entrenamiento y más de 73 veces la velocidad de inferencia. La aplicación en la reconstrucción de tomografía computarizada de vistas dispersas también revela los valores prácticos de nuestro método. El código y los modelos estarán disponibles públicamente en https://github.com/caiyuanhao1998/X-Gaussian. Un video demostrativo de la visualización del proceso de entrenamiento está disponible en https://www.youtube.com/watch?v=gDVf_Ngeghg.