Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo estudia el ajuste posterior de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) utilizando retroalimentación de preferencias de un oráculo poderoso para ayudar a un modelo a mejorar iterativamente sobre sí mismo. El enfoque típico para el ajuste posterior de LLMs implica el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), que tradicionalmente separa el aprendizaje de recompensas y la posterior optimización de políticas. Sin embargo, este enfoque de maximización de recompensas está limitado por la naturaleza de las recompensas "puntuales" (como el modelo de Bradley-Terry), que no logran expresar relaciones de preferencia complejas, intransitivas o cíclicas. Aunque los avances en RLHF muestran que el aprendizaje de recompensas y la optimización de políticas pueden fusionarse en un único objetivo contrastivo para mejorar la estabilidad, aún permanecen atados al marco de maximización de recompensas. Recientemente, una nueva ola de investigación evita las presunciones de maximización de recompensas en favor de optimizar directamente sobre preferencias "por pares" o generales. En este artículo, presentamos la Optimización Directa de Nash (DNO, por sus siglas en inglés), un algoritmo demostrable y escalable que combina la simplicidad y estabilidad del aprendizaje contrastivo con la generalidad teórica de optimizar preferencias generales. Dado que DNO es un algoritmo por lotes basado en políticas que utiliza un objetivo basado en regresión, su implementación es directa y eficiente. Además, DNO disfruta de una mejora monótona a lo largo de las iteraciones que le permite mejorar incluso sobre un maestro fuerte (como GPT-4). En nuestros experimentos, un modelo Orca-2.5 de 7B parámetros alineado mediante DNO alcanza una tasa de victoria de última generación del 33% frente a GPT-4-Turbo en AlpacaEval 2.0 (incluso después de controlar la longitud de la respuesta), una ganancia absoluta del 26% (del 7% al 33%) sobre el modelo inicial. Supera a modelos con muchos más parámetros, incluyendo Mistral Large, Self-Rewarding LM (70B parámetros) y versiones anteriores de GPT-4.
Los modelos de lenguaje rara vez son expuestos a errores fructíferos durante el entrenamiento. Como resultado, les cuesta mirar más allá del siguiente token, sufren una acumulación de errores y tienen dificultades para predecir las consecuencias de sus acciones varios pasos adelante. En este artículo, demostramos cómo se puede enseñar a los modelos de lenguaje a buscar representando el proceso de búsqueda en lenguaje, como una cadena aplanada: un flujo de búsqueda (Stream of Search, SoS). Proponemos un lenguaje unificado para la búsqueda que captura una variedad de estrategias de búsqueda simbólica. Ilustramos nuestro enfoque utilizando el juego simple pero desafiante de Countdown, donde el objetivo es combinar números de entrada con operaciones aritméticas para alcanzar un número objetivo. Preentrenamos un modelo de lenguaje basado en transformers desde cero en un conjunto de datos de flujos de búsqueda generados por solucionadores heurísticos. Encontramos que el preentrenamiento con SoS aumenta la precisión de búsqueda en un 25 % en comparación con modelos entrenados para predecir solo la trayectoria de búsqueda óptima. Además, ajustamos este modelo con dos métodos de mejora de políticas: Alineación de Políticas Inducida por Ventaja (Advantage-Induced Policy Alignment, APA) y Razonador Autodidacta (Self-Taught Reasoner, STaR). Los modelos SoS ajustados resuelven el 36 % de los problemas previamente no resueltos, incluyendo problemas que no pueden ser resueltos por ninguno de los solucionadores heurísticos. Nuestros resultados indican que los modelos de lenguaje pueden aprender a resolver problemas mediante la búsqueda, auto-mejorarse para usar flexiblemente diferentes estrategias de búsqueda y potencialmente descubrir nuevas.
Los conjuntos de datos de preentrenamiento obtenidos mediante web crawling sustentan el impresionante rendimiento en evaluaciones "zero-shot" de modelos multimodales, como CLIP para clasificación/recuperación y Stable-Diffusion para generación de imágenes. Sin embargo, no está claro cuán significativa es la noción de generalización "zero-shot" para estos modelos multimodales, ya que se desconoce hasta qué punto sus conjuntos de datos de preentrenamiento abarcan los conceptos específicos evaluados en las pruebas "zero-shot". En este trabajo, nos preguntamos: ¿Cómo influye la frecuencia de los conceptos en los conjuntos de datos de preentrenamiento en el rendimiento de los modelos multimodales sobre dichos conceptos? Investigamos exhaustivamente esta pregunta en 34 modelos y cinco conjuntos de datos estándar de preentrenamiento (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generando más de 300 GB de artefactos de datos. Consistentemente, encontramos que, lejos de exhibir generalización "zero-shot", los modelos multimodales requieren exponencialmente más datos para lograr mejoras lineales en el rendimiento "zero-shot", siguiendo una tendencia de escalamiento log-lineal ineficiente en términos de muestras. Esta tendencia persiste incluso al controlar la similitud a nivel de muestra entre los conjuntos de datos de preentrenamiento y los de evaluación, y al probar en distribuciones de datos puramente sintéticas. Además, al evaluar modelos en datos de cola larga muestreados según nuestro análisis, demostramos que los modelos multimodales en general tienen un rendimiento deficiente. Contribuimos con este conjunto de pruebas de cola larga como el benchmark "Let it Wag!" para fomentar más investigación en esta dirección. En conjunto, nuestro estudio revela una necesidad exponencial de datos de entrenamiento, lo que implica que la clave para las capacidades de generalización "zero-shot" bajo paradigmas de entrenamiento a gran escala aún está por descubrirse.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado numerosas tareas de agentes inteligentes, como la navegación web. Sin embargo, la mayoría de los agentes existentes tienen un desempeño insatisfactorio en páginas web del mundo real debido a tres factores: (1) la versatilidad de las acciones en las páginas web, (2) el texto HTML que excede la capacidad de procesamiento del modelo, y (3) la complejidad en la toma de decisiones debido a la naturaleza de dominio abierto de la web. Ante este desafío, desarrollamos AutoWebGLM, un agente automatizado de navegación web basado en ChatGLM3-6B que supera a GPT-4. Inspirados en los patrones de navegación humana, diseñamos un algoritmo de simplificación de HTML para representar las páginas web, conservando la información vital de manera sucinta. Empleamos un método híbrido humano-IA para construir datos de navegación web destinados al entrenamiento curricular. Luego, potenciamos el modelo mediante aprendizaje por refuerzo y muestreo por rechazo para mejorar la comprensión de las páginas web, las operaciones del navegador y la descomposición eficiente de tareas por sí mismo. Para las pruebas, establecemos un benchmark bilingüe —AutoWebBench— para tareas de navegación web en entornos reales. Evaluamos AutoWebGLM en diversos benchmarks de navegación web, revelando sus mejoras pero también los desafíos subyacentes para abordar entornos reales. El código, el modelo y los datos relacionados se publicarán en https://github.com/THUDM/AutoWebGLM.
Los avances recientes en los conjuntos de datos de ajuste por instrucciones se han centrado principalmente en tareas específicas, como el razonamiento matemático o lógico. Se ha observado una brecha notable en los datos diseñados para alinear modelos de lenguaje con el fin de mantener la relevancia temática en las conversaciones, un aspecto crítico para implementar chatbots en entornos de producción. Presentamos el conjunto de datos CantTalkAboutThis, que ayuda a los modelos de lenguaje a mantenerse enfocados en el tema en cuestión durante interacciones orientadas a tareas. Este conjunto consiste en diálogos sintéticos sobre una amplia gama de temas de conversación de diferentes dominios. Estos diálogos están intercalados con turnos distractores que intencionalmente desvían al chatbot del tema predefinido. El ajuste fino de modelos de lenguaje con este conjunto de datos los hace más resistentes a desviarse del rol asignado y mejora su capacidad para mantener la coherencia temática en comparación con modelos de lenguaje de propósito general ajustados por instrucciones, como GPT-4-turbo y Mixtral-Instruct. Además, observaciones preliminares sugieren que entrenar modelos con este conjunto de datos también mejora su rendimiento en tareas de seguimiento de instrucciones detalladas.
Las personas dependen de habilidades sociales como la resolución de conflictos para comunicarse de manera efectiva y prosperar tanto en el ámbito laboral como en la vida personal. Sin embargo, los entornos de práctica para desarrollar habilidades sociales suelen estar fuera del alcance de la mayoría. ¿Cómo podemos hacer que la formación en habilidades sociales sea más disponible, accesible y atractiva? Basándonos en investigaciones interdisciplinarias de la comunicación y la psicología, este artículo de perspectiva identifica las barreras de habilidades sociales para ingresar en campos especializados. Luego, presentamos una solución que aprovecha los modelos de lenguaje de gran escala para la formación en habilidades sociales a través de un marco genérico. Nuestro marco de AI Partner, AI Mentor, combina el aprendizaje experiencial con prácticas realistas y retroalimentación personalizada. Este trabajo, en última instancia, aboga por la innovación interdisciplinaria para abordar las implicaciones más amplias en el desarrollo de la fuerza laboral y la igualdad social.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha mejorado la generación guiada de imágenes con modelos de difusión al optimizar directamente recompensas que capturan la calidad de la imagen, la estética y la capacidad de seguir instrucciones. Sin embargo, las políticas generativas resultantes heredan el mismo proceso de muestreo iterativo de los modelos de difusión, lo que provoca una generación lenta. Para superar esta limitación, los modelos de consistencia propusieron aprender una nueva clase de modelos generativos que mapean directamente el ruido a los datos, lo que resulta en un modelo capaz de generar una imagen en tan solo una iteración de muestreo. En este trabajo, para optimizar modelos generativos de texto a imagen en función de recompensas específicas de tareas y permitir un entrenamiento e inferencia rápidos, proponemos un marco para ajustar modelos de consistencia mediante RL. Nuestro marco, denominado Aprendizaje por Refuerzo para Modelos de Consistencia (RLCM, por sus siglas en inglés), enmarca el proceso de inferencia iterativa de un modelo de consistencia como un procedimiento de RL. RLCM mejora los modelos de difusión ajustados con RL en capacidades de generación de texto a imagen y equilibra el cómputo durante el tiempo de inferencia con la calidad de las muestras. Experimentalmente, demostramos que RLCM puede adaptar modelos de consistencia de texto a imagen a objetivos que son difíciles de expresar mediante indicaciones, como la compresibilidad de la imagen, y aquellos derivados de la retroalimentación humana, como la calidad estética. En comparación con los modelos de difusión ajustados con RL, RLCM entrena significativamente más rápido, mejora la calidad de la generación medida bajo los objetivos de recompensa y acelera el procedimiento de inferencia al generar imágenes de alta calidad con tan solo dos pasos de inferencia. Nuestro código está disponible en https://rlcm.owenoertell.com.
En este estudio, presentamos CT-LLM, un modelo de lenguaje grande (LLM) de 2 mil millones de parámetros que representa un cambio fundamental hacia la priorización del idioma chino en el desarrollo de LLMs. Iniciado de manera única desde cero, CT-LLM se desvía de la metodología convencional al incorporar principalmente datos textuales en chino, utilizando un extenso corpus de 1,2 billones de tokens, que incluye 800 mil millones de tokens en chino, 300 mil millones en inglés y 100 mil millones de tokens de código. Esta composición estratégica facilita la excepcional competencia del modelo en la comprensión y procesamiento del chino, una capacidad que se ve aún más reforzada mediante técnicas de alineación. Demostrando un rendimiento notable en el CHC-Bench, CT-LLM sobresale en tareas de lenguaje chino y muestra su destreza en inglés a través de SFT. Esta investigación desafía el paradigma predominante de entrenar LLMs principalmente en corpus en inglés y luego adaptarlos a otros idiomas, ampliando los horizontes de las metodologías de entrenamiento de LLMs. Al hacer de código abierto todo el proceso de entrenamiento de un LLM en chino, incluyendo un procedimiento detallado de procesamiento de datos con el Corpus Masivo de Pretraining Apropiado en Chino (MAP-CC), un Benchmark Multidisciplinario de Casos Difíciles en Chino (CHC-Bench) cuidadosamente seleccionado, y el modelo CT-LLM de 2 mil millones de parámetros, nuestro objetivo es fomentar una mayor exploración e innovación tanto en la academia como en la industria, allanando el camino para modelos de lenguaje más inclusivos y versátiles.
En este artículo, abordamos fuentes comunes de error en el Splatting Gaussiano 3D (3DGS), como el desenfoque, las poses de cámara imperfectas y las inconsistencias de color, con el objetivo de mejorar su robustez para aplicaciones prácticas como reconstrucciones a partir de capturas con teléfonos móviles. Nuestra principal contribución consiste en modelar el desenfoque de movimiento como una distribución gaussiana sobre las poses de la cámara, lo que nos permite abordar tanto el refinamiento de la pose de la cámara como la corrección del desenfoque de movimiento de manera unificada. Además, proponemos mecanismos para compensar el desenfoque por falta de enfoque y para abordar las inconsistencias de color causadas por la luz ambiental, las sombras o factores relacionados con la cámara, como ajustes variables de balance de blancos. Nuestras soluciones propuestas se integran de manera fluida con la formulación del 3DGS, manteniendo sus ventajas en términos de eficiencia de entrenamiento y velocidad de renderizado. Validamos experimentalmente nuestras contribuciones en conjuntos de datos de referencia relevantes, como Scannet++ y Deblur-NeRF, obteniendo resultados de vanguardia y mejoras consistentes sobre las líneas base relevantes.
La segmentación semántica multimodal mejora significativamente la percepción y la comprensión de escenas por parte de los agentes de IA, especialmente en condiciones adversas como entornos de poca luz o sobreexpuestos. Aprovechar modalidades adicionales (X-modalidad), como térmica y profundidad, junto con el RGB tradicional, proporciona información complementaria, permitiendo una segmentación más robusta y confiable. En este trabajo, presentamos Sigma, una red Siamese Mamba para la segmentación semántica multimodal, que utiliza el Modelo de Espacio de Estado Estructurado Selectivo, Mamba. A diferencia de los métodos convencionales que dependen de CNNs, con sus campos receptivos locales limitados, o de los Transformers de Visión (ViTs), que ofrecen campos receptivos globales a costa de una complejidad cuadrática, nuestro modelo logra una cobertura de campos receptivos globales con complejidad lineal. Al emplear un codificador Siamese e innovar un mecanismo de fusión Mamba, seleccionamos eficazmente la información esencial de diferentes modalidades. Luego, se desarrolla un decodificador para mejorar la capacidad de modelado por canales del modelo. Nuestro método, Sigma, se evalúa rigurosamente en tareas de segmentación RGB-Térmica y RGB-Profundidad, demostrando su superioridad y marcando la primera aplicación exitosa de Modelos de Espacio de Estado (SSMs) en tareas de percepción multimodal. El código está disponible en https://github.com/zifuwan/Sigma.