Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha surgido como un paradigma popular para alinear modelos con la intención humana. Típicamente, los algoritmos de RLHF operan en dos fases: primero, utilizan preferencias humanas para aprender una función de recompensa y, segundo, alinean el modelo optimizando la recompensa aprendida mediante aprendizaje por refuerzo (RL). Este paradigma asume que las preferencias humanas se distribuyen según la recompensa, pero trabajos recientes sugieren que, en cambio, siguen el arrepentimiento bajo la política óptima del usuario. Por lo tanto, aprender una función de recompensa a partir de la retroalimentación no solo se basa en una suposición errónea sobre las preferencias humanas, sino que también conlleva desafíos de optimización difíciles de manejar que surgen de los gradientes de política o el bootstrapping en la fase de RL. Debido a estos desafíos de optimización, los métodos contemporáneos de RLHF se limitan a configuraciones de bandidos contextuales (por ejemplo, en modelos de lenguaje grandes) o restringen la dimensionalidad de las observaciones (por ejemplo, en robótica basada en estados). Superamos estas limitaciones introduciendo una nueva familia de algoritmos para optimizar el comportamiento a partir de la retroalimentación humana utilizando el modelo basado en arrepentimiento de las preferencias humanas. Utilizando el principio de máxima entropía, derivamos el Aprendizaje de Preferencias Contrastivas (CPL, por sus siglas en inglés), un algoritmo para aprender políticas óptimas a partir de preferencias sin necesidad de aprender funciones de recompensa, evitando así la necesidad de RL. CPL es completamente fuera de política, utiliza solo un objetivo contrastivo simple y puede aplicarse a MDPs arbitrarios. Esto permite que CPL escale elegantemente a problemas de RLHF de alta dimensionalidad y secuenciales, siendo más simple que los métodos anteriores.
La *Síntesis de Datos* es un enfoque prometedor para entrenar un modelo pequeño con muy pocos datos etiquetados. Una estrategia para la síntesis de datos consiste en aprovechar el conocimiento profundo de los modelos de lenguaje grandes para generar ejemplos de entrenamiento pseudoetiquetados para modelos pequeños, lo que permite lograr eficiencia tanto en datos como en cómputo simultáneamente. Sin embargo, un desafío clave en la síntesis de datos es que el conjunto de datos sintetizado suele presentar una gran discrepancia distribucional con respecto a la distribución de datos de la *tarea real*. Por ello, en este artículo proponemos *Síntesis Paso a Paso* (**S3**), un marco de síntesis de datos que reduce esta brecha distribucional al extrapolar iterativamente los errores cometidos por un modelo pequeño entrenado con el conjunto de datos sintetizado, utilizando un modelo de lenguaje grande sobre un pequeño conjunto de validación del mundo real. Experimentos exhaustivos en múltiples tareas de PLN demuestran que nuestro enfoque mejora el rendimiento de un modelo pequeño al reducir la brecha entre el conjunto de datos sintético y los datos reales, logrando una mejora significativa frente a varios métodos de referencia: un 9,48 % de mejora respecto a ZeroGen y un 2,73 % frente a GoldGen, y hasta un 15,17 % de mejora comparado con el modelo pequeño entrenado con datos anotados manualmente.
Los modelos probabilísticos de difusión (DPMs, por sus siglas en inglés) han demostrado un rendimiento excepcional en la generación de imágenes de alta fidelidad, aunque presentan ineficiencias en el muestreo. Trabajos recientes han acelerado el procedimiento de muestreo mediante la propuesta de solucionadores rápidos de ecuaciones diferenciales ordinarias (EDOs) que aprovechan la forma específica de EDO de los DPMs. Sin embargo, estos métodos dependen en gran medida de una parametrización específica durante la inferencia (como la predicción de ruido o datos), lo cual podría no ser la elección óptima. En este trabajo, proponemos una nueva formulación hacia la parametrización óptima durante el muestreo que minimiza el error de discretización de primer orden de la solución de la EDO. Basados en esta formulación, presentamos DPM-Solver-v3, un nuevo solucionador rápido de EDOs para DPMs, introduciendo varios coeficientes calculados eficientemente en el modelo preentrenado, a los que denominamos estadísticas empíricas del modelo. Además, incorporamos métodos de múltiples pasos y un marco de predictor-corrector, y proponemos algunas técnicas para mejorar la calidad de las muestras con un número reducido de evaluaciones de función (NFE, por sus siglas en inglés) o escalas de guía grandes. Los experimentos muestran que DPM-Solver-v3 logra un rendimiento consistentemente mejor o comparable en el muestreo tanto incondicional como condicional, tanto en DPMs de espacio de píxeles como de espacio latente, especialmente en 5 a 10 NFE. Alcanzamos FIDs de 12.21 (5 NFE) y 2.51 (10 NFE) en CIFAR10 incondicional, y un MSE de 0.55 (5 NFE, escala de guía de 7.5) en Stable Diffusion, obteniendo una aceleración del 15% al 30% en comparación con los métodos más avanzados sin entrenamiento previo. El código está disponible en https://github.com/thu-ml/DPM-Solver-v3.
La audición es, sin duda, una habilidad esencial para los agentes de inteligencia artificial (IA) en el mundo físico, lo que se refiere a la percepción y comprensión de información auditiva general que consta de al menos tres tipos de sonidos: habla, eventos de audio y música. En este artículo, proponemos SALMONN, una red neuronal abierta de habla, audio, lenguaje y música, construida mediante la integración de un modelo de lenguaje grande (LLM) preentrenado basado en texto con codificadores de habla y audio en un único modelo multimodal. SALMONN permite que el LLM procese y comprenda directamente entradas de audio generales y logre un rendimiento competitivo en una serie de tareas de habla y audio utilizadas en el entrenamiento, como el reconocimiento automático del habla y la traducción, la respuesta a preguntas basadas en información auditiva, el reconocimiento de emociones, la verificación del hablante y la descripción de música y audio, entre otras. SALMONN también posee un conjunto diverso de habilidades emergentes no vistas durante el entrenamiento, que incluyen, pero no se limitan a, la traducción de habla a idiomas no entrenados, el llenado de espacios basado en habla, la respuesta a preguntas basadas en consultas habladas, la narración basada en audio y la co-razonamiento de habla y audio, entre otras. Se estudia la presencia de estas habilidades emergentes multimodales y se propone un novedoso enfoque de ajuste de activación en pocos ejemplos para activar dichas habilidades de SALMONN. Hasta donde sabemos, SALMONN es el primer modelo de su tipo y puede considerarse un paso hacia la IA con habilidades auditivas genéricas. Una demostración interactiva de SALMONN está disponible en \url{https://github.com/bytedance/SALMONN}, y el código de entrenamiento y los puntos de control del modelo se publicarán tras la aceptación.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben habilidades emergentes impresionantes en el procesamiento del lenguaje natural, pero su democratización se ve obstaculizada debido a los enormes requisitos computacionales y su naturaleza de código cerrado. Investigaciones recientes sobre el avance de modelos de lenguaje más pequeños y de código abierto, mediante la destilación de conocimiento de LLMs de caja negra, han obtenido resultados prometedores en la capacidad de seguir instrucciones. Sin embargo, la capacidad de razonamiento, que es más difícil de fomentar, ha sido relativamente poco explorada. En este artículo, proponemos un enfoque de aprendizaje personalizado para destilar dicha capacidad de razonamiento en modelos de lenguaje más pequeños, con el fin de facilitar la democratización de esta habilidad exclusiva. A diferencia de emplear el LLM simplemente como un anotador de datos, aprovechamos su potencial como un profesor de razonamiento mediante la construcción de un paradigma de aprendizaje interactivo de múltiples rondas. Este paradigma permite que el estudiante exponga sus deficiencias al profesor de caja negra, quien luego puede proporcionar datos de entrenamiento personalizados. Además, para explotar el potencial de razonamiento del modelo de lenguaje más pequeño, proponemos un aprendizaje de autorreflexión que motiva al estudiante a aprender de sus propios errores. El aprendizaje a partir de la autorreflexión y del LLM se adapta al estado de aprendizaje del estudiante, gracias a la integración fluida con el paradigma de aprendizaje de múltiples rondas. Experimentos y análisis exhaustivos en tareas de razonamiento matemático y de sentido común demuestran la efectividad de nuestro método. El código estará disponible en https://github.com/Raibows/Learn-to-Reason.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades potentes de toma de decisiones y planificación para resolver problemas complejos del mundo real. Los agentes autónomos basados en LLMs pueden interactuar con diversas herramientas (por ejemplo, APIs funcionales) y generar planes de solución que ejecutan una serie de llamadas a funciones API de manera paso a paso. La multitud de posibles llamadas a funciones API amplía significativamente el espacio de acción, intensificando la necesidad crítica de una navegación eficiente en dicho espacio. Sin embargo, los métodos existentes enfrentan dificultades, ya sea por una exploración unidireccional en espacios de acción expansivos, quedando atrapados en una solución localmente óptima, o por un recorrido exhaustivo de todas las acciones potenciales, lo que resulta en una navegación ineficiente. Para abordar estos problemas, proponemos ToolChain*, un algoritmo de planificación basado en búsqueda en árbol eficiente para agentes basados en LLMs. Este formula todo el espacio de acción como un árbol de decisiones, donde cada nodo representa una posible llamada a una función API involucrada en un plan de solución. Al incorporar el algoritmo de búsqueda A* con un diseño de función de costo específico para la tarea, poda eficientemente las ramas de alto costo que pueden incluir acciones incorrectas, identificando la ruta válida de menor costo como la solución. Experimentos extensos en múltiples tareas de uso de herramientas y razonamiento demuestran que ToolChain* equilibra eficientemente la exploración y la explotación dentro de un espacio de acción expansivo. Supera a los métodos de referencia más avanzados en tareas de planificación y razonamiento en un 3.1% y 3.5% en promedio, respectivamente, mientras requiere 7.35x y 2.31x menos tiempo.
Los métodos basados en difusión han logrado un éxito destacado en la generación de medios 2D. Sin embargo, alcanzar niveles similares de competencia en la texturización de mallas a nivel de escena para aplicaciones espaciales 3D, como XR/VR, sigue siendo un desafío, principalmente debido a la naturaleza intrincada de la geometría 3D y la necesidad de un renderizado inmersivo desde múltiples puntos de vista. En este artículo, proponemos un novedoso marco de trabajo para la texturización de escenas interiores, que ofrece la generación de texturas basadas en texto con detalles cautivadores y una coherencia espacial auténtica. La idea clave es primero imaginar una textura panorámica estilizada de 360° desde el punto de vista central de la escena, y luego propagarla al resto de las áreas utilizando técnicas de inpaint e imitación. Para garantizar texturas significativas y alineadas con la escena, desarrollamos un enfoque novedoso de generación de texturas panorámicas de grueso a fino con doble alineación de texturas, que considera tanto las pistas geométricas como las texturas de las escenas capturadas. Para superar las geometrías complejas durante la propagación de texturas, diseñamos una estrategia separada, que realiza inpaint de texturas en regiones confiables y luego aprende una red de imitación implícita para sintetizar texturas en áreas ocluidas y de estructuras diminutas. Experimentos extensivos y la aplicación inmersiva en VR en escenas interiores del mundo real demuestran la alta calidad de las texturas generadas y la experiencia envolvente en los cascos de VR. Página del proyecto: https://ybbbbt.com/publication/dreamspace
La capacidad de auto-mejora de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), habilitada al solicitarles que analicen y revisen sus propias salidas, ha generado un interés significativo en investigaciones recientes. Sin embargo, se ha demostrado que esta capacidad está ausente y es difícil de aprender para modelos más pequeños, lo que amplía la brecha de rendimiento entre los LLMs de última generación y aquellos más económicos y rápidos. Para reducir esta brecha, presentamos TriPosT, un algoritmo de entrenamiento que dota a los modelos más pequeños con dicha capacidad de auto-mejora, y demostramos que nuestro enfoque puede mejorar el rendimiento de un LLaMA-7b en tareas de matemáticas y razonamiento hasta en un 7.13%. A diferencia de trabajos previos, logramos esto haciendo que el modelo más pequeño interactúe con LLMs para recopilar comentarios y mejoras sobre sus propias generaciones. Luego, reproducimos esta experiencia para entrenar al modelo pequeño. Nuestros experimentos en cuatro conjuntos de datos de matemáticas y razonamiento muestran que la experiencia interactiva de aprender y corregir sus propios errores es crucial para que los modelos pequeños mejoren su rendimiento.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden realizar una amplia gama de tareas siguiendo instrucciones en lenguaje natural, sin la necesidad de un ajuste específico para cada tarea. Desafortunadamente, el rendimiento de los LLMs se ve fuertemente influenciado por la calidad de estas instrucciones, y la escritura manual de instrucciones efectivas para cada tarea es un proceso laborioso y subjetivo. En este artículo, presentamos Auto-Instruct, un método novedoso para mejorar automáticamente la calidad de las instrucciones proporcionadas a los LLMs. Nuestro método aprovecha la capacidad generativa inherente de los LLMs para producir diversas instrucciones candidatas para una tarea dada, y luego las clasifica utilizando un modelo de puntuación entrenado en una variedad de 575 tareas existentes de procesamiento de lenguaje natural (NLP). En experimentos realizados en 118 tareas fuera del dominio, Auto-Instruct supera tanto a las instrucciones escritas por humanos como a las líneas base existentes de instrucciones generadas por LLMs. Además, nuestro método exhibe una notable capacidad de generalización incluso con otros LLMs que no forman parte de su proceso de entrenamiento.
El ajuste por instrucciones de modelos de lenguaje grandes (LLMs) de código abierto como LLaMA, utilizando salidas directas de LLMs más potentes como Instruct-GPT y GPT-4, ha demostrado ser una forma rentable de alinear los comportamientos del modelo con las preferencias humanas. Sin embargo, el modelo ajustado por instrucciones solo ha visto una respuesta por instrucción, careciendo del conocimiento de respuestas potencialmente mejores. En este artículo, proponemos ajustar un LLM previamente ajustado por instrucciones utilizando nuestros enfoques novedosos de clasificación probabilística y clasificación contextual para aumentar la probabilidad de generar respuestas mejores. La clasificación probabilística permite que el modelo ajustado por instrucciones herede las clasificaciones relativas de respuestas de alta y baja calidad del LLM maestro. Por otro lado, el aprendizaje con clasificación contextual permite que el modelo refine su propia distribución de respuestas utilizando la capacidad de comprensión contextual de LLMs más fuertes. Además, aplicamos secuencialmente la clasificación probabilística y la clasificación contextual al LLM ajustado por instrucciones. El modelo resultante, al que llamamos Tuna, mejora consistentemente el rendimiento en Super Natural Instructions (119 tareas de prueba), LMentry (25 tareas de prueba), Vicuna QA, e incluso puede obtener mejores resultados que varias líneas base fuertes de aprendizaje por refuerzo. Nuestro código y datos están disponibles en https://github.com/microsoft/LMOps.
El preentrenamiento de imagen-texto en conjuntos de datos de subtítulos de imágenes a escala web se ha convertido en la receta predeterminada para modelos de clasificación y recuperación de vocabulario abierto, gracias al éxito de CLIP y sus variantes. Varios trabajos también han utilizado características de CLIP para tareas de predicción densa y han demostrado la aparición de capacidades de conjunto abierto. Sin embargo, el objetivo contrastivo solo se centra en la alineación imagen-texto y no incentiva el aprendizaje de características de imagen para tareas de predicción densa. En este trabajo, proponemos la simple adición de aprendizaje de correspondencia local-a-global mediante auto-distilación como un objetivo adicional para el preentrenamiento contrastivo, dando lugar a SILC. Mostramos que la destilación de características locales de imagen a partir de un modelo maestro de media móvil exponencial (EMA) mejora significativamente el rendimiento del modelo en varias tareas de visión por computadora, incluyendo clasificación, recuperación y, especialmente, segmentación. Además, demostramos que SILC escala mejor con la misma duración de entrenamiento en comparación con los modelos de referencia. Nuestro modelo SILC establece un nuevo estado del arte en clasificación de cero disparos, clasificación de pocos disparos, recuperación de imágenes y texto, segmentación de cero disparos y segmentación de vocabulario abierto.
El uso de herramientas es un sello distintivo de la inteligencia avanzada, ejemplificado tanto en el comportamiento animal como en las capacidades robóticas. Este artículo investiga la viabilidad de dotar a los robots de la capacidad de utilizar herramientas de manera creativa en tareas que implican restricciones físicas implícitas y planificación a largo plazo. Aprovechando los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), desarrollamos RoboTool, un sistema que acepta instrucciones en lenguaje natural y genera código ejecutable para controlar robots en entornos tanto simulados como del mundo real. RoboTool incorpora cuatro componentes clave: (i) un "Analizador" que interpreta el lenguaje natural para discernir conceptos clave relacionados con la tarea, (ii) un "Planificador" que genera estrategias integrales basadas en la entrada de lenguaje y los conceptos clave, (iii) un "Calculador" que computa parámetros para cada habilidad, y (iv) un "Codificador" que traduce estos planes en código Python ejecutable. Nuestros resultados muestran que RoboTool no solo puede comprender restricciones físicas explícitas o implícitas y factores ambientales, sino que también demuestra un uso creativo de herramientas. A diferencia de los métodos tradicionales de Planificación de Tareas y Movimiento (TAMP, por sus siglas en inglés) que dependen de optimización explícita, nuestro sistema basado en LLM ofrece una solución más flexible, eficiente y fácil de usar para tareas robóticas complejas. A través de extensos experimentos, validamos que RoboTool es competente en manejar tareas que de otro modo serían inviables sin el uso creativo de herramientas, expandiendo así las capacidades de los sistemas robóticos. Las demostraciones están disponibles en nuestra página del proyecto: https://creative-robotool.github.io/.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) representan una revolución en la inteligencia artificial. Sin embargo, también plantean riesgos significativos, como la presencia de texto sesgado, privado, protegido por derechos de autor o dañino. Por esta razón, necesitamos soluciones abiertas, transparentes y seguras. Presentamos un ecosistema completo de código abierto para el desarrollo y prueba de LLMs. El objetivo de este proyecto es impulsar alternativas abiertas frente a enfoques de código cerrado. Lanzamos h2oGPT, una familia de LLMs ajustados que van desde 7 hasta 70 mil millones de parámetros. También presentamos H2O LLM Studio, un marco de trabajo y una interfaz gráfica sin código diseñada para el ajuste fino, evaluación e implementación eficiente de LLMs utilizando las técnicas más avanzadas del estado del arte. Nuestro código y modelos están licenciados bajo licencias Apache 2.0 completamente permisivas. Creemos que los modelos de lenguaje de código abierto ayudan a impulsar el desarrollo de la IA, haciéndola más accesible y confiable. La demostración está disponible en: https://gpt.h2o.ai/
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) es una técnica popular para entrenar asistentes de IA de alta calidad. Sin embargo, el RLHF también puede fomentar respuestas del modelo que se alinean con las creencias del usuario en lugar de ser veraces, un comportamiento conocido como adulación. Investigamos la prevalencia de la adulación en modelos entrenados con RLHF y si los juicios de preferencia humana son responsables de ello. Primero demostramos que cinco asistentes de IA de última generación exhiben consistentemente comportamiento adulador en cuatro tareas variadas de generación de texto libre. Para comprender si las preferencias humanas impulsan este comportamiento ampliamente observado en los modelos RLHF, analizamos datos existentes de preferencias humanas. Encontramos que cuando una respuesta coincide con las opiniones de un usuario, es más probable que sea preferida. Además, tanto los humanos como los modelos de preferencia (PMs) prefieren respuestas aduladoras convincentemente escritas sobre respuestas correctas una fracción insignificante del tiempo. Optimizar las salidas del modelo contra los PMs también sacrifica a veces la veracidad en favor de la adulación. En general, nuestros resultados indican que la adulación es un comportamiento generalizado en los modelos RLHF, probablemente impulsado en parte por los juicios de preferencia humana que favorecen respuestas aduladoras.
En los modelos de difusión, UNet es la arquitectura de red más popular, ya que sus conexiones de salto largas (LSCs, por sus siglas en inglés) que conectan bloques distantes de la red pueden agregar información de largo alcance y mitigar el problema del gradiente que desaparece. Desafortunadamente, UNet suele presentar inestabilidad durante el entrenamiento en modelos de difusión, lo cual puede aliviarse escalando los coeficientes de sus LSCs a valores más pequeños. Sin embargo, aún faltan comprensiones teóricas sobre la inestabilidad de UNet en modelos de difusión y también sobre la mejora de rendimiento que ofrece el escalado de LSCs. Para abordar este problema, demostramos teóricamente que los coeficientes de las LSCs en UNet tienen un gran impacto en la estabilidad de la propagación hacia adelante y hacia atrás, así como en la robustez de UNet. Específicamente, las características ocultas y el gradiente de UNet en cualquier capa pueden oscilar, y sus rangos de oscilación son en realidad amplios, lo que explica la inestabilidad del entrenamiento de UNet. Además, UNet también es teóricamente sensible a entradas perturbadas y predice una salida distante de la deseada, lo que genera una pérdida oscilatoria y, por ende, un gradiente oscilatorio. Asimismo, observamos los beneficios teóricos del escalado de coeficientes de LSCs en UNet en términos de la estabilidad de las características ocultas, el gradiente y también la robustez. Finalmente, inspirados por nuestra teoría, proponemos un marco efectivo de escalado de coeficientes llamado ScaleLong, que ajusta los coeficientes de las LSCs en UNet y mejora significativamente la estabilidad del entrenamiento de UNet. Los resultados experimentales en cuatro conjuntos de datos famosos muestran que nuestros métodos son superiores para estabilizar el entrenamiento y logran una aceleración del entrenamiento de aproximadamente 1.5x en diferentes modelos de difusión con arquitecturas UNet o UViT. Código: https://github.com/sail-sg/ScaleLong