Artículos de investigación en IA seleccionados diariamente con traducciones
Los rápidos avances en los Modelos Visión-Lenguaje (VLMs) han demostrado un gran potencial en abordar tareas de razonamiento matemático que implican contexto visual. A diferencia de los humanos que pueden aplicar de manera confiable pasos de solución a problemas similares con modificaciones menores, encontramos que los VLMs de última generación como GPT-4o pueden fallar consistentemente en estos escenarios, revelando limitaciones en sus capacidades de razonamiento matemático. En este documento, investigamos la robustez del razonamiento matemático en los VLMs y evaluamos qué tan bien estos modelos se desempeñan bajo diferentes variantes de la misma pregunta, como cambios en los valores numéricos visuales o gráficos de funciones. Aunque se han desarrollado varios puntos de referencia matemáticos basados en visión para evaluar las capacidades de resolución de problemas de los VLMs, estos puntos de referencia contienen solo conjuntos estáticos de problemas y no pueden evaluar fácilmente la robustez del razonamiento matemático. Para llenar este vacío, presentamos DynaMath, un punto de referencia matemático visual dinámico diseñado para evaluar a fondo los VLMs. DynaMath incluye 501 preguntas semilla de alta calidad, de múltiples temas, cada una representada como un programa en Python. Estos programas están cuidadosamente diseñados y anotados para permitir la generación automática de un conjunto mucho más grande de preguntas concretas, incluyendo muchos tipos diferentes de variaciones visuales y textuales. DynaMath nos permite evaluar la capacidad de generalización de los VLMs, al evaluar su desempeño bajo condiciones de entrada variables de una pregunta semilla. Evaluamos 14 VLMs de última generación con 5,010 preguntas concretas generadas. Nuestros resultados muestran que la precisión del modelo en el peor caso, definida como el porcentaje de preguntas semilla respondidas correctamente en las 10 variantes, es significativamente más baja que la precisión en el caso promedio. Nuestro análisis enfatiza la necesidad de estudiar la robustez de las capacidades de razonamiento de los VLMs, y DynaMath proporciona información valiosa para guiar el desarrollo de modelos más confiables para el razonamiento matemático.
La combinación de Expertos (MoEs) juega un papel importante en el desarrollo de modelos de lenguaje grandes (LLMs) más eficientes y efectivos. Debido a los enormes requisitos de recursos, el estudio de algoritmos MoE a gran escala sigue siendo inaccesible para muchos investigadores. Este trabajo desarrolla LibMoE, un marco integral y modular para agilizar la investigación, entrenamiento y evaluación de algoritmos MoE. Basado en tres principios fundamentales: (i) diseño modular, (ii) entrenamiento eficiente; (iii) evaluación exhaustiva, LibMoE hace que MoE en LLMs sea más accesible para una amplia gama de investigadores al estandarizar los procesos de entrenamiento y evaluación. Utilizando LibMoE, evaluamos exhaustivamente cinco algoritmos MoE de última generación en tres LLMs diferentes y 11 conjuntos de datos en el escenario de cero disparos. Los resultados muestran que a pesar de las características únicas, todos los algoritmos MoE tienen un rendimiento similar en promedio en una amplia gama de tareas. Con el diseño modular y la evaluación exhaustiva, creemos que LibMoE será invaluable para que los investigadores avancen significativamente hacia la próxima generación de MoE y LLMs. Página del proyecto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
A pesar de la popularidad de la cuantificación de modelos de lenguaje grandes (LLM) para aceleración de inferencia, persiste una incertidumbre significativa en cuanto a los compromisos entre precisión y rendimiento asociados con varios formatos de cuantificación. Presentamos un estudio empírico exhaustivo de precisión cuantizada, evaluando formatos de cuantificación populares (FP8, INT8, INT4) en bancos de pruebas académicos y tareas del mundo real, en toda la familia de modelos Llama-3.1. Además, nuestro estudio examina la diferencia en el texto generado por modelos cuantizados versus sus contrapartes no comprimidas. Más allá de los bancos de pruebas, también presentamos un par de mejoras en la cuantificación que nos permitieron obtener resultados de recuperación de precisión de vanguardia. Nuestra investigación, que abarca más de 500,000 evaluaciones individuales, arroja varios hallazgos clave: (1) la cuantificación de peso y activación FP8 (W8A8-FP) es sin pérdidas en todas las escalas de modelo, (2) la cuantificación de peso y activación INT8 (W8A8-INT), cuando se ajusta adecuadamente, incurre en una degradación de precisión sorprendentemente baja del 1-3%, y (3) la cuantificación solo de peso INT4 (W4A16-INT) es competitiva con la cuantificación de peso y activación de enteros de 8 bits. Para abordar la cuestión del "mejor" formato para un entorno de implementación dado, realizamos un análisis de rendimiento de inferencia utilizando el popular marco de código abierto vLLM en varias arquitecturas de GPU. Descubrimos que W4A16 ofrece la mejor eficiencia de costos para implementaciones síncronas y para implementaciones asíncronas en GPU de gama media. Al mismo tiempo, los formatos W8A8 destacan en la implementación asincrónica de "lote continuo" de modelos de tamaño mediano y grande en GPU de alta gama. Nuestros resultados proporcionan un conjunto de pautas prácticas para implementar LLMs cuantizados en diferentes escalas y requisitos de rendimiento.
Los agentes autónomos se han vuelto cada vez más importantes para interactuar con el mundo real. Los agentes Android, en particular, han sido recientemente un método de interacción mencionado con frecuencia. Sin embargo, los estudios existentes para entrenar y evaluar agentes Android carecen de investigación sistemática tanto en modelos de código abierto como en modelos de código cerrado. En este trabajo, proponemos AndroidLab como un marco sistemático para agentes Android. Incluye un entorno de operación con diferentes modalidades, espacio de acción y un benchmark reproducible. Admite tanto grandes modelos de lenguaje (LLMs) como modelos multimodales (LMMs) en el mismo espacio de acción. El benchmark de AndroidLab incluye dispositivos virtuales de Android predefinidos y 138 tareas en nueve aplicaciones construidas en estos dispositivos. Utilizando el entorno de AndroidLab, desarrollamos un conjunto de datos de instrucciones de Android y entrenamos seis LLMs y LMMs de código abierto, aumentando las tasas de éxito promedio del 4.59% al 21.50% para LLMs y del 1.93% al 13.28% para LMMs. AndroidLab es de código abierto y está disponible públicamente en https://github.com/THUDM/Android-Lab.
Los modelos de lenguaje grandes (LLMs) han demostrado un potencial notable como agentes autónomos, especialmente en tareas basadas en la web. Sin embargo, los agentes web LLM existentes dependen en gran medida de costosas APIs LLM propietarias, mientras que los LLM abiertos carecen de las capacidades de toma de decisiones necesarias. Este documento presenta WebRL, un marco de aprendizaje por refuerzo de currículo en línea autoevolutivo diseñado para entrenar agentes web de alto rendimiento utilizando LLMs abiertos. WebRL aborda tres desafíos clave en la construcción de agentes web LLM, incluida la escasez de tareas de entrenamiento, señales de retroalimentación dispersas y deriva en la distribución de políticas en el aprendizaje en línea. Específicamente, WebRL incorpora 1) un currículo autoevolutivo que genera nuevas tareas a partir de intentos fallidos, 2) un modelo de recompensa supervisado por resultados robusto (ORM) y 3) estrategias adaptativas de aprendizaje por refuerzo para garantizar mejoras consistentes. Aplicamos WebRL para transformar los modelos abiertos Llama-3.1 y GLM-4 en agentes web competentes. En WebArena-Lite, WebRL mejora la tasa de éxito de Llama-3.1-8B del 4.8% al 42.4%, y del 6.1% al 43% para GLM-4-9B. Estos modelos abiertos superan significativamente el rendimiento de GPT-4-Turbo (17.6%) y GPT-4o (13.9%) y superan a los agentes web de última generación previamente entrenados en LLMs abiertos (AutoWebGLM, 18.2%). Nuestros hallazgos demuestran la efectividad de WebRL en cerrar la brecha entre los agentes web basados en LLMs abiertos y propietarios, allanando el camino para sistemas de interacción web autónomos más accesibles y potentes.
Sora de OpenAI destaca el potencial de la generación de video para desarrollar modelos del mundo que se adhieran a leyes físicas fundamentales. Sin embargo, se puede cuestionar la capacidad de los modelos de generación de video para descubrir dichas leyes puramente a partir de datos visuales sin preconcepciones humanas. Un modelo del mundo que aprenda la verdadera ley debería ofrecer predicciones robustas a matices y extrapolaciones correctas en escenarios no vistos. En este trabajo, evaluamos a través de tres escenarios clave: en distribución, fuera de distribución y generalización combinatoria. Desarrollamos un banco de pruebas de simulación 2D para el movimiento de objetos y colisiones para generar videos gobernados de manera determinista por una o más leyes de la mecánica clásica. Esto proporciona un suministro ilimitado de datos para experimentación a gran escala y permite una evaluación cuantitativa de si los videos generados se adhieren a las leyes físicas. Entrenamos modelos de generación de video basados en difusión para predecir movimientos de objetos basados en cuadros iniciales. Nuestros experimentos de escalado muestran una generalización perfecta dentro de la distribución, un comportamiento de escalado medible para la generalización combinatoria, pero fallas en escenarios fuera de distribución. Experimentos adicionales revelan dos ideas clave sobre los mecanismos de generalización de estos modelos: (1) los modelos fallan en abstraer reglas físicas generales y en su lugar exhiben un comportamiento de generalización "basado en casos", es decir, imitando el ejemplo de entrenamiento más cercano; (2) al generalizar a nuevos casos, se observa que los modelos priorizan diferentes factores al referenciar datos de entrenamiento: color > tamaño > velocidad > forma. Nuestro estudio sugiere que el escalado por sí solo es insuficiente para que los modelos de generación de video descubran leyes físicas fundamentales, a pesar de su papel en el éxito más amplio de Sora. Consulte nuestra página de proyecto en https://phyworld.github.io
Los sistemas de agentes LLM existentes suelen seleccionar acciones de un conjunto fijo y predefinido en cada paso. Si bien este enfoque es efectivo en entornos cerrados y de alcance limitado, sostenemos que presenta dos desafíos principales al desplegar agentes LLM en escenarios del mundo real: (1) la selección de un conjunto fijo de acciones restringe significativamente las capacidades de planificación y actuación de los agentes LLM, y (2) este enfoque requiere un esfuerzo humano sustancial para enumerar e implementar todas las posibles acciones, lo cual se vuelve impráctico en entornos complejos con un vasto número de acciones potenciales. En este trabajo, proponemos un marco de agentes LLM que permite la creación dinámica y composición de acciones de manera online. En este marco, el agente interactúa con el entorno generando y ejecutando programas escritos en un lenguaje de programación de propósito general en cada paso. Además, las acciones generadas se acumulan con el tiempo para su reutilización futura. Nuestros extensos experimentos en el banco de pruebas GAIA demuestran que este marco ofrece una flexibilidad significativamente mayor y supera a los métodos anteriores. Destacadamente, permite a un agente LLM recuperarse en escenarios donde no existe una acción relevante en el conjunto predefinido o cuando las acciones existentes fallan debido a casos imprevistos. En el momento de la escritura, ocupamos la posición principal en la tabla de clasificación pública de GAIA. Nuestro código se puede encontrar en https://github.com/adobe-research/dynasaur.
Los modelos de difusión han demostrado excelentes capacidades en la generación de texto a imagen. Su capacidad de comprensión semántica (es decir, seguimiento de la instrucción) también ha mejorado considerablemente con grandes modelos de lenguaje (por ejemplo, T5, Llama). Sin embargo, los modelos existentes no pueden manejar perfectamente instrucciones de texto largas y complejas, especialmente cuando contienen varios objetos con numerosos atributos y relaciones espaciales interrelacionadas. Aunque se han propuesto muchos métodos de instrucción regional para modelos basados en UNet (SD1.5, SDXL), aún no hay implementaciones basadas en la arquitectura reciente de Transformador de Difusión (DiT), como SD3 y FLUX. En este informe, proponemos e implementamos la instrucción regional para FLUX.1 basada en la manipulación de la atención, lo que permite a DiT tener la capacidad de generación de texto a imagen compuesto detalladamente sin necesidad de entrenamiento. El código está disponible en https://github.com/antonioo-c/Regional-Prompting-FLUX.
La texturización es un paso crucial en el flujo de trabajo de producción de activos 3D, que mejora el atractivo visual y la diversidad de los activos 3D. A pesar de los avances recientes en la generación de Texto a Textura (T2T), los métodos existentes a menudo producen resultados deficientes, principalmente debido a discontinuidades locales, inconsistencias en múltiples vistas y su fuerte dependencia de los resultados del desempaquetado UV. Para abordar estos desafíos, proponemos un novedoso marco de texturización 3D de generación-refinamiento llamado MVPaint, que puede generar texturas sin fisuras de alta resolución, enfatizando la consistencia multi-vista. MVPaint consta principalmente de tres módulos clave. 1) Generación Sincronizada Multi-vista (SMG). Dado un modelo de malla 3D, MVPaint primero genera simultáneamente imágenes multi-vista empleando un modelo SMG, lo que conduce a resultados de texturización gruesos con partes sin pintar debido a observaciones faltantes. 2) Relleno 3D con Conciencia Espacial (S3I). Para garantizar una texturización 3D completa, introducimos el método S3I, diseñado específicamente para texturizar eficazmente áreas previamente no observadas. 3) Refinamiento UV (UVR). Además, MVPaint utiliza un módulo UVR para mejorar la calidad de la textura en el espacio UV, que primero realiza una Super-Resolución en el espacio UV, seguido de un algoritmo de Suavizado de Costuras con Conciencia Espacial para revisar las discontinuidades de texturización espacial causadas por el desempaquetado UV. Además, establecemos dos bancos de pruebas de evaluación T2T: el banco de pruebas T2T de Objaverse y el banco de pruebas T2T de GSO, basados en mallas 3D de alta calidad seleccionadas del conjunto de datos de Objaverse y de todo el conjunto de datos de GSO, respectivamente. Los extensos resultados experimentales demuestran que MVPaint supera a los métodos existentes de última generación. Notablemente, MVPaint podría generar texturas de alta fidelidad con problemas mínimos de Janus y una consistencia entre vistas altamente mejorada.
En este documento, presentamos Hunyuan-Large, que actualmente es el modelo de mezcla de expertos basado en Transformers de código abierto más grande, con un total de 389 mil millones de parámetros y 52 mil millones de parámetros de activación, capaz de manejar hasta 256K tokens. Realizamos una evaluación exhaustiva del rendimiento superior de Hunyuan-Large en varios benchmarks, incluyendo comprensión y generación de lenguaje, razonamiento lógico, resolución de problemas matemáticos, codificación, tareas de largo contexto y tareas agregadas, donde supera a LLama3.1-70B y muestra un rendimiento comparable en comparación con el modelo significativamente más grande LLama3.1-405B. Las prácticas clave de Hunyuan-Large incluyen datos sintéticos a gran escala que son órdenes de magnitud mayores que en la literatura previa, una estrategia de enrutamiento de expertos mixtos, una técnica de compresión de caché clave-valor y una estrategia de tasa de aprendizaje específica para expertos. Además, también investigamos las leyes de escalado y el programa de tasa de aprendizaje de los modelos de mezcla de expertos, proporcionando ideas valiosas y orientación para el desarrollo y optimización de modelos futuros. El código y los puntos de control de Hunyuan-Large se han publicado para facilitar futuras innovaciones y aplicaciones. Códigos: https://github.com/Tencent/Hunyuan-Large Modelos: https://huggingface.co/tencent/Tencent-Hunyuan-Large
La implementación a gran escala de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) en diversas aplicaciones, como chatbots y asistentes virtuales, requiere que los LLMs sean culturalmente sensibles con el usuario para garantizar la inclusividad. La cultura ha sido ampliamente estudiada en psicología y antropología, y ha habido un reciente aumento en la investigación sobre cómo hacer que los LLMs sean más culturalmente inclusivos, yendo más allá de la multilingüidad y basándose en hallazgos de psicología y antropología. En este documento, examinamos los esfuerzos hacia la incorporación de la conciencia cultural en LLMs basados en texto y multimodales. Comenzamos definiendo la conciencia cultural en LLMs, tomando las definiciones de cultura de la antropología y la psicología como punto de partida. Luego examinamos las metodologías adoptadas para la creación de conjuntos de datos interculturales, estrategias para la inclusión cultural en tareas posteriores, y metodologías utilizadas para evaluar la conciencia cultural en LLMs. Además, discutimos las implicaciones éticas de la alineación cultural, el papel de la Interacción Humano-Computadora en impulsar la inclusión cultural en LLMs, y el papel de la alineación cultural en impulsar la investigación en ciencias sociales. Finalmente, proporcionamos indicaciones para futuras investigaciones basadas en nuestros hallazgos sobre las lagunas en la literatura.
Generar videos de alta fidelidad consistentes temporalmente puede resultar computacionalmente costoso, especialmente en intervalos temporales más largos. Los Transformadores de Difusión más recientes (DiTs) - a pesar de haber avanzado significativamente en este contexto - han intensificado tales desafíos al depender de modelos más grandes y mecanismos de atención más pesados, lo que resulta en velocidades de inferencia más lentas. En este documento, presentamos un método sin entrenamiento para acelerar los video DiTs, denominado Caché Adaptativa (AdaCache), que se inspira en el hecho de que "no todos los videos son iguales": es decir, algunos videos requieren menos pasos de eliminación de ruido para lograr una calidad razonable que otros. Basándonos en esto, no solo almacenamos cálculos a través del proceso de difusión, sino que también diseñamos un cronograma de almacenamiento en caché adaptado a cada generación de video, maximizando el equilibrio calidad-latencia. Además, introducimos un esquema de Regularización de Movimiento (MoReg) para utilizar la información de video dentro de AdaCache, controlando esencialmente la asignación de cálculo en función del contenido de movimiento. En conjunto, nuestras contribuciones plug-and-play otorgan aceleraciones significativas en la inferencia (por ejemplo, hasta 4.7 veces en la generación de video de 720p - 2s en Open-Sora) sin sacrificar la calidad de generación, en varios baselines de video DiT.
Los recientes avances en la generación visual 2D han sido notablemente exitosos. Sin embargo, la generación 3D y 4D sigue siendo desafiante en aplicaciones del mundo real debido a la falta de datos 4D a gran escala y un diseño de modelo efectivo. En este documento, proponemos investigar conjuntamente la generación general de escenas 3D y 4D aprovechando los movimientos de cámara y objetos comúnmente observados en la vida diaria. Debido a la escasez de datos 4D del mundo real en la comunidad, primero proponemos un proceso de curación de datos para obtener poses de cámara y la intensidad del movimiento de los objetos a partir de videos. Basándonos en este proceso, presentamos un conjunto de datos de escenas 4D del mundo real a gran escala: CamVid-30K. Al aprovechar todos los datos 3D y 4D, desarrollamos nuestro marco, GenXD, que nos permite producir cualquier escena 3D o 4D. Proponemos módulos multivista-temporales, que separan los movimientos de cámara y objetos, para aprender de manera fluida tanto de los datos 3D como 4D. Además, GenXD emplea condiciones latentes enmascaradas para admitir una variedad de vistas condicionales. GenXD puede generar videos que siguen la trayectoria de la cámara, así como vistas 3D consistentes que pueden ser convertidas en representaciones 3D. Realizamos evaluaciones exhaustivas en varios conjuntos de datos del mundo real y sintéticos, demostrando la efectividad y versatilidad de GenXD en comparación con métodos anteriores en la generación 3D y 4D.
El software moderno de efectos visuales (VFX) ha permitido a artistas expertos crear imágenes de prácticamente cualquier cosa. Sin embargo, el proceso de creación sigue siendo laborioso, complejo y en gran medida inaccesible para los usuarios comunes. En este trabajo, presentamos AutoVFX, un marco que crea automáticamente videos realistas y dinámicos de efectos visuales a partir de un solo video e instrucciones en lenguaje natural. Al integrar cuidadosamente modelado de escenas neuronales, generación de código basada en LLM y simulación física, AutoVFX es capaz de ofrecer efectos de edición fotorealistas y fundamentados físicamente que pueden ser controlados directamente mediante instrucciones en lenguaje natural. Realizamos experimentos extensos para validar la eficacia de AutoVFX en una amplia gama de videos e instrucciones. Los resultados cuantitativos y cualitativos sugieren que AutoVFX supera con creces a todos los métodos competidores en calidad generativa, alineación de instrucciones, versatilidad de edición y plausibilidad física.
La esparcidad de activación denota la existencia de elementos débilmente contribuidos sustanciales dentro de las salidas de activación que pueden ser eliminados, beneficiando a muchas aplicaciones importantes relacionadas con modelos de lenguaje grandes (LLMs). Aunque promover una mayor esparcidad de activación dentro de los LLMs merece estudios profundos, los trabajos existentes carecen de investigaciones exhaustivas y cuantitativas sobre la correlación entre la esparcidad de activación y factores potencialmente influyentes. En este artículo, presentamos un estudio exhaustivo sobre las propiedades de escalamiento cuantitativo y los factores influyentes de la esparcidad de activación dentro de LLMs basados únicamente en decodificadores Transformer. Específicamente, proponemos la esparcidad PPL-p%, una métrica de esparcidad de activación precisa y consciente del rendimiento que es aplicable a cualquier función de activación. A través de experimentos extensos, encontramos varios fenómenos importantes. En primer lugar, diferentes funciones de activación exhiben un rendimiento comparable pero tendencias opuestas de esparcidad en el tiempo de entrenamiento. La proporción de activación (es decir, la proporción de no esparcidad) evoluciona como una ley de potencia creciente convergente y una ley de potencia de espacio logarítmico decreciente con la cantidad de datos de entrenamiento para LLMs activados por SiLU y ReLU, respectivamente. Esto demuestra que ReLU es más eficiente como función de activación que SiLU y puede aprovechar más datos de entrenamiento para mejorar la esparcidad de activación. En segundo lugar, la proporción de activación aumenta linealmente con la proporción de ancho-profundidad por debajo de cierto punto de cuello de botella, lo que indica la ventaja potencial de una arquitectura más profunda en una escala de parámetros fija. Finalmente, en proporciones de ancho-profundidad similares, encontramos sorprendentemente que el valor límite de la esparcidad de activación varía débilmente con la escala de parámetros, es decir, los patrones de activación dentro de los LLMs son insensibles a la escala de parámetros. Estas leyes empíricas hacia LLMs con una mayor esparcidad de activación tienen implicaciones importantes para hacer que los LLMs sean más eficientes e interpretables.
El año pasado ha sido testigo del significativo avance de los modelos de lenguaje basados en video. Sin embargo, el desafío de desarrollar un modelo unificado para la comprensión de videos cortos y largos sigue sin resolverse. La mayoría de los modelos de lenguaje basados en video existentes no pueden manejar videos de una hora de duración, mientras que los métodos diseñados para videos largos suelen ser ineficaces para videos más cortos e imágenes. En este artículo, identificamos el problema clave como el contenido redundante en los videos. Para abordar esto, proponemos una novedosa estrategia de agrupación que logra simultáneamente la compresión de tokens y la agregación de características visuales conscientes de las instrucciones. Nuestro modelo se denomina Agrupación Guiada por Indicaciones para Modelos de Lenguaje Visual y de Video, o PPLLaVA en resumen. Específicamente, PPLLaVA consta de tres componentes principales: el alineamiento visual basado en indicaciones CLIP que extrae información visual relevante para las instrucciones del usuario, la agrupación guiada por indicaciones que comprime la secuencia visual a escalas arbitrarias utilizando una agrupación de estilo convolucional, y la extensión de contexto de clip diseñada para indicaciones extensas comunes en diálogos visuales. Además, nuestra base de código también integra la Optimización Directa de Preferencias (DPO) de video más avanzada y el entrenamiento visual entrelazado. Experimentos extensos han validado el rendimiento de nuestro modelo. Con un rendimiento superior y solo 1024 contextos visuales, PPLLaVA logra mejores resultados en bancos de imágenes como modelo de lenguaje visual y de video, al tiempo que alcanza un rendimiento de vanguardia en diversos bancos de videos, destacándose en tareas que van desde la generación de subtítulos hasta preguntas de opción múltiple, y manejando longitudes de video que van desde segundos hasta horas. El código está disponible en https://github.com/farewellthree/PPLLaVA.
En el desarrollo de Modelos de Lenguaje a Gran Escala (LLM), el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es crucial para alinear los modelos con los valores y preferencias humanas. RLHF tradicionalmente se basa en la divergencia Kullback-Leibler (KL) entre la política actual y una política inicial congelada como referencia, la cual se agrega como una penalización en algoritmos de optimización de políticas como la Optimización de Políticas Proximales (PPO). Si bien esta restricción evita que los modelos se desvíen demasiado del punto de control inicial, limita la exploración del paisaje de recompensas, reduciendo la capacidad del modelo para descubrir soluciones de mayor calidad. Como resultado, la optimización de políticas a menudo queda atrapada en una región estrecha del espacio de parámetros, lo que conduce a un alineamiento y rendimiento subóptimos. Este documento presenta SALSA (Aprendizaje de Alineamiento Basado en Sopas para una Adaptación más Fuerte), un enfoque novedoso diseñado para superar estas limitaciones mediante la creación de un modelo de referencia más flexible y mejor ubicado a través del promedio de pesos en el espacio de pesos de dos modelos supervisados finamente ajustados (SFT) independientes. Esta sopa de modelos permite una mayor desviación en la divergencia KL y explorar una región prometedora del espacio de soluciones sin sacrificar la estabilidad. Al aprovechar este modelo de referencia más robusto, SALSA fomenta una mejor exploración, logrando recompensas más altas y mejorando la robustez del modelo, la generalización fuera de distribución y el rendimiento. Validamos la efectividad de SALSA a través de experimentos extensos en modelos abiertos populares (Llama2-7B, Mistral-7B y Gemma-2B) en varios benchmarks (MT-Bench, Arena-Hard, UltraFeedback), donde consistentemente supera a PPO fomentando una exploración más profunda y logrando un alineamiento superior en LLMs.
Presentamos las Representaciones de Objetivos de Imagen (IGOR, por sus siglas en inglés), con el objetivo de aprender un espacio de acción unificado y semánticamente consistente entre humanos y varios robots. A través de este espacio de acción latente unificado, IGOR permite la transferencia de conocimiento entre datos de actividad de robots y humanos a gran escala. Logramos esto comprimiendo los cambios visuales entre una imagen inicial y su estado objetivo en acciones latentes. IGOR nos permite generar etiquetas de acciones latentes para datos de video a escala de internet. Este espacio de acción latente unificado permite el entrenamiento de políticas fundamentales y modelos del mundo en una amplia variedad de tareas realizadas tanto por robots como por humanos. Demostramos que: (1) IGOR aprende un espacio de acción semánticamente consistente para humanos y robots, caracterizando varios movimientos posibles de objetos que representan el conocimiento de interacción física; (2) IGOR puede "migrar" los movimientos del objeto en un video a otros videos, incluso entre humanos y robots, utilizando conjuntamente el modelo de acción latente y el modelo del mundo; (3) IGOR puede aprender a alinear acciones latentes con lenguaje natural a través del modelo de política fundamental, e integrar acciones latentes con un modelo de política de bajo nivel para lograr un control efectivo de robots. Creemos que IGOR abre nuevas posibilidades para la transferencia de conocimiento y control de humanos a robots.
La comprensión y mitigación de los posibles riesgos asociados con los modelos base (FMs) depende del desarrollo de métodos efectivos de interpretabilidad. Los Autoencoders Dispersos (SAEs) han surgido como una herramienta prometedora para desentrañar las representaciones de los FMs, pero tienen dificultades para capturar conceptos raros, aunque cruciales, en los datos. Introducimos los Autoencoders Dispersos Especializados (SSAEs), diseñados para iluminar estas características esquivas de la materia oscura enfocándose en subdominios específicos. Presentamos una receta práctica para entrenar SSAEs, demostrando la eficacia de la recuperación densa para la selección de datos y los beneficios de la Minimización del Riesgo Empírico Inclinado como objetivo de entrenamiento para mejorar la recuperación de conceptos. Nuestra evaluación de los SSAEs en métricas estándar, como la perplejidad descendente y la dispersión L_0, muestra que capturan efectivamente los conceptos de cola del subdominio, superando las capacidades de los SAEs de propósito general. Mostramos la utilidad práctica de los SSAEs en un estudio de caso sobre el conjunto de datos de Sesgo en Bios, donde los SSAEs logran un aumento del 12.5\% en la precisión de clasificación del peor grupo cuando se aplican para eliminar información de género espuria. Los SSAEs proporcionan una nueva y poderosa perspectiva para observar el funcionamiento interno de los FMs en subdominios.
Presentamos Multi-expert Prompting, una mejora novedosa de ExpertPrompting (Xu et al., 2023), diseñada para mejorar la generación de modelos de lenguaje de gran escala (LLM). Específicamente, guía a un LLM para cumplir con una instrucción de entrada mediante la simulación de múltiples expertos, agregando sus respuestas y seleccionando la mejor entre las respuestas individuales y agregadas. Este proceso se realiza en una única cadena de pensamientos a través de nuestras siete subtareas cuidadosamente diseñadas derivadas de la Técnica de Grupo Nominal (Ven y Delbecq, 1974), un marco de toma de decisiones bien establecido. Nuestras evaluaciones demuestran que Multi-expert Prompting supera significativamente a ExpertPrompting y a líneas base comparables en mejorar la veracidad, factualidad, informatividad y utilidad de las respuestas, al tiempo que reduce la toxicidad y la ofensividad. Además, logra un nivel de veracidad de vanguardia al superar al mejor punto de referencia en un 8.69% con ChatGPT. Multi-expert Prompting es eficiente, explicativo y altamente adaptable a diversos escenarios, eliminando la necesidad de construcción manual de instrucciones.
Este documento describe un algoritmo eficiente para resolver problemas inversos lineales ruidosos utilizando modelos de difusión preentrenados. Ampliando el paradigma de los modelos implícitos de difusión para el desruido (DDIM), proponemos modelos implícitos de difusión restringida (CDIM) que modifican las actualizaciones de difusión para hacer cumplir una restricción sobre la salida final. Para problemas inversos sin ruido, CDIM satisface exactamente las restricciones; en el caso ruidoso, generalizamos CDIM para satisfacer una restricción exacta sobre la distribución residual del ruido. Experimentos en una variedad de tareas y métricas muestran un rendimiento sólido de CDIM, con una aceleración de inferencia análoga a DDIM no restringido: de 10 a 50 veces más rápido que los métodos de difusión condicional anteriores. Demostramos la versatilidad de nuestro enfoque en muchos problemas, incluyendo superresolución, desruido, inpainting, desenfoque y reconstrucción de nubes de puntos en 3D.
Los modelos multimodales grandes (LMMs) han mostrado recientemente un gran progreso en la comprensión de imágenes ricas en texto, sin embargo, aún enfrentan dificultades con documentos complejos, multi-página y visualmente ricos. Los métodos tradicionales que utilizan analizadores de documentos para generación aumentada por recuperación sufren limitaciones de rendimiento y eficiencia, mientras que presentar directamente todas las páginas a los LMMs conlleva ineficiencias, especialmente con documentos extensos. En este trabajo, presentamos un marco novedoso llamado LoRA-Adaptación Contextual de Modelos Multimodales Grandes (LoCAL), que amplía las capacidades de cualquier LMM para apoyar la comprensión de documentos extensos. Demostramos que los LMMs pueden servir efectivamente como recuperadores multimodales, obteniendo páginas relevantes para responder preguntas de usuarios basadas en esas páginas. LoCAL se implementa con dos adaptadores específicos de LMM: uno para recuperación de páginas de evidencia y otro para respuesta a preguntas. Los resultados empíricos muestran un rendimiento de vanguardia en bancos de pruebas públicos, demostrando la efectividad de LoCAL.
Presentamos Swan, una familia de modelos de incrustación centrados en el idioma árabe, que abordan casos de uso tanto a pequeña como a gran escala. Swan incluye dos variantes: Swan-Small, basado en ARBERTv2, y Swan-Large, construido sobre ArMistral, un modelo de lenguaje árabe grande preentrenado. Para evaluar estos modelos, proponemos ArabicMTEB, un conjunto de pruebas de referencia exhaustivo que evalúa el rendimiento de incrustación de texto árabe en tareas cruzadas, multidialectales, multidominio y multicultural, abarcando ocho tareas diversas y 94 conjuntos de datos. Swan-Large logra resultados de vanguardia, superando a Multilingual-E5-large en la mayoría de las tareas árabes, mientras que Swan-Small supera consistentemente a Multilingual-E5 base. Nuestras extensas evaluaciones demuestran que los modelos Swan son conscientes tanto dialectal como culturalmente, destacándose en diversos dominios árabes y ofreciendo una eficiencia monetaria significativa. Este trabajo avanza significativamente en el campo del modelado del idioma árabe y proporciona recursos valiosos para futuras investigaciones y aplicaciones en el procesamiento del lenguaje natural árabe. Nuestros modelos y conjunto de pruebas estarán disponibles públicamente para la investigación.