Artículos de investigación en IA seleccionados diariamente con traducciones
En los últimos años, los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas (por ejemplo, comprensión de contextos largos), y se han propuesto muchos puntos de referencia. Sin embargo, observamos que las capacidades de generación de texto largo no han sido investigadas a fondo. Por lo tanto, presentamos el Benchmark Jerárquico de Generación de Texto Largo (HelloBench), un benchmark exhaustivo, en entornos reales y abierto para evaluar el rendimiento de los LLMs en la generación de texto largo. Basado en la Taxonomía de Bloom, HelloBench categoriza las tareas de generación de texto largo en cinco subtareas: preguntas abiertas, resúmenes, chat, completado de texto y generación de texto heurístico. Además, proponemos la Evaluación Jerárquica de Texto Largo (HelloEval), un método de evaluación alineado con humanos que reduce significativamente el tiempo y esfuerzo requeridos para la evaluación humana, manteniendo una alta correlación con la evaluación humana. Hemos realizado experimentos extensos en alrededor de 30 LLMs principales y observamos que los LLMs actuales carecen de capacidades de generación de texto largo. Específicamente, en primer lugar, independientemente de si las instrucciones incluyen restricciones de longitud explícitas o implícitas, observamos que la mayoría de los LLMs no pueden generar texto que supere las 4000 palabras. En segundo lugar, observamos que aunque algunos LLMs pueden generar texto más largo, existen muchos problemas (por ejemplo, repetición severa y degradación de calidad). En tercer lugar, para demostrar la efectividad de HelloEval, comparamos HelloEval con métricas tradicionales (por ejemplo, ROUGE, BLEU, etc.) y métodos LLM-como-Juez, lo que muestra que HelloEval tiene la mayor correlación con la evaluación humana. Publicamos nuestro código en https://github.com/Quehry/HelloBench.
La síntesis de video de personajes tiene como objetivo producir videos realistas de personajes animables dentro de escenas realistas. Como un problema fundamental en la comunidad de visión por computadora y gráficos, los trabajos en 3D típicamente requieren capturas de múltiples vistas para el entrenamiento por caso, lo que limita severamente su aplicabilidad para modelar personajes arbitrarios en poco tiempo. Métodos recientes en 2D rompen esta limitación a través de modelos de difusión pre-entrenados, pero tienen dificultades con la generalidad de posturas y la interacción con escenas. Con este fin, proponemos MIMO, un nuevo marco que no solo puede sintetizar videos de personajes con atributos controlables (es decir, personaje, movimiento y escena) proporcionados por simples entradas de usuario, sino que también logra simultáneamente una escalabilidad avanzada a personajes arbitrarios, generalidad para movimientos 3D novedosos y aplicabilidad a escenas interactivas del mundo real en un marco unificado. La idea principal es codificar el video 2D en códigos espaciales compactos, considerando la naturaleza 3D inherente de la ocurrencia del video. Concretamente, elevamos los píxeles del fotograma 2D a 3D utilizando estimadores de profundidad monoculares, y descomponemos el clip de video en tres componentes espaciales (es decir, humano principal, escena subyacente y oclusión flotante) en capas jerárquicas basadas en la profundidad 3D. Estos componentes se codifican aún más en un código de identidad canónica, un código de movimiento estructurado y un código de escena completo, que se utilizan como señales de control del proceso de síntesis. El diseño de modelado espacial descompuesto permite un control flexible por parte del usuario, una expresión de movimiento compleja, así como una síntesis consciente de 3D para interacciones de escena. Los resultados experimentales demuestran la efectividad y robustez del método propuesto.
Los grandes modelos de lenguaje (LLMs) con arquitecturas de solo decodificador demuestran notables capacidades de aprendizaje en contexto (ICL). Esta característica les permite manejar de manera efectiva tanto tareas familiares como novedosas al utilizar ejemplos proporcionados dentro de su contexto de entrada. Reconociendo el potencial de esta capacidad, proponemos aprovechar la característica de ICL en los LLMs para mejorar el proceso de generación de incrustaciones de texto. Con este fin, presentamos un modelo novedoso bge-en-icl, que emplea ejemplos de pocos disparos para producir incrustaciones de texto de alta calidad. Nuestro enfoque integra ejemplos relacionados con la tarea directamente en el lado de la consulta, lo que resulta en mejoras significativas en diversas tareas. Además, hemos investigado cómo utilizar de manera efectiva los LLMs como modelos de incrustación, incluyendo varios mecanismos de atención, métodos de agrupación, etc. Nuestros hallazgos sugieren que mantener el marco original a menudo produce los mejores resultados, subrayando que la simplicidad es lo mejor. Los resultados experimentales en los bancos de pruebas MTEB y AIR-Bench demuestran que nuestro enfoque establece un nuevo rendimiento de última generación (SOTA). Nuestro modelo, código y conjunto de datos están disponibles de forma gratuita en https://github.com/FlagOpen/FlagEmbedding.
Los avances recientes en modelos de lenguaje grandes multimodales (MLLMs) han tenido como objetivo integrar e interpretar datos a través de diversas modalidades. Sin embargo, la capacidad de estos modelos para procesar y razonar simultáneamente sobre múltiples modalidades sigue siendo insuficientemente explorada, en parte debido a la falta de benchmarks exhaustivos por modalidad. Presentamos OmniBench, un benchmark novedoso diseñado para evaluar rigurosamente la capacidad de los modelos para reconocer, interpretar y razonar a través de entradas visuales, acústicas y textuales simultáneamente. Definimos a los modelos capaces de dicho procesamiento tri-modal como modelos omni-lenguaje (OLMs). OmniBench se distingue por sus anotaciones humanas de alta calidad, asegurando que respuestas precisas requieran una comprensión integrada y razonamiento a través de las tres modalidades. Nuestros hallazgos principales revelan que: i) los OLMs de código abierto muestran limitaciones críticas en seguir instrucciones y capacidades de razonamiento dentro de contextos tri-modales; y ii) los modelos base tienen un desempeño deficiente (por debajo del 50% de precisión) incluso cuando se les proporcionan representaciones textuales alternativas de imágenes y audio. Estos resultados sugieren que la capacidad de construir un contexto consistente a partir de texto, imagen y audio a menudo se pasa por alto en los paradigmas de entrenamiento de MLLM existentes. Abogamos por que la investigación futura se enfoque en desarrollar técnicas de integración tri-modal más robustas y estrategias de entrenamiento para mejorar el rendimiento de OLMs a través de diversas modalidades. Los códigos y la tabla de clasificación en vivo se pueden encontrar en https://m-a-p.ai/OmniBench.
La calidad de los LLMs de peso abierto ha experimentado una mejora significativa, sin embargo, siguen estando predominantemente centrados en el inglés. En este artículo, presentamos el proyecto EuroLLM, con el objetivo de desarrollar un conjunto de LLMs multilingües de peso abierto capaces de comprender y generar texto en todos los idiomas oficiales de la Unión Europea, así como en varios idiomas relevantes adicionales. Detallamos el progreso realizado hasta la fecha, describiendo nuestro proceso de recolección y filtrado de datos, el desarrollo de leyes de escalado, la creación de nuestro tokenizador multilingüe, y las configuraciones de mezcla de datos y modelado. Además, lanzamos nuestros modelos iniciales: EuroLLM-1.7B y EuroLLM-1.7B-Instruct, y reportamos su rendimiento en bancos de pruebas generales multilingües y en traducción automática.
La continua liberación de modelos de generación de imágenes nuevos y mejores aumenta la demanda de detectores de imágenes sintéticas. En un campo tan dinámico, los detectores necesitan poder generalizar ampliamente y ser robustos ante alteraciones no controladas. El presente trabajo está motivado por este escenario, al observar el papel del tiempo, las transformaciones de imágenes y las fuentes de datos, en la generalización de los detectores. En estos experimentos, ninguno de los detectores evaluados se considera universal, pero los resultados indican que un conjunto podría serlo. Experimentos con datos recopilados en entornos no controlados muestran que esta tarea es más desafiante que la definida por conjuntos de datos a gran escala, señalando una brecha entre la experimentación y la práctica real. Finalmente, observamos un efecto de equilibrio de carrera, donde mejores generadores llevan a mejores detectores, y viceversa. Hipotetizamos que esto empuja al campo hacia una carrera perpetuamente reñida entre generadores y detectores.
La mayoría de los métodos de multimodalidad existentes utilizan espinazos separados para la generación de texto discreto basada en autorregresión y la generación visual continua basada en difusión, o el mismo espinazo al discretizar los datos visuales para utilizar la autorregresión tanto para el texto como para la generación visual. En este documento, proponemos estudiar una idea simple: compartir un transformador para tanto la autorregresión como la difusión. La viabilidad se deriva de dos aspectos principales: (i) el Transformador se aplica con éxito a la difusión para la generación visual, y (ii) el entrenamiento del transformador para la autorregresión y la difusión es muy similar, y la diferencia radica únicamente en que la difusión utiliza una máscara de atención bidireccional y la autorregresión utiliza una máscara de atención causal. Los resultados experimentales muestran que nuestro enfoque logra un rendimiento de generación de imágenes comparable a los métodos actuales más avanzados, así como mantiene la capacidad de generación de texto. El proyecto está disponible públicamente en https://monoformer.github.io/.
Los modelos de transformadores enmascarados para la generación de imágenes condicionales de clase se han convertido en una alternativa convincente a los modelos de difusión. Normalmente compuestos por dos etapas: un modelo VQGAN inicial para la transición entre el espacio latente y el espacio de la imagen, y un modelo Transformer subsiguiente para la generación de imágenes dentro del espacio latente, estos marcos ofrecen vías prometedoras para la síntesis de imágenes. En este estudio, presentamos dos contribuciones principales: en primer lugar, un examen empírico y sistemático de los VQGANs, que conduce a un VQGAN modernizado. En segundo lugar, una red generativa novedosa sin incrustaciones que opera directamente en tokens de bits, una representación cuantizada binaria de tokens con semántica rica. La primera contribución proporciona un modelo VQGAN transparente, reproducible y de alto rendimiento, mejorando la accesibilidad y coincidiendo con el rendimiento de los métodos actuales de vanguardia al tiempo que revela detalles previamente no divulgados. La segunda contribución demuestra que la generación de imágenes sin incrustaciones utilizando tokens de bits logra un nuevo FID de vanguardia de 1.52 en el benchmark ImageNet 256x256, con un modelo generador compacto de tan solo 305 millones de parámetros.
El sistema visual humano está bien ajustado para detectar rostros de todas las formas y tamaños. Si bien esto proporciona ventajas evidentes para la supervivencia, como una mejor oportunidad de detectar depredadores desconocidos en la maleza, también conduce a detecciones de rostros espurias. La "pareidolia facial" describe la percepción de una estructura similar a un rostro entre estímulos aparentemente aleatorios: ver rostros en manchas de café o nubes en el cielo. En este documento, estudiamos la pareidolia facial desde una perspectiva de visión por computadora. Presentamos un conjunto de datos de imágenes de "Rostros en Cosas", que consta de cinco mil imágenes web con rostros pareidólicos anotados por humanos. Utilizando este conjunto de datos, examinamos en qué medida un detector de rostros humano de última generación exhibe pareidolia, y encontramos una brecha significativa en el comportamiento entre humanos y máquinas. Descubrimos que la necesidad evolutiva de los humanos de detectar rostros de animales, así como rostros humanos, puede explicar parte de esta brecha. Finalmente, proponemos un modelo estadístico simple de pareidolia en imágenes. A través de estudios en sujetos humanos y nuestros detectores de rostros pareidólicos, confirmamos una predicción clave de nuestro modelo sobre qué condiciones de imagen son más propensas a inducir pareidolia. Conjunto de datos y sitio web: https://aka.ms/faces-in-things
El aprendizaje profundo para la predicción de series temporales ha experimentado avances significativos en las últimas décadas. Sin embargo, a pesar del éxito del preentrenamiento a gran escala en los dominios del lenguaje y la visión, los modelos preentrenados de series temporales siguen siendo limitados en escala y operan a un alto costo, lo que dificulta el desarrollo de modelos de predicción más grandes y capaces en aplicaciones del mundo real. En respuesta, presentamos Time-MoE, una arquitectura escalable y unificada diseñada para preentrenar modelos de base de predicción más grandes y capaces, al tiempo que reduce los costos de inferencia. Al aprovechar un diseño disperso de mezcla de expertos (MoE), Time-MoE mejora la eficiencia computacional activando solo un subconjunto de redes para cada predicción, reduciendo la carga computacional manteniendo una alta capacidad del modelo. Esto permite que Time-MoE escale de manera efectiva sin un aumento correspondiente en los costos de inferencia. Time-MoE consta de una familia de modelos transformadores solo decodificadores que operan de manera auto-regresiva y admiten horizontes de predicción flexibles con diferentes longitudes de contexto de entrada. Preentrenamos estos modelos en nuestros datos a gran escala recién introducidos, Time-300B, que abarca más de 9 dominios y comprende más de 300 mil millones de puntos temporales. Por primera vez, escalamos un modelo de base de series temporales a 2.4 mil millones de parámetros, logrando una precisión de predicción significativamente mejorada. Nuestros resultados validan la aplicabilidad de las leyes de escala para el entrenamiento de tokens y el tamaño del modelo en el contexto de la predicción de series temporales. En comparación con modelos densos con el mismo número de parámetros activados o presupuestos de cálculo equivalentes, nuestros modelos los superan consistentemente por un amplio margen. Estos avances posicionan a Time-MoE como una solución de vanguardia para abordar los desafíos de predicción de series temporales del mundo real con una capacidad, eficiencia y flexibilidad superiores.
En este informe técnico, documentamos los cambios que realizamos en SDXL en el proceso de entrenamiento de NovelAI Diffusion V3, nuestro modelo de generación de imágenes de anime de última generación.
¿Cómo pueden generalizarse las políticas de manipulación de robots a tareas novedosas que involucran tipos de objetos no vistos y nuevos movimientos? En este artículo, proporcionamos una solución en términos de predecir información de movimiento a partir de datos web a través de la generación de videos humanos y condicionando una política de robot en el video generado. En lugar de intentar escalar la recopilación de datos de robots, que es costosa, mostramos cómo podemos aprovechar modelos de generación de video entrenados en datos web fácilmente disponibles, para habilitar la generalización. Nuestro enfoque Gen2Act convierte la manipulación condicionada por lenguaje en generación de video humano de cero disparos seguido de la ejecución con una sola política condicionada en el video generado. Para entrenar la política, utilizamos un orden de magnitud menos datos de interacción de robots en comparación con los que se entrenó el modelo de predicción de video. Gen2Act no requiere ajustar finamente el modelo de video en absoluto y utilizamos directamente un modelo pre-entrenado para generar videos humanos. Nuestros resultados en diversos escenarios del mundo real muestran cómo Gen2Act permite manipular tipos de objetos no vistos y realizar movimientos novedosos para tareas no presentes en los datos del robot. Los videos se encuentran en https://homangab.github.io/gen2act/
En comparación con los Modelos de Lenguaje Grandes (LLMs), los Modelos de Visión-Lenguaje Grandes (LVLMs) también pueden aceptar imágenes como entrada, mostrando así capacidades emergentes más interesantes y demostrando un rendimiento impresionante en diversas tareas de visión-lenguaje. Motivados por el uso de estímulos de texto en los LLMs, se ha explorado el uso de estímulos visuales para mejorar las capacidades de percepción de información visual de los LVLMs. Sin embargo, las técnicas anteriores de estímulos visuales procesan únicamente entradas visuales sin considerar consultas de texto, lo que limita la capacidad de los modelos para seguir instrucciones de texto para completar tareas. Para llenar esta brecha, en este trabajo proponemos una nueva técnica de estímulo llamada Estímulo de Atención en Imagen, que simplemente superpone un mapa de atención guiado por la consulta de texto en la imagen de entrada original y mejora de manera efectiva el desempeño de LVLM en diversas tareas. Específicamente, generamos un mapa de atención para la imagen de entrada dependiendo de la consulta de texto con un modelo auxiliar como CLIP. Luego, el mapa de atención simplemente multiplica los valores de píxeles de la imagen original para obtener la imagen de entrada real para el LVLM. Experimentos extensos en diversos bancos de pruebas de visión-lenguaje verifican la efectividad de nuestra técnica. Por ejemplo, el Estímulo de Atención en Imagen mejora LLaVA-1.5 en un 3.8% y un 2.9% en los bancos de pruebas MM-Vet y LLaVA-Wild, respectivamente.
A medida que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) siguen avanzando hacia formas más avanzadas de inteligencia, el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) se percibe cada vez más como un camino clave para lograr la Inteligencia Artificial General (AGI). Sin embargo, la dependencia de métodos de alineación basados en modelos de recompensa (RM) introduce desafíos significativos debido a la inestabilidad inherente y las imperfecciones de los Modelos de Recompensa (RMs), que pueden llevar a problemas críticos como la manipulación de recompensas y la falta de alineación con las intenciones humanas. En este documento, presentamos un marco de trabajo de RLHF resistente a recompensas diseñado para abordar estos desafíos fundamentales, allanando el camino para un aprendizaje más confiable y resistente en los LLMs. Nuestro enfoque introduce un objetivo de optimización novedoso que equilibra cuidadosamente el rendimiento y la robustez al incorporar Conjuntos de Modelos de Recompensa Bayesianos (BRME) para modelar el conjunto de incertidumbre de las funciones de recompensa. Esto permite que el marco de trabajo integre tanto el rendimiento nominal como las señales mínimas de recompensa, asegurando un aprendizaje más estable incluso con modelos de recompensa imperfectos. Los resultados empíricos demuestran que nuestro marco de trabajo supera consistentemente al RLHF tradicional en diversos benchmarks, mostrando una precisión mejorada y una estabilidad a largo plazo. También proporcionamos un análisis teórico, demostrando que el enfoque de RLHF resistente a recompensas se acerca a la estabilidad de configuraciones de recompensa constante, lo cual resulta efectivo en un análisis de caso estocástico. En conjunto, estas contribuciones resaltan el potencial del marco de trabajo para mejorar tanto el rendimiento como la estabilidad de la alineación de LLMs con RLHF.
Los enfoques tradicionales para el Reconocimiento de Entidades Nombradas (NER) enmarcan la tarea en un problema de etiquetado de secuencias BIO. Aunque estos sistemas a menudo sobresalen en la tarea subyacente, requieren datos anotados extensos y tienen dificultades para generalizar a dominios de entrada fuera de distribución y tipos de entidades no vistos. Por el contrario, los Modelos de Lenguaje Grandes (LLMs) han demostrado fuertes capacidades de cero disparo. Si bien varios trabajos abordan el NER de Cero Disparo en inglés, se ha hecho poco en otros idiomas. En este documento, definimos un marco de evaluación para el NER de Cero Disparo, aplicándolo al idioma italiano. Además, presentamos SLIMER-IT, la versión italiana de SLIMER, un enfoque de ajuste de instrucciones para NER de cero disparo que aprovecha indicaciones enriquecidas con definiciones y pautas. Comparaciones con otros modelos de última generación demuestran la superioridad de SLIMER-IT en etiquetas de entidades nunca antes vistas.
Los modelos de recompensa (RMs) desempeñan un papel fundamental en alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas. Sin embargo, el entrenamiento tradicional de RM, que se basa en pares de respuestas vinculados a indicaciones específicas, lucha por desentrañar las preferencias impulsadas por las indicaciones de los artefactos independientes de la indicación, como la longitud y el formato de la respuesta. En este trabajo, exponemos una limitación fundamental de los métodos actuales de entrenamiento de RM, donde los RMs no logran distinguir de manera efectiva entre las señales contextuales y los artefactos irrelevantes al determinar preferencias. Para abordar esto, introducimos un marco causal que aprende preferencias independientes de estos artefactos y proponemos una novedosa técnica de aumento de datos diseñada para eliminarlos. Experimentos extensos muestran que nuestro enfoque filtra con éxito los artefactos no deseados, produciendo un modelo de recompensa más robusto (RRM). Nuestro RRM mejora el rendimiento de un modelo de recompensa por pares entrenado en Gemma-2-9b-it, en RewardBench, aumentando la precisión del 80.61% al 84.15%. Además, entrenamos dos políticas DPO utilizando tanto el RM como el RRM, demostrando que el RRM mejora significativamente las políticas alineadas con DPO, mejorando las puntuaciones de MT-Bench de 7.27 a 8.31 y las tasas de victorias controladas por longitud en AlpacaEval-2 del 33.46% al 52.49%.
El aprendizaje por imitación ha demostrado ser una herramienta poderosa para entrenar políticas visuomotoras complejas. Sin embargo, los métodos actuales a menudo requieren cientos o miles de demostraciones de expertos para manejar observaciones visuales de alta dimensionalidad. Una razón clave de esta baja eficiencia de datos es que las representaciones visuales suelen estar predominantemente preentrenadas en datos fuera del dominio o entrenadas directamente a través de un objetivo de clonación de comportamiento. En este trabajo, presentamos DynaMo, un nuevo método auto-supervisado en dominio para aprender representaciones visuales. Dado un conjunto de demostraciones de expertos, aprendemos conjuntamente un modelo latente de dinámica inversa y un modelo de dinámica directa sobre una secuencia de incrustaciones de imágenes, prediciendo el siguiente fotograma en el espacio latente, sin aumentaciones, muestreo contrastivo o acceso a acciones de verdad absoluta. Es importante destacar que DynaMo no requiere ningún dato fuera del dominio, como conjuntos de datos de Internet o conjuntos de datos cruzados. En una serie de seis entornos simulados y reales, mostramos que las representaciones aprendidas con DynaMo mejoran significativamente el rendimiento del aprendizaje por imitación aguas abajo en comparación con objetivos de aprendizaje auto-supervisados anteriores y representaciones preentrenadas. Los beneficios de utilizar DynaMo se mantienen en diferentes clases de políticas como Behavior Transformer, Política de Difusión, MLP y vecinos más cercanos. Por último, realizamos ablación sobre componentes clave de DynaMo y medimos su impacto en el rendimiento de la política aguas abajo. Los videos de robots se pueden ver mejor en https://dynamo-ssl.github.io
Generar datos tabulares sintéticos es fundamental en el aprendizaje automático, especialmente cuando los datos reales son limitados o sensibles. Los modelos generativos tradicionales a menudo enfrentan desafíos debido a las características únicas de los datos tabulares, como los tipos de datos mixtos y las distribuciones variadas, y requieren un procesamiento complejo o grandes modelos preentrenados. En este documento, presentamos un novedoso método de transformación binaria sin pérdida que convierte cualquier dato tabular en representaciones binarias de tamaño fijo, y un nuevo modelo generativo correspondiente llamado Difusión Binaria, diseñado específicamente para datos binarios. Difusión Binaria aprovecha la simplicidad de las operaciones XOR para la adición y eliminación de ruido, y emplea una pérdida binaria de entropía cruzada para el entrenamiento. Nuestro enfoque elimina la necesidad de un extenso preprocesamiento, ajuste de parámetros de ruido complejos y preentrenamiento en grandes conjuntos de datos. Evaluamos nuestro modelo en varios conjuntos de datos tabulares de referencia populares, demostrando que Difusión Binaria supera a los modelos existentes de vanguardia en los conjuntos de datos de Viajes, Ingresos de Adultos y Diabetes, siendo significativamente más pequeño en tamaño.