Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

MiniMax-01: Escalando Modelos Base con Atención Relámpago
MiniMax-01: Scaling Foundation Models with Lightning Attention

Jan 14

ByMiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu

300

Presentamos la serie MiniMax-01, que incluye MiniMax-Text-01 y MiniMax-VL-01, comparables a modelos de primera categoría y con capacidades superiores en el procesamiento de contextos más largos. La clave radica en la atención relámpago y su escalabilidad eficiente. Para maximizar la capacidad computacional, la integramos con una Mezcla de Expertos (MoE), creando un modelo con 32 expertos y 456 mil millones de parámetros en total, de los cuales 45.9 mil millones se activan para cada token. Desarrollamos una estrategia paralela optimizada y técnicas de superposición de cálculo-comunicación altamente eficientes para MoE y atención relámpago. Este enfoque nos permite llevar a cabo un entrenamiento e inferencia eficientes en modelos con cientos de miles de millones de parámetros a lo largo de contextos que abarcan millones de tokens. La ventana de contexto de MiniMax-Text-01 puede alcanzar hasta 1 millón de tokens durante el entrenamiento y extrapolarse a 4 millones de tokens durante la inferencia a un costo asequible. Nuestro modelo visión-lenguaje, MiniMax-VL-01, se construye mediante un entrenamiento continuo con 512 mil millones de tokens visión-lenguaje. Experimentos en benchmarks estándar y propios muestran que nuestros modelos igualan el rendimiento de modelos de última generación como GPT-4o y Claude-3.5-Sonnet, ofreciendo una ventana de contexto 20-32 veces más larga. Publicamos MiniMax-01 en https://github.com/MiniMax-AI.

MangaNinja: Colorización de Líneas de Arte con Seguimiento Preciso de Referencias.
MangaNinja: Line Art Colorization with Precise Reference Following

Jan 14

ByZhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo

Derivado de modelos de difusión, MangaNinjia se especializa en la tarea de colorización de arte de líneas guiada por referencia. Incorporamos dos diseños considerados para garantizar una transcripción precisa de los detalles del personaje, que incluyen un módulo de reordenamiento de parches para facilitar el aprendizaje de correspondencia entre la imagen de color de referencia y el arte de líneas objetivo, y un esquema de control impulsado por puntos para permitir un emparejamiento de colores detallado. Experimentos en un banco de pruebas recopilado internamente demuestran la superioridad de nuestro modelo sobre las soluciones actuales en términos de colorización precisa. Mostramos además el potencial del propuesto control interactivo de puntos en el manejo de casos desafiantes, colorización entre personajes, armonización multi-referencia, más allá del alcance de los algoritmos existentes.

3DIS-FLUX: generación simple y eficiente de múltiples instancias con renderizado DiT
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Jan 9

ByDewei Zhou, Ji Xie, Zongxin Yang, Yi Yang

La creciente demanda de salidas controlables en la generación de texto a imagen ha impulsado avances significativos en la generación de múltiples instancias (GMI), permitiendo a los usuarios definir tanto la disposición de las instancias como los atributos. Actualmente, los métodos de vanguardia en GMI son principalmente basados en adaptadores. Sin embargo, estos métodos requieren el reentrenamiento de un nuevo adaptador cada vez que se lanza un modelo más avanzado, lo que resulta en un consumo significativo de recursos. Se ha introducido una metodología llamada Síntesis de Instancias Desacoplada Impulsada por Profundidad (3DIS), que desacopla GMI en dos fases distintas: 1) construcción de escenas basada en profundidad y 2) renderizado de detalles con modelos de control de profundidad ampliamente pre-entrenados. El método 3DIS requiere el entrenamiento del adaptador únicamente durante la fase de construcción de escenas, al tiempo que permite que varios modelos realicen el renderizado de detalles sin necesidad de entrenamiento. Inicialmente, 3DIS se centró en técnicas de renderizado utilizando arquitecturas U-Net como SD1.5, SD2 y SDXL, sin explorar el potencial de modelos recientes basados en DiT como FLUX. En este documento, presentamos 3DIS-FLUX, una extensión del marco 3DIS que integra el modelo FLUX para capacidades de renderizado mejoradas. Específicamente, empleamos el modelo FLUX.1-Depth-dev para la generación de imágenes controladas por mapas de profundidad e introducimos un renderizador de detalles que manipula la Máscara de Atención en el mecanismo de Atención Conjunta de FLUX basándose en información de disposición. Este enfoque permite el renderizado preciso de atributos detallados de cada instancia. Nuestros resultados experimentales indican que 3DIS-FLUX, aprovechando el modelo FLUX, supera al método original 3DIS, que utilizaba SD2 y SDXL, y supera a los métodos de vanguardia basados en adaptadores en términos de rendimiento y calidad de imagen. Página del Proyecto: https://limuloo.github.io/3DIS/.

Difusión Adversarial Post-Training para la Generación de Video en un Paso
Diffusion Adversarial Post-Training for One-Step Video Generation

Jan 14

ByShanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang

Los modelos de difusión son ampliamente utilizados para la generación de imágenes y videos, pero su proceso iterativo de generación es lento y costoso. Aunque los enfoques de destilación existentes han demostrado el potencial para la generación en un solo paso en el dominio de la imagen, aún sufren de una degradación significativa en la calidad. En este trabajo, proponemos el Entrenamiento Posterior Adversarial (APT, por sus siglas en inglés) contra datos reales siguiendo el pre-entrenamiento de difusión para la generación de videos en un solo paso. Para mejorar la estabilidad y calidad del entrenamiento, introducimos varias mejoras en la arquitectura del modelo y los procedimientos de entrenamiento, junto con un objetivo de regularización R1 aproximado. Empíricamente, nuestros experimentos muestran que nuestro modelo post-entrenado adversarial, Seaweed-APT, puede generar videos de 2 segundos, 1280x720, 24fps en tiempo real utilizando un solo paso de evaluación hacia adelante. Además, nuestro modelo es capaz de generar imágenes de 1024px en un solo paso, logrando una calidad comparable a los métodos de vanguardia.

Omni-RGPT: Unificando la comprensión a nivel de región de imágenes y videos a través de marcas de token
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Jan 14

ByMiran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma

Presentamos Omni-RGPT, un modelo de lenguaje grande multimodal diseñado para facilitar la comprensión a nivel de región tanto para imágenes como para videos. Para lograr una representación de región consistente en dimensiones espacio-temporales, introducimos Token Mark, un conjunto de tokens que resaltan las regiones objetivo dentro del espacio de características visuales. Estos tokens se incorporan directamente en regiones espaciales utilizando indicadores de región (por ejemplo, cajas o máscaras) y se incorporan simultáneamente en el indicador de texto para especificar el objetivo, estableciendo una conexión directa entre los tokens visuales y de texto. Para apoyar aún más la comprensión robusta de videos sin requerir tracklets, introducimos una tarea auxiliar que guía a Token Mark aprovechando la consistencia de los tokens, lo que permite una interpretación estable de la región a lo largo del video. Además, presentamos un conjunto de datos de instrucciones de video a nivel de región a gran escala (RegVID-300k). Omni-RGPT logra resultados de vanguardia en bancos de pruebas de razonamiento de sentido común basados en imágenes y videos, al tiempo que muestra un rendimiento sólido en tareas de subtitulado y comprensión de expresiones de referencia.

Tono de Relleno: Un Análisis Mecanicista de los Tokens de Relleno en Modelos de T2I
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Jan 12

ByMichael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov

Los modelos de difusión texto-imagen (T2I) dependen de indicaciones codificadas para guiar el proceso de generación de imágenes. Normalmente, estas indicaciones se extienden a una longitud fija mediante la adición de tokens de relleno antes de la codificación del texto. A pesar de ser una práctica habitual, no se ha investigado la influencia de los tokens de relleno en el proceso de generación de imágenes. En este trabajo, realizamos el primer análisis exhaustivo del papel que desempeñan los tokens de relleno en los modelos T2I. Desarrollamos dos técnicas causales para analizar cómo se codifica la información en la representación de tokens a lo largo de los diferentes componentes del proceso T2I. Utilizando estas técnicas, investigamos cuándo y cómo los tokens de relleno afectan al proceso de generación de imágenes. Nuestros hallazgos revelan tres escenarios distintos: los tokens de relleno pueden afectar a la salida del modelo durante la codificación del texto, durante el proceso de difusión, o ser efectivamente ignorados. Además, identificamos relaciones clave entre estos escenarios y la arquitectura del modelo (atención cruzada o auto-atención) y su proceso de entrenamiento (codificador de texto congelado o entrenado). Estas percepciones contribuyen a una comprensión más profunda de los mecanismos de los tokens de relleno, pudiendo informar sobre el diseño de modelos futuros y las prácticas de entrenamiento en sistemas T2I.

Un Copiloto de IA Multimodal para Análisis de Células Individuales con Instrucciones a Seguir
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Jan 14

ByYin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen

Los grandes modelos de lenguaje destacan en la interpretación de instrucciones complejas en lenguaje natural, lo que les permite realizar una amplia gama de tareas. En las ciencias de la vida, los datos de secuenciación de ARN de células individuales (scRNA-seq) sirven como el "lenguaje de la biología celular", capturando patrones intrincados de expresión génica a nivel de célula única. Sin embargo, interactuar con este "lenguaje" a través de herramientas convencionales a menudo es ineficiente y poco intuitivo, planteando desafíos para los investigadores. Para abordar estas limitaciones, presentamos InstructCell, un copiloto de IA multimodal que aprovecha el lenguaje natural como un medio para un análisis de células individuales más directo y flexible. Construimos un conjunto de datos de instrucciones multimodal integral que combina instrucciones basadas en texto con perfiles de scRNA-seq de diversos tejidos y especies. Sobre esta base, desarrollamos una arquitectura de lenguaje celular multimodal capaz de interpretar y procesar simultáneamente ambas modalidades. InstructCell capacita a los investigadores para llevar a cabo tareas críticas, como la anotación de tipos celulares, la generación condicional de pseudo-células y la predicción de sensibilidad a fármacos, utilizando comandos sencillos en lenguaje natural. Evaluaciones extensas demuestran que InstructCell cumple consistentemente o supera el rendimiento de los modelos de base de células individuales existentes, adaptándose a diversas condiciones experimentales. Más importante aún, InstructCell proporciona una herramienta accesible e intuitiva para explorar datos complejos de células individuales, reduciendo las barreras técnicas y permitiendo una comprensión biológica más profunda.

PokerBench: Entrenando Modelos de Lenguaje Grandes para Convertirse en Jugadores Profesionales de Póker
PokerBench: Training Large Language Models to become Professional Poker Players

Jan 14

ByRichard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli

Presentamos PokerBench, un banco de pruebas para evaluar las habilidades de juego de póquer de los modelos de lenguaje grandes (LLM). Dado que los LLM destacan en tareas tradicionales de procesamiento del lenguaje natural (NLP), su aplicación a juegos estratégicos complejos como el póquer plantea un nuevo desafío. El póquer, un juego de información incompleta, requiere una multitud de habilidades como matemáticas, razonamiento, planificación, estrategia y una profunda comprensión de la teoría de juegos y la psicología humana. Esto convierte al póquer en la próxima frontera ideal para los modelos de lenguaje grandes. PokerBench consta de una compilación exhaustiva de 11,000 escenarios más importantes, divididos entre juego pre-flop y post-flop, desarrollados en colaboración con jugadores de póquer entrenados. Evaluamos modelos prominentes como GPT-4, ChatGPT 3.5 y varios modelos de las series Llama y Gemma, encontrando que todos los LLM de última generación tienen un rendimiento inferior al jugar póquer óptimo. Sin embargo, después de un ajuste fino, estos modelos muestran mejoras significativas. Validamos PokerBench haciendo que modelos con diferentes puntajes compitan entre sí, demostrando que puntajes más altos en PokerBench conducen a mayores tasas de victoria en juegos de póquer reales. A través de partidas entre nuestro modelo ajustado y GPT-4, también identificamos limitaciones del simple ajuste fino supervisado para aprender estrategias de juego óptimas, lo que sugiere la necesidad de metodologías más avanzadas para entrenar eficazmente a los modelos de lenguaje para destacar en juegos. PokerBench presenta así un banco de pruebas único para una evaluación rápida y fiable de la capacidad de juego de póquer de los LLM, así como un banco de pruebas integral para estudiar el progreso de los LLM en escenarios de juego complejos. El conjunto de datos y el código estarán disponibles en: https://github.com/pokerllm/pokerbench.

FramePainter: Dotando a la Edición Interactiva de Imágenes con Difusión de Video Previos
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Jan 14

ByYabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo

La edición interactiva de imágenes permite a los usuarios modificar imágenes a través de operaciones de interacción visual como dibujar, hacer clic y arrastrar. Los métodos existentes construyen señales de supervisión a partir de videos, ya que capturan cómo cambian los objetos con diversas interacciones físicas. Sin embargo, estos modelos suelen basarse en modelos de difusión de texto a imagen, por lo que necesitan (i) muestras de entrenamiento masivas y (ii) un codificador de referencia adicional para aprender dinámicas del mundo real y consistencia visual. En este documento, reformulamos esta tarea como un problema de generación de imagen a video, para heredar potentes prioridades de difusión de video que reduzcan los costos de entrenamiento y garanticen consistencia temporal. Específicamente, presentamos FramePainter como una instancia eficiente de esta formulación. Inicializado con Difusión de Video Estable, solo utiliza un codificador de control disperso ligero para inyectar señales de edición. Considerando las limitaciones de la atención temporal en el manejo de grandes movimientos entre dos fotogramas, proponemos además una atención coincidente para ampliar el campo receptivo al tiempo que fomenta la correspondencia densa entre los tokens de imagen editados y de origen. Destacamos la efectividad y eficiencia de FramePainter en diversas señales de edición: supera notablemente a los métodos anteriores de vanguardia con mucha menos cantidad de datos de entrenamiento, logrando una edición altamente fluida y coherente de imágenes, por ejemplo, ajustar automáticamente el reflejo de la taza. Además, FramePainter también muestra una generalización excepcional en escenarios no presentes en videos del mundo real, por ejemplo, transformar el pez payaso en una forma similar a un tiburón. Nuestro código estará disponible en https://github.com/YBYBZhang/FramePainter.

Democratizando los Modelos Generativos de Máscaras de Texto a Imagen con Tokens Unidimensionales Compactos Conscientes del Texto.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Jan 13

ByDongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen

Los tokenizadores de imágenes constituyen la base de los modelos generativos modernos de texto a imagen, pero son notoriamente difíciles de entrenar. Además, la mayoría de los modelos existentes de texto a imagen dependen de conjuntos de datos privados a gran escala y de alta calidad, lo que los hace difíciles de replicar. En este trabajo, presentamos Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), un tokenizador de imágenes eficiente y potente que puede utilizar tokens discretos o continuos unidimensionales. TA-TiTok integra de manera única información textual durante la etapa de decodificación del tokenizador (es decir, detokenización), acelerando la convergencia y mejorando el rendimiento. TA-TiTok también se beneficia de un proceso de entrenamiento simplificado pero efectivo de una sola etapa, eliminando la necesidad de la compleja destilación de dos etapas utilizada en tokenizadores unidimensionales anteriores. Este diseño permite una escalabilidad fluida a conjuntos de datos grandes. Basándonos en esto, presentamos una familia de Modelos Generativos Enmascarados de Texto a Imagen (MaskGen), entrenados exclusivamente con datos abiertos mientras logran un rendimiento comparable a los modelos entrenados con datos privados. Nuestro objetivo es lanzar tanto los tokenizadores TA-TiTok eficientes y sólidos como los modelos MaskGen de datos abiertos y pesos abiertos para promover un acceso más amplio y democratizar el campo de los modelos generativos enmascarados de texto a imagen.

HALoGEN: Alucinaciones LLM Fantásticas y Dónde Encontrarlas
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Jan 14

ByAbhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi

A pesar de su impresionante capacidad para generar texto de alta calidad y fluido, los modelos generativos de lenguaje grande (LLMs, por sus siglas en inglés) también producen alucinaciones: afirmaciones que no se alinean con el conocimiento del mundo establecido o el contexto de entrada proporcionado. Sin embargo, medir la alucinación puede ser desafiante, ya que hacer que los humanos verifiquen las generaciones del modelo sobre la marcha es costoso y consume mucho tiempo. En este trabajo, presentamos HALoGEN, un completo banco de pruebas de alucinaciones que consta de: (1) 10,923 indicaciones para modelos generativos que abarcan nueve dominios, incluidos la programación, la atribución científica y la sumarización, y (2) verificadores automáticos de alta precisión para cada caso de uso que descomponen las generaciones de LLM en unidades atómicas y verifican cada unidad con una fuente de conocimiento de alta calidad. Utilizamos este marco para evaluar ~150,000 generaciones de 14 modelos de lenguaje, descubriendo que incluso los modelos con mejor rendimiento están plagados de alucinaciones (a veces hasta un 86% de hechos atómicos generados, dependiendo del dominio). Además, definimos una nueva clasificación de errores para las alucinaciones de LLM basada en si probablemente provienen de una recopilación incorrecta de datos de entrenamiento (errores de Tipo A), conocimiento incorrecto en los datos de entrenamiento (errores de Tipo B) o son una fabricación (errores de Tipo C). Esperamos que nuestro marco siente las bases para permitir el estudio fundamentado de por qué los modelos generativos alucinan y fomentar el desarrollo de modelos de lenguaje grande confiables.

Tarsier2: Avanzando en Modelos Grandes de Visión-Lenguaje desde Descripciones Detalladas de Video hasta una Comprensión Integral del Video
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Jan 14

ByLiping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin

Presentamos Tarsier2, un modelo de lenguaje-visión grande de última generación (LVLM) diseñado para generar descripciones detalladas y precisas de videos, al mismo tiempo que exhibe capacidades superiores de comprensión general de videos. Tarsier2 logra avances significativos a través de tres actualizaciones clave: (1) Escalando los datos de pre-entrenamiento de 11M a 40M pares de video-texto, enriqueciendo tanto el volumen como la diversidad; (2) Realizando un alineamiento temporal detallado durante el ajuste fino supervisado; (3) Utilizando muestreo basado en el modelo para construir automáticamente datos de preferencia y aplicando entrenamiento DPO para optimización. Experimentos extensos muestran que Tarsier2-7B supera consistentemente a los principales modelos propietarios, incluyendo GPT-4o y Gemini 1.5 Pro, en tareas detalladas de descripción de videos. En el banco de pruebas DREAM-1K, Tarsier2-7B mejora F1 en un 2.8\% sobre GPT-4o y un 5.8\% sobre Gemini-1.5-Pro. En evaluaciones humanas lado a lado, Tarsier2-7B muestra una ventaja de rendimiento del +8.6\% sobre GPT-4o y del +24.9\% sobre Gemini-1.5-Pro. Tarsier2-7B también establece nuevos resultados de última generación en 15 bancos de pruebas públicos, abarcando tareas como pregunta-respuesta de video, fundamentación de video, prueba de alucinación y pregunta-respuesta encarnada, demostrando su versatilidad como un modelo robusto de lenguaje-visión generalista.

Mejorando la interpretabilidad automatizada con descripciones centradas en la salida.
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Jan 14

ByYoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva

Los procesos automatizados de interpretabilidad generan descripciones en lenguaje natural para los conceptos representados por características en modelos de lenguaje grandes (LLMs), como plantas o la primera palabra en una oración. Estas descripciones se derivan utilizando entradas que activan la característica, la cual puede ser una dimensión o una dirección en el espacio de representación del modelo. Sin embargo, identificar las entradas activadoras es costoso, y el rol mecanicista de una característica en el comportamiento del modelo se determina tanto por cómo las entradas causan que la característica se active como por cómo la activación de la característica afecta las salidas. Mediante evaluaciones de dirección, revelamos que los procesos actuales proporcionan descripciones que no logran capturar el efecto causal de la característica en las salidas. Para solucionar esto, proponemos métodos eficientes centrados en las salidas para generar descripciones de características automáticamente. Estos métodos utilizan los tokens con mayor peso después de la estimulación de la característica o los tokens de mayor peso después de aplicar directamente la "desincrustación" del vocabulario a la característica. Nuestras descripciones centradas en las salidas capturan mejor el efecto causal de una característica en las salidas del modelo que las descripciones centradas en las entradas, pero combinar ambas conduce al mejor rendimiento en ambas evaluaciones de entrada y salida. Por último, demostramos que las descripciones centradas en las salidas pueden utilizarse para encontrar entradas que activen características que anteriormente se consideraban "inactivas".

Corpus Chino OpenCSG: Una Serie de Conjuntos de Datos Chinos de Alta Calidad para el Entrenamiento de LLM
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Jan 14

ByYijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei

Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades notables, pero su éxito depende en gran medida de la calidad de los corpus de preentrenamiento. Para los LLMs chinos, la escasez de conjuntos de datos chinos de alta calidad representa un desafío significativo, limitando a menudo su rendimiento. Para abordar este problema, proponemos el Corpus Chino OpenCSG, una serie de conjuntos de datos de alta calidad diseñados específicamente para el preentrenamiento, post-entrenamiento y ajuste fino de LLMs. Este corpus incluye Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese y Smoltalk-chinese, cada uno con características distintas: los conjuntos de datos Fineweb-edu se centran en contenido filtrado de alta calidad derivado de diversas fuentes web chinas; Cosmopedia-chinese proporciona datos sintéticos de estilo de libro de texto para un entrenamiento intensivo en conocimiento; y Smoltalk-chinese enfatiza datos de estilo de chat variados y estilísticos. El Corpus Chino OpenCSG se caracteriza por su texto de alta calidad, cobertura diversa en diferentes dominios y procesos de curación de datos escalables y reproducibles. Además, realizamos extensos análisis experimentales, incluyendo evaluaciones en modelos con parámetros más pequeños, que demostraron mejoras significativas en el rendimiento en tareas como C-Eval, mostrando la efectividad del corpus para el entrenamiento de LLMs chinos.

MatchAnything: Coincidencia universal de imágenes entre modalidades con preentrenamiento a gran escala
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Jan 13

ByXingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou

La correspondencia de imágenes, que tiene como objetivo identificar ubicaciones de píxeles correspondientes entre imágenes, es crucial en una amplia gama de disciplinas científicas, ayudando en el registro, fusión y análisis de imágenes. En los últimos años, los algoritmos de correspondencia de imágenes basados en aprendizaje profundo han superado drásticamente a los humanos al encontrar rápidamente y con precisión grandes cantidades de correspondencias. Sin embargo, al tratar con imágenes capturadas bajo diferentes modalidades de imagen que resultan en cambios significativos en la apariencia, el rendimiento de estos algoritmos a menudo se deteriora debido a la escasez de datos de entrenamiento anotados cruzados modales. Esta limitación obstaculiza aplicaciones en varios campos que dependen de múltiples modalidades de imagen para obtener información complementaria. Para abordar este desafío, proponemos un marco de pre-entrenamiento a gran escala que utiliza señales de entrenamiento sintéticas cruzadas modales, incorporando datos diversos de diversas fuentes, para entrenar modelos para reconocer y emparejar estructuras fundamentales entre imágenes. Esta capacidad es transferible a tareas de emparejamiento de imágenes cruzadas de modalidad no vistas en el mundo real. Nuestro hallazgo clave es que el modelo de emparejamiento entrenado con nuestro marco logra una notable generalización en más de ocho tareas de registro de modalidad cruzada no vistas utilizando el mismo peso de red, superando sustancialmente a los métodos existentes, ya sea diseñados para generalización o adaptados para tareas específicas. Este avance mejora significativamente la aplicabilidad de las tecnologías de emparejamiento de imágenes en diversas disciplinas científicas y allana el camino para nuevas aplicaciones en análisis de inteligencia humana y artificial de múltiples modalidades y más allá.

AfriHate: Una colección multilingüe de discursos de odio y lenguaje abusivo para idiomas africanos.
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Jan 14

ByShamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum

El discurso de odio y el lenguaje abusivo son fenómenos globales que requieren conocimiento del contexto sociocultural para ser comprendidos, identificados y moderados. Sin embargo, en muchas regiones del Sur Global, se han documentado varios casos de (1) ausencia de moderación y (2) censura debido a la dependencia de la detección de palabras clave fuera de contexto. Además, con frecuencia, individuos de alto perfil han estado en el centro del proceso de moderación, mientras que se han pasado por alto campañas de discurso de odio dirigidas y masivas contra minorías. Estas limitaciones se deben principalmente a la falta de datos de alta calidad en los idiomas locales y al fracaso en incluir a las comunidades locales en los procesos de recopilación, anotación y moderación. Para abordar este problema, presentamos AfriHate: una colección multilingüe de conjuntos de datos de discurso de odio y lenguaje abusivo en 15 idiomas africanos. Cada instancia en AfriHate está anotada por hablantes nativos familiarizados con la cultura local. Informamos sobre los desafíos relacionados con la construcción de los conjuntos de datos y presentamos varios resultados de líneas base de clasificación con y sin el uso de LLMs. Los conjuntos de datos, anotaciones individuales y léxicos de discurso de odio y lenguaje ofensivo están disponibles en https://github.com/AfriHate/AfriHate

Razonamiento de grafo in-situ y expansión de conocimiento utilizando Graph-PReFLexOR.
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Jan 14

ByMarkus J. Buehler

La búsqueda del descubrimiento científico automatizado ha impulsado el progreso desde la lógica simbólica hasta la IA moderna, abriendo nuevos horizontes en el razonamiento y el reconocimiento de patrones. Los transformadores funcionan como sistemas potenciales, donde cada relación posible permanece como una potencialidad latente hasta que las tareas imponen restricciones, similares a una medición. Sin embargo, refinar su muestreo requiere más que una selección probabilística: las soluciones deben cumplir con estructuras o reglas específicas, garantizando la consistencia y la invocación de principios generales. Presentamos Graph-PReFLexOR (Modelado de Lenguaje Recursivo Basado en Preferencias en Grafos para la Optimización Exploratoria del Razonamiento), un marco que combina el razonamiento en grafos con la abstracción simbólica para expandir dinámicamente el conocimiento del dominio. Inspirado en el aprendizaje por refuerzo, Graph-PReFLexOR define el razonamiento como un mapeo estructurado, donde las tareas generan grafos de conocimiento, patrones abstractos y, en última instancia, respuestas finales. Inspirado en la teoría de categorías, codifica conceptos como nodos y sus relaciones como aristas, respaldando la inferencia jerárquica y el aprendizaje adaptativo a través de representaciones isomórficas. Las demostraciones incluyen la generación de hipótesis, el diseño de materiales y el razonamiento creativo, como descubrir relaciones entre conceptos mitológicos como 'lugares finos' con la ciencia de materiales. Proponemos una estrategia de 'crecimiento de jardín de conocimiento' que integra ideas en distintos dominios, promoviendo conexiones interdisciplinarias. Los resultados con un modelo Graph-PReFLexOR de 3 mil millones de parámetros muestran una profundidad y adaptabilidad de razonamiento superiores, subrayando el potencial para un descubrimiento transparente y multidisciplinario impulsado por la IA. Sienta las bases para soluciones generales de razonamiento autónomo.

Potencial y Peligros de los Modelos de Lenguaje Grandes como Jueces de Datos Textuales No Estructurados
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Jan 14

ByRewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar

Los rápidos avances en los grandes modelos de lenguaje han desbloqueado capacidades notables en cuanto al procesamiento y resumen de datos de texto no estructurados. Esto tiene implicaciones para el análisis de conjuntos de datos ricos y abiertos, como respuestas a encuestas, donde los LLMs prometen destilar eficientemente temas y sentimientos clave. Sin embargo, a medida que las organizaciones recurren cada vez más a estos potentes sistemas de IA para dar sentido a la retroalimentación textual, surge una pregunta crítica: ¿podemos confiar en que los LLMs representen con precisión las perspectivas contenidas en estos conjuntos de datos basados en texto? Si bien los LLMs sobresalen en la generación de resúmenes parecidos a los humanos, existe el riesgo de que sus salidas se desvíen inadvertidamente de la verdadera sustancia de las respuestas originales. Las discrepancias entre las salidas generadas por los LLMs y los temas reales presentes en los datos podrían llevar a una toma de decisiones defectuosa, con consecuencias de gran alcance para las organizaciones. Esta investigación investiga la efectividad de los LLMs como modelos jueces para evaluar la alineación temática de resúmenes generados por otros LLMs. Utilizamos un modelo Claude Antropico para generar resúmenes temáticos a partir de respuestas abiertas de encuestas, con Titan Express de Amazon, Nova Pro y Llama de Meta sirviendo como jueces LLM. El enfoque de LLM como juez se comparó con evaluaciones humanas utilizando el kappa de Cohen, el rho de Spearman y el alfa de Krippendorff, validando una alternativa escalable a los métodos tradicionales de evaluación centrados en humanos. Nuestros hallazgos revelan que si bien los LLMs como jueces ofrecen una solución escalable comparable a los evaluadores humanos, los humanos aún pueden destacarse en la detección de matices sutiles y específicos del contexto. Esta investigación contribuye al creciente cuerpo de conocimiento sobre el análisis de texto asistido por IA. Discutimos limitaciones y proporcionamos recomendaciones para futuras investigaciones, enfatizando la necesidad de una cuidadosa consideración al generalizar los modelos jueces LLM en diversos contextos y casos de uso.