Artículos de investigación en IA seleccionados diariamente con traducciones
Este documento aborda un problema importante de adición de objetos en imágenes con solo orientación de texto. Es desafiante porque el nuevo objeto debe integrarse sin problemas en la imagen con un contexto visual coherente, como iluminación, textura y ubicación espacial. Si bien los métodos existentes de rellenado de imágenes guiados por texto pueden añadir objetos, o bien no logran preservar la consistencia del fondo o implican una intervención humana engorrosa al especificar cuadros delimitadores o máscaras dibujadas por el usuario. Para abordar este desafío, presentamos Diffree, un modelo Texto-a-Imagen (T2I) que facilita la adición de objetos guiada por texto con solo control de texto. Con este fin, creamos OABench, un exquisito conjunto de datos sintéticos eliminando objetos con técnicas avanzadas de rellenado de imágenes. OABench consta de 74K tuplas del mundo real de una imagen original, una imagen rellenada con el objeto eliminado, una máscara de objeto y descripciones de objetos. Entrenado en OABench utilizando el modelo de Difusión Estable con un módulo adicional de predicción de máscara, Diffree predice de manera única la posición del nuevo objeto y logra la adición de objetos con orientación solo de texto. Experimentos extensos demuestran que Diffree sobresale en la adición de nuevos objetos con una alta tasa de éxito al tiempo que mantiene la consistencia del fondo, la adecuación espacial y la relevancia y calidad del objeto.
Presentamos "LAMBDA", un novedoso sistema de análisis de datos multiagente de código abierto y sin necesidad de programación que aprovecha el poder de modelos grandes. LAMBDA está diseñado para abordar los desafíos del análisis de datos en aplicaciones complejas basadas en datos mediante el uso de agentes de datos diseñados de manera innovadora que operan de forma iterativa y generativa utilizando lenguaje natural. En el núcleo de LAMBDA se encuentran dos roles clave de agentes: el programador y el inspector, que están diseñados para trabajar juntos de manera fluida. Específicamente, el programador genera código basado en las instrucciones del usuario y el conocimiento específico del dominio, mejorado por modelos avanzados. Mientras tanto, el inspector depura el código cuando es necesario. Para garantizar la robustez y manejar escenarios adversos, LAMBDA cuenta con una interfaz de usuario que permite la intervención directa del usuario en el bucle operativo. Además, LAMBDA puede integrar de manera flexible modelos y algoritmos externos a través de nuestro mecanismo de integración de conocimientos, adaptándose a las necesidades del análisis de datos personalizado. LAMBDA ha demostrado un rendimiento sólido en varios conjuntos de datos de aprendizaje automático. Tiene el potencial de mejorar la práctica de la ciencia de datos y el paradigma de análisis al integrar de manera fluida la inteligencia humana y artificial, haciéndolo más accesible, efectivo y eficiente para personas de diversos orígenes. El sólido rendimiento de LAMBDA en la resolución de problemas de ciencia de datos se demuestra en varios estudios de caso, que se presentan en https://www.polyu.edu.hk/ama/cmfai/lambda.html.
Los recientes avances en modelos de lenguaje grandes (LLMs) han abierto nuevas vías para aplicar sistemas multiagente en simulaciones a gran escala. Sin embargo, persisten varios desafíos al realizar simulaciones multiagente con plataformas existentes, como la escalabilidad limitada y la baja eficiencia, la falta de diversidad de agentes y procesos de gestión intensivos. Para abordar estos desafíos, desarrollamos varias características y componentes nuevos para AgentScope, una plataforma multiagente fácil de usar, mejorando su conveniencia y flexibilidad para respaldar simulaciones multiagente a gran escala. Específicamente, proponemos un mecanismo distribuido basado en actores como la infraestructura tecnológica subyacente para lograr una gran escalabilidad y alta eficiencia, y brindamos soporte de entorno flexible para simular diversos escenarios del mundo real, lo que permite la ejecución paralela de múltiples agentes, la orquestación centralizada del flujo de trabajo y las interacciones entre agentes y entre agentes y el entorno. Además, integramos una herramienta configurable fácil de usar y un pipeline automático de generación de antecedentes en AgentScope, simplificando el proceso de creación de agentes con ajustes de antecedentes diversos pero detallados. Por último, proporcionamos una interfaz basada en web para monitorear y gestionar de manera conveniente un gran número de agentes que podrían desplegarse en múltiples dispositivos. Realizamos una simulación exhaustiva para demostrar la efectividad de las mejoras propuestas en AgentScope, y ofrecemos observaciones detalladas y discusiones para resaltar el gran potencial de aplicar sistemas multiagente en simulaciones a gran escala. El código fuente se encuentra disponible en GitHub en https://github.com/modelscope/agentscope para inspirar futuras investigaciones y desarrollos en simulaciones multiagente a gran escala.
Al entrenar sobre conjuntos de datos a gran escala, los métodos de estimación de profundidad monocular sin disparo (MDE, por sus siglas en inglés) muestran un rendimiento robusto en entornos no controlados, pero a menudo sufren de detalles insuficientemente precisos. Aunque los enfoques recientes de MDE basados en difusión exhiben una atractiva capacidad de extracción de detalles, aún luchan en escenas geométricamente desafiantes debido a la dificultad de obtener priors geométricos robustos a partir de conjuntos de datos diversos. Para aprovechar los méritos complementarios de ambos mundos, proponemos BetterDepth para lograr eficientemente un rendimiento de MDE geométricamente correcto e invariante a afinidades, capturando detalles detallados. Específicamente, BetterDepth es un refinador basado en difusión condicional que toma la predicción de modelos pre-entrenados de MDE como condicionante de profundidad, en el cual el contexto de profundidad global está bien capturado, y refina iterativamente los detalles basados en la imagen de entrada. Para el entrenamiento de dicho refinador, proponemos métodos de pre-alineación global y enmascaramiento de parches locales para garantizar la fidelidad de BetterDepth al condicionamiento de profundidad mientras aprende a capturar detalles detallados de la escena. Mediante un entrenamiento eficiente en conjuntos de datos sintéticos a pequeña escala, BetterDepth logra un rendimiento de vanguardia en MDE sin disparo en diversos conjuntos de datos públicos y escenas no controladas. Además, BetterDepth puede mejorar el rendimiento de otros modelos de MDE de manera plug-and-play sin necesidad de un re-entrenamiento adicional.
Los agentes de IA han atraído una atención creciente principalmente por su capacidad para percibir entornos, comprender tareas y lograr objetivos de forma autónoma. Para avanzar en la investigación sobre agentes de IA en escenarios móviles, presentamos el Android Multi-annotation EXpo (AMEX), un conjunto de datos exhaustivo y a gran escala diseñado para agentes generalistas de control de GUI móvil. Sus capacidades para completar tareas complejas mediante la interacción directa con la interfaz gráfica de usuario (GUI) en dispositivos móviles se entrenan y evalúan con el conjunto de datos propuesto. AMEX consta de más de 104 mil capturas de pantalla de alta resolución de 110 aplicaciones móviles populares, las cuales están anotadas en varios niveles. A diferencia de conjuntos de datos existentes para el control de dispositivos móviles, como MoTIF, AitW, etc., AMEX incluye tres niveles de anotaciones: fundamentos de elementos interactivos de GUI, descripciones de pantalla y elementos de GUI, e instrucciones complejas en lenguaje natural, cada una con un promedio de 13 pasos con cadenas de acciones de GUI paso a paso. Desarrollamos este conjunto de datos desde una perspectiva más instructiva y detallada, complementando la configuración general de los conjuntos de datos existentes. Además, creamos un modelo base, el Agente SPHINX, y comparamos su rendimiento con el de agentes de vanguardia entrenados en otros conjuntos de datos. Para facilitar investigaciones adicionales, hemos hecho de código abierto nuestro conjunto de datos, modelos y herramientas de evaluación relevantes. El proyecto está disponible en https://yuxiangchai.github.io/AMEX/
El riesgo de contenido perjudicial generado por modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se convierte en una preocupación crítica. Este artículo presenta un estudio sistemático sobre la evaluación y mejora de la capacidad de los LLMs para realizar la tarea de corrección de rumbo, es decir, el modelo puede alejarse de generar contenido perjudicial de forma autónoma. Para empezar, introducimos el banco de pruebas C^2-Eval para evaluación cuantitativa y analizamos 10 LLMs populares, revelando la variada competencia de los LLMs actuales ajustados para la seguridad en la corrección de rumbo. Para mejorar, proponemos ajustar finamente los LLMs con aprendizaje de preferencias, enfatizando la preferencia por la corrección oportuna de rumbo. Utilizando un proceso automatizado, creamos C^2-Syn, un conjunto de datos sintéticos con 750K preferencias emparejadas, para enseñar a los modelos el concepto de corrección oportuna de rumbo a través del aprendizaje de preferencias basado en datos. Experimentos con 2 LLMs, Llama2-Chat 7B y Qwen2 7B, muestran que nuestro método mejora de manera efectiva las habilidades de corrección de rumbo sin afectar el rendimiento general. Además, mejora eficazmente la seguridad de los LLMs, especialmente en la resistencia a los ataques de jailbreak.
Los datos de preentrenamiento de los modelos de lenguaje más potentes de hoy en día son opacos. En particular, se sabe poco sobre las proporciones de los diferentes dominios o idiomas representados. En este trabajo, abordamos una tarea a la que llamamos inferencia de mezcla de datos, que tiene como objetivo descubrir la composición distribucional de los datos de entrenamiento. Introducimos un ataque novedoso basado en una fuente previamente pasada por alto: los tokenizadores de codificación de pares de bytes (BPE), utilizados por la gran mayoría de los modelos de lenguaje modernos. Nuestra idea clave es que la lista ordenada de reglas de fusión aprendidas por un tokenizador BPE revela naturalmente información sobre las frecuencias de los tokens en sus datos de entrenamiento: la primera fusión es el par de bytes más común, la segunda es el par más común después de fusionar el primer token, y así sucesivamente. Dado el listado de fusiones de un tokenizador junto con muestras de datos para cada categoría de interés, formulamos un programa lineal que resuelve la proporción de cada categoría en el conjunto de entrenamiento del tokenizador. Es importante destacar que, en la medida en que los datos de entrenamiento del tokenizador sean representativos de los datos de preentrenamiento, aprendemos indirectamente sobre los datos de preentrenamiento. En experimentos controlados, demostramos que nuestro ataque recupera las ratios de mezcla con alta precisión para los tokenizadores entrenados en mezclas conocidas de idiomas naturales, lenguajes de programación y fuentes de datos. Luego aplicamos nuestro enfoque a tokenizadores listos para usar lanzados con los LM más recientes. Confirmamos mucha información públicamente divulgada sobre estos modelos, y también realizamos varias nuevas inferencias: el tokenizador de GPT-4o es mucho más multilingüe que sus predecesores, entrenándose con un 39% de datos no ingleses; Llama3 extiende principalmente el tokenizador de GPT-3.5 para uso multilingüe (48%); los tokenizadores de GPT-3.5 y Claude están entrenados principalmente en código (~60%). Esperamos que nuestro trabajo arroje luz sobre las prácticas de diseño actuales para los datos de preentrenamiento, e inspire una investigación continua sobre la inferencia de mezcla de datos para LM.
En el campo de los modelos grandes de visión-lenguaje (LVLMs) que siguen instrucciones, la implementación eficiente de estos modelos enfrenta desafíos, principalmente debido a las altas demandas de memoria de sus cachés clave-valor (KV). Las estrategias convencionales de gestión de caché para LLMs se centran en la evicción de caché, lo cual a menudo no aborda las necesidades específicas de los modelos multimodales que siguen instrucciones. Reconociendo esta brecha, en este artículo presentamos Elastic Cache, un enfoque novedoso que se beneficia de la aplicación de métodos de aceleración distintos para las etapas de codificación de instrucciones y generación de salida. Investigamos las métricas de importancia en diferentes etapas y proponemos una estrategia de fusión de caché impulsada por la importancia para podar las cachés redundantes. En lugar de descartar las cachés menos importantes, nuestra estrategia identifica vectores clave/valor importantes como puntos de anclaje. Las cachés menos importantes circundantes se fusionan entonces con estos puntos de anclaje, mejorando la preservación de la información contextual en las cachés KV y generando una proporción de aceleración arbitraria. Para la codificación de instrucciones, utilizamos la frecuencia para evaluar la importancia de las cachés. En cuanto a la generación de salida, priorizamos los tokens en función de su distancia con un desplazamiento, mediante el cual se retienen tanto los tokens iniciales como los más recientes. Los resultados en una variedad de LVLMs demuestran que Elastic Cache no solo mejora la eficiencia, sino que también supera notablemente a los métodos de poda existentes en la generación de lenguaje en diversas tareas. El código está disponible en https://github.com/liuzuyan/ElasticCache
Los avances recientes han mejorado significativamente las capacidades de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) en la generación y comprensión de contenido de imagen a texto. A pesar de estos éxitos, el progreso se limita principalmente al inglés debido a la escasez de recursos multimodales de alta calidad en otros idiomas. Esta limitación obstaculiza el desarrollo de modelos competitivos en idiomas como el árabe. Para aliviar esta situación, presentamos un asistente árabe multimodal eficiente, llamado Dallah, que utiliza un modelo de lenguaje avanzado basado en LLaMA-2 para facilitar las interacciones multimodales. Dallah demuestra un rendimiento de vanguardia en MLLMs en árabe. A través del ajuste fino de seis dialectos árabes, Dallah muestra su capacidad para manejar interacciones dialectales complejas que incorporan elementos tanto textuales como visuales. El modelo sobresale en dos pruebas de referencia: una evaluando su rendimiento en Árabe Estándar Moderno (MSA) y otra diseñada específicamente para evaluar respuestas dialectales. Más allá de su sólido rendimiento en tareas de interacción multimodal, Dallah tiene el potencial de allanar el camino para un mayor desarrollo de MLLMs en árabe con conciencia dialectal.
La segmentación de núcleos celulares en imágenes de tejidos teñidas con el colorante sanguíneo hematoxilina y eosina (H&E) es esencial para diversas aplicaciones clínicas y análisis. Debido a las complejas características de la morfología celular, se considera crucial un gran campo receptivo para generar una segmentación de alta calidad. Sin embargo, los métodos previos enfrentan desafíos para lograr un equilibrio entre el campo receptivo y la carga computacional. Para abordar este problema, proponemos LKCell, un método de segmentación celular de alta precisión y eficiencia. Su idea central radica en liberar el potencial de grandes núcleos de convolución para lograr campos receptivos grandes computacionalmente eficientes. Específicamente, (1) Transferimos modelos pre-entrenados de grandes núcleos de convolución al dominio médico por primera vez, demostrando su efectividad en la segmentación celular. (2) Analizamos la redundancia de los métodos previos y diseñamos un nuevo decodificador de segmentación basado en grandes núcleos de convolución. Logra un rendimiento superior al tiempo que reduce significativamente el número de parámetros. Evaluamos nuestro método en el benchmark más desafiante y alcanzamos resultados de vanguardia (0.5080 mPQ) en la segmentación de instancias de núcleos celulares con solo el 21.6% de FLOPs en comparación con el método líder anterior. Nuestro código fuente y modelos están disponibles en https://github.com/hustvl/LKCell.
Presentamos una visión general de la tarea compartida FIGNEWS, organizada como parte de la conferencia ArabicNLP 2024, celebrada conjuntamente con ACL 2024. La tarea compartida aborda la anotación de sesgos y propaganda en publicaciones de noticias multilingües. Nos centramos en los primeros días de la Guerra de Israel en Gaza como estudio de caso. El objetivo de la tarea es fomentar la colaboración en el desarrollo de pautas de anotación para tareas subjetivas, creando marcos para analizar diversas narrativas que resalten posibles sesgos y propaganda. Con el espíritu de fomentar y promover la diversidad, abordamos el problema desde una perspectiva multilingüe, específicamente en cinco idiomas: inglés, francés, árabe, hebreo e hindi. Un total de 17 equipos participaron en dos sub tareas de anotación: sesgo (16 equipos) y propaganda (6 equipos). Los equipos compitieron en cuatro categorías de evaluación: desarrollo de pautas, calidad de anotación, cantidad de anotación y consistencia. Colectivamente, los equipos produjeron 129,800 puntos de datos. Se discuten los hallazgos clave y las implicaciones para el campo.
Identificar referencias significativas dentro de las complejas interrelaciones de un grafo de conocimiento de citas es un desafío, que abarca conexiones a través de citas, autoría, palabras clave y otros atributos relacionales. La tarea de Rastreo de Fuentes de Artículos (PST) busca automatizar la identificación de referencias clave para artículos académicos dados utilizando técnicas avanzadas de minería de datos. En la KDD CUP 2024, diseñamos un marco basado en recomendaciones adaptado para la tarea de PST. Este marco emplea el modelo de Filtrado Colaborativo Neural (NCF) para generar predicciones finales. Para procesar los atributos textuales de los artículos y extraer características de entrada para el modelo, utilizamos SciBERT, un modelo de lenguaje pre-entrenado. Según los resultados experimentales, nuestro método logró una puntuación de 0.37814 en la métrica de Precisión Promedio Media (MAP), superando a los modelos de referencia y clasificándose en el puesto 11 entre todos los equipos participantes. El código fuente está disponible públicamente en https://github.com/MyLove-XAB/KDDCupFinal.