Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Explicador de Transformadores: Aprendizaje Interactivo de Modelos Generativos de Texto
Transformer Explainer: Interactive Learning of Text-Generative Models

Aug 8

ByAeree Cho, Grace C. Kim, Alexander Karpekov, Alec Helbling, Zijie J. Wang, Seongmin Lee, Benjamin Hoover, Duen Horng Chau

170

Los Transformers han revolucionado el aprendizaje automático, sin embargo, su funcionamiento interno sigue siendo opaco para muchos. Presentamos Transformer Explainer, una herramienta de visualización interactiva diseñada para que los no expertos aprendan sobre los Transformers a través del modelo GPT-2. Nuestra herramienta ayuda a los usuarios a comprender conceptos complejos de los Transformers integrando una descripción general del modelo y permitiendo transiciones suaves entre los niveles de abstracción de las operaciones matemáticas y las estructuras del modelo. Ejecuta una instancia en vivo de GPT-2 localmente en el navegador del usuario, permitiéndoles experimentar con su propia entrada y observar en tiempo real cómo los componentes internos y parámetros del Transformer trabajan juntos para predecir los siguientes tokens. Nuestra herramienta no requiere instalación ni hardware especial, ampliando el acceso educativo del público a las técnicas modernas de IA generativa. Nuestra herramienta de código abierto está disponible en https://poloclub.github.io/transformer-explainer/. Un demo en video está disponible en https://youtu.be/ECR4oAwocjs.

GMAI-MMBench: Un amplio banco de pruebas de evaluación multimodal hacia la Inteligencia Artificial Médica General
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

Aug 6

ByPengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao

Los Modelos de Gran Visión-Lenguaje (LVLMs, por sus siglas en inglés) son capaces de manejar diversos tipos de datos como imágenes, texto y señales fisiológicas, y pueden aplicarse en varios campos. En el campo médico, los LVLMs tienen un alto potencial para ofrecer una asistencia sustancial para el diagnóstico y tratamiento. Antes de eso, es crucial desarrollar puntos de referencia para evaluar la efectividad de los LVLMs en diversas aplicaciones médicas. Los puntos de referencia actuales suelen basarse en literatura académica específica, centrándose principalmente en un solo dominio y careciendo de diferentes granularidades perceptuales. Por lo tanto, enfrentan desafíos específicos, incluyendo relevancia clínica limitada, evaluaciones incompletas y orientación insuficiente para LVLMs interactivos. Para abordar estas limitaciones, desarrollamos el GMAI-MMBench, el punto de referencia de IA médica general más completo hasta la fecha, con una estructura de datos bien categorizada y múltiples granularidades perceptuales. Está construido a partir de 285 conjuntos de datos en 39 modalidades de imágenes médicas, 18 tareas relacionadas con la clínica, 18 departamentos y 4 granularidades perceptuales en un formato de Preguntas y Respuestas Visuales (VQA). Además, implementamos una estructura de árbol léxico que permite a los usuarios personalizar tareas de evaluación, adaptándose a diversas necesidades de evaluación y apoyando sustancialmente la investigación y aplicaciones de IA médica. Evaluamos 50 LVLMs, y los resultados muestran que incluso el avanzado GPT-4o solo logra una precisión del 52%, lo que indica un amplio margen de mejora. Además, identificamos cinco insuficiencias clave en los LVLMs de vanguardia actuales que deben abordarse para avanzar en el desarrollo de mejores aplicaciones médicas. Creemos que GMAI-MMBench estimulará a la comunidad a construir la próxima generación de LVLMs hacia GMAI. Página del Proyecto: https://uni-medical.github.io/GMAI-MMBench.github.io/

Sketch2Scene: Generación Automática de Escenas de Juego Interactivas en 3D a partir de Bocetos Informales del Usuario
Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches

Aug 8

ByYongzhi Xu, Yonhon Ng, Yifu Wang, Inkyu Sa, Yunfei Duan, Yang Li, Pan Ji, Hongdong Li

La Generación de Contenido 3D es fundamental en muchas aplicaciones de gráficos por computadora, incluyendo videojuegos, producción cinematográfica, realidad virtual y aumentada, etc. Este artículo propone un novedoso enfoque basado en aprendizaje profundo para generar de manera automática escenas de juegos 3D interactivas y jugables, todo a partir de indicaciones informales del usuario como un boceto hecho a mano. La entrada basada en bocetos ofrece una forma natural y conveniente de transmitir la intención de diseño del usuario en el proceso de creación de contenido. Para superar el desafío de la falta de datos en el aprendizaje (es decir, la escasez de grandes conjuntos de datos de escenas 3D), nuestro método aprovecha un modelo de difusión de desenfoque 2D pre-entrenado para generar una imagen 2D de la escena como guía conceptual. En este proceso, adoptamos el modo de proyección isométrica para eliminar las poses de cámara desconocidas al mismo tiempo que obtenemos el diseño de la escena. A partir de la imagen isométrica generada, utilizamos un método pre-entrenado de comprensión de imágenes para segmentar la imagen en partes significativas, como objetos elevados, árboles y edificios, y extraer el diseño de la escena en 2D. Estos segmentos y diseños se introducen posteriormente en un motor de generación de contenido procedural (PCG), como un motor de videojuegos 3D como Unity o Unreal, para crear la escena 3D. La escena 3D resultante puede integrarse perfectamente en un entorno de desarrollo de juegos y es fácilmente jugable. Pruebas exhaustivas demuestran que nuestro método puede generar eficientemente escenas de juegos 3D interactivas y de alta calidad con diseños que siguen de cerca la intención del usuario.

LLM-DetectAIve: una herramienta para la detección de texto generado por máquinas detallada.
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection

Aug 8

ByMervat Abassy, Kareem Elozeiri, Alexander Aziz, Minh Ngoc Ta, Raj Vardhan Tomar, Bimarsha Adhikari, Saad El Dine Ahmed, Yuxia Wang, Osama Mohammed Afzal, Zhuohan Xie, Jonibek Mansurov, Ekaterina Artemova, Vladislav Mikhailov, Rui Xing, Jiahui Geng, Hasan Iqbal, Zain Muhammad Mujahid, Tarek Mahmoud, Akim Tsvigun, Alham Fikri Aji, Artem Shelmanov, Nizar Habash, Iryna Gurevych, Preslav Nakov

La amplia accesibilidad de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) al público en general ha amplificado significativamente la difusión de textos generados por máquinas (MGTs). Los avances en la manipulación de indicaciones han exacerbado la dificultad para discernir el origen de un texto (escrito por humanos vs generado por máquinas). Esto plantea preocupaciones sobre el posible uso indebido de los MGTs, especialmente en ámbitos educativos y académicos. En este documento, presentamos LLM-DetectAIve, un sistema diseñado para la detección detallada de MGTs. Es capaz de clasificar textos en cuatro categorías: escritos por humanos, generados por máquinas, escritos por máquinas humanizadas y escritos por humanos y pulidos por máquinas. A diferencia de los detectores de MGT anteriores que realizan una clasificación binaria, la introducción de dos categorías adicionales en LLM-DetectAIve ofrece información sobre los diferentes grados de intervención de LLM durante la creación del texto. Esto podría ser útil en algunos ámbitos como la educación, donde generalmente se prohíbe cualquier intervención de LLM. Los experimentos muestran que LLM-DetectAIve puede identificar eficazmente la autoría del contenido textual, demostrando su utilidad para mejorar la integridad en la educación, la academia y otros ámbitos. LLM-DetectAIve está públicamente accesible en https://huggingface.co/spaces/raj-tomar001/MGT-New. El video que describe nuestro sistema está disponible en https://youtu.be/E8eT_bE7k8c.

Tokenización Trans-Idioma y Transferencias de Vocabulario Cruzado: Adaptación de LLMs para Procesamiento de Lenguaje Natural en Recursos Limitados
Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

Aug 8

ByFrançois Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester

El desarrollo de modelos de lenguaje monolingües para idiomas con recursos bajos y medios sigue siendo obstaculizado por la dificultad para obtener datos de entrenamiento de alta calidad. En este estudio, presentamos una novedosa estrategia de transferencia de vocabulario cruzado, denominada trans-tokenización, diseñada para abordar este desafío y permitir una adaptación del lenguaje más eficiente. Nuestro enfoque se centra en adaptar un LLM monolingüe de alto recurso a un idioma de destino no visto inicializando los embeddings de tokens del idioma de destino utilizando un promedio ponderado de embeddings de tokens semánticamente similares del idioma fuente. Para esto, aprovechamos un recurso de traducción que cubre tanto el idioma fuente como el de destino. Validamos nuestro método con los Tweeties, una serie de LLMs trans-tokenizados, y demostramos su rendimiento competitivo en diversas tareas secundarias en un conjunto pequeño pero diverso de idiomas. Además, presentamos los LLMs Hydra, modelos con múltiples cabezas de modelado de lenguaje intercambiables y tablas de embeddings, que amplían aún más las capacidades de nuestra estrategia de trans-tokenización. Al diseñar un LLM Hydra basado en el modelo multilingüe TowerInstruct, desarrollamos un modelo de traducción automática de vanguardia para el tártaro, de manera de cero disparos, evitando por completo la necesidad de datos paralelos de alta calidad. Este avance es particularmente significativo para idiomas con recursos limitados como el tártaro, donde es difícil encontrar datos paralelos de alta calidad. Al reducir los requisitos de datos y tiempo para entrenar modelos de alta calidad, nuestra estrategia de trans-tokenización permite el desarrollo de LLMs para una gama más amplia de idiomas, especialmente aquellos con recursos limitados. Esperamos que nuestro trabajo inspire más investigaciones y colaboraciones en el campo de la transferencia de vocabulario cruzado y contribuya al empoderamiento de los idiomas a escala global.

Mejor alineación con la traducción de ida y vuelta de instrucciones.
Better Alignment with Instruction Back-and-Forth Translation

Aug 8

ByThao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li

Proponemos un nuevo método, traducción de instrucciones de ida y vuelta, para construir datos sintéticos de alta calidad fundamentados en el conocimiento del mundo para alinear grandes modelos de lenguaje (GML). Dados documentos de un corpus web, generamos y curamos instrucciones sintéticas utilizando el enfoque de retrotraducción propuesto por Li et al. (2023a), y reescribimos las respuestas para mejorar aún más su calidad basándonos en los documentos iniciales. El ajuste fino con los pares resultantes (instrucción retrotraducida, respuesta reescrita) produce tasas de éxito más altas en AlpacaEval que al usar otros conjuntos de datos de instrucciones comunes como Humpback, ShareGPT, Open Orca, Alpaca-GPT4 y Self-instruct. También demostramos que reescribir las respuestas con un GML supera a la destilación directa, y las dos distribuciones de texto generadas muestran una distinción significativa en el espacio de incrustación. Un análisis adicional muestra que nuestras instrucciones retrotraducidas son de mayor calidad que otras fuentes de instrucciones sintéticas, mientras que nuestras respuestas son más diversas y complejas que las obtenidas mediante destilación. En general, encontramos que la traducción de instrucciones de ida y vuelta combina lo mejor de ambos mundos, aprovechando la diversidad y cantidad de información encontrada en la web, al tiempo que garantiza la calidad de las respuestas necesaria para una alineación efectiva.

Img-Diff: Síntesis de Datos Contrastivos para Modelos de Lenguaje Multimodales de Gran Escala
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models

Aug 8

ByQirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen

Los Modelos de Lenguaje Multimodales de Gran Rendimiento (MLLMs) dependen en gran medida de la calidad de los datos. Este estudio presenta un nuevo conjunto de datos llamado Img-Diff, diseñado para mejorar el reconocimiento de imágenes detallado en MLLMs aprovechando ideas del aprendizaje contrastivo y la descripción de diferencias de imágenes. Al analizar las diferencias de objetos entre imágenes similares, desafiamos a los modelos a identificar tanto componentes coincidentes como distintos. Utilizamos el modelo Stable-Diffusion-XL y técnicas avanzadas de edición de imágenes para crear pares de imágenes similares que resalten reemplazos de objetos. Nuestra metodología incluye un Generador de Área de Diferencias para identificar diferencias de objetos, seguido por un Generador de Subtítulos de Diferencias para descripciones detalladas de las diferencias. El resultado es un conjunto de datos relativamente pequeño pero de alta calidad de muestras de "reemplazo de objetos". Utilizamos este conjunto de datos propuesto para ajustar finamente MLLMs de última generación como MGM-7B, obteniendo mejoras integrales en los puntajes de rendimiento sobre modelos de última generación entrenados con conjuntos de datos a mayor escala, en numerosas tareas de diferencia de imágenes y de Respuestas a Preguntas Visuales. Por ejemplo, nuestros modelos entrenados superan notablemente a los modelos de última generación GPT-4V y Gemini en la prueba MMVP. Además, investigamos métodos alternativos para generar datos de diferencia de imágenes a través de "eliminación de objetos" y realizamos una evaluación exhaustiva para confirmar la diversidad, calidad y robustez del conjunto de datos, presentando varias ideas sobre la síntesis de dicho conjunto de datos contrastivo. Para fomentar más investigaciones y avanzar en el campo de la síntesis de datos multimodales y la mejora de las capacidades fundamentales de los MLLMs para la comprensión de imágenes, publicamos nuestros códigos y conjunto de datos en https://github.com/modelscope/data-juicer/tree/ImgDiff.

VGGHeads: un conjunto de datos sintético a gran escala para cabezas humanas en 3D
VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads

Jul 25

ByOrest Kupyn, Eugene Khvedchenia, Christian Rupprecht

La detección de cabezas humanas, la estimación de puntos clave y el ajuste de modelos de cabeza en 3D son tareas importantes con numerosas aplicaciones. Sin embargo, los conjuntos de datos tradicionales del mundo real a menudo sufren de sesgos, problemas de privacidad y éticos, y han sido registrados en entornos de laboratorio, lo que dificulta que los modelos entrenados generalicen. Aquí presentamos VGGHeads, un conjunto de datos sintético a gran escala generado con modelos de difusión para la detección de cabezas humanas y la estimación de mallas 3D. Nuestro conjunto de datos consta de más de 1 millón de imágenes de alta resolución, cada una anotada con mallas detalladas de cabeza en 3D, puntos de referencia faciales y cuadros delimitadores. Utilizando este conjunto de datos, presentamos una nueva arquitectura de modelo capaz de detectar cabezas y reconstruir mallas de cabeza simultáneamente a partir de una sola imagen en un solo paso. A través de extensas evaluaciones experimentales, demostramos que los modelos entrenados en nuestros datos sintéticos logran un rendimiento sólido en imágenes reales. Además, la versatilidad de nuestro conjunto de datos lo hace aplicable en una amplia gama de tareas, ofreciendo una representación general y completa de cabezas humanas. Adicionalmente, proporcionamos información detallada sobre el proceso de generación de datos sintéticos, lo que permite su reutilización para otras tareas y dominios.

Puppet-Master: Escalando la Generación Interactiva de Video como un Prior de Movimiento para la Dinámica a Nivel de Partes
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

Aug 8

ByRuining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

Presentamos Puppet-Master, un modelo generativo de video interactivo que puede servir como un prior de movimiento para la dinámica a nivel de partes. En el momento de prueba, dado una única imagen y un conjunto disperso de trayectorias de movimiento (es decir, arrastres), Puppet-Master puede sintetizar un video que representa un movimiento realista a nivel de partes fiel a las interacciones de arrastre proporcionadas. Esto se logra mediante el ajuste fino de un modelo de difusión de video pre-entrenado a gran escala, para el cual proponemos una nueva arquitectura de condicionamiento para inyectar el control de arrastre de manera efectiva. Más importante aún, introducimos el mecanismo de atención de todos a uno, un reemplazo directo para los módulos de atención espacial ampliamente adoptados, que mejora significativamente la calidad de generación al abordar los problemas de apariencia y fondo en los modelos existentes. A diferencia de otros generadores de video condicionados por movimiento que son entrenados en videos de la vida real y principalmente mueven un objeto completo, Puppet-Master se aprende a partir de Objaverse-Animation-HQ, un nuevo conjunto de datos de clips de movimiento a nivel de partes seleccionados. Proponemos una estrategia para filtrar automáticamente animaciones subóptimas y aumentar las representaciones sintéticas con trayectorias de movimiento significativas. Puppet-Master generaliza bien a imágenes reales en diversas categorías y supera a los métodos existentes de manera de cero disparos en un banco de pruebas del mundo real. Consulte nuestra página del proyecto para más resultados: vgg-puppetmaster.github.io.

Fundamentación secuencial orientada a tareas en escenas 3D
Task-oriented Sequential Grounding in 3D Scenes

Aug 7

ByZhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li

La fundamentación del lenguaje natural en entornos físicos tridimensionales es esencial para el avance de la inteligencia artificial incorporada. Los conjuntos de datos y modelos actuales para la fundamentación visual en 3D se centran predominantemente en la identificación y localización de objetos a partir de descripciones estáticas centradas en objetos. Estos enfoques no abordan adecuadamente la naturaleza dinámica y secuencial de la fundamentación orientada a tareas necesaria para aplicaciones prácticas. En este trabajo, proponemos una nueva tarea: Fundamentación Secuencial Orientada a Tareas en escenas 3D, donde un agente debe seguir instrucciones detalladas paso a paso para completar actividades diarias localizando una secuencia de objetos objetivo en escenas interiores. Para facilitar esta tarea, presentamos SG3D, un conjunto de datos a gran escala que contiene 22,346 tareas con 112,236 pasos en 4,895 escenas 3D del mundo real. El conjunto de datos se construye utilizando una combinación de escaneos RGB-D de varios conjuntos de datos de escenas 3D y un proceso automatizado de generación de tareas, seguido de verificación humana para garantizar la calidad. Adaptamos tres modelos de fundamentación visual en 3D de última generación a la tarea de fundamentación secuencial y evaluamos su rendimiento en SG3D. Nuestros resultados revelan que si bien estos modelos se desempeñan bien en pruebas tradicionales, enfrentan desafíos significativos con la fundamentación secuencial orientada a tareas, subrayando la necesidad de más investigaciones en esta área.

Avanzando en Representaciones de Máquinas Moleculares (Aprendidas) con Gráficos Moleculares Infundidos con Estereoelectrónica.
Advancing Molecular Machine (Learned) Representations with Stereoelectronics-Infused Molecular Graphs

Aug 8

ByDaniil A. Boiko, Thiago Reschützegger, Benjamin Sanchez-Lengeling, Samuel M. Blau, Gabe Gomes

La representación molecular es un elemento fundamental en nuestra comprensión del mundo físico. Su importancia abarca desde los fundamentos de las reacciones químicas hasta el diseño de nuevas terapias y materiales. Los modelos previos de aprendizaje automático molecular han empleado cadenas, huellas dactilares, características globales y grafos moleculares simples que son representaciones inherentemente escasas en información. Sin embargo, a medida que la complejidad de las tareas de predicción aumenta, la representación molecular necesita codificar información de mayor fidelidad. Este trabajo introduce un enfoque novedoso para infundir información rica en química cuántica en grafos moleculares a través de efectos estereoelectrónicos. Mostramos que la adición explícita de interacciones estereoelectrónicas mejora significativamente el rendimiento de los modelos de aprendizaje automático molecular. Además, las representaciones infundidas con estereoelectrónica pueden ser aprendidas e implementadas con un flujo de trabajo de red neuronal de doble grafo personalizado, lo que permite su aplicación a cualquier tarea de aprendizaje automático molecular subsecuente. Finalmente, demostramos que las representaciones aprendidas permiten una evaluación estereoelectrónica fácil de sistemas previamente intratables, como proteínas enteras, abriendo nuevos caminos para el diseño molecular.

Aprendizaje para predecir la ejecución de programas mediante la modelización de la dependencia dinámica en grafos de código.
Learning to Predict Program Execution by Modeling Dynamic Dependency on Code Graphs

Aug 5

ByCuong Chi Le, Hoang Nhat Phan, Huy Nhat Phan, Tien N. Nguyen, Nghi D. Q. Bui

Predecir el comportamiento de un programa sin ejecutarlo es una tarea esencial y desafiante en ingeniería de software. Los modelos tradicionales a menudo tienen dificultades para capturar las dependencias dinámicas e interacciones dentro del código. Este artículo presenta un novedoso marco basado en aprendizaje automático llamado CodeFlowrepresents, que predice la cobertura de código y detecta errores en tiempo de ejecución a través del Aprendizaje de Dependencias Dinámicas. Utilizando grafos de flujo de control (CFGs), CodeFlowrepresents todos los posibles caminos de ejecución y las relaciones entre diferentes declaraciones, ofreciendo una comprensión integral del comportamiento del programa. Construye CFGs para representar los caminos de ejecución y aprende representaciones vectoriales para los nodos del CFG, capturando dependencias estáticas de flujo de control. Además, aprende dependencias dinámicas a través de trazas de ejecución, que reflejan los impactos entre declaraciones durante la ejecución. Este enfoque permite una predicción precisa de la cobertura de código e identificación de errores en tiempo de ejecución. Las evaluaciones empíricas muestran mejoras significativas en la precisión de la predicción de cobertura de código y una localización efectiva de errores en tiempo de ejecución, superando a los modelos actuales.

Descomposición de tareas de aprendizaje para asistir a humanos en programación competitiva
Learning Task Decomposition to Assist Humans in Competitive Programming

Jun 7

ByJiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang

Al utilizar modelos de lenguaje (LMs) para resolver problemas complejos, los humanos podrían tener dificultades para entender las soluciones generadas por el LM y corregir las defectuosas. Para ayudar a los humanos a repararlas, proponemos descomponer automáticamente soluciones complejas en múltiples piezas más simples que correspondan a tareas específicas. Introducimos un objetivo novedoso para aprender la descomposición de tareas, denominado valor asistencial (AssistV), que mide la viabilidad y rapidez para que los humanos reparen la solución descompuesta. Recopilamos un conjunto de datos de experiencias de reparación humana en diferentes soluciones descompuestas. Utilizando los datos recopilados como ejemplos en contexto, luego aprendemos a criticar, refinar y clasificar las soluciones descompuestas para mejorar AssistV. Validamos nuestro método en problemas de programación competitiva: en 177 horas de estudio humano, nuestro método permite a los no expertos resolver un 33.3\% más de problemas, acelerándolos 3.3 veces y capacitándolos para igualar a expertos no asistidos.