Artículos de investigación en IA seleccionados diariamente con traducciones
Los Transformers han revolucionado el aprendizaje automático, sin embargo, su funcionamiento interno sigue siendo opaco para muchos. Presentamos Transformer Explainer, una herramienta de visualización interactiva diseñada para que los no expertos aprendan sobre los Transformers a través del modelo GPT-2. Nuestra herramienta ayuda a los usuarios a comprender conceptos complejos de los Transformers integrando una descripción general del modelo y permitiendo transiciones suaves entre los niveles de abstracción de las operaciones matemáticas y las estructuras del modelo. Ejecuta una instancia en vivo de GPT-2 localmente en el navegador del usuario, permitiéndoles experimentar con su propia entrada y observar en tiempo real cómo los componentes internos y parámetros del Transformer trabajan juntos para predecir los siguientes tokens. Nuestra herramienta no requiere instalación ni hardware especial, ampliando el acceso educativo del público a las técnicas modernas de IA generativa. Nuestra herramienta de código abierto está disponible en https://poloclub.github.io/transformer-explainer/. Un demo en video está disponible en https://youtu.be/ECR4oAwocjs.
Los Modelos de Gran Visión-Lenguaje (LVLMs, por sus siglas en inglés) son capaces de manejar diversos tipos de datos como imágenes, texto y señales fisiológicas, y pueden aplicarse en varios campos. En el campo médico, los LVLMs tienen un alto potencial para ofrecer una asistencia sustancial para el diagnóstico y tratamiento. Antes de eso, es crucial desarrollar puntos de referencia para evaluar la efectividad de los LVLMs en diversas aplicaciones médicas. Los puntos de referencia actuales suelen basarse en literatura académica específica, centrándose principalmente en un solo dominio y careciendo de diferentes granularidades perceptuales. Por lo tanto, enfrentan desafíos específicos, incluyendo relevancia clínica limitada, evaluaciones incompletas y orientación insuficiente para LVLMs interactivos. Para abordar estas limitaciones, desarrollamos el GMAI-MMBench, el punto de referencia de IA médica general más completo hasta la fecha, con una estructura de datos bien categorizada y múltiples granularidades perceptuales. Está construido a partir de 285 conjuntos de datos en 39 modalidades de imágenes médicas, 18 tareas relacionadas con la clínica, 18 departamentos y 4 granularidades perceptuales en un formato de Preguntas y Respuestas Visuales (VQA). Además, implementamos una estructura de árbol léxico que permite a los usuarios personalizar tareas de evaluación, adaptándose a diversas necesidades de evaluación y apoyando sustancialmente la investigación y aplicaciones de IA médica. Evaluamos 50 LVLMs, y los resultados muestran que incluso el avanzado GPT-4o solo logra una precisión del 52%, lo que indica un amplio margen de mejora. Además, identificamos cinco insuficiencias clave en los LVLMs de vanguardia actuales que deben abordarse para avanzar en el desarrollo de mejores aplicaciones médicas. Creemos que GMAI-MMBench estimulará a la comunidad a construir la próxima generación de LVLMs hacia GMAI. Página del Proyecto: https://uni-medical.github.io/GMAI-MMBench.github.io/
La Generación de Contenido 3D es fundamental en muchas aplicaciones de gráficos por computadora, incluyendo videojuegos, producción cinematográfica, realidad virtual y aumentada, etc. Este artículo propone un novedoso enfoque basado en aprendizaje profundo para generar de manera automática escenas de juegos 3D interactivas y jugables, todo a partir de indicaciones informales del usuario como un boceto hecho a mano. La entrada basada en bocetos ofrece una forma natural y conveniente de transmitir la intención de diseño del usuario en el proceso de creación de contenido. Para superar el desafío de la falta de datos en el aprendizaje (es decir, la escasez de grandes conjuntos de datos de escenas 3D), nuestro método aprovecha un modelo de difusión de desenfoque 2D pre-entrenado para generar una imagen 2D de la escena como guía conceptual. En este proceso, adoptamos el modo de proyección isométrica para eliminar las poses de cámara desconocidas al mismo tiempo que obtenemos el diseño de la escena. A partir de la imagen isométrica generada, utilizamos un método pre-entrenado de comprensión de imágenes para segmentar la imagen en partes significativas, como objetos elevados, árboles y edificios, y extraer el diseño de la escena en 2D. Estos segmentos y diseños se introducen posteriormente en un motor de generación de contenido procedural (PCG), como un motor de videojuegos 3D como Unity o Unreal, para crear la escena 3D. La escena 3D resultante puede integrarse perfectamente en un entorno de desarrollo de juegos y es fácilmente jugable. Pruebas exhaustivas demuestran que nuestro método puede generar eficientemente escenas de juegos 3D interactivas y de alta calidad con diseños que siguen de cerca la intención del usuario.
La amplia accesibilidad de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) al público en general ha amplificado significativamente la difusión de textos generados por máquinas (MGTs). Los avances en la manipulación de indicaciones han exacerbado la dificultad para discernir el origen de un texto (escrito por humanos vs generado por máquinas). Esto plantea preocupaciones sobre el posible uso indebido de los MGTs, especialmente en ámbitos educativos y académicos. En este documento, presentamos LLM-DetectAIve, un sistema diseñado para la detección detallada de MGTs. Es capaz de clasificar textos en cuatro categorías: escritos por humanos, generados por máquinas, escritos por máquinas humanizadas y escritos por humanos y pulidos por máquinas. A diferencia de los detectores de MGT anteriores que realizan una clasificación binaria, la introducción de dos categorías adicionales en LLM-DetectAIve ofrece información sobre los diferentes grados de intervención de LLM durante la creación del texto. Esto podría ser útil en algunos ámbitos como la educación, donde generalmente se prohíbe cualquier intervención de LLM. Los experimentos muestran que LLM-DetectAIve puede identificar eficazmente la autoría del contenido textual, demostrando su utilidad para mejorar la integridad en la educación, la academia y otros ámbitos. LLM-DetectAIve está públicamente accesible en https://huggingface.co/spaces/raj-tomar001/MGT-New. El video que describe nuestro sistema está disponible en https://youtu.be/E8eT_bE7k8c.
El desarrollo de modelos de lenguaje monolingües para idiomas con recursos bajos y medios sigue siendo obstaculizado por la dificultad para obtener datos de entrenamiento de alta calidad. En este estudio, presentamos una novedosa estrategia de transferencia de vocabulario cruzado, denominada trans-tokenización, diseñada para abordar este desafío y permitir una adaptación del lenguaje más eficiente. Nuestro enfoque se centra en adaptar un LLM monolingüe de alto recurso a un idioma de destino no visto inicializando los embeddings de tokens del idioma de destino utilizando un promedio ponderado de embeddings de tokens semánticamente similares del idioma fuente. Para esto, aprovechamos un recurso de traducción que cubre tanto el idioma fuente como el de destino. Validamos nuestro método con los Tweeties, una serie de LLMs trans-tokenizados, y demostramos su rendimiento competitivo en diversas tareas secundarias en un conjunto pequeño pero diverso de idiomas. Además, presentamos los LLMs Hydra, modelos con múltiples cabezas de modelado de lenguaje intercambiables y tablas de embeddings, que amplían aún más las capacidades de nuestra estrategia de trans-tokenización. Al diseñar un LLM Hydra basado en el modelo multilingüe TowerInstruct, desarrollamos un modelo de traducción automática de vanguardia para el tártaro, de manera de cero disparos, evitando por completo la necesidad de datos paralelos de alta calidad. Este avance es particularmente significativo para idiomas con recursos limitados como el tártaro, donde es difícil encontrar datos paralelos de alta calidad. Al reducir los requisitos de datos y tiempo para entrenar modelos de alta calidad, nuestra estrategia de trans-tokenización permite el desarrollo de LLMs para una gama más amplia de idiomas, especialmente aquellos con recursos limitados. Esperamos que nuestro trabajo inspire más investigaciones y colaboraciones en el campo de la transferencia de vocabulario cruzado y contribuya al empoderamiento de los idiomas a escala global.
Proponemos un nuevo método, traducción de instrucciones de ida y vuelta, para construir datos sintéticos de alta calidad fundamentados en el conocimiento del mundo para alinear grandes modelos de lenguaje (GML). Dados documentos de un corpus web, generamos y curamos instrucciones sintéticas utilizando el enfoque de retrotraducción propuesto por Li et al. (2023a), y reescribimos las respuestas para mejorar aún más su calidad basándonos en los documentos iniciales. El ajuste fino con los pares resultantes (instrucción retrotraducida, respuesta reescrita) produce tasas de éxito más altas en AlpacaEval que al usar otros conjuntos de datos de instrucciones comunes como Humpback, ShareGPT, Open Orca, Alpaca-GPT4 y Self-instruct. También demostramos que reescribir las respuestas con un GML supera a la destilación directa, y las dos distribuciones de texto generadas muestran una distinción significativa en el espacio de incrustación. Un análisis adicional muestra que nuestras instrucciones retrotraducidas son de mayor calidad que otras fuentes de instrucciones sintéticas, mientras que nuestras respuestas son más diversas y complejas que las obtenidas mediante destilación. En general, encontramos que la traducción de instrucciones de ida y vuelta combina lo mejor de ambos mundos, aprovechando la diversidad y cantidad de información encontrada en la web, al tiempo que garantiza la calidad de las respuestas necesaria para una alineación efectiva.
Los Modelos de Lenguaje Multimodales de Gran Rendimiento (MLLMs) dependen en gran medida de la calidad de los datos. Este estudio presenta un nuevo conjunto de datos llamado Img-Diff, diseñado para mejorar el reconocimiento de imágenes detallado en MLLMs aprovechando ideas del aprendizaje contrastivo y la descripción de diferencias de imágenes. Al analizar las diferencias de objetos entre imágenes similares, desafiamos a los modelos a identificar tanto componentes coincidentes como distintos. Utilizamos el modelo Stable-Diffusion-XL y técnicas avanzadas de edición de imágenes para crear pares de imágenes similares que resalten reemplazos de objetos. Nuestra metodología incluye un Generador de Área de Diferencias para identificar diferencias de objetos, seguido por un Generador de Subtítulos de Diferencias para descripciones detalladas de las diferencias. El resultado es un conjunto de datos relativamente pequeño pero de alta calidad de muestras de "reemplazo de objetos". Utilizamos este conjunto de datos propuesto para ajustar finamente MLLMs de última generación como MGM-7B, obteniendo mejoras integrales en los puntajes de rendimiento sobre modelos de última generación entrenados con conjuntos de datos a mayor escala, en numerosas tareas de diferencia de imágenes y de Respuestas a Preguntas Visuales. Por ejemplo, nuestros modelos entrenados superan notablemente a los modelos de última generación GPT-4V y Gemini en la prueba MMVP. Además, investigamos métodos alternativos para generar datos de diferencia de imágenes a través de "eliminación de objetos" y realizamos una evaluación exhaustiva para confirmar la diversidad, calidad y robustez del conjunto de datos, presentando varias ideas sobre la síntesis de dicho conjunto de datos contrastivo. Para fomentar más investigaciones y avanzar en el campo de la síntesis de datos multimodales y la mejora de las capacidades fundamentales de los MLLMs para la comprensión de imágenes, publicamos nuestros códigos y conjunto de datos en https://github.com/modelscope/data-juicer/tree/ImgDiff.
Presentamos Puppet-Master, un modelo generativo de video interactivo que puede servir como un prior de movimiento para la dinámica a nivel de partes. En el momento de prueba, dado una única imagen y un conjunto disperso de trayectorias de movimiento (es decir, arrastres), Puppet-Master puede sintetizar un video que representa un movimiento realista a nivel de partes fiel a las interacciones de arrastre proporcionadas. Esto se logra mediante el ajuste fino de un modelo de difusión de video pre-entrenado a gran escala, para el cual proponemos una nueva arquitectura de condicionamiento para inyectar el control de arrastre de manera efectiva. Más importante aún, introducimos el mecanismo de atención de todos a uno, un reemplazo directo para los módulos de atención espacial ampliamente adoptados, que mejora significativamente la calidad de generación al abordar los problemas de apariencia y fondo en los modelos existentes. A diferencia de otros generadores de video condicionados por movimiento que son entrenados en videos de la vida real y principalmente mueven un objeto completo, Puppet-Master se aprende a partir de Objaverse-Animation-HQ, un nuevo conjunto de datos de clips de movimiento a nivel de partes seleccionados. Proponemos una estrategia para filtrar automáticamente animaciones subóptimas y aumentar las representaciones sintéticas con trayectorias de movimiento significativas. Puppet-Master generaliza bien a imágenes reales en diversas categorías y supera a los métodos existentes de manera de cero disparos en un banco de pruebas del mundo real. Consulte nuestra página del proyecto para más resultados: vgg-puppetmaster.github.io.
La detección de cabezas humanas, la estimación de puntos clave y el ajuste de modelos de cabeza en 3D son tareas importantes con numerosas aplicaciones. Sin embargo, los conjuntos de datos tradicionales del mundo real a menudo sufren de sesgos, problemas de privacidad y éticos, y han sido registrados en entornos de laboratorio, lo que dificulta que los modelos entrenados generalicen. Aquí presentamos VGGHeads, un conjunto de datos sintético a gran escala generado con modelos de difusión para la detección de cabezas humanas y la estimación de mallas 3D. Nuestro conjunto de datos consta de más de 1 millón de imágenes de alta resolución, cada una anotada con mallas detalladas de cabeza en 3D, puntos de referencia faciales y cuadros delimitadores. Utilizando este conjunto de datos, presentamos una nueva arquitectura de modelo capaz de detectar cabezas y reconstruir mallas de cabeza simultáneamente a partir de una sola imagen en un solo paso. A través de extensas evaluaciones experimentales, demostramos que los modelos entrenados en nuestros datos sintéticos logran un rendimiento sólido en imágenes reales. Además, la versatilidad de nuestro conjunto de datos lo hace aplicable en una amplia gama de tareas, ofreciendo una representación general y completa de cabezas humanas. Adicionalmente, proporcionamos información detallada sobre el proceso de generación de datos sintéticos, lo que permite su reutilización para otras tareas y dominios.
La fundamentación del lenguaje natural en entornos físicos tridimensionales es esencial para el avance de la inteligencia artificial incorporada. Los conjuntos de datos y modelos actuales para la fundamentación visual en 3D se centran predominantemente en la identificación y localización de objetos a partir de descripciones estáticas centradas en objetos. Estos enfoques no abordan adecuadamente la naturaleza dinámica y secuencial de la fundamentación orientada a tareas necesaria para aplicaciones prácticas. En este trabajo, proponemos una nueva tarea: Fundamentación Secuencial Orientada a Tareas en escenas 3D, donde un agente debe seguir instrucciones detalladas paso a paso para completar actividades diarias localizando una secuencia de objetos objetivo en escenas interiores. Para facilitar esta tarea, presentamos SG3D, un conjunto de datos a gran escala que contiene 22,346 tareas con 112,236 pasos en 4,895 escenas 3D del mundo real. El conjunto de datos se construye utilizando una combinación de escaneos RGB-D de varios conjuntos de datos de escenas 3D y un proceso automatizado de generación de tareas, seguido de verificación humana para garantizar la calidad. Adaptamos tres modelos de fundamentación visual en 3D de última generación a la tarea de fundamentación secuencial y evaluamos su rendimiento en SG3D. Nuestros resultados revelan que si bien estos modelos se desempeñan bien en pruebas tradicionales, enfrentan desafíos significativos con la fundamentación secuencial orientada a tareas, subrayando la necesidad de más investigaciones en esta área.
La representación molecular es un elemento fundamental en nuestra comprensión del mundo físico. Su importancia abarca desde los fundamentos de las reacciones químicas hasta el diseño de nuevas terapias y materiales. Los modelos previos de aprendizaje automático molecular han empleado cadenas, huellas dactilares, características globales y grafos moleculares simples que son representaciones inherentemente escasas en información. Sin embargo, a medida que la complejidad de las tareas de predicción aumenta, la representación molecular necesita codificar información de mayor fidelidad. Este trabajo introduce un enfoque novedoso para infundir información rica en química cuántica en grafos moleculares a través de efectos estereoelectrónicos. Mostramos que la adición explícita de interacciones estereoelectrónicas mejora significativamente el rendimiento de los modelos de aprendizaje automático molecular. Además, las representaciones infundidas con estereoelectrónica pueden ser aprendidas e implementadas con un flujo de trabajo de red neuronal de doble grafo personalizado, lo que permite su aplicación a cualquier tarea de aprendizaje automático molecular subsecuente. Finalmente, demostramos que las representaciones aprendidas permiten una evaluación estereoelectrónica fácil de sistemas previamente intratables, como proteínas enteras, abriendo nuevos caminos para el diseño molecular.
Predecir el comportamiento de un programa sin ejecutarlo es una tarea esencial y desafiante en ingeniería de software. Los modelos tradicionales a menudo tienen dificultades para capturar las dependencias dinámicas e interacciones dentro del código. Este artículo presenta un novedoso marco basado en aprendizaje automático llamado CodeFlowrepresents, que predice la cobertura de código y detecta errores en tiempo de ejecución a través del Aprendizaje de Dependencias Dinámicas. Utilizando grafos de flujo de control (CFGs), CodeFlowrepresents todos los posibles caminos de ejecución y las relaciones entre diferentes declaraciones, ofreciendo una comprensión integral del comportamiento del programa. Construye CFGs para representar los caminos de ejecución y aprende representaciones vectoriales para los nodos del CFG, capturando dependencias estáticas de flujo de control. Además, aprende dependencias dinámicas a través de trazas de ejecución, que reflejan los impactos entre declaraciones durante la ejecución. Este enfoque permite una predicción precisa de la cobertura de código e identificación de errores en tiempo de ejecución. Las evaluaciones empíricas muestran mejoras significativas en la precisión de la predicción de cobertura de código y una localización efectiva de errores en tiempo de ejecución, superando a los modelos actuales.
Al utilizar modelos de lenguaje (LMs) para resolver problemas complejos, los humanos podrían tener dificultades para entender las soluciones generadas por el LM y corregir las defectuosas. Para ayudar a los humanos a repararlas, proponemos descomponer automáticamente soluciones complejas en múltiples piezas más simples que correspondan a tareas específicas. Introducimos un objetivo novedoso para aprender la descomposición de tareas, denominado valor asistencial (AssistV), que mide la viabilidad y rapidez para que los humanos reparen la solución descompuesta. Recopilamos un conjunto de datos de experiencias de reparación humana en diferentes soluciones descompuestas. Utilizando los datos recopilados como ejemplos en contexto, luego aprendemos a criticar, refinar y clasificar las soluciones descompuestas para mejorar AssistV. Validamos nuestro método en problemas de programación competitiva: en 177 horas de estudio humano, nuestro método permite a los no expertos resolver un 33.3\% más de problemas, acelerándolos 3.3 veces y capacitándolos para igualar a expertos no asistidos.