Artículos de investigación en IA seleccionados diariamente con traducciones
Trabajos recientes demuestran que, después de ser ajustado en un conjunto de datos de instrucciones de alta calidad, el modelo resultante puede adquirir capacidades impresionantes para abordar una amplia gama de tareas. Sin embargo, los métodos existentes para la generación de datos de instrucciones a menudo producen datos duplicados y no son lo suficientemente controlables en cuanto a la calidad de los datos. En este artículo, extendemos la generalización del ajuste por instrucciones clasificando los datos de instrucciones en 4 tareas relacionadas con código y proponemos un marco de procesamiento de datos basado en Generador-Discriminador con modelos de lenguaje (LLM) para generar datos de instrucciones diversos y de alta calidad a partir de código de fuente abierta. Así, presentamos CodeOcean, un conjunto de datos que comprende 20,000 instancias de instrucciones en 4 tareas universales relacionadas con código, cuyo objetivo es aumentar la efectividad del ajuste por instrucciones y mejorar la capacidad de generalización del modelo ajustado. Posteriormente, presentamos WaveCoder, un modelo de lenguaje de código (Code LLM) ajustado con un ajuste por instrucciones amplio y versátil mejorado (Widespread And Versatile Enhanced instruction tuning). Este modelo está específicamente diseñado para mejorar el ajuste por instrucciones de los modelos de lenguaje de código (LLMs). Nuestros experimentos demuestran que los modelos Wavecoder superan a otros modelos de código abierto en términos de capacidad de generalización en diferentes tareas relacionadas con código en el mismo nivel de escala de ajuste. Además, Wavecoder exhibe una alta eficiencia en tareas previas de generación de código. Este artículo ofrece, por lo tanto, una contribución significativa al campo de la generación de datos de instrucciones y el ajuste de modelos, proporcionando nuevas perspectivas y herramientas para mejorar el rendimiento en tareas relacionadas con código.
El crecimiento exponencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha abierto numerosas posibilidades para los sistemas de AGI multimodal. Sin embargo, el progreso en los modelos fundamentales de visión y visión-lenguaje, que también son elementos críticos de la AGI multimodal, no ha avanzado al mismo ritmo que los LLMs. En este trabajo, diseñamos un modelo fundamental de visión-lenguaje a gran escala (InternVL), que escala el modelo fundamental de visión hasta 6 mil millones de parámetros y lo alinea progresivamente con el modelo de lenguaje de gran escala, utilizando datos de imagen-texto a escala web provenientes de diversas fuentes. Este modelo puede aplicarse ampliamente y lograr un rendimiento de vanguardia en tareas de percepción visual, como el reconocimiento a nivel de imagen o píxel, tareas de visión-lenguaje como la clasificación de imágenes/vídeos con cero disparos, la recuperación de imágenes/vídeos-texto con cero disparos, y la conexión con LLMs para crear sistemas de diálogo multimodal. Esperamos que nuestra investigación pueda contribuir al desarrollo de modelos grandes multimodales. El código y los modelos están disponibles en https://github.com/OpenGVLab/InternVL.
Como seres humanos, constantemente interactuamos con nuestros pares y recibimos retroalimentación en forma de lenguaje natural. Esta retroalimentación lingüística nos permite reflexionar sobre nuestras acciones, mantener un comportamiento adecuado y corregir nuestros errores. Surge entonces la pregunta: ¿podemos utilizar la retroalimentación lingüística para alinear modelos de lenguaje de gran escala (LLMs)? A diferencia de investigaciones previas que alinean LLMs con datos de recompensa o preferencia, presentamos la primera exploración sistemática de la alineación a través de la lente de la retroalimentación lingüística (es decir, juicios). Comenzamos con una investigación en profundidad de métodos potenciales que pueden adaptarse para alinear LLMs con juicios, revelando que estos métodos no son capaces de aprovechar completamente los juicios. Para facilitar un uso más efectivo de los juicios, proponemos un marco novedoso, Entrenamiento de Contraste de Improbabilidad (CUT, por sus siglas en inglés), que permite la detección y corrección de contenido inapropiado de manera granular basado en juicios. Nuestros resultados de alineación offline muestran que, con apenas 1317 datos de juicio disponibles, CUT (LLaMA2-13b) puede superar al DaVinci003 de 175B y superar al mejor baseline por 52.34 puntos en AlpacaEval. Los resultados de alineación online demuestran que CUT puede alinear LLMs (LLaMA2-chat-13b) de manera iterativa utilizando datos de juicio específicos del modelo, con una mejora constante en el rendimiento de 81.09 a 91.36 puntos en AlpacaEval. Nuestro análisis sugiere además que los juicios exhiben un mayor potencial que las recompensas para la alineación de LLMs y merecen futuras investigaciones.
Los seres humanos poseen la notable habilidad de la Percepción Visual, la capacidad de ver y comprender lo observado, lo que les permite dar sentido al mundo visual y, a su vez, razonar. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLM, por sus siglas en inglés) han logrado recientemente un rendimiento impresionante en tareas de visión y lenguaje, que van desde la respuesta a preguntas visuales y la generación de descripciones de imágenes hasta el razonamiento visual y la generación de imágenes. Sin embargo, cuando se les solicita identificar o contar (percibir) las entidades en una imagen dada, los sistemas MLLM existentes fallan. Con el objetivo de desarrollar un sistema MLLM preciso para la percepción y el razonamiento, proponemos el uso de Codificadores Visuales Versátiles (VCoder) como "ojos perceptivos" para los MLLM. Alimentamos el VCoder con modalidades de percepción, como mapas de segmentación o profundidad, mejorando así las habilidades perceptivas del MLLM. En segundo lugar, aprovechamos las imágenes de COCO y los resultados de modelos de percepción visual preexistentes para crear nuestro conjunto de datos COCO Segmentation Text (COST), destinado a entrenar y evaluar MLLM en la tarea de percepción de objetos. En tercer lugar, introducimos métricas para evaluar las habilidades de percepción de objetos en MLLM utilizando nuestro conjunto de datos COST. Por último, proporcionamos evidencia experimental extensa que demuestra las habilidades mejoradas de percepción a nivel de objeto del VCoder en comparación con los MLLM existentes, incluyendo GPT-4V. Hacemos públicos nuestro conjunto de datos, código y modelos para fomentar la investigación. Nuestro código está disponible en https://github.com/SHI-Labs/VCoder.
Un método clave para crear agentes de Inteligencia Artificial (IA) es el Aprendizaje por Refuerzo (RL, por sus siglas en inglés). Sin embargo, construir una política de RL independiente que mapee la percepción directamente a la acción enfrenta problemas severos, siendo los principales la falta de generalidad en múltiples tareas y la necesidad de una gran cantidad de datos de entrenamiento. La causa principal es que no puede integrar eficazmente información previa en el ciclo de percepción-acción al diseñar la política. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) surgieron como una forma fundamental de incorporar conocimiento interdominio en los agentes de IA, pero carecen de aprendizaje y adaptación cruciales hacia problemas de decisión específicos. Este artículo presenta un marco de trabajo general para integrar y aprender razonamiento estructurado en las políticas de los agentes de IA. Nuestra metodología está motivada por la modularidad encontrada en el cerebro humano. El marco utiliza la construcción de funciones intrínsecas y extrínsecas para añadir comprensiones previas de estructuras de razonamiento. También proporciona la capacidad adaptativa para aprender modelos dentro de cada módulo o función, en consonancia con la estructura modular de los procesos cognitivos. Describimos el marco en profundidad y lo comparamos con otras arquitecturas de IA y marcos existentes. El artículo explora aplicaciones prácticas, cubriendo experimentos que muestran la efectividad de nuestro método. Nuestros resultados indican que los agentes de IA desempeñan y se adaptan mucho mejor cuando se incorporan razonamiento organizado y conocimiento previo. Esto abre la puerta a sistemas de agentes de IA más resilientes y generales.
Como los avances más recientes en procesamiento del lenguaje natural, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han alcanzado capacidades de comprensión y generación de lenguaje a nivel humano en muchas tareas del mundo real, e incluso han sido considerados como una ruta potencial hacia la inteligencia artificial general. Para facilitar mejor la investigación sobre LLMs, muchos modelos de código abierto, como Llama 2 y Falcon, han sido propuestos recientemente y han obtenido rendimientos comparables a los modelos propietarios. Sin embargo, estos modelos están principalmente diseñados para escenarios en inglés y muestran un rendimiento deficiente en contextos chinos. En este informe técnico, proponemos YAYI 2, que incluye tanto modelos base como de chat, con 30 mil millones de parámetros. YAYI 2 ha sido preentrenado desde cero en un corpus multilingüe que contiene 2.65 billones de tokens filtrados por nuestra pipeline de procesamiento de datos de preentrenamiento. El modelo base está alineado con valores humanos mediante ajuste fino supervisado con millones de instrucciones y aprendizaje por refuerzo a partir de retroalimentación humana. Experimentos extensos en múltiples benchmarks, como MMLU y CMMLU, demuestran consistentemente que el propuesto YAYI 2 supera a otros modelos de código abierto de tamaño similar.
Los ataques a modelos de lenguaje suelen asumir uno de dos modelos de amenaza extremos: acceso completo de tipo "caja blanca" a los pesos del modelo, o acceso de tipo "caja negra" limitado a una API de generación de texto. Sin embargo, las API del mundo real suelen ser más flexibles que la mera generación de texto: estas API exponen un acceso de tipo "caja gris" que da lugar a nuevos vectores de ataque. Para explorar esto, realizamos pruebas de "red teaming" en tres nuevas funcionalidades expuestas en las API de GPT-4: ajuste fino (fine-tuning), llamadas a funciones y recuperación de conocimiento. Descubrimos que ajustar un modelo con tan solo 15 ejemplos dañinos o 100 ejemplos benignos puede eliminar las salvaguardas principales de GPT-4, permitiendo una variedad de salidas perjudiciales. Además, encontramos que los Asistentes de GPT-4 revelan fácilmente el esquema de llamadas a funciones y pueden ser manipulados para ejecutar llamadas arbitrarias. Por último, observamos que la recuperación de conocimiento puede ser secuestrada inyectando instrucciones en los documentos de recuperación. Estas vulnerabilidades destacan que cualquier adición a la funcionalidad expuesta por una API puede crear nuevas vulnerabilidades.
La reconstrucción 3D a partir de una sola vista es un desafío debido a la ambigüedad de las señales monoculares y la falta de información sobre las regiones ocluidas. Los campos de radiancia neural (NeRF), aunque populares para la síntesis de vistas y la reconstrucción 3D, suelen depender de imágenes multivista. Los métodos existentes para la reconstrucción 3D con NeRF a partir de una sola vista se basan en previos de datos para generar vistas de regiones ocluidas, que pueden no ser físicamente precisas, o en sombras observadas por cámaras RGB, que son difíciles de detectar en condiciones de luz ambiental y fondos con bajo albedo. Proponemos utilizar datos de tiempo de vuelo capturados por un diodo de avalancha de un solo fotón para superar estas limitaciones. Nuestro método modela trayectorias ópticas de dos rebotes con NeRF, utilizando datos transitorios de lidar para la supervisión. Al aprovechar las ventajas tanto de NeRF como de la luz de dos rebotes medida por lidar, demostramos que podemos reconstruir geometría visible y ocluida sin depender de previos de datos ni de condiciones controladas de iluminación ambiental o albedo de la escena. Además, mostramos una mejora en la generalización bajo restricciones prácticas en la resolución espacial y temporal del sensor. Creemos que nuestro método es una dirección prometedora a medida que los lidars de un solo fotón se vuelven omnipresentes en dispositivos de consumo, como teléfonos, tabletas y auriculares.
A pesar de que CLIP es el modelo base en numerosas aplicaciones de visión y lenguaje, CLIP sufre de un sesgo severo en la detección de texto. Este sesgo hace que los modelos CLIP "repitan" el texto visual incrustado en las imágenes, ignorando la semántica visual auténtica. Descubrimos que en el conjunto de datos imagen-texto más popular, LAION-2B, los textos descriptivos también repiten densamente (deletrean) el texto incrustado en las imágenes. Nuestro análisis muestra que alrededor del 50\% de las imágenes contienen texto visual, y el 90\% de sus descripciones repiten, en mayor o menor medida, dicho texto visual. Basándonos en esta observación, inspeccionamos exhaustivamente las diferentes versiones lanzadas de los modelos CLIP y verificamos que el texto visual es el factor dominante al medir la similitud imagen-texto al estilo LAION en estos modelos. Para examinar si estas descripciones repetitivas moldean el sesgo en la detección de texto, entrenamos una serie de modelos CLIP con subconjuntos de LAION seleccionados según diferentes criterios orientados a descripciones repetitivas. Demostramos que entrenar con descripciones repetitivas fácilmente forma este sesgo, pero perjudica el aprendizaje esperado de representaciones visuales y lingüísticas en los modelos CLIP. Esto sugiere que es urgente reconsiderar tanto el diseño de modelos similares a CLIP como el proceso actual de curación de conjuntos de datos imagen-texto basado en filtrado por puntuación CLIP.
La popularización de los modelos de difusión de Texto a Imagen (T2I) permite la generación de imágenes de alta calidad a partir de descripciones textuales. Sin embargo, generar imágenes personalizadas diversas con atributos visuales de referencia sigue siendo un desafío. Este trabajo se centra en personalizar los modelos de difusión T2I a un nivel más abstracto de concepto o categoría, adaptando las características comunes de un conjunto de imágenes de referencia mientras se crean nuevas instancias con variaciones suficientes. Introducimos una solución que permite a un modelo de difusión T2I preentrenado aprender un conjunto de indicaciones suaves (soft prompts), lo que posibilita la generación de imágenes novedosas al muestrear indicaciones de la distribución aprendida. Estas indicaciones ofrecen capacidades de edición guiada por texto y una flexibilidad adicional para controlar la variación y la mezcla entre múltiples distribuciones. También mostramos la adaptabilidad de la distribución de indicaciones aprendida a otras tareas, como la generación de texto a 3D. Finalmente, demostramos la efectividad de nuestro enfoque a través de un análisis cuantitativo que incluye evaluación automática y evaluación humana. Sitio web del proyecto: https://briannlongzhao.github.io/DreamDistribution
Estudiamos el problema de la reconstrucción 3D de formas con una sola imagen y enfoque zero-shot. Trabajos recientes abordan la reconstrucción zero-shot de formas mediante modelado generativo de activos 3D, pero estos modelos son computacionalmente costosos tanto en el entrenamiento como en la inferencia. En contraste, el enfoque tradicional para este problema se basa en regresión, donde modelos determinísticos son entrenados para predecir directamente la forma del objeto. Estos métodos de regresión poseen una eficiencia computacional mucho mayor que los métodos generativos. Esto plantea una pregunta natural: ¿es necesario el modelado generativo para obtener un alto rendimiento, o, por el contrario, los enfoques basados en regresión siguen siendo competitivos? Para responder esto, diseñamos un modelo robusto basado en regresión, llamado ZeroShape, fundamentado en hallazgos convergentes en este campo y una nueva perspectiva. Además, creamos un amplio benchmark de evaluación en el mundo real, con objetos provenientes de tres conjuntos de datos 3D diferentes. Este benchmark de evaluación es más diverso y un orden de magnitud más grande que los utilizados en trabajos previos para evaluar cuantitativamente sus modelos, con el objetivo de reducir la varianza en la evaluación en nuestro campo. Demostramos que ZeroShape no solo logra un rendimiento superior frente a los métodos más avanzados, sino que también exhibe una eficiencia computacional y de datos significativamente mayor.
La expansión de abreviaturas es una estrategia utilizada para agilizar la comunicación al limitar la cantidad de escritura y emplear un modelo de lenguaje para sugerir expansiones. Aquí examinamos la personalización de las sugerencias de un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) basándose en conversaciones previas para mejorar la relevancia de las predicciones, especialmente cuando los datos del usuario son escasos (~1000 muestras). Específicamente, comparamos el ajuste fino, el ajuste por indicación (prompt-tuning) y la generación aumentada por recuperación (retrieval augmented generation) de sugerencias de texto expandido para entradas abreviadas. Nuestro estudio de caso con un LLM de 8 mil millones de parámetros implementado en un usuario real que vive con ELA, junto con experimentos de personalización de personajes de películas, indica que (1) la personalización puede ser necesaria en algunos escenarios y el ajuste por indicación se adapta bien a ellos, (2) el ajuste fino con datos del dominio (con tan solo 600 muestras) aún muestra ciertas mejoras, sin embargo (3) la selección de pocos ejemplos aumentada por recuperación también supera al ajuste fino. (4) El ajuste eficiente en parámetros permite una personalización eficaz y escalable. Para el ajuste por indicación, también encontramos que inicializar los "indicadores suaves" aprendidos con tokens de conceptos relevantes para el usuario conduce a una mayor precisión que la inicialización aleatoria.
A medida que el desarrollo de modelos de IA Generativa a gran escala evoluciona más allá de la generación de texto (1D) para incluir la generación de imágenes (2D) y videos (3D), el procesamiento de información espacial y temporal presenta desafíos únicos en cuanto a calidad, rendimiento y eficiencia. Presentamos el primer trabajo hacia la comprensión de este nuevo espacio de diseño de sistemas para modelos multimodales de texto a imagen (TTI) y texto a video (TTV). Los diseños actuales de arquitecturas de modelos se bifurcan en dos categorías: modelos basados en Difusión y modelos basados en Transformers. Nuestra caracterización sistemática del rendimiento en un conjunto de ocho modelos representativos de TTI/TTV muestra que, después de aplicar técnicas de optimización de vanguardia como Flash Attention, las convoluciones representan hasta el 44% del tiempo de ejecución en modelos TTI basados en Difusión, mientras que las capas lineales consumen hasta el 49% del tiempo de ejecución en modelos basados en Transformers. Además, observamos que los modelos TTI basados en Difusión se asemejan a la etapa de Prellenado en la inferencia de modelos de lenguaje grandes (LLM) y se benefician de una aceleración de 1.1 a 2.5 veces mayor con Flash Attention en comparación con los modelos TTI basados en Transformers, que se asemejan a la fase de Decodificación. Dado que las optimizaciones diseñadas para LLM no se aplican directamente a los modelos TTI/TTV, es necesario realizar una caracterización exhaustiva de estas cargas de trabajo para obtener ideas sobre nuevas oportunidades de optimización. Al hacerlo, definimos la longitud de secuencia en el contexto de los modelos TTI/TTV y observamos que esta puede variar hasta 4 veces en la inferencia de modelos de Difusión. Además, observamos que los aspectos temporales de las cargas de trabajo TTV presentan cuellos de botella únicos en el sistema, con la Atención Temporal representando más del 60% del tiempo total de Atención. En general, nuestra caracterización profunda del rendimiento del sistema es un primer paso crítico hacia el diseño de sistemas eficientes y desplegables para las emergentes cargas de trabajo TTI/TTV.
Las propiedades físicas de un objeto, como la masa, afectan significativamente cómo lo manipulamos con nuestras manos. Sorprendentemente, este aspecto ha sido descuidado hasta ahora en trabajos previos sobre síntesis de movimiento 3D. Para mejorar la naturalidad de los movimientos sintetizados de manos y objetos en 3D, este trabajo propone MACS, el primer enfoque de Síntesis de Movimiento 3D de Manos y Objetos Condicionado por Masa (MAss Conditioned 3D hand and object motion Synthesis). Nuestro enfoque se basa en modelos de difusión en cascada y genera interacciones que se ajustan de manera plausible según la masa del objeto y el tipo de interacción. MACS también acepta como entrada una trayectoria de objeto en 3D dibujada manualmente y sintetiza los movimientos naturales de la mano en 3D condicionados por la masa del objeto. Esta flexibilidad permite que MACS se utilice en diversas aplicaciones posteriores, como la generación de datos sintéticos de entrenamiento para tareas de aprendizaje automático, la animación rápida de manos en flujos de trabajo gráficos y la generación de interacciones de personajes para videojuegos. Demostramos experimentalmente que un conjunto de datos a pequeña escala es suficiente para que MACS generalice razonablemente en masas de objetos interpoladas y extrapoladas no vistas durante el entrenamiento. Además, MACS muestra una generalización moderada a objetos no vistos, gracias a las etiquetas de contacto condicionadas por masa generadas por nuestro modelo de síntesis de contacto superficial ConNet. Nuestro estudio de usuario exhaustivo confirma que las interacciones sintetizadas entre manos y objetos en 3D son altamente plausibles y realistas.
Este artículo presenta "Shai", un modelo de lenguaje grande de nivel 10B específicamente diseñado para la industria de gestión de activos, construido sobre un modelo base de código abierto. Con un preentrenamiento y ajuste fino continuo utilizando un corpus especializado, Shai demuestra un rendimiento mejorado en tareas relevantes para su dominio, superando a los modelos de referencia. Nuestra investigación incluye el desarrollo de un marco de evaluación innovador, que integra exámenes de calificación profesional, tareas personalizadas, respuestas a preguntas abiertas y evaluaciones de seguridad, para evaluar de manera integral las capacidades de Shai. Además, discutimos los desafíos y las implicaciones de utilizar modelos de lenguaje grandes como GPT-4 para la evaluación de rendimiento en la gestión de activos, sugiriendo una combinación de evaluación automatizada y juicio humano. El desarrollo de Shai, que muestra el potencial y la versatilidad de los modelos de lenguaje grandes de nivel 10B en el sector financiero con un rendimiento significativo y requisitos computacionales modestos, espera proporcionar ideas prácticas y metodologías para ayudar a colegas de la industria en esfuerzos similares.
Recientemente, los investigadores han intentado explorar la capacidad de los LLM (Modelos de Lenguaje de Gran Escala) para manejar videos y han propuesto varios modelos de LLM para video. Sin embargo, la habilidad de los LLM para abordar el video grounding (VG), que es una tarea importante relacionada con el tiempo que requiere que el modelo localice con precisión los momentos temporales en los videos que coinciden con las consultas textuales dadas, aún permanece poco clara y sin explorar en la literatura. Para llenar este vacío, en este artículo proponemos el benchmark LLM4VG, que evalúa sistemáticamente el rendimiento de diferentes LLM en tareas de video grounding. Basándonos en nuestro LLM4VG, diseñamos experimentos exhaustivos para examinar dos grupos de modelos de LLM para video en video grounding: (i) los LLM para video entrenados con pares de texto-video (denominados VidLLM), y (ii) los LLM combinados con modelos preentrenados de descripción visual, como los modelos de subtitulado de video/imágenes. Proponemos métodos de prompt para integrar la instrucción de VG y la descripción de diferentes tipos de generadores, incluyendo generadores basados en subtítulos para la descripción visual directa y generadores basados en VQA para la mejora de la información. También proporcionamos comparaciones exhaustivas de varios VidLLM y exploramos la influencia de diferentes elecciones de modelos visuales, LLM, diseños de prompt, etc. Nuestras evaluaciones experimentales llevan a dos conclusiones: (i) los VidLLM existentes aún están lejos de alcanzar un rendimiento satisfactorio en video grounding, y se deberían incluir más tareas relacionadas con el tiempo para ajustar mejor estos modelos, y (ii) la combinación de LLM y modelos visuales muestra habilidades preliminares para video grounding con un potencial considerable de mejora al recurrir a modelos más confiables y una mayor orientación en las instrucciones de prompt.