Artículos de investigación en IA seleccionados diariamente con traducciones
Los sistemas de Inteligencia Artificial Generativa (GenAI) se están implementando cada vez más en todos los sectores de la industria y en entornos de investigación. Los desarrolladores y usuarios finales interactúan con estos sistemas mediante el uso de indicaciones o ingeniería de indicaciones (prompting). Aunque el prompting es un concepto ampliamente extendido y muy investigado, existe una terminología conflictiva y una comprensión ontológica deficiente de lo que constituye una indicación, debido a la relativa juventud de este campo. Este artículo establece una comprensión estructurada de las indicaciones, mediante la creación de una taxonomía de técnicas de prompting y el análisis de su uso. Presentamos un vocabulario exhaustivo de 33 términos, una taxonomía de 58 técnicas de prompting basadas únicamente en texto y 40 técnicas para otras modalidades. Además, presentamos un meta-análisis de toda la literatura sobre el prompting de prefijos en lenguaje natural.
Los avances recientes en modelos generativos han destacado el papel crucial de la tokenización de imágenes en la síntesis eficiente de imágenes de alta resolución. La tokenización, que transforma las imágenes en representaciones latentes, reduce las demandas computacionales en comparación con el procesamiento directo de píxeles y mejora la efectividad y eficiencia del proceso de generación. Métodos previos, como VQGAN, suelen utilizar cuadrículas latentes 2D con factores de submuestreo fijos. Sin embargo, estas tokenizaciones 2D enfrentan desafíos al gestionar las redundancias inherentes presentes en las imágenes, donde regiones adyacentes frecuentemente muestran similitudes. Para superar este problema, presentamos Transformer-based 1-Dimensional Tokenizer (TiTok), un enfoque innovador que tokeniza imágenes en secuencias latentes 1D. TiTok proporciona una representación latente más compacta, ofreciendo representaciones sustancialmente más eficientes y efectivas que las técnicas convencionales. Por ejemplo, una imagen de 256 x 256 x 3 puede reducirse a solo 32 tokens discretos, una reducción significativa en comparación con los 256 o 1024 tokens obtenidos por métodos previos. A pesar de su naturaleza compacta, TiTok logra un rendimiento competitivo con los enfoques más avanzados. Específicamente, utilizando el mismo marco generador, TiTok alcanza un gFID de 1.97, superando significativamente la línea base de MaskGIT en 4.21 en el benchmark de ImageNet 256 x 256. Las ventajas de TiTok se vuelven aún más significativas en resoluciones más altas. En el benchmark de ImageNet 512 x 512, TiTok no solo supera al modelo de difusión más avanzado DiT-XL/2 (gFID 2.74 vs. 3.04), sino que también reduce los tokens de imagen en 64x, lo que resulta en un proceso de generación 410x más rápido. Nuestra variante de mejor rendimiento supera significativamente a DiT-XL/2 (gFID 2.13 vs. 3.04) mientras sigue generando muestras de alta calidad 74x más rápido.
Los modelos de lenguaje de gran tamaño (LLMs) para código han demostrado avances notables en tareas de comprensión, completado y generación de código. Los benchmarks de programación, compuestos por una selección de desafíos de código y casos de prueba correspondientes, sirven como estándar para evaluar la capacidad de diferentes LLMs en dichas tareas. Sin embargo, la mayoría de los benchmarks existentes se centran principalmente en Python y aún están limitados a un número reducido de lenguajes, donde otros lenguajes se traducen a partir de muestras de Python (por ejemplo, MultiPL-E), lo que reduce la diversidad de los datos. Para facilitar aún más la investigación de los LLMs de código, proponemos un benchmark de código masivamente multilingüe que abarca 40 lenguajes de programación (McEval) con 16K muestras de prueba, lo que amplía sustancialmente los límites de los LLMs de código en escenarios multilingües. El benchmark contiene tareas desafiantes de evaluación de completado, comprensión y generación de código, junto con un corpus de instrucciones masivamente multilingüe cuidadosamente seleccionado, McEval-Instruct. Además, presentamos un codificador multilingüe efectivo, mCoder, entrenado en McEval-Instruct, para apoyar la generación de lenguajes de programación multilingües. Los resultados experimentales extensivos en McEval muestran que aún existe un camino difícil entre los modelos de código abierto y los LLMs de código cerrado (por ejemplo, los modelos de la serie GPT) en numerosos lenguajes. El corpus de instrucciones, el benchmark de evaluación y el ranking están disponibles en https://mceval.github.io/.
La edición de imágenes representa una tarea práctica pero desafiante, considerando las diversas demandas de los usuarios, donde una de las partes más difíciles es describir con precisión cómo debería verse la imagen editada. En este trabajo, presentamos una nueva forma de edición, denominada edición imitativa, para ayudar a los usuarios a ejercer su creatividad de manera más conveniente. Concretamente, para editar una región de interés en una imagen, los usuarios pueden inspirarse directamente en algunas referencias del mundo real (por ejemplo, algunas imágenes relacionadas encontradas en línea), sin tener que preocuparse por la compatibilidad entre la referencia y la fuente. Este diseño requiere que el sistema determine automáticamente qué esperar de la referencia para realizar la edición. Para este propósito, proponemos un marco de entrenamiento generativo, llamado MimicBrush, que selecciona aleatoriamente dos fotogramas de un clip de video, enmascara algunas regiones de un fotograma y aprende a recuperar las regiones enmascaradas utilizando la información del otro fotograma. De esta manera, nuestro modelo, desarrollado a partir de un prior de difusión, es capaz de capturar la correspondencia semántica entre imágenes separadas de manera autosupervisada. Experimentalmente demostramos la efectividad de nuestro método en varios casos de prueba, así como su superioridad sobre las alternativas existentes. También construimos un punto de referencia para facilitar futuras investigaciones.
La IA está experimentando un cambio de paradigma, con avances logrados por sistemas que orquestan múltiples modelos de lenguaje grandes (LLMs) y otros componentes complejos. Como resultado, desarrollar métodos de optimización automatizados y fundamentados para sistemas de IA compuestos es uno de los desafíos más importantes en la actualidad. Las redes neuronales enfrentaron un desafío similar en sus inicios, hasta que la retropropagación y la diferenciación automática transformaron el campo al hacer que la optimización fuera sencilla. Inspirados por esto, presentamos TextGrad, un marco poderoso que realiza "diferenciación" automática a través de texto. TextGrad retropropaga comentarios textuales proporcionados por LLMs para mejorar componentes individuales de un sistema de IA compuesto. En nuestro marco, los LLMs ofrecen sugerencias ricas, generales y en lenguaje natural para optimizar variables en grafos de computación, que van desde fragmentos de código hasta estructuras moleculares. TextGrad sigue la sintaxis y abstracción de PyTorch, siendo flexible y fácil de usar. Funciona de inmediato para una variedad de tareas, donde los usuarios solo proporcionan la función objetivo sin necesidad de ajustar componentes o prompts del marco. Demostramos la efectividad y generalidad de TextGrad en una amplia gama de aplicaciones, desde respuestas a preguntas y optimización de moléculas hasta la planificación de tratamientos de radioterapia. Sin modificar el marco, TextGrad mejora la precisión de cero disparos de GPT-4o en Respuestas a Preguntas a prueba de Google del 51% al 55%, logra una mejora relativa del 20% en la optimización de soluciones a problemas de codificación de LeetCode-Hard, mejora prompts para razonamiento, diseña nuevas moléculas pequeñas con propiedades deseables de unión in silico y planifica tratamientos de oncología radioterápica con alta especificidad. TextGrad sienta las bases para acelerar el desarrollo de la próxima generación de sistemas de IA.
Las tareas complejas de razonamiento de múltiples pasos, como resolver problemas matemáticos o generar código, siguen siendo un obstáculo significativo incluso para los modelos de lenguaje más avanzados (LLMs, por sus siglas en inglés). Verificar las salidas de los LLMs con un Modelo de Recompensa de Resultados (ORM, por sus siglas en inglés) es una técnica estándar en tiempo de inferencia destinada a mejorar el rendimiento del razonamiento de los LLMs. Sin embargo, esto sigue siendo insuficiente para tareas de razonamiento con cadenas largas o de múltiples pasos, donde los resultados intermedios no son adecuadamente recompensados ni penalizados. La supervisión del proceso aborda esta limitación asignando recompensas intermedias durante el proceso de razonamiento. Hasta la fecha, los métodos utilizados para recopilar datos de supervisión del proceso han dependido de la anotación humana o de la estimación Monte Carlo por paso, ambos prohibitivamente costosos de escalar, lo que dificulta la aplicación generalizada de esta técnica. En respuesta a este desafío, proponemos un novedoso algoritmo de Búsqueda de Árbol Monte Carlo (MCTS, por sus siglas en inglés) de estilo divide y vencerás, denominado OmegaPRM, para la recopilación eficiente de datos de supervisión del proceso de alta calidad. Este algoritmo identifica rápidamente el primer error en la Cadena de Pensamiento (CoT, por sus siglas en inglés) mediante búsqueda binaria y equilibra los ejemplos positivos y negativos, asegurando así tanto la eficiencia como la calidad. Como resultado, hemos podido recopilar más de 1.5 millones de anotaciones de supervisión del proceso para entrenar un Modelo de Recompensa de Proceso (PRM, por sus siglas en inglés). Utilizando esta supervisión del proceso completamente automatizada junto con el algoritmo de autocoherencia ponderada, hemos mejorado el rendimiento del modelo Gemini Pro ajustado por instrucciones en tareas de razonamiento matemático, logrando una tasa de éxito del 69.4% en el benchmark MATH, una mejora relativa del 36% respecto al rendimiento base del modelo del 51%. Además, todo el proceso opera sin intervención humana, lo que hace que nuestro método sea tanto financiera como computacionalmente rentable en comparación con los métodos existentes.
Este artículo presenta el algoritmo MCT Self-Refine (MCTSr), una innovadora integración de Modelos de Lenguaje de Gran Escala (LLMs) con Búsqueda de Árbol de Monte Carlo (MCTS), diseñado para mejorar el rendimiento en tareas complejas de razonamiento matemático. Abordando los desafíos de precisión y confiabilidad en los LLMs, particularmente en razonamiento estratégico y matemático, MCTSr aprovecha mecanismos de exploración sistemática y auto-refinamiento heurístico para mejorar los marcos de toma de decisiones dentro de los LLMs. El algoritmo construye un árbol de búsqueda de Monte Carlo a través de procesos iterativos de Selección, auto-refinamiento, auto-evaluación y Retropropagación, utilizando una fórmula mejorada del Límite Superior de Confianza (UCB) para optimizar el equilibrio entre exploración y explotación. Experimentos extensos demuestran la eficacia de MCTSr en la resolución de problemas matemáticos de nivel olímpico, mejorando significativamente las tasas de éxito en múltiples conjuntos de datos, incluyendo GSM8K, GSM Hard, MATH y benchmarks de nivel olímpico, como Math Odyssey, AIME y OlympiadBench. El estudio avanza la aplicación de los LLMs en tareas de razonamiento complejo y establece una base para la futura integración de IA, mejorando la precisión y confiabilidad en la toma de decisiones en aplicaciones impulsadas por LLMs.
En este informe técnico, presentamos las metodologías de entrenamiento implementadas en el desarrollo de Skywork-MoE, un modelo de lenguaje grande (LLM) de mezcla de expertos (MoE) de alto rendimiento con 146 mil millones de parámetros y 16 expertos. Este modelo se inicializa a partir de los puntos de control densos preexistentes de nuestro modelo Skywork-13B. Exploramos la efectividad comparativa de la reutilización frente al entrenamiento desde inicializaciones de cero. Nuestros hallazgos sugieren que la elección entre estos dos enfoques debe considerar tanto el rendimiento de los puntos de control densos existentes como el presupuesto de entrenamiento del MoE. Destacamos dos técnicas innovadoras: la normalización de logits de compuerta, que mejora la diversificación de expertos, y los coeficientes de pérdida auxiliar adaptativos, que permiten el ajuste específico por capa de los coeficientes de pérdida auxiliar. Nuestros resultados experimentales validan la efectividad de estos métodos. Aprovechando estas técnicas y conocimientos, entrenamos nuestro Skywork-MoE reutilizado en un subconjunto condensado de nuestro corpus SkyPile. Los resultados de evaluación demuestran que nuestro modelo ofrece un rendimiento sólido en una amplia gama de benchmarks.
La generación de experiencias sensoriales combinadas visuales y auditivas es fundamental para el consumo de contenido inmersivo. Los avances recientes en modelos generativos neuronales han permitido la creación de contenido de alta resolución en múltiples modalidades, como imágenes, texto, habla y videos. A pesar de estos éxitos, sigue existiendo una brecha significativa en la generación de audio espacial de alta calidad que complemente el contenido visual generado. Además, los modelos actuales de generación de audio sobresalen en la creación de audio natural, habla o música, pero no logran integrar las señales de audio espacial necesarias para experiencias inmersivas. En este trabajo, presentamos SEE-2-SOUND, un enfoque de cero disparos que descompone la tarea en (1) identificar regiones visuales de interés; (2) ubicar estos elementos en el espacio 3D; (3) generar audio mono para cada uno; y (4) integrarlos en audio espacial. Utilizando nuestro marco, demostramos resultados convincentes para la generación de audio espacial en videos de alta calidad, imágenes e imágenes dinámicas de internet, así como en medios generados por enfoques basados en aprendizaje.
Los métodos existentes para la generación de escenas dinámicas dependen principalmente de la destilación de conocimiento a partir de modelos generativos 3D preentrenados, que suelen ajustarse finamente en conjuntos de datos sintéticos de objetos. Como resultado, las escenas generadas suelen estar centradas en objetos y carecen de fotorrealismo. Para abordar estas limitaciones, presentamos una nueva pipeline diseñada para la generación fotorrealista de escenas 4D a partir de texto, eliminando la dependencia de modelos generativos multivista y, en su lugar, aprovechando completamente modelos generativos de video entrenados en diversos conjuntos de datos del mundo real. Nuestro método comienza generando un video de referencia utilizando el modelo de generación de video. Luego, aprendemos la representación 3D canónica del video utilizando un video de tiempo congelado, generado cuidadosamente a partir del video de referencia. Para manejar las inconsistencias en el video de tiempo congelado, aprendemos conjuntamente una deformación por fotograma para modelar estas imperfecciones. Posteriormente, aprendemos la deformación temporal basada en la representación canónica para capturar las interacciones dinámicas en el video de referencia. La pipeline facilita la generación de escenas dinámicas con un fotorrealismo mejorado e integridad estructural, visibles desde múltiples perspectivas, estableciendo así un nuevo estándar en la generación de escenas 4D.
Los modelos de difusión han captado un interés significativo de la comunidad debido a su gran capacidad generativa en diversas aplicaciones. Sin embargo, su naturaleza típica de desruido secuencial en múltiples pasos genera una alta latencia acumulada, lo que impide la posibilidad de realizar cálculos en paralelo. Para abordar esto, presentamos AsyncDiff, un esquema de aceleración universal y plug-and-play que permite el paralelismo de modelos en múltiples dispositivos. Nuestro enfoque divide el engorroso modelo de predicción de ruido en varios componentes, asignando cada uno a un dispositivo diferente. Para romper la cadena de dependencia entre estos componentes, transforma el desruido secuencial convencional en un proceso asíncrono aprovechando la alta similitud entre los estados ocultos en pasos consecutivos de difusión. En consecuencia, cada componente puede calcular en paralelo en dispositivos separados. La estrategia propuesta reduce significativamente la latencia de inferencia con un impacto mínimo en la calidad generativa. Específicamente, para Stable Diffusion v2.1, AsyncDiff logra una aceleración de 2.7x con una degradación insignificante y una aceleración de 4.0x con solo una ligera reducción de 0.38 en el CLIP Score, utilizando cuatro GPUs NVIDIA A5000. Nuestros experimentos también demuestran que AsyncDiff puede aplicarse fácilmente a modelos de difusión de video con resultados alentadores. El código está disponible en https://github.com/czg1225/AsyncDiff.
Si bien los modelos de difusión sobresalen en la generación de imágenes de alta calidad, trabajos previos reportan una brecha significativa en el rendimiento entre los métodos de difusión y los modelos autoregresivos (AR) en el modelado del lenguaje. En este trabajo, demostramos que la difusión discreta enmascarada es más eficiente de lo que se pensaba anteriormente. Aplicamos una receta de entrenamiento efectiva que mejora el rendimiento de los modelos de difusión enmascarada y derivamos un objetivo simplificado y Rao-Blackwellizado que resulta en mejoras adicionales. Nuestro objetivo tiene una forma simple — es una mezcla de pérdidas clásicas de modelado del lenguaje enmascarado — y puede usarse para entrenar modelos de lenguaje que solo incluyen codificadores y admiten muestreadores eficientes, incluyendo aquellos que pueden generar textos de longitud arbitraria de manera semi-autoregresiva, como un modelo de lenguaje tradicional. En benchmarks de modelado del lenguaje, una variedad de modelos de difusión enmascarada entrenados con prácticas de ingeniería modernas alcanza un nuevo estado del arte entre los modelos de difusión y se acerca a la perplejidad de los modelos AR. Publicamos nuestro código en: https://github.com/kuleshov-group/mdlm.
Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han logrado un rendimiento impresionante en los benchmarks de preguntas y respuestas médicas. Sin embargo, una alta precisión en los benchmarks no implica que el rendimiento se generalice a entornos clínicos del mundo real. Los benchmarks de preguntas y respuestas médicas se basan en supuestos consistentes con la cuantificación del rendimiento de los LLM, pero que pueden no sostenerse en el entorno abierto de la clínica. Aun así, los LLM aprenden conocimientos amplios que pueden ayudarles a generalizar a condiciones prácticas, independientemente de los supuestos poco realistas en los benchmarks más reconocidos. Buscamos cuantificar qué tan bien se generaliza el rendimiento de los LLM en benchmarks de preguntas y respuestas médicas cuando se violan los supuestos del benchmark. Específicamente, presentamos un método adversarial que llamamos MedFuzz (por "fuzzing médico"). MedFuzz intenta modificar las preguntas del benchmark de maneras destinadas a confundir al LLM. Demostramos el enfoque al dirigirnos a supuestos fuertes sobre las características del paciente presentados en el benchmark MedQA. Los "ataques" exitosos modifican un ítem del benchmark de maneras que probablemente no engañarían a un experto médico, pero que, sin embargo, "engañan" al LLM para que cambie de una respuesta correcta a una incorrecta. Además, presentamos una técnica de prueba de permutación que puede garantizar que un ataque exitoso sea estadísticamente significativo. Mostramos cómo utilizar el rendimiento en un benchmark "MedFuzzeado", así como los ataques individuales exitosos. Los métodos muestran potencial para proporcionar información sobre la capacidad de un LLM para operar de manera robusta en entornos más realistas.
Presentamos DenseAV, una novedosa arquitectura de anclaje con codificador dual que aprende características de alta resolución, semánticamente significativas y alineadas audio-visualmente únicamente mediante la observación de videos. Demostramos que DenseAV puede descubrir el "significado" de las palabras y la "ubicación" de los sonidos sin supervisión explícita de localización. Además, descubre y distingue automáticamente entre estos dos tipos de asociaciones sin supervisión. Mostramos que las capacidades de localización de DenseAV surgen de un nuevo operador de agregación de características multi-cabeza que compara directamente representaciones densas de imagen y audio para el aprendizaje contrastivo. En contraste, muchos otros sistemas que aprenden representaciones "globales" de audio y video no pueden localizar palabras ni sonidos. Finalmente, contribuimos con dos nuevos conjuntos de datos para mejorar la evaluación de representaciones AV mediante segmentación semántica impulsada por voz y sonido. En estos y otros conjuntos de datos, demostramos que DenseAV supera ampliamente el estado del arte en segmentación semántica impulsada por voz y sonido. DenseAV supera al anterior estado del arte, ImageBind, en recuperación multimodal utilizando menos de la mitad de los parámetros. Página del proyecto: https://aka.ms/denseav{https://aka.ms/denseav}
La reiluminación de una sola imagen es una tarea desafiante que implica razonar sobre la compleja interacción entre la geometría, los materiales y la iluminación. Muchos métodos anteriores solo admiten categorías específicas de imágenes, como retratos, o requieren condiciones de captura especiales, como el uso de una linterna. Alternativamente, algunos métodos descomponen explícitamente una escena en componentes intrínsecos, como normales y BRDFs, lo que puede ser inexacto o poco expresivo. En este trabajo, proponemos un novedoso modelo de difusión 2D de reiluminación de extremo a extremo, llamado Neural Gaffer, que toma una sola imagen de cualquier objeto y puede sintetizar una imagen reiluminada precisa y de alta calidad bajo cualquier condición de iluminación ambiental nueva, simplemente condicionando un generador de imágenes en un mapa de entorno objetivo, sin una descomposición explícita de la escena. Nuestro método se basa en un modelo de difusión preentrenado y lo ajusta en un conjunto de datos sintéticos de reiluminación, revelando y aprovechando la comprensión inherente de la iluminación presente en el modelo de difusión. Evaluamos nuestro modelo tanto en imágenes sintéticas como en imágenes de Internet del mundo real y demostramos sus ventajas en términos de generalización y precisión. Además, al combinarse con otros métodos generativos, nuestro modelo permite muchas tareas 2D posteriores, como la reiluminación basada en texto y la inserción de objetos. Nuestro modelo también puede operar como un fuerte prior de reiluminación para tareas 3D, como la reiluminación de un campo de radiancia.
La robustez de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) frente a manipulaciones adversarias, como los ataques de jailbreak, sigue siendo un desafío significativo. En este trabajo, proponemos un enfoque que mejora la capacidad de autocrítica del LLM y lo ajusta aún más sobre datos sintéticos saneados. Esto se logra mediante la adición de un modelo crítico externo que puede fusionarse con el original, reforzando así las capacidades de autocrítica y mejorando la robustez de las respuestas del LLM ante indicaciones adversarias. Nuestros resultados demuestran que la combinación de fusión y autocrítica puede reducir significativamente la tasa de éxito de los ataques adversarios, ofreciendo así un mecanismo de defensa prometedor contra los ataques de jailbreak. Código, datos y modelos disponibles en https://github.com/vicgalle/merging-self-critique-jailbreaks.