Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos DeepSeek-Coder-V2, un modelo de lenguaje de código de Mixture-of-Experts (MoE) de código abierto que logra un rendimiento comparable a GPT4-Turbo en tareas específicas de código. En concreto, DeepSeek-Coder-V2 se ha preentrenado adicionalmente a partir de un punto de control intermedio de DeepSeek-V2 con 6 billones de tokens adicionales. A través de este preentrenamiento continuo, DeepSeek-Coder-V2 mejora sustancialmente las capacidades de codificación y razonamiento matemático de DeepSeek-V2, manteniendo un rendimiento comparable en tareas generales de lenguaje. En comparación con DeepSeek-Coder-33B, DeepSeek-Coder-V2 demuestra avances significativos en varios aspectos de tareas relacionadas con código, así como en capacidades de razonamiento y generales. Además, DeepSeek-Coder-V2 amplía su soporte para lenguajes de programación de 86 a 338, mientras extiende la longitud de contexto de 16K a 128K. En evaluaciones estándar de benchmarks, DeepSeek-Coder-V2 logra un rendimiento superior en comparación con modelos de código cerrado como GPT4-Turbo, Claude 3 Opus y Gemini 1.5 Pro en benchmarks de codificación y matemáticas.
La estimación precisa de la profundidad en imágenes de 360 grados es crucial para aplicaciones de realidad virtual, navegación autónoma y medios inmersivos. Los métodos existentes de estimación de profundidad diseñados para imágenes de perspectiva fallan cuando se aplican a imágenes de 360 grados debido a las diferentes proyecciones de cámara y distorsiones, mientras que los métodos específicos para 360 grados tienen un rendimiento inferior debido a la falta de pares de datos etiquetados. Proponemos un nuevo marco de estimación de profundidad que utiliza de manera efectiva datos no etiquetados de 360 grados. Nuestro enfoque emplea modelos de estimación de profundidad de perspectiva de última generación como modelos maestros para generar etiquetas pseudo a través de una técnica de proyección de cubo de seis caras, permitiendo una etiquetación eficiente de la profundidad en imágenes de 360 grados. Este método aprovecha la creciente disponibilidad de grandes conjuntos de datos. Nuestro enfoque incluye dos etapas principales: la generación de máscaras fuera de línea para regiones inválidas y un régimen de entrenamiento conjunto semi-supervisado en línea. Probamos nuestro enfoque en conjuntos de datos de referencia como Matterport3D y Stanford2D3D, mostrando mejoras significativas en la precisión de la estimación de profundidad, particularmente en escenarios de cero disparos. Nuestra propuesta de canalización de entrenamiento puede mejorar cualquier estimador de profundidad monocular de 360 grados y demuestra una transferencia efectiva de conocimiento a través de diferentes proyecciones de cámara y tipos de datos. Consulte nuestra página del proyecto para ver los resultados: https://albert100121.github.io/Depth-Anywhere/
La alineación humana en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es un área de investigación activa. Un trabajo reciente y revolucionario, la optimización directa de preferencias (DPO, por sus siglas en inglés), ha simplificado enormemente el proceso en comparación con trabajos anteriores en aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés), al omitir la etapa de aprendizaje de recompensas en RLHF. DPO, después del entrenamiento, proporciona un modelo de recompensas implícito. En este trabajo, hacemos una observación novedosa de que este modelo de recompensas implícito puede utilizarse por sí mismo de manera iterativa para alinear aún más el LLM. Nuestro enfoque consiste en utilizar las recompensas de un modelo LLM actual para construir un conjunto de datos de preferencias, que luego se utiliza en rondas posteriores de DPO. Incorporamos refinamientos que corrigen el sesgo en la longitud de las respuestas y mejoran la calidad del conjunto de datos de preferencias para optimizar aún más nuestro enfoque. Nuestro método, denominado autoalineación con recompensas implícitas de DPO (DICE, por sus siglas en inglés), muestra grandes mejoras en la alineación y logra un rendimiento superior al de Gemini Pro en AlpacaEval 2, alcanzando una tasa de victoria controlada por longitud del 27.55% frente a GPT-4 Turbo, pero con solo 8B de parámetros y sin retroalimentación externa. Nuestro código está disponible en https://github.com/sail-sg/dice.
Los modelos grandes de lenguaje y visión (LLVMs, por sus siglas en inglés) han sido impulsados por el poder de generalización de los modelos grandes de lenguaje (LLMs) y el surgimiento del ajuste fino mediante instrucciones visuales. Junto con su escalamiento directo, estos modelos permiten que los LLVMs demuestren un potente rendimiento en tareas de lenguaje y visión (VL) al abordar diversas tareas mediante instrucciones en lenguaje natural. Sin embargo, los LLVMs de código abierto existentes que tienen un rendimiento comparable a los LLVMs de código cerrado, como GPT-4V, suelen considerarse demasiado grandes (por ejemplo, con 26B, 34B y 110B parámetros), ya que poseen un mayor número de capas. Estos modelos grandes requieren recursos costosos y de alta gama tanto para el entrenamiento como para la inferencia. Para abordar este problema, presentamos una nueva familia eficiente de LLVMs con tamaños de modelo LLM de 1.8B, 3.8B y 7B, denominada Traversal of Layers (TroL), que permite la reutilización de capas de manera token-wise. Esta técnica de recorrido de capas simula el efecto de mirar hacia atrás y retrazar el flujo de respuestas, aumentando el número de capas de propagación hacia adelante sin agregar físicamente más capas. Demostramos que TroL emplea un enfoque simple de recorrido de capas, pero supera eficientemente a los LLVMs de código abierto con tamaños de modelo más grandes y rivaliza con el rendimiento de los LLVMs de código cerrado de tamaños sustanciales.
Presentamos ChatGLM, una familia en evolución de modelos de lenguaje grande que hemos estado desarrollando a lo largo del tiempo. Este informe se centra principalmente en la serie de lenguaje GLM-4, que incluye GLM-4, GLM-4-Air y GLM-4-9B. Estos representan nuestros modelos más capaces, entrenados con todas las ideas y lecciones aprendidas de las tres generaciones anteriores de ChatGLM. Hasta la fecha, los modelos GLM-4 han sido preentrenados con diez billones de tokens, principalmente en chino e inglés, junto con un pequeño conjunto de corpus de 24 idiomas, y están alineados principalmente para su uso en chino e inglés. La alta calidad de la alineación se logra mediante un proceso de post-entrenamiento en múltiples etapas, que incluye ajuste fino supervisado y aprendizaje a partir de retroalimentación humana. Las evaluaciones muestran que GLM-4 1) rivaliza de cerca o supera a GPT-4 en términos de métricas generales como MMLU, GSM8K, MATH, BBH, GPQA y HumanEval, 2) se acerca a GPT-4-Turbo en la capacidad de seguir instrucciones, medida por IFEval, 3) iguala a GPT-4 Turbo (128K) y Claude 3 en tareas de contexto largo, y 4) supera a GPT-4 en alineaciones de chino, medida por AlignBench. El modelo GLM-4 All Tools está aún más alineado para comprender la intención del usuario y decidir de manera autónoma cuándo y qué herramienta(s) usar —incluyendo navegador web, intérprete de Python, modelo de texto a imagen y funciones definidas por el usuario— para completar eficazmente tareas complejas. En aplicaciones prácticas, iguala e incluso supera a GPT-4 All Tools en tareas como acceder a información en línea a través de navegación web y resolver problemas matemáticos utilizando el intérprete de Python. A lo largo del tiempo, hemos liberado una serie de modelos, incluyendo ChatGLM-6B (tres generaciones), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM y CodeGeeX, atrayendo más de 10 millones de descargas en Hugging Face solo en el año 2023. Los modelos abiertos pueden ser accedidos a través de https://github.com/THUDM y https://huggingface.co/THUDM.
Los Modelos de Visión-Lenguaje (VLMs) han logrado un éxito notable en diversas tareas multimodales, pero a menudo se ven limitados por la ventana de contexto reducida y el alto costo computacional de procesar entradas de imágenes de alta resolución y videos. La compresión de visión puede mitigar este problema al reducir el número de tokens visuales. Enfoques anteriores comprimen los tokens visuales con módulos externos y obligan a los LLMs a comprender los tokens comprimidos, lo que resulta en una pérdida de información visual. Sin embargo, el paradigma de comprensión de los tokens visuales por parte de los LLMs no se utiliza plenamente en el proceso de aprendizaje de compresión. Proponemos VoCo-LLaMA, el primer enfoque para comprimir tokens visuales utilizando LLMs. Al introducir tokens de Compresión de Visión durante la fase de ajuste fino de instrucciones visuales y aprovechar la destilación de atención, nuestro método destila cómo los LLMs comprenden los tokens visuales en su procesamiento de tokens VoCo. VoCo-LLaMA facilita una compresión visual efectiva y mejora la eficiencia computacional durante la etapa de inferencia. Específicamente, nuestro método logra una pérdida mínima de rendimiento con una relación de compresión de 576 veces, resultando en hasta un 94.8% menos de FLOPs y una aceleración del 69.6% en el tiempo de inferencia. Además, mediante el entrenamiento continuo utilizando secuencias de tokens comprimidos en series temporales de fotogramas de video, VoCo-LLaMA demuestra la capacidad de comprender correlaciones temporales, superando a métodos anteriores en benchmarks populares de preguntas y respuestas sobre videos. Nuestro enfoque presenta una forma prometedora de desbloquear todo el potencial de la ventana contextual de los VLMs, permitiendo aplicaciones multimodales más escalables. La página del proyecto, junto con el código asociado, puede accederse a través de https://yxxxb.github.io/VoCo-LLaMA-page/{este enlace HTTPS}.
Los agentes de software han surgido como herramientas prometedoras para abordar tareas complejas de ingeniería de software. Sin embargo, los trabajos existentes simplifican en exceso los flujos de trabajo de desarrollo de software al seguir el modelo en cascada. Por ello, proponemos AgileCoder, un sistema multiagente que integra la Metodología Ágil (MA) en su marco de trabajo. Este sistema asigna roles específicos de MA, como Gerente de Producto, Desarrollador y Tester, a diferentes agentes, quienes luego colaboran en el desarrollo de software basándose en las entradas del usuario. AgileCoder mejora la eficiencia del desarrollo organizando el trabajo en sprints, centrándose en desarrollar software de manera incremental a través de estos. Además, presentamos el Generador Dinámico de Grafos de Código, un módulo que crea un Grafo de Dependencias de Código de forma dinámica a medida que se realizan actualizaciones en la base de código. Esto permite que los agentes comprendan mejor la base de código, lo que conduce a una generación y modificación de código más precisa durante el proceso de desarrollo de software. AgileCoder supera los puntos de referencia existentes, como ChatDev y MetaGPT, estableciendo un nuevo estándar y demostrando las capacidades de los sistemas multiagente en entornos avanzados de ingeniería de software. Nuestro código fuente está disponible en https://github.com/FSoft-AI4Code/AgileCoder.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) enriquece la capacidad de los modelos de lenguaje para razonar utilizando contexto externo con el fin de mejorar las respuestas a una consulta del usuario. Este enfoque ha ganado popularidad debido a sus aplicaciones prácticas en diversos usos de modelos de lenguaje, como búsquedas, sistemas de preguntas y respuestas, y chatbots. Sin embargo, la naturaleza exacta de cómo funciona este enfoque no se comprende claramente. En este artículo, examinamos de manera mecanicista la pipeline de RAG para destacar que los modelos de lenguaje toman atajos y tienen una fuerte tendencia a utilizar únicamente la información del contexto para responder a la pregunta, mientras que dependen mínimamente de su memoria paramétrica. Investigamos este comportamiento mecanicista en los modelos de lenguaje mediante: (i) Análisis de Mediación Causal para demostrar que la memoria paramétrica se utiliza mínimamente al responder una pregunta, y (ii) Contribuciones de Atención y Knockouts para mostrar que el flujo residual del último token no se enriquece a partir del token del sujeto en la pregunta, sino que se enriquece a partir de otros tokens informativos en el contexto. Encontramos que este comportamiento de atajo es pronunciado tanto en los modelos de la familia LLaMa como en los de la familia Phi.
El ajuste fino supervisado mejora las capacidades de resolución de problemas de los modelos de lenguaje en diversas tareas de razonamiento matemático. Para maximizar estos beneficios, la investigación existente se centra en ampliar el conjunto de entrenamiento mediante diversas técnicas de aumento de datos, lo cual es efectivo en escenarios estándar de preguntas y respuestas de una sola ronda. Nuestro trabajo introduce una técnica novedosa dirigida a cultivar una comprensión más profunda de los problemas de entrenamiento, mejorando el rendimiento no solo en entornos estándar, sino también en escenarios más complejos que requieren pensamiento reflexivo. Específicamente, proponemos el aumento reflexivo, un método que incorpora la reflexión sobre el problema en cada instancia de entrenamiento. Este método entrena al modelo para considerar perspectivas alternativas y trabajar con abstracciones y analogías, fomentando así una comprensión exhaustiva a través del razonamiento reflexivo. Experimentos extensos validan el logro de nuestro objetivo, destacando las ventajas únicas de nuestro método y su naturaleza complementaria en relación con las técnicas de aumento existentes.
Los modelos de lenguaje alineados con la seguridad a menudo exhiben mecanismos de seguridad frágiles y desequilibrados, lo que aumenta la probabilidad de generar contenido inseguro. Además, la incorporación de nuevos conocimientos mediante técnicas de edición en los modelos de lenguaje puede comprometer aún más la seguridad. Para abordar estos problemas, proponemos SafeInfer, una estrategia de alineación de seguridad en tiempo de decodificación y adaptable al contexto, diseñada para generar respuestas seguras a las consultas de los usuarios. SafeInfer consta de dos fases: la fase de amplificación de seguridad, que emplea ejemplos de demostración seguros para ajustar los estados ocultos del modelo y aumentar la probabilidad de salidas más seguras, y la fase de decodificación guiada por la seguridad, que influye en la selección de tokens basándose en distribuciones optimizadas para la seguridad, asegurando que el contenido generado cumpla con las pautas éticas. Además, presentamos HarmEval, un nuevo punto de referencia para evaluaciones exhaustivas de seguridad, diseñado para abordar posibles escenarios de uso indebido de acuerdo con las políticas de las principales empresas tecnológicas de IA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se entrenan con grandes cantidades de datos, la mayoría de los cuales se extraen automáticamente de internet. Estos datos incluyen documentos enciclopédicos que contienen una vasta cantidad de conocimiento general (por ejemplo, Wikipedia), pero que también pueden solaparse con conjuntos de datos de referencia utilizados para evaluar LLMs. En consecuencia, evaluar modelos en divisiones de prueba que podrían haber filtrado en el conjunto de entrenamiento tiende a generar conclusiones engañosas. Para fomentar una evaluación sólida de los modelos de lenguaje, presentamos un nuevo conjunto de datos de prueba llamado RepLiQA, adecuado para tareas de respuesta a preguntas y recuperación de temas. RepLiQA es una colección de cinco divisiones de conjuntos de prueba, cuatro de los cuales no se habían publicado en internet ni expuesto a APIs de LLM antes de esta publicación. Cada muestra en RepLiQA comprende (1) un documento de referencia creado por un anotador humano que describe un escenario imaginario (por ejemplo, un artículo de noticias) ausente en internet; (2) una pregunta sobre el tema del documento; (3) una respuesta de referencia derivada directamente de la información en el documento; y (4) el párrafo extraído del documento de referencia que contiene la respuesta. De esta manera, las respuestas precisas solo pueden generarse si un modelo es capaz de encontrar contenido relevante dentro del documento proporcionado. Ejecutamos una evaluación a gran escala que incluye varios LLMs de última generación para descubrir diferencias en el rendimiento entre modelos de diversos tipos y tamaños en un entorno de modelado de lenguaje condicional al contexto. Las divisiones publicadas de RepLiQA se pueden encontrar aquí: https://huggingface.co/datasets/ServiceNow/repliqa.
Garantizar la alineación segura de los modelos de lenguaje de gran escala (LLMs) con los valores humanos es crucial a medida que se integran en aplicaciones como la traducción y la respuesta a preguntas. Los métodos actuales de alineación enfrentan dificultades con las intenciones dinámicas de los usuarios y los objetivos complejos, lo que hace que los modelos sean vulnerables a generar contenido dañino. Proponemos Aritmética de Seguridad, un marco que no requiere entrenamiento y que mejora la seguridad de los LLMs en diferentes escenarios: modelos base, modelos ajustados mediante supervisión (SFT) y modelos editados. La Aritmética de Seguridad incluye la Eliminación de Dirección Dañina para evitar contenido perjudicial y la Alineación de Seguridad para promover respuestas seguras. Además, presentamos NoIntentEdit, un conjunto de datos que destaca instancias de edición que podrían comprometer la seguridad del modelo si se utilizan de manera no intencional. Nuestros experimentos muestran que la Aritmética de Seguridad mejora significativamente las medidas de seguridad, reduce el exceso de precaución y mantiene la utilidad del modelo, superando a los métodos existentes en la generación segura de contenido.
Los modelos de lenguaje suelen tokenizar texto crudo en secuencias de identificadores de subpalabras a partir de un vocabulario predefinido, un proceso intrínsecamente sensible a errores tipográficos, variaciones de longitud y en gran medida ajeno a la estructura interna de los tokens, problemas que denominamos la maldición de la tokenización. En este estudio, profundizamos en estas desventajas y demostramos que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) siguen siendo susceptibles a estos problemas. Este estudio investiga sistemáticamente estos desafíos y su impacto en los LLMs a través de tres preguntas de investigación críticas: (1) resolución de problemas complejos, (2) sondeo de la estructura de los tokens, y (3) resiliencia a variaciones tipográficas. Nuestros hallazgos revelan que escalar los parámetros del modelo puede mitigar el problema de la tokenización; sin embargo, los LLMs aún sufren de sesgos inducidos por errores tipográficos y otras variaciones en el formato del texto. Nuestros experimentos muestran que la regularización de subpalabras, como BPE-dropout, puede mitigar este problema. Liberaremos nuestro código y datos para facilitar investigaciones futuras.
El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha ampliado significativamente el alcance de las aplicaciones en el procesamiento del lenguaje natural, con los LLMs multimodales extendiendo estas capacidades para integrar e interpretar datos visuales. Sin embargo, los puntos de referencia existentes para los modelos de lenguaje visual (VLMs) se centran predominantemente en entradas de una sola imagen, descuidando el aspecto crucial de la comprensión de múltiples imágenes. En este artículo, presentamos un Punto de Referencia Relacional de Múltiples Imágenes (MIRB, por sus siglas en inglés), diseñado para evaluar la capacidad de los VLMs para comparar, analizar y razonar a través de múltiples imágenes. Nuestro punto de referencia abarca cuatro categorías: percepción, conocimiento del mundo visual, razonamiento y razonamiento de múltiples pasos. A través de una evaluación exhaustiva de una amplia gama de modelos de código abierto y cerrado, demostramos que, aunque los VLMs de código abierto se acercaron al rendimiento de GPT-4V en tareas de una sola imagen, persiste una brecha significativa de rendimiento en tareas de razonamiento con múltiples imágenes. Nuestros hallazgos también revelan que incluso el modelo de última generación GPT-4V tiene dificultades con nuestro punto de referencia, subrayando la necesidad de más investigación y desarrollo en esta área. Creemos que nuestra contribución de MIRB podría servir como un banco de pruebas para desarrollar la próxima generación de modelos multimodales.
La evolución de la Inteligencia Artificial (IA) se ha acelerado significativamente gracias a los avances en los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos Multimodales de Gran Escala (LMMs), mostrando gradualmente capacidades potenciales de razonamiento cognitivo en la resolución de problemas y el descubrimiento científico (es decir, IA para la Ciencia o AI4Science), habilidades que antes eran exclusivas del intelecto humano. Para evaluar de manera integral el rendimiento de los modelos actuales en cuanto a habilidades de razonamiento cognitivo, presentamos OlympicArena, que incluye 11,163 problemas bilingües en modalidades de solo texto y texto intercalado con imágenes. Estos desafíos abarcan una amplia gama de disciplinas que cubren siete campos y 62 competencias olímpicas internacionales, rigurosamente examinadas para detectar fugas de datos. Argumentamos que los problemas de las competiciones olímpicas son ideales para evaluar el razonamiento cognitivo de la IA debido a su complejidad y naturaleza interdisciplinaria, características esenciales para abordar desafíos científicos complejos y facilitar descubrimientos. Más allá de evaluar el rendimiento en diversas disciplinas utilizando criterios de solo respuesta, realizamos experimentos y análisis detallados desde múltiples perspectivas. Profundizamos en las habilidades de razonamiento cognitivo de los modelos, su rendimiento en diferentes modalidades y sus resultados en evaluaciones a nivel de proceso, cruciales para tareas que requieren razonamiento complejo con soluciones extensas. Nuestras evaluaciones exhaustivas revelan que incluso modelos avanzados como GPT-4o solo alcanzan un 39.97% de precisión general, ilustrando las limitaciones actuales de la IA en el razonamiento complejo y la integración multimodal. A través de OlympicArena, buscamos impulsar la IA hacia la superinteligencia, equipándola para abordar desafíos más complejos en la ciencia y más allá. También proporcionamos un conjunto completo de recursos para apoyar la investigación en IA, incluyendo un conjunto de datos de referencia, una plataforma de anotación de código abierto, una herramienta de evaluación detallada y un ranking con funciones de envío automático.
A pesar de los recientes avances en las técnicas de reconstrucción humana de alta fidelidad, los requisitos de imágenes capturadas densamente o de una optimización lenta por instancia limitan significativamente sus aplicaciones en escenarios más amplios. Para abordar estos problemas, presentamos HumanSplat, que predice las propiedades de 3D Gaussian Splatting de cualquier humano a partir de una sola imagen de entrada de manera generalizable. En particular, HumanSplat comprende un modelo de difusión multi-vista en 2D y un transformador de reconstrucción latente con priors de estructura humana que integran hábilmente priors geométricos y características semánticas dentro de un marco unificado. Además, se diseña una pérdida jerárquica que incorpora información semántica humana para lograr un modelado de textura de alta fidelidad y restringir mejor las múltiples vistas estimadas. Experimentos exhaustivos en benchmarks estándar e imágenes en entornos reales demuestran que HumanSplat supera a los métodos existentes más avanzados en la síntesis de nuevas vistas fotorrealistas.
Los datos tabulares -- datos estructurados, heterogéneos, en formato de hoja de cálculo con filas y columnas -- son ampliamente utilizados en la práctica en diversos dominios. Sin embargo, aunque los modelos fundacionales recientes han reducido la necesidad de desarrollar conjuntos de datos y predictores específicos para tareas en dominios como el modelado del lenguaje y la visión por computadora, este paradigma de aprendizaje por transferencia no ha tenido un impacto similar en el dominio tabular. En este trabajo, buscamos reducir esta brecha y presentamos TabuLa-8B, un modelo de lenguaje para predicción tabular. Definimos un proceso para extraer un conjunto de datos de entrenamiento grande y de alta calidad del corpus TabLib, proponiendo métodos para el filtrado y control de calidad de datos tabulares. Utilizando el conjunto de datos resultante, que comprende más de 1.6 mil millones de filas de 3.1 millones de tablas únicas, ajustamos un modelo de lenguaje grande (LLM) Llama 3-8B para predicción de datos tabulares (clasificación y regresión discretizada) empleando un esquema novedoso de empaquetado y atención para predicción tabular. Mediante la evaluación en un conjunto de pruebas de 329 conjuntos de datos, encontramos que TabuLa-8B tiene una precisión de cero disparos en tablas no vistas que supera en más de 15 puntos porcentuales (pp) a la adivinación aleatoria, un logro que no es posible con los modelos de predicción tabular más avanzados actualmente (por ejemplo, XGBoost, TabPFN). En el escenario de pocos disparos (1-32 disparos), sin ningún ajuste fino en los conjuntos de datos objetivo, TabuLa-8B es 5-15 pp más preciso que los modelos XGBoost y TabPFN que están explícitamente entrenados con igual, o incluso hasta 16 veces más datos. Publicamos nuestro modelo, código y datos junto con la publicación de este artículo.
Para evaluar el conocimiento en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), los métodos actuales consultan al modelo y luego evalúan sus respuestas generadas. En este trabajo, nos preguntamos si la evaluación puede realizarse antes de que el modelo haya generado cualquier texto. Concretamente, ¿es posible estimar cuánto sabe un modelo sobre una entidad determinada, únicamente a partir de su computación interna? Estudiamos esta pregunta con dos tareas: dada una entidad sujeto, el objetivo es predecir (a) la capacidad del modelo para responder preguntas comunes sobre la entidad, y (b) la factualidad de las respuestas generadas por el modelo sobre la entidad. Los experimentos con una variedad de LLMs muestran que KEEN, una sonda simple entrenada sobre representaciones internas del sujeto, tiene éxito en ambas tareas, correlacionándose fuertemente tanto con la precisión en preguntas y respuestas (QA) del modelo por sujeto como con FActScore, una métrica reciente de factualidad en generación de texto abierto. Además, KEEN se alinea naturalmente con el comportamiento de precaución del modelo y refleja fielmente los cambios en el conocimiento del modelo después del ajuste fino. Por último, mostramos una variante de KEEN más interpretable pero igualmente eficaz, que destaca un pequeño conjunto de tokens que se correlaciona con la falta de conocimiento del modelo. Al ser simple y ligero, KEEN puede aprovecharse para identificar brechas y agrupaciones de conocimiento sobre entidades en los LLMs, y guiar decisiones como aumentar las consultas con recuperación de información.
El conocimiento médico depende del contexto y requiere un razonamiento consistente a través de diversas expresiones en lenguaje natural de frases semánticamente equivalentes. Esto es particularmente crucial para los nombres de medicamentos, donde los pacientes suelen utilizar nombres comerciales como Advil o Tylenol en lugar de sus equivalentes genéricos. Para estudiar esto, creamos un nuevo conjunto de datos de robustez, RABBITS, para evaluar las diferencias de rendimiento en benchmarks médicos tras intercambiar nombres comerciales y genéricos de medicamentos utilizando anotaciones expertas de médicos. Evaluamos tanto modelos de lenguaje de código abierto como basados en API en MedQA y MedMCQA, revelando una caída consistente en el rendimiento que oscila entre el 1 y el 10\%. Además, identificamos una posible fuente de esta fragilidad como la contaminación de datos de prueba en conjuntos de datos de preentrenamiento ampliamente utilizados. Todo el código está accesible en https://github.com/BittermanLab/RABBITS, y un leaderboard de HuggingFace está disponible en https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
Los modelos de difusión de texto a imagen (T2I) han demostrado capacidades impresionantes en la generación de imágenes. Sin embargo, su intensidad computacional impide que organizaciones con recursos limitados implementen modelos T2I después de ajustarlos con sus datos internos objetivo. Si bien las técnicas de poda ofrecen una solución potencial para reducir la carga computacional de los modelos T2I, los métodos de poda estática utilizan el mismo modelo podado para todas las indicaciones de entrada, ignorando los requisitos de capacidad variables de diferentes indicaciones. La poda dinámica aborda este problema utilizando una subred separada para cada indicación, pero impide el paralelismo por lotes en las GPU. Para superar estas limitaciones, presentamos la Poda Adaptativa Personalizada por Indicación (APTP), un novedoso método de poda basado en indicaciones diseñado para modelos de difusión T2I. El núcleo de nuestro enfoque es un modelo enrutador de indicaciones, que aprende a determinar la capacidad requerida para una indicación de texto de entrada y la dirige a un código de arquitectura, dado un presupuesto computacional total deseado para las indicaciones. Cada código de arquitectura representa un modelo especializado adaptado a las indicaciones asignadas a él, y el número de códigos es un hiperparámetro. Entrenamos el enrutador de indicaciones y los códigos de arquitectura utilizando aprendizaje contrastivo, asegurando que indicaciones similares se asignen a códigos cercanos. Además, empleamos transporte óptimo para evitar que los códigos colapsen en uno solo. Demostramos la efectividad de APTP podando Stable Diffusion (SD) V2.1 utilizando CC3M y COCO como conjuntos de datos objetivo. APTP supera a los baselines de poda de un solo modelo en términos de puntuaciones FID, CLIP y CMMD. Nuestro análisis de los clústeres aprendidos por APTP revela que son semánticamente significativos. También mostramos que APTP puede descubrir automáticamente indicaciones previamente identificadas como desafiantes para SD, por ejemplo, indicaciones para generar imágenes de texto, asignándolas a códigos de mayor capacidad.
La rápida evolución de los modelos de lenguaje ha hecho necesario el desarrollo de puntos de referencia más desafiantes. Los puntos de referencia estáticos actuales a menudo tienen dificultades para distinguir de manera consistente las capacidades de diferentes modelos y no logran alinearse con las preferencias de los usuarios en el mundo real. Por otro lado, plataformas colaborativas en vivo como Chatbot Arena recopilan una amplia gama de indicaciones naturales y comentarios de los usuarios. Sin embargo, estas indicaciones varían en sofisticación y los comentarios no pueden aplicarse fuera de línea a nuevos modelos. Para garantizar que los puntos de referencia sigan el ritmo del desarrollo de los modelos de lenguaje (LLM), abordamos cómo se pueden evaluar los puntos de referencia en función de su capacidad para separar modelos de manera confiable y su alineación con las preferencias humanas. Bajo estos principios, desarrollamos BenchBuilder, un punto de referencia dinámico que filtra indicaciones de alta calidad de fuentes de datos en vivo para permitir la evaluación fuera de línea con indicaciones frescas y desafiantes. BenchBuilder identifica siete indicadores de una indicación de alta calidad, como la necesidad de conocimiento de dominio, y utiliza un anotador basado en un LLM para seleccionar un subconjunto de indicaciones de alta calidad de varios grupos temáticos. El proceso de evaluación con LLM emplea un juez basado en un LLM para garantizar un punto de referencia completamente automatizado, de alta calidad y en constante actualización. Aplicamos BenchBuilder en indicaciones de Chatbot Arena para crear Arena-Hard-Auto v0.1: 500 indicaciones desafiantes de usuarios en una amplia gama de tareas. Arena-Hard-Auto v0.1 ofrece intervalos de confianza 3 veces más estrechos que MT-Bench y logra un acuerdo del 89.1% con las clasificaciones de preferencia humana, todo a un costo de solo $25 y sin la necesidad de etiquetadores humanos. La canalización de BenchBuilder mejora los puntos de referencia de evaluación y proporciona una herramienta valiosa para los desarrolladores, permitiéndoles extraer puntos de referencia de alta calidad de grandes volúmenes de datos con un esfuerzo mínimo.
La binarización, que convierte los parámetros de peso en valores binarios, ha surgido como una estrategia efectiva para reducir el tamaño de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, las técnicas de binarización típicas disminuyen significativamente la eficacia lingüística de los LLMs. Para abordar este problema, presentamos una novedosa técnica de binarización llamada Mezcla de Escalas (BinaryMoS). A diferencia de los métodos convencionales, BinaryMoS emplea múltiples expertos de escalado para los pesos binarios, fusionando dinámicamente estos expertos para cada token con el fin de generar factores de escalado de manera adaptativa. Este enfoque adaptativo por token potencia la capacidad representativa de los LLMs binarizados al permitir ajustes contextuales en los valores de los pesos binarios. Además, dado que este proceso adaptativo solo involucra los factores de escalado y no toda la matriz de pesos, BinaryMoS mantiene una eficiencia de compresión similar a los métodos de binarización estática tradicionales. Nuestros resultados experimentales muestran que BinaryMoS supera a las técnicas de binarización convencionales en diversas tareas de procesamiento de lenguaje natural e incluso supera a los métodos de cuantización de 2 bits, todo ello manteniendo un tamaño de modelo similar al de las técnicas de binarización estática.
La alineación directa a partir de preferencias (DAP, por sus siglas en inglés) ha surgido como un paradigma prometedor para alinear modelos de lenguaje de gran escala (LLMs) con los deseos humanos a partir de conjuntos de datos de preferencias previamente recolectados y fuera de línea. Si bien estudios recientes indican que los métodos existentes de DAP fuera de línea pueden beneficiarse directamente de muestras de entrenamiento en línea, destacamos la necesidad de desarrollar algoritmos específicos de DAP en línea para aprovechar plenamente el poder del entrenamiento en línea. En concreto, identificamos que el LLM aprendido debe adherirse a la proximidad del LLM de comportamiento, que recolecta las muestras de entrenamiento. Con este fin, proponemos la Optimización de Preferencias en línea en proximidad al LLM de Comportamiento (BPO, por sus siglas en inglés), enfatizando la importancia de construir una región de confianza adecuada para la alineación de LLMs. Realizamos extensos experimentos para validar la efectividad y aplicabilidad de nuestro enfoque al integrarlo con varios métodos de DAP, lo que resulta en mejoras significativas de rendimiento en una amplia gama de tareas al entrenar con la misma cantidad de datos de preferencias. Incluso al introducir solo una fase adicional de recolección de datos, nuestro BPO en línea mejora su línea base de DAP fuera de línea del 72.0% al 80.2% en TL;DR y del 82.2% al 89.1% en Antropic Helpfulness en términos de tasa de victoria frente al texto de referencia humano.
La edición de video se erige como un pilar fundamental de los medios digitales, desde el entretenimiento y la educación hasta la comunicación profesional. Sin embargo, los métodos anteriores a menudo pasan por alto la necesidad de comprender de manera integral tanto los contextos globales como locales, lo que lleva a ediciones inexactas e inconsistentes en la dimensión espacio-temporal, especialmente en videos largos. En este artículo, presentamos VIA, un marco unificado de Adaptación espacio-temporal de VIdeo para la edición global y local de videos, llevando al límite la edición consistente de videos de varios minutos. En primer lugar, para garantizar la consistencia local dentro de los fotogramas individuales, la base de VIA es un novedoso método de adaptación de edición en tiempo de prueba, que adapta un modelo de edición de imágenes preentrenado para mejorar la coherencia entre las posibles direcciones de edición y la instrucción de texto, y adapta variables latentes enmascaradas para un control local preciso. Además, para mantener la consistencia global a lo largo de la secuencia de video, introducimos una adaptación espacio-temporal que adapta variables de atención consistentes en fotogramas clave y las aplica estratégicamente en toda la secuencia para lograr los efectos de edición. Experimentos exhaustivos demuestran que, en comparación con los métodos de referencia, nuestro enfoque VIA produce ediciones que son más fieles a los videos originales, más coherentes en el contexto espacio-temporal y más precisas en el control local. Más importante aún, mostramos que VIA puede lograr una edición consistente de videos largos en cuestión de minutos, desbloqueando el potencial para tareas avanzadas de edición de video en secuencias largas.
Evaluar la efectividad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en la resolución de tareas diversas es fundamental para comprender sus fortalezas y debilidades. Las técnicas de evaluación convencionales suelen aplicar una única estrategia de *prompting* de manera uniforme en los conjuntos de datos, sin considerar los distintos grados de complejidad de las tareas. Introducimos la Taxonomía de *Prompting* Jerárquico (HPT, por sus siglas en inglés), una taxonomía que emplea un Marco de *Prompting* Jerárquico (HPF, por sus siglas en inglés) compuesto por cinco estrategias de *prompting* únicas, ordenadas de la más simple a la más compleja, para evaluar los LLMs con mayor precisión y ofrecer una perspectiva más clara. Esta taxonomía asigna una puntuación, denominada Puntuación de *Prompting* Jerárquico (HP-Score), tanto a los conjuntos de datos como a los LLMs, basándose en las reglas de la taxonomía, proporcionando una comprensión matizada de su capacidad para resolver tareas diversas y ofreciendo una medida universal de la complejidad de las tareas. Además, presentamos el Marco de *Prompting* Jerárquico Adaptativo, que automatiza la selección de estrategias de *prompting* apropiadas para cada tarea. Este estudio compara los marcos de *prompting* jerárquico manual y adaptativo utilizando cuatro LLMs ajustados por instrucciones, concretamente Llama 3 8B, Phi 3 3.8B, Mistral 7B y Gemma 7B, en cuatro conjuntos de datos: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) y SamSum. Los experimentos demuestran la efectividad de la HPT, proporcionando una forma confiable de comparar diferentes tareas y capacidades de los LLMs. Este artículo conduce al desarrollo de una métrica de evaluación universal que puede utilizarse para evaluar tanto la complejidad de los conjuntos de datos como las capacidades de los LLMs. La implementación tanto del HPF manual como del HPF adaptativo está disponible públicamente.
Los modelos de lenguaje habilitados para visión (VLMs, por sus siglas en inglés) se utilizan ahora para construir agentes multimodales autónomos capaces de realizar acciones en entornos reales. En este artículo, demostramos que los agentes multimodales plantean nuevos riesgos de seguridad, a pesar de que atacar a estos agentes es más desafiante que los ataques previos debido al acceso limitado y al conocimiento reducido sobre el entorno. Nuestros ataques utilizan cadenas de texto adversarias para guiar perturbaciones basadas en gradientes sobre una imagen desencadenante en el entorno: (1) nuestro ataque al generador de descripciones ataca generadores de descripciones de caja blanca si se utilizan para procesar imágenes en descripciones como entradas adicionales al VLM; (2) nuestro ataque CLIP ataca un conjunto de modelos CLIP de manera conjunta, lo que puede transferirse a VLMs propietarios. Para evaluar los ataques, creamos VisualWebArena-Adv, un conjunto de tareas adversarias basadas en VisualWebArena, un entorno para tareas de agentes multimodales basados en la web. Dentro de una norma L-infinito de 16/256 en una sola imagen, el ataque al generador de descripciones puede hacer que un agente GPT-4V aumentado con un generador de descripciones ejecute los objetivos adversarios con una tasa de éxito del 75%. Cuando eliminamos el generador de descripciones o utilizamos GPT-4V para generar sus propias descripciones, el ataque CLIP puede alcanzar tasas de éxito del 21% y 43%, respectivamente. Los experimentos con agentes basados en otros VLMs, como Gemini-1.5, Claude-3 y GPT-4o, muestran diferencias interesantes en su robustez. Un análisis más profundo revela varios factores clave que contribuyen al éxito del ataque, y también discutimos las implicaciones para las defensas. Página del proyecto: https://chenwu.io/attack-agent Código y datos: https://github.com/ChenWu98/agent-attack.
En este artículo, señalamos que el mapeo subóptimo entre ruido y datos conduce a un entrenamiento lento de los modelos de difusión. Durante el entrenamiento de difusión, los métodos actuales difunden cada imagen a través de todo el espacio de ruido, lo que resulta en una mezcla de todas las imágenes en cada punto de la capa de ruido. Destacamos que esta mezcla aleatoria del mapeo ruido-datos complica la optimización de la función de eliminación de ruido en los modelos de difusión. Inspirándonos en el fenómeno de la inmisibilidad en física, proponemos Difusión Inmiscible, un método simple y efectivo para mejorar la mezcla aleatoria del mapeo ruido-datos. En física, la miscibilidad puede variar según diversas fuerzas intermoleculares. Por lo tanto, la inmisibilidad significa que la mezcla de las fuentes moleculares es distinguible. Inspirados por esto, proponemos una estrategia de entrenamiento de asignación-then-difusión. Específicamente, antes de difundir los datos de la imagen en ruido, asignamos un ruido objetivo de difusión para los datos de la imagen minimizando la distancia total entre pares imagen-ruido en un mini-lote. La asignación funciona de manera análoga a fuerzas externas para separar las áreas difusibles de las imágenes, mitigando así las dificultades inherentes en el entrenamiento de difusión. Nuestro enfoque es notablemente simple, requiriendo solo una línea de código para restringir el área difusible de cada imagen mientras se preserva la distribución gaussiana del ruido. Esto asegura que cada imagen se proyecte solo a ruido cercano. Para abordar la alta complejidad del algoritmo de asignación, empleamos un método de asignación cuantizada para reducir la sobrecarga computacional a un nivel insignificante. Los experimentos demuestran que nuestro método logra un entrenamiento hasta 3 veces más rápido para modelos de consistencia y DDIM en el conjunto de datos CIFAR, y hasta 1.3 veces más rápido en los conjuntos de datos CelebA para modelos de consistencia. Además, realizamos un análisis exhaustivo sobre la Difusión Inmiscible, que arroja luz sobre cómo mejora la velocidad de entrenamiento de difusión mientras aumenta la fidelidad.
Los modelos de gran escala para la generación de música a partir de texto han logrado avances significativos, facilitando la creación de composiciones musicales de alta calidad y variadas a partir de indicaciones textuales proporcionadas. Sin embargo, las indicaciones textuales de entrada pueden no captar con precisión los requisitos del usuario, especialmente cuando el objetivo es generar música que encarne un concepto específico derivado de una colección de referencia designada. En este artículo, proponemos un método novedoso para la generación personalizada de música a partir de texto, que puede capturar el concepto a partir de una música de referencia de dos minutos y generar una nueva pieza musical que se ajuste a dicho concepto. Logramos esto mediante el ajuste fino de un modelo preentrenado de generación de música a partir de texto utilizando la música de referencia. Sin embargo, el ajuste fino directo de todos los parámetros conduce a problemas de sobreajuste. Para abordar este problema, proponemos un método de Ajuste de Parámetros Clave que permite al modelo asimilar el nuevo concepto mientras preserva sus capacidades generativas originales. Además, identificamos un posible conflicto de conceptos al introducir múltiples conceptos en el modelo preentrenado. Presentamos una estrategia de mejora de conceptos para distinguir múltiples conceptos, permitiendo que el modelo ajustado genere música que incorpore conceptos individuales o múltiples simultáneamente. Dado que somos los primeros en trabajar en la tarea de generación de música personalizada, también introducimos un nuevo conjunto de datos y un protocolo de evaluación para esta nueva tarea. Nuestro Jen1-DreamStyler propuesto supera a varias líneas base en evaluaciones tanto cualitativas como cuantitativas. Las demostraciones estarán disponibles en https://www.jenmusic.ai/research#DreamStyler.
El superalineamiento, donde los humanos son supervisores débiles de modelos superhumanos, se ha convertido en un tema importante y ampliamente discutido en la era actual del rápido desarrollo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Trabajos recientes han estudiado preliminarmente este problema utilizando modelos débiles para supervisar modelos fuertes. Se ha descubierto que los estudiantes fuertes supervisados débilmente pueden superar consistentemente a los profesores débiles en relación con el objetivo de alineamiento, lo que lleva a un fenómeno de generalización de débil a fuerte. Sin embargo, nos preocupa que detrás de este fenómeno prometedor pueda existir un problema de engaño de débil a fuerte, donde los modelos fuertes podrían engañar a los modelos débiles mostrando un comportamiento bien alineado en áreas conocidas por los modelos débiles, pero produciendo comportamientos desalineados en casos que los modelos débiles desconocen. Luego, damos un primer paso hacia la exploración de este problema de seguridad en un caso específico pero realista de alineamiento multiobjetivo, donde puede haber objetivos de alineamiento que entran en conflicto entre sí (por ejemplo, utilidad frente a inocuidad). Tal conflicto probablemente haría que los modelos fuertes engañen a los modelos débiles en una dimensión de alineamiento para obtener una alta recompensa en otra dimensión de alineamiento. Nuestros experimentos tanto en la tarea de modelado de recompensas como en el escenario de optimización de preferencias indican: (1) el engaño de débil a fuerte existe; (2) el fenómeno de engaño puede intensificarse a medida que aumenta la brecha de capacidad entre los modelos débiles y fuertes. También discutimos posibles soluciones y encontramos que el arranque con un modelo intermedio puede mitigar el engaño hasta cierto punto. Nuestro trabajo destaca la necesidad urgente de prestar más atención a la verdadera confiabilidad del superalineamiento.
En este artículo, presentamos un método de Adaptación de Bajo Rango inspirado en subespacios (LoRA), que es computacionalmente eficiente, fácil de implementar y directamente aplicable a modelos de lenguaje a gran escala, multimodales y de difusión. Inicialmente, descomponemos de manera equivalente los pesos de LoRA en dos subespacios, y descubrimos que simplemente mezclarlos puede mejorar el rendimiento. Para estudiar este fenómeno, lo revisitamos a través de una lente de subespacios de grano fino, mostrando que dicha modificación es equivalente a emplear un mezclador fijo para fusionar los subespacios. Para ser más flexibles, aprendemos conjuntamente el mezclador con los pesos originales de LoRA, y denominamos al método Mezcla de Subespacios LoRA (MoSLoRA). MoSLoRA supera consistentemente a LoRA en tareas de diferentes modalidades, incluyendo razonamiento de sentido común, ajuste de instrucciones visuales y generación de texto a imagen impulsada por temas, demostrando su efectividad y robustez. Los códigos están disponibles en https://github.com/wutaiqiang/MoSLoRA{github}.