Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Cambrian-1, una familia de modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) diseñados con un enfoque centrado en la visión. Si bien los modelos de lenguaje más potentes pueden mejorar las capacidades multimodales, las decisiones de diseño para los componentes visuales a menudo no se exploran lo suficiente y están desconectadas de la investigación en aprendizaje de representaciones visuales. Esta brecha dificulta la conexión precisa con la realidad en escenarios del mundo real. Nuestro estudio utiliza modelos de lenguaje y ajuste por instrucciones visuales como interfaz para evaluar diversas representaciones visuales, ofreciendo nuevas perspectivas sobre diferentes modelos y arquitecturas —autosupervisados, fuertemente supervisados o combinaciones de ambos— basadas en experimentos con más de 20 codificadores visuales. Examinamos críticamente los puntos de referencia existentes para MLLMs, abordando las dificultades involucradas en consolidar e interpretar resultados de diversas tareas, e introducimos un nuevo punto de referencia centrado en la visión, CV-Bench. Para mejorar aún más la conexión visual, proponemos el Agregador Espacial de Visión (SVA, por sus siglas en inglés), un conector dinámico y espacialmente consciente que integra características visuales de alta resolución con modelos de lenguaje mientras reduce el número de tokens. Además, discutimos la curación de datos de ajuste por instrucciones visuales de alta calidad a partir de fuentes públicas, enfatizando la importancia del equilibrio de las fuentes de datos y la proporción de distribución. En conjunto, Cambrian-1 no solo logra un rendimiento de vanguardia, sino que también sirve como una guía completa y abierta para MLLMs ajustados por instrucciones. Proporcionamos pesos de modelos, código, herramientas de apoyo, conjuntos de datos y recetas detalladas para el ajuste por instrucciones y la evaluación. Esperamos que nuestra publicación inspire y acelere los avances en sistemas multimodales y el aprendizaje de representaciones visuales.
La generación de imágenes personalizadas tiene un gran potencial para asistir a los humanos en el trabajo y la vida cotidiana debido a su impresionante capacidad para generar contenido personalizado de manera creativa. Sin embargo, las evaluaciones actuales son automáticas pero no se alinean con las percepciones humanas, o requieren evaluaciones humanas que son costosas y consumen mucho tiempo. En este trabajo, presentamos DreamBench++, un benchmark alineado con los humanos y automatizado mediante modelos GPT multimodales avanzados. Específicamente, diseñamos sistemáticamente los prompts para que GPT esté tanto alineado con los humanos como consigo mismo, potenciado con refuerzo de tareas. Además, construimos un conjunto de datos integral que incluye imágenes y prompts diversos. Al evaluar 7 modelos generativos modernos, demostramos que DreamBench++ produce evaluaciones significativamente más alineadas con los humanos, contribuyendo a impulsar a la comunidad con hallazgos innovadores.
La ingeniería de software automatizada ha sido enormemente potenciada por los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs) para programación. Si bien los benchmarks actuales han demostrado que los LLMs pueden realizar diversas tareas de ingeniería de software como desarrolladores humanos, la mayoría de sus evaluaciones se limitan a tareas algorítmicas cortas y autónomas. Resolver tareas de programación desafiantes y prácticas requiere la capacidad de utilizar diversas llamadas a funciones como herramientas para implementar eficientemente funcionalidades como análisis de datos y desarrollo web. Además, el uso de múltiples herramientas para resolver una tarea necesita un razonamiento composicional al comprender con precisión instrucciones complejas. Cumplir ambas características puede representar un gran desafío para los LLMs. Para evaluar qué tan bien los LLMs pueden resolver tareas de programación desafiantes y prácticas, presentamos Bench, un benchmark que desafía a los LLMs a invocar múltiples llamadas a funciones como herramientas de 139 bibliotecas y 7 dominios para 1,140 tareas de programación detalladas. Para evaluar rigurosamente los LLMs, cada tarea de programación abarca 5.6 casos de prueba con una cobertura de ramas promedio del 99%. Además, proponemos una variante orientada al lenguaje natural de Bench, Benchi, que transforma automáticamente las cadenas de documentación originales en instrucciones cortas solo con información esencial. Nuestra extensa evaluación de 60 LLMs muestra que los LLMs aún no son capaces de seguir instrucciones complejas para usar llamadas a funciones con precisión, con puntajes de hasta el 60%, significativamente más bajos que el rendimiento humano del 97%. Los resultados subrayan la necesidad de avances adicionales en esta área.
Los modelos de recuperación de información suelen evaluarse en conjuntos de datos parcialmente anotados. Cada consulta se asocia con unos pocos textos relevantes, y se asume que el resto del corpus es irrelevante. Como resultado, los modelos que recuperan falsos negativos con éxito son penalizados en la evaluación. Desafortunadamente, anotar completamente todos los textos para cada consulta no es eficiente en términos de recursos. En este trabajo, demostramos que el uso de conjuntos de datos parcialmente anotados en la evaluación puede ofrecer una imagen distorsionada. Creamos D-MERIT, un conjunto de evaluación para la recuperación de pasajes basado en Wikipedia, con el objetivo de incluir todos los pasajes relevantes para cada consulta. Las consultas describen un grupo (por ejemplo, "revistas sobre lingüística") y los pasajes relevantes son evidencia de que las entidades pertenecen a dicho grupo (por ejemplo, un pasaje que indica que Language es una revista sobre lingüística). Mostramos que evaluar en un conjunto de datos que contiene anotaciones solo para un subconjunto de los pasajes relevantes puede resultar en una clasificación engañosa de los sistemas de recuperación, y que a medida que se incluyen más textos relevantes en el conjunto de evaluación, las clasificaciones convergen. Proponemos nuestro conjunto de datos como un recurso para la evaluación y nuestro estudio como una recomendación para equilibrar la eficiencia de recursos y la evaluación confiable al anotar conjuntos de evaluación para la recuperación de textos.
Las secuencias de video ofrecen valiosa información temporal, pero los modelos multimodales grandes (LMMs) existentes no logran comprender videos extremadamente largos. Muchos trabajos abordan esto reduciendo el número de tokens visuales mediante resamplers visuales. Alternativamente, en este artículo, abordamos este problema desde la perspectiva del modelo de lenguaje. Simplemente extrapolando la longitud de contexto del backbone del lenguaje, permitimos que los LMMs comprendan órdenes de magnitud más tokens visuales sin ningún entrenamiento en video. Llamamos a este fenómeno transferencia de contexto largo y analizamos cuidadosamente sus propiedades. Para medir efectivamente la capacidad de los LMMs de generalizar a contextos largos en la modalidad visual, desarrollamos V-NIAH (Visual Needle-In-A-Haystack), un benchmark sintético puramente visual inspirado en la prueba NIAH de los modelos de lenguaje. Nuestro Asistente de Video Largo propuesto (LongVA) puede procesar 2000 frames o más de 200K tokens visuales sin complejidades adicionales. Con su longitud de contexto extendida, LongVA logra un rendimiento de vanguardia en Video-MME entre los modelos de escala 7B al muestrear densamente más frames de entrada. Nuestro trabajo es de código abierto en https://github.com/EvolvingLMMs-Lab/LongVA.
Los modelos de difusión han logrado recientemente resultados notables en la generación de videos. A pesar de los rendimientos alentadores, los videos generados suelen estar limitados a un número reducido de fotogramas, lo que resulta en clips que duran apenas unos segundos. Los principales desafíos para producir videos más largos incluyen los requisitos sustanciales de memoria y el tiempo de procesamiento extendido necesario en una sola GPU. Una solución directa sería dividir la carga de trabajo entre múltiples GPUs, lo que, sin embargo, conlleva dos problemas: (1) garantizar que todas las GPUs se comuniquen de manera efectiva para compartir información de tiempo y contexto, y (2) modificar los modelos de difusión de video existentes, que generalmente se entrenan con secuencias cortas, para crear videos más largos sin necesidad de entrenamiento adicional. Para abordar estos desafíos, en este artículo presentamos Video-Infinity, una canalización de inferencia distribuida que permite el procesamiento paralelo en múltiples GPUs para la generación de videos de larga duración. Específicamente, proponemos dos mecanismos coherentes: Paralelismo de clips y Atención de doble alcance. El paralelismo de clips optimiza la recopilación y el intercambio de información de contexto entre GPUs, lo que minimiza la sobrecarga de comunicación, mientras que la atención de doble alcance modula la autoatención temporal para equilibrar de manera eficiente los contextos locales y globales entre los dispositivos. Juntos, estos dos mecanismos trabajan en conjunto para distribuir la carga de trabajo y permitir la generación rápida de videos largos. En una configuración de 8 x Nvidia 6000 Ada GPU (48G), nuestro método genera videos de hasta 2,300 fotogramas en aproximadamente 5 minutos, lo que permite la generación de videos largos a una velocidad 100 veces mayor que los métodos anteriores.
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han ampliado sus capacidades hacia la comprensión de videos. Sin embargo, estos modelos suelen verse afectados por "alucinaciones", donde se genera contenido irrelevante o sin sentido, desviándose del contexto real del video. Este trabajo presenta VideoHallucer, el primer benchmark integral para la detección de alucinaciones en modelos grandes de video-lenguaje (LVLMs). VideoHallucer clasifica las alucinaciones en dos tipos principales: intrínsecas y extrínsecas, ofreciendo subcategorías adicionales para un análisis detallado, incluyendo alucinaciones de relación-objeto, temporales, de detalle semántico, extrínsecas factuales y extrínsecas no factuales. Adoptamos un método adversarial binario de VideoQA para una evaluación exhaustiva, donde se elaboran estratégicamente pares de preguntas básicas y alucinadas. Al evaluar once LVLMs en VideoHallucer, revelamos que i) la mayoría de los modelos actuales presentan problemas significativos con las alucinaciones; ii) aunque escalar conjuntos de datos y parámetros mejora la capacidad de los modelos para detectar señales visuales básicas y contrafactuales, ofrece un beneficio limitado para detectar alucinaciones extrínsecas factuales; iii) los modelos existentes son más hábiles para detectar hechos que para identificar alucinaciones. Como subproducto, estos análisis guían además el desarrollo de nuestro marco self-PEP, logrando una mejora promedio del 5.38% en la resistencia a alucinaciones en todas las arquitecturas de modelos.
El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) alinea los modelos de lenguaje de gran escala (LLMs) al incentivar que sus generaciones obtengan recompensas elevadas, utilizando un modelo de recompensa entrenado con preferencias humanas. Para evitar el olvido del conocimiento preentrenado, RLHF suele incorporar una regularización KL; esto obliga a la política a mantenerse cercana a su inicialización ajustada mediante supervisión, aunque limita la optimización de la recompensa. Para abordar el equilibrio entre KL y recompensa, en este artículo presentamos una novedosa estrategia de alineación denominada Políticas Recompensadas con Promedio de Pesos (WARP, por sus siglas en inglés). WARP combina políticas en el espacio de pesos en tres etapas distintas. Primero, utiliza el promedio móvil exponencial de la política como un ancla dinámica en la regularización KL. Segundo, aplica interpolación esférica para fusionar políticas ajustadas de manera independiente en una nueva política mejorada. Tercero, realiza una interpolación lineal entre este modelo fusionado y la inicialización, para recuperar características del preentrenamiento. Este procedimiento se aplica de manera iterativa, utilizando el modelo final de cada iteración como una inicialización avanzada para la siguiente, refinando progresivamente el frente de Pareto KL-recompensa y logrando recompensas superiores con un KL fijo. Experimentos con políticas GEMMA validan que WARP mejora su calidad y alineación, superando a otros LLMs de código abierto.
El interés en los modelos de complejidad lineal para los modelos de lenguaje grandes está en aumento, aunque su capacidad de escalabilidad sigue siendo incierta. En este estudio, presentamos las leyes de escalabilidad para los modelos de lenguaje de complejidad lineal con el fin de establecer una base para su escalabilidad. Específicamente, examinamos los comportamientos de escalabilidad de tres arquitecturas lineales eficientes. Estas incluyen TNL, un modelo de atención lineal con decaimiento independiente de los datos; HGRN2, una RNN lineal con decaimiento dependiente de los datos; y cosFormer2, un modelo de atención lineal sin decaimiento. También incluimos LLaMA como una arquitectura de referencia para la atención softmax con fines de comparación. Estos modelos se entrenaron con seis variantes, que van desde 70M hasta 7B de parámetros, en un corpus de 300B de tokens, y se evaluaron con un total de 1,376 puntos de control intermedios en diversas tareas posteriores. Estas tareas incluyen la pérdida de validación, el razonamiento de sentido común, y la recuperación y generación de información. El estudio revela que los modelos de lenguaje de complejidad lineal existentes exhiben capacidades de escalabilidad similares a los modelos convencionales basados en transformadores, al mismo tiempo que demuestran una competencia lingüística y retención de conocimientos superiores.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural y han ampliado su aplicabilidad en diversos usos comerciales. Sin embargo, el despliegue de estos modelos se ve limitado por los altos tiempos de inferencia en entornos multilingües. Para abordar este desafío, este artículo explora una estrategia de entrenamiento de un modelo asistente en decodificación especulativa, que se utiliza para generar borradores y luego verificar sus tokens futuros mediante el LLM objetivo. Demostramos que los modelos de borrador específicos para cada idioma, optimizados mediante una estrategia dirigida de preentrenamiento y ajuste fino, logran una aceleración significativa en el tiempo de inferencia en comparación con métodos anteriores. Validamos estos modelos en varios idiomas en términos de tiempo de inferencia, aceleración fuera de dominio y evaluación con GPT-4o.
El preentrenamiento continuo se ha convertido cada vez más en el enfoque predominante para adaptar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a nuevos dominios. Este proceso implica actualizar el LLM preentrenado con un corpus de un nuevo dominio, lo que resulta en un cambio en la distribución del entrenamiento. Para estudiar el comportamiento de los LLMs durante este cambio, medimos el rendimiento del modelo a lo largo del proceso de preentrenamiento continuo. Observamos una caída temporal en el rendimiento al principio, seguida de una fase de recuperación, un fenómeno conocido como la "brecha de estabilidad", previamente observado en modelos de visión al clasificar nuevas clases. Para abordar este problema y mejorar el rendimiento de los LLMs dentro de un presupuesto fijo de cómputo, proponemos tres estrategias efectivas: (1) Preentrenar continuamente el LLM en un subconjunto de tamaño adecuado durante múltiples épocas, lo que resulta en una recuperación más rápida del rendimiento en comparación con preentrenar el LLM en un corpus grande en una sola época; (2) Preentrenar el LLM solo en un subcorpus de alta calidad, lo que aumenta rápidamente el rendimiento en el dominio; y (3) Usar una mezcla de datos similar a los datos de preentrenamiento para reducir la brecha de distribución. Realizamos varios experimentos en modelos de la familia Llama para validar la efectividad de nuestras estrategias tanto en el preentrenamiento continuo médico como en el ajuste por instrucciones. Por ejemplo, nuestras estrategias mejoran el rendimiento promedio en tareas médicas del modelo OpenLlama-3B del 36.2% al 40.7% con solo el 40% del presupuesto original de entrenamiento y mejoran el rendimiento promedio en tareas generales sin causar olvido. Además, aplicamos nuestras estrategias al modelo Llama-3-8B. El modelo resultante, Llama-3-Physician, logra el mejor rendimiento médico entre los modelos de código abierto actuales y se desempeña de manera comparable o incluso mejor que GPT-4 en varios benchmarks médicos. Publicamos nuestros modelos en https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
La gestión eficiente de secuencias largas en Transformers autoregresivos, especialmente dentro de una ventana de contexto extendida, presenta desafíos significativos debido a la complejidad computacional cuadrática y los requisitos sustanciales de memoria KV inherentes a los mecanismos de autoatención. En este trabajo, presentamos SPARSEK Attention, un novedoso mecanismo de atención dispersa diseñado para superar estos obstáculos computacionales y de memoria mientras se mantiene el rendimiento. Nuestro enfoque integra una red de puntuación y un operador de máscara top-k diferenciable, SPARSEK, para seleccionar un número constante de pares KV para cada consulta, permitiendo así la optimización basada en gradientes. Como resultado, SPARSEK Attention ofrece una complejidad temporal lineal y un uso constante de memoria durante la generación. Los resultados experimentales revelan que SPARSEK Attention supera a los métodos de atención dispersa anteriores y proporciona mejoras significativas en velocidad tanto durante el entrenamiento como en la inferencia, particularmente en modelado de lenguaje y tareas posteriores. Además, nuestro método puede integrarse sin problemas en modelos de lenguaje preentrenados (LLMs) con un ajuste mínimo, ofreciendo una solución práctica para gestionar eficazmente dependencias de largo alcance en diversas aplicaciones.
Proponemos sondas de entropía semántica (SEPs, por sus siglas en inglés), un método económico y confiable para la cuantificación de incertidumbre en Modelos de Lenguaje de Gran Escala (LLMs). Las alucinaciones, que son generaciones del modelo que suenan plausibles pero son factualmente incorrectas y arbitrarias, representan un desafío importante para la adopción práctica de los LLMs. Trabajos recientes de Farquhar et al. (2024) proponen la entropía semántica (SE), que puede detectar alucinaciones al estimar la incertidumbre en el espacio de significado semántico para un conjunto de generaciones del modelo. Sin embargo, el aumento de 5 a 10 veces en el costo computacional asociado con el cálculo de SE dificulta su adopción práctica. Para abordar esto, proponemos SEPs, que aproximan directamente la SE a partir de los estados ocultos de una sola generación. Las SEPs son simples de entrenar y no requieren muestrear múltiples generaciones del modelo en tiempo de prueba, reduciendo la sobrecarga de la cuantificación de incertidumbre semántica a casi cero. Demostramos que las SEPs mantienen un alto rendimiento en la detección de alucinaciones y generalizan mejor a datos fuera de distribución que métodos anteriores de sondeo que predicen directamente la precisión del modelo. Nuestros resultados en diversos modelos y tareas sugieren que los estados ocultos del modelo capturan la SE, y nuestros estudios de ablación brindan más información sobre las posiciones de tokens y capas del modelo para las cuales esto ocurre.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se integran cada vez más en la vida cotidiana, existe una creciente demanda de interacciones en tiempo real que imiten las conversaciones humanas. Los sistemas de chat tradicionales basados en turnos, impulsados por LLMs, impiden que los usuarios interactúen verbalmente con el sistema mientras este genera respuestas. Para superar estas limitaciones, adaptamos los LLMs existentes a modelos dúplex, permitiendo que estos LLMs escuchen a los usuarios mientras generan salidas y se ajusten dinámicamente para proporcionar retroalimentación instantánea. Específicamente, dividimos las consultas y respuestas de las conversaciones en varios segmentos temporales y luego adoptamos una estrategia de codificación-decodificación por división de tiempo (TDM, por sus siglas en inglés) para procesar estos segmentos de manera pseudo-simultánea. Además, para que los LLMs sean lo suficientemente competentes para manejar conversaciones en tiempo real, construimos un conjunto de datos de ajuste fino que consiste en segmentos temporales alternos de consultas y respuestas, así como en la cobertura de tipos típicos de retroalimentación en interacciones instantáneas. Nuestros experimentos muestran que, aunque las consultas y respuestas de las conversaciones se segmentan en porciones incompletas para su procesamiento, los LLMs pueden preservar su rendimiento original en puntos de referencia estándar con unos pocos pasos de ajuste fino en nuestro conjunto de datos. Las evaluaciones automáticas y humanas indican que los modelos dúplex hacen que las interacciones usuario-IA sean más naturales y similares a las humanas, y mejoran significativamente la satisfacción del usuario en comparación con los LLMs convencionales. Nuestro modelo dúplex y el conjunto de datos serán publicados.
La desintoxicación de modelos de lenguaje grandes (LLMs) multilingües se ha vuelto crucial debido a su creciente uso global. En este trabajo, exploramos la generalización multilingüe en modo zero-shot de la optimización de preferencias para desintoxicar LLMs. A diferencia de estudios previos que muestran una generalización multilingüe limitada en otras tareas de seguridad, demostramos que el entrenamiento con Optimización Directa de Preferencias (DPO) utilizando únicamente datos en inglés puede reducir significativamente la toxicidad en generaciones abiertas multilingües. Por ejemplo, la probabilidad de que mGPT-1.3B genere continuaciones tóxicas disminuye del 46.8% al 3.9% en 17 idiomas diferentes después del entrenamiento. Nuestros resultados también se extienden a otros LLMs multilingües, como BLOOM, Llama3 y Aya-23. Utilizando herramientas de interpretabilidad mecanicista, como la intervención causal y el análisis de activaciones, identificamos la propiedad de dualidad multilingüe en las capas MLP de los LLMs, lo que explica la generalización multilingüe de DPO. Finalmente, mostramos que la recuperación de oraciones bilingües puede predecir la transferibilidad multilingüe de la optimización de preferencias con DPO.
Aunque los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son cada vez más potentes, aún presentan debilidades significativas aunque sutiles, como errores en la ejecución de instrucciones o en tareas de programación. Dado que estos errores inesperados podrían tener consecuencias graves en implementaciones prácticas, es crucial investigar de manera sistemática las limitaciones de los LLMs. Los enfoques tradicionales de evaluación no pueden identificar exhaustivamente deficiencias específicas en los modelos, mientras que las inspecciones manuales son costosas y no escalables. En este artículo, presentamos un marco unificado, AutoDetect, para exponer automáticamente las debilidades de los LLMs en diversas tareas. Inspirado en el proceso de evaluación educativa que mide los resultados de aprendizaje de los estudiantes, AutoDetect consta de tres agentes impulsados por LLMs: Examinador, Cuestionador y Evaluador. La colaboración entre estos tres agentes está diseñada para lograr una identificación exhaustiva y profunda de las debilidades. Nuestro marco demuestra un éxito significativo en la detección de fallos, con una tasa de identificación superior al 30% en modelos destacados como ChatGPT y Claude. Más importante aún, estas debilidades identificadas pueden guiar mejoras específicas en los modelos, demostrando ser más efectivas que métodos de aumento de datos no dirigidos como Self-Instruct. Nuestro enfoque ha llevado a mejoras sustanciales en LLMs populares, incluyendo la serie Llama y Mistral-7b, aumentando su rendimiento en más de un 10% en varios benchmarks. El código y los datos están disponibles públicamente en https://github.com/thu-coai/AutoDetect.
A pesar de su uso generalizado, los mecanismos mediante los cuales los modelos de lenguaje de gran escala (LLMs) representan y regulan la incertidumbre en las predicciones del siguiente token siguen siendo en gran parte desconocidos. Este estudio investiga dos componentes críticos que se cree influyen en esta incertidumbre: las neuronas de entropía, descubiertas recientemente, y un nuevo conjunto de componentes que denominamos neuronas de frecuencia de token. Las neuronas de entropía se caracterizan por una norma de peso inusualmente alta e influyen en la escala de normalización de la capa final (LayerNorm) para reducir efectivamente los logits. Nuestro trabajo demuestra que las neuronas de entropía operan escribiendo en un espacio nulo de desincrustación, lo que les permite afectar la norma del flujo residual con un efecto directo mínimo en los logits mismos. Observamos la presencia de neuronas de entropía en una variedad de modelos, de hasta 7 mil millones de parámetros. Por otro lado, las neuronas de frecuencia de token, que descubrimos y describimos aquí por primera vez, aumentan o suprimen el logit de cada token proporcionalmente a su frecuencia logarítmica, desplazando así la distribución de salida hacia o lejos de la distribución unigrama. Finalmente, presentamos un estudio de caso detallado donde las neuronas de entropía gestionan activamente la confianza en el contexto de la inducción, es decir, detectando y continuando subsecuencias repetidas.
¿Qué hace que un modelo de lenguaje grande (LLM, por sus siglas en inglés) sea bueno? Que tenga un buen desempeño en los benchmarks relevantes, los cuales, idealmente, miden con cierta validez la presencia de capacidades que también se ponen a prueba en aplicaciones reales. Pero, ¿qué hace que el modelo tenga un buen desempeño? ¿Qué le otorga a un modelo sus habilidades? Tomamos un tipo de benchmark introducido recientemente que está diseñado para desafiar capacidades en un contexto dirigido a objetivos y agentivo a través del autojuego de juegos conversacionales, y analizamos cómo se desarrolla el desempeño en función de características del modelo, como el número de parámetros o el tipo de entrenamiento. Encontramos que, si bien existe una relación clara entre el número de parámetros y el desempeño, todavía hay una amplia dispersión de puntos de desempeño dentro de un rango de tamaño determinado, lo cual puede explicarse por parámetros de entrenamiento como la calidad y el método de los datos de fine-tuning. Desde un ángulo más práctico, también encontramos cierto grado de impredecibilidad en el desempeño entre diferentes métodos de acceso, posiblemente debido a parámetros de muestreo no expuestos, y una estabilidad de desempeño, muy bienvenida, frente a una cuantización moderada de los pesos durante la inferencia.
La síntesis de prendas 3D de alta fidelidad a partir de texto es deseable pero desafiante para la creación de avatares digitales. Los enfoques recientes basados en difusión mediante Muestreo de Destilación de Puntuación (SDS) han habilitado nuevas posibilidades, pero o bien se acoplan intrincadamente con el cuerpo humano o luchan por ser reutilizados. Presentamos ClotheDreamer, un método basado en Gaussianas 3D para generar activos de prendas 3D listos para producción a partir de indicaciones de texto. Proponemos una nueva representación llamada Disentangled Clothe Gaussian Splatting (DCGS) para permitir una optimización separada. DCGS representa un avatar vestido como un modelo Gaussiano, pero congela las splats Gaussianas del cuerpo. Para mejorar la calidad y la completitud, incorporamos SDS bidireccional para supervisar el avatar vestido y las representaciones RGBD de la prenda respectivamente, con condiciones de pose, y proponemos una nueva estrategia de poda para prendas sueltas. Nuestro enfoque también puede admitir plantillas de ropa personalizadas como entrada. Gracias a nuestro diseño, la prenda 3D sintética puede aplicarse fácilmente a pruebas virtuales y soportar animaciones físicamente precisas. Experimentos extensos demuestran el rendimiento superior y competitivo de nuestro método. Nuestra página del proyecto está en https://ggxxii.github.io/clothedreamer.
Los modelos de lenguaje de gran escala (LLMs), incluso cuando están específicamente entrenados para procesar contextos de entrada largos, tienen dificultades para capturar información relevante ubicada en el medio de su entrada. Este fenómeno se ha conocido como el problema de "perdido en el medio". En este trabajo, realizamos tres contribuciones. Primero, nos proponemos entender los factores que causan este fenómeno. Al hacerlo, establecemos una conexión entre el problema de "perdido en el medio" y el sesgo de atención intrínseco de los LLMs: los LLMs exhiben un sesgo de atención en forma de U, donde los tokens al principio y al final de su entrada reciben mayor atención, independientemente de su relevancia. Segundo, mitigamos este sesgo posicional a través de un mecanismo de calibración, llamado "encontrado en el medio", que permite al modelo atender a los contextos de manera fiel según su relevancia, incluso cuando están en el medio. Tercero, demostramos que "encontrado en el medio" no solo logra un mejor rendimiento en la localización de información relevante dentro de un contexto largo, sino que también conduce a una mejora en el rendimiento de la generación aumentada por recuperación (RAG) en diversas tareas, superando a los métodos existentes hasta en 15 puntos porcentuales. Estos hallazgos abren futuras direcciones para comprender el sesgo de atención en los LLMs y sus posibles consecuencias.
El aprendizaje escalable de robots en el mundo real se ve limitado por los costos y los problemas de seguridad asociados a los robots físicos. Además, la ejecución de trayectorias de robots en el mundo real puede ser un proceso lento y que requiere mucho esfuerzo. En este artículo, proponemos aprender un simulador interactivo de acciones de robots reales como alternativa. Introducimos un método novedoso, IRASim, que aprovecha el poder de los modelos generativos para producir videos extremadamente realistas de un brazo robótico que ejecuta una trayectoria de acción dada, comenzando desde un fotograma inicial proporcionado. Para validar la efectividad de nuestro método, creamos un nuevo punto de referencia, el IRASim Benchmark, basado en tres conjuntos de datos de robots reales, y realizamos experimentos exhaustivos en este punto de referencia. Los resultados muestran que IRASim supera a todos los métodos de referencia y es más preferido en evaluaciones humanas. Esperamos que IRASim pueda servir como un enfoque efectivo y escalable para mejorar el aprendizaje de robots en el mundo real. Para fomentar la investigación en simuladores generativos de acciones de robots reales, hemos liberado el código, el punto de referencia y los puntos de control en https://gen-irasim.github.io.
La comprensión del habla como un elemento de la comprensión de video más genérica utilizando modelos de lenguaje grande audio-visuales (av-LLMs) es un aspecto crucial pero poco estudiado. Este artículo propone video-SALMONN, un av-LLM único de extremo a extremo para el procesamiento de video, que puede comprender no solo secuencias de fotogramas visuales, eventos de audio y música, sino también el habla. Para obtener la información temporal detallada requerida por la comprensión del habla, manteniendo la eficiencia para otros elementos del video, este artículo propone una novedosa estructura de Q-Former causal de múltiples resoluciones (MRC Q-Former) para conectar codificadores audio-visuales preentrenados y el modelo de lenguaje grande principal. Además, se proponen enfoques de entrenamiento dedicados, incluyendo la pérdida de diversidad y el esquema de entrenamiento mixto audio-visual no emparejado, para evitar el dominio de fotogramas o modalidades. En el benchmark de evaluación audio-visual con habla introducido, video-SALMONN logra mejoras de más del 25% en precisión absoluta en la tarea de preguntas y respuestas sobre video (video-QA) y más del 30% en precisión absoluta en tareas de preguntas y respuestas audio-visuales con habla humana. Además, video-SALMONN demuestra habilidades notables de comprensión y razonamiento de video en tareas que no tienen precedentes en otros av-LLMs. Nuestro código de entrenamiento y puntos de control del modelo están disponibles en \url{https://github.com/bytedance/SALMONN/}.
A pesar de los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), su rendimiento en tareas que involucran contextos largos sigue siendo subóptimo. El Aprendizaje en Contexto (ICL, por sus siglas en inglés) con ejemplos de pocas muestras podría ser una solución atractiva para mejorar el rendimiento de los LLMs en este escenario; sin embargo, agregar ejemplos de ICL con contextos largos de manera ingenua introduce desafíos, incluyendo un sobrecosto sustancial de tokens añadidos por cada ejemplo de pocas muestras y una falta de coincidencia entre las demostraciones y la consulta objetivo. En este trabajo, proponemos generar automáticamente ejemplos de pocas muestras para tareas de preguntas y respuestas (QA) con contextos largos mediante el reciclaje de contextos. Específicamente, dado un contexto de entrada largo (1-3k tokens) y una consulta, generamos pares adicionales de consulta-respuesta a partir del contexto proporcionado como ejemplos de pocas muestras, mientras introducimos el contexto solo una vez. Esto asegura que las demostraciones aprovechen el mismo contexto que la consulta objetivo, mientras se añade solo un pequeño número de tokens al prompt. Además, mejoramos cada demostración instruyendo al modelo para identificar explícitamente los párrafos relevantes antes de la respuesta, lo que mejora el rendimiento al proporcionar una atribución detallada de la fuente de la respuesta. Aplicamos nuestro método en múltiples LLMs y obtenemos mejoras sustanciales (+23\% en promedio entre los modelos) en varios conjuntos de datos de QA con contextos largos, especialmente cuando la respuesta se encuentra en la mitad del contexto. Sorprendentemente, a pesar de introducir solo ejemplos de ICL de un solo salto, los LLMs también generalizan con éxito a QA de contextos largos de múltiples saltos utilizando nuestro enfoque.
El muestreo por destilación de puntuaciones ha sido fundamental para integrar modelos de difusión en la generación de visuales complejos. A pesar de los resultados impresionantes, sufre de colapso modal y falta de diversidad. Para abordar este desafío, aprovechamos la interpretación del flujo de gradiente de la destilación de puntuaciones para proponer la Destilación de Puntuación Repulsiva (RSD). En particular, proponemos un marco variacional basado en la repulsión de un conjunto de partículas que promueve la diversidad. Utilizando una aproximación variacional que incorpora un acoplamiento entre partículas, la repulsión aparece como una regularización simple que permite la interacción de partículas basada en su similitud relativa por pares, medida, por ejemplo, mediante núcleos de base radial. Diseñamos RSD tanto para escenarios de muestreo sin restricciones como con restricciones. Para el muestreo con restricciones, nos enfocamos en problemas inversos en el espacio latente que conducen a una formulación variacional aumentada, que logra un buen equilibrio entre el cómputo, la calidad y la diversidad. Nuestros extensos experimentos en generación de texto a imagen y problemas inversos demuestran que RSD alcanza un equilibrio superior entre diversidad y calidad en comparación con alternativas de vanguardia.
En este informe, planteamos la siguiente pregunta: ¿Cuál es el modelo de IA más inteligente hasta la fecha, medido por OlympicArena (un punto de referencia olímpico, multidisciplinario y multimodal para IA superinteligente)? Nos enfocamos específicamente en los modelos más recientemente lanzados: Claude-3.5-Sonnet, Gemini-1.5-Pro y GPT-4o. Por primera vez, proponemos utilizar un enfoque de Tabla de Medallas Olímpicas para clasificar los modelos de IA según su desempeño integral en diversas disciplinas. Los resultados empíricos revelan: (1) Claude-3.5-Sonnet muestra un desempeño general altamente competitivo en comparación con GPT-4o, incluso superando a GPT-4o en algunas materias (es decir, Física, Química y Biología). (2) Gemini-1.5-Pro y GPT-4V se clasifican consecutivamente justo detrás de GPT-4o y Claude-3.5-Sonnet, pero con una clara brecha de desempeño entre ellos. (3) El desempeño de los modelos de IA de la comunidad de código abierto se queda significativamente rezagado en comparación con estos modelos propietarios. (4) El desempeño de estos modelos en este punto de referencia ha sido menos que satisfactorio, lo que indica que todavía tenemos un largo camino por recorrer antes de alcanzar la superinteligencia. Seguimos comprometidos a rastrear y evaluar continuamente el desempeño de los modelos más potentes en este punto de referencia (disponible en https://github.com/GAIR-NLP/OlympicArena).