Artículos de investigación en IA seleccionados diariamente con traducciones
El Transformer tiende a asignar demasiada atención a contextos irrelevantes. En este trabajo, presentamos el Diferencial Transformer, que amplifica la atención al contexto relevante mientras cancela el ruido. Específicamente, el mecanismo de atención diferencial calcula puntuaciones de atención como la diferencia entre dos mapas de atención softmax separados. La resta cancela el ruido, promoviendo la aparición de patrones de atención dispersos. Los resultados experimentales en modelado de lenguaje muestran que el Diferencial Transformer supera al Transformer en varios ajustes de aumento del tamaño del modelo y tokens de entrenamiento. Más intrigantemente, ofrece ventajas notables en aplicaciones prácticas, como modelado de largo contexto, recuperación de información clave, mitigación de alucinaciones, aprendizaje en contexto y reducción de valores atípicos de activación. Al estar menos distraído por el contexto irrelevante, el Diferencial Transformer puede mitigar la alucinación en la respuesta a preguntas y en la sumarización de textos. Para el aprendizaje en contexto, el Diferencial Transformer no solo mejora la precisión, sino que también es más robusto a la permutación de órdenes, que se consideraba un problema crónico de robustez. Los resultados sitúan al Diferencial Transformer como una arquitectura altamente efectiva y prometedora para avanzar en modelos de lenguaje grandes.
Este documento presenta un marco avanzado de resolución de problemas matemáticos, LLaMA-Berry, para mejorar la capacidad de razonamiento matemático de Modelos de Lenguaje Grandes (LLMs). El marco combina la Búsqueda de Árbol de Monte Carlo (MCTS) con Auto-Refinamiento Iterativo para optimizar el camino de razonamiento y utiliza un modelo de recompensa por pares para evaluar diferentes caminos de manera global. Al aprovechar las capacidades de auto-crítica y reescritura de los LLMs, el Auto-Refinamiento aplicado a MCTS (SR-MCTS) supera las ineficiencias y limitaciones de los algoritmos de búsqueda convencionales paso a paso y ávidos al fomentar una exploración más eficiente de los espacios de solución. El Modelo de Recompensa de Preferencia por Pares (PPRM), inspirado en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), se utiliza luego para modelar las preferencias por pares entre soluciones, utilizando un método de Recuento de Borda Mejorado (EBC) para sintetizar estas preferencias en una puntuación de clasificación global para encontrar respuestas mejores. Este enfoque aborda los desafíos de variabilidad en la puntuación y distribuciones no independientes en tareas de razonamiento matemático. El marco ha sido probado en bancos de pruebas generales y avanzados, mostrando un rendimiento superior en términos de eficiencia de búsqueda y capacidad de resolución de problemas en comparación con métodos existentes como ToT y rStar, especialmente en bancos de pruebas de nivel olímpico complejos, incluidos GPQA, AIME24 y AMC23.
Los modelos de lenguaje grandes (LLMs) a menudo producen errores, incluyendo inexactitudes factuales, sesgos y fallos de razonamiento, colectivamente referidos como "alucinaciones". Estudios recientes han demostrado que los estados internos de los LLMs codifican información sobre la veracidad de sus salidas, y que esta información puede ser utilizada para detectar errores. En este trabajo, mostramos que las representaciones internas de los LLMs codifican mucha más información sobre la veracidad de lo reconocido previamente. En primer lugar, descubrimos que la información de veracidad se concentra en tokens específicos, y aprovechar esta propiedad mejora significativamente el rendimiento en la detección de errores. Sin embargo, demostramos que tales detectores de errores no generalizan entre conjuntos de datos, lo que implica que --contrario a afirmaciones anteriores-- la codificación de veracidad no es universal, sino más bien multifacética. A continuación, mostramos que las representaciones internas también pueden ser utilizadas para predecir los tipos de errores que es probable que cometa el modelo, facilitando el desarrollo de estrategias de mitigación personalizadas. Por último, revelamos una discrepancia entre la codificación interna de los LLMs y su comportamiento externo: pueden codificar la respuesta correcta, pero generar consistentemente una incorrecta. En conjunto, estos conocimientos profundizan nuestra comprensión de los errores de los LLMs desde la perspectiva interna del modelo, lo que puede orientar futuras investigaciones sobre la mejora del análisis y la mitigación de errores.
Los modelos de difusión texto-a-imagen (T2I) han revolucionado la creación de contenido visual, pero extender estas capacidades a la generación de texto-a-video (T2V) sigue siendo un desafío, especialmente en la preservación de la consistencia temporal. Los métodos existentes que buscan mejorar la consistencia a menudo generan compensaciones como una calidad de imagen reducida y un tiempo computacional poco práctico. Para abordar estos problemas, presentamos VideoGuide, un marco novedoso que mejora la consistencia temporal de los modelos T2V preentrenados sin necesidad de entrenamiento adicional o ajuste fino. En lugar de eso, VideoGuide aprovecha cualquier modelo de difusión de video preentrenado (VDM) o a sí mismo como guía durante las primeras etapas de inferencia, mejorando la calidad temporal mediante la interpolación de las muestras denoiseadas del modelo guía en el proceso de denoising del modelo de muestreo. El método propuesto aporta una mejora significativa en la consistencia temporal y la fidelidad de la imagen, ofreciendo una solución rentable y práctica que potencia las fortalezas de varios modelos de difusión de video. Además, demostramos la destilación previa, revelando que los modelos base pueden lograr una coherencia de texto mejorada al utilizar el conocimiento previo de datos superior del modelo guía a través del método propuesto. Página del Proyecto: http://videoguide2025.github.io/
A pesar del notable éxito logrado por las redes neuronales, especialmente aquellas representadas por MLP y Transformer, revelamos que presentan posibles fallos en la modelización y razonamiento de la periodicidad, es decir, tienden a memorizar los datos periódicos en lugar de comprender genuinamente los principios subyacentes de la periodicidad. Sin embargo, la periodicidad es una característica crucial en diversas formas de razonamiento y generalización, sustentando la previsibilidad en sistemas naturales y artificiales a través de patrones recurrentes en observaciones. En este artículo, proponemos FAN, una arquitectura de red novedosa basada en Análisis de Fourier, que potencia la capacidad de modelar y razonar eficientemente sobre fenómenos periódicos. Al introducir Series de Fourier, la periodicidad se integra de forma natural en la estructura y procesos computacionales de la red neuronal, logrando así una expresión y predicción más precisa de patrones periódicos. Como un sustituto prometedor para el perceptrón multicapa (MLP), FAN puede reemplazar MLP de manera fluida en diversos modelos con menos parámetros y FLOPs. A través de experimentos extensos, demostramos la efectividad de FAN en la modelización y razonamiento sobre funciones periódicas, así como la superioridad y generalizabilidad de FAN en una variedad de tareas del mundo real, incluyendo la representación de fórmulas simbólicas, la predicción de series temporales y el modelado de lenguaje.
Los avances recientes en Modelos de Lenguaje de Gran Tamaño (LLMs) han despertado interés en sus capacidades formales de razonamiento, especialmente en matemáticas. El banco de pruebas GSM8K se utiliza ampliamente para evaluar el razonamiento matemático de los modelos en preguntas de nivel escolar. Aunque el rendimiento de los LLMs en GSM8K ha mejorado significativamente en los últimos años, sigue sin estar claro si sus capacidades de razonamiento matemático han avanzado genuinamente, lo que plantea dudas sobre la fiabilidad de las métricas informadas. Para abordar estas preocupaciones, realizamos un estudio a gran escala sobre varios modelos abiertos y cerrados de última generación. Para superar las limitaciones de las evaluaciones existentes, presentamos GSM-Simbólico, un banco de pruebas mejorado creado a partir de plantillas simbólicas que permiten la generación de un conjunto diverso de preguntas. GSM-Simbólico permite evaluaciones más controlables, proporcionando ideas clave y métricas más fiables para medir las capacidades de razonamiento de los modelos. Nuestros hallazgos revelan que los LLMs muestran una variabilidad notable al responder a diferentes instanciaciones de la misma pregunta. Específicamente, el rendimiento de todos los modelos disminuye cuando solo se alteran los valores numéricos en la pregunta en el banco de pruebas GSM-Simbólico. Además, investigamos la fragilidad del razonamiento matemático en estos modelos y demostramos que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas en una pregunta. Planteamos la hipótesis de que este declive se debe a que los LLMs actuales no pueden realizar un razonamiento lógico genuino; replican pasos de razonamiento de sus datos de entrenamiento. Agregar una sola cláusula que parezca relevante a la pregunta provoca caídas significativas en el rendimiento (de hasta un 65%) en todos los modelos de última generación, aunque la cláusula no contribuya a la cadena de razonamiento necesaria para la respuesta final. En general, nuestro trabajo ofrece una comprensión más matizada de las capacidades y limitaciones de los LLMs en el razonamiento matemático.
Los avances de los modelos de lenguaje (LLMs, por sus siglas en inglés) han despertado un creciente interés en el desarrollo de agentes de lenguaje basados en LLM para automatizar el descubrimiento científico de principio a fin, lo cual ha generado tanto entusiasmo como escepticismo sobre las verdaderas capacidades de dichos agentes. En este trabajo, argumentamos que para que un agente automatice completamente el descubrimiento científico, debe ser capaz de completar todas las tareas esenciales en el flujo de trabajo. Por lo tanto, abogamos por una evaluación rigurosa de los agentes en tareas individuales en un flujo de trabajo científico antes de hacer afirmaciones audaces sobre la automatización de extremo a extremo. Con este fin, presentamos ScienceAgentBench, un nuevo banco de pruebas para evaluar agentes de lenguaje para el descubrimiento científico basado en datos. Para garantizar la autenticidad científica y la relevancia del mundo real de nuestro banco de pruebas, extraemos 102 tareas de 44 publicaciones revisadas por pares en cuatro disciplinas y contamos con la validación de nueve expertos en la materia. Unificamos la salida objetivo para cada tarea en un archivo de programa Python autocontenido y empleamos una serie de métricas de evaluación para examinar los programas generados, los resultados de ejecución y los costos. Cada tarea pasa por múltiples rondas de validación manual por parte de anotadores y expertos en la materia para garantizar la calidad de la anotación y la plausibilidad científica. También proponemos dos estrategias efectivas para mitigar las preocupaciones de contaminación de datos. Utilizando nuestro banco de pruebas, evaluamos cinco LLMs de peso abierto y propietarios, cada uno con tres marcos: solicitud directa, OpenHands y autodepuración. Dadas tres intentos para cada tarea, el agente de mejor rendimiento solo puede resolver el 32.4% de las tareas de forma independiente y el 34.3% con conocimiento proporcionado por expertos. Estos resultados subrayan las capacidades limitadas de los actuales agentes de lenguaje en la generación de código para el descubrimiento basado en datos, y mucho menos para la automatización de extremo a extremo en la investigación científica.
Los modelos de lenguaje multimodales grandes (MLLMs) están transformando las capacidades de los agentes de interfaz gráfica de usuario (GUI), facilitando su transición desde simulaciones controladas hasta aplicaciones complejas del mundo real en diversas plataformas. Sin embargo, la efectividad de estos agentes depende de la solidez de su capacidad de fundamentación. Los agentes de GUI actuales utilizan predominantemente representaciones basadas en texto como HTML o árboles de accesibilidad, que, a pesar de su utilidad, a menudo introducen ruido, incompletitud y una mayor carga computacional. En este documento abogamos por una encarnación similar a la humana para los agentes de GUI que perciben el entorno de manera totalmente visual y realizan operaciones a nivel de píxel directamente en la GUI. La clave son los modelos de fundamentación visual que pueden mapear con precisión diversas expresiones de referencia de elementos de GUI a sus coordenadas en la GUI en diferentes plataformas. Mostramos que una receta simple, que incluye datos sintéticos basados en web y una ligera adaptación de la arquitectura LLaVA, es sorprendentemente efectiva para entrenar dichos modelos de fundamentación visual. Recopilamos el conjunto de datos más grande hasta ahora para la fundamentación visual de GUI, que contiene 10 millones de elementos de GUI y sus expresiones de referencia en más de 1.3 millones de capturas de pantalla, y lo utilizamos para entrenar UGround, un sólido modelo universal de fundamentación visual para agentes de GUI. Los resultados empíricos en seis pruebas que abarcan tres categorías (fundamentación, agente sin conexión y agente en línea) muestran que 1) UGround supera sustancialmente a los modelos de fundamentación visual existentes para agentes de GUI, hasta un 20% absoluto, y 2) los agentes con UGround superan a los agentes de vanguardia, a pesar de que los agentes existentes utilizan entradas adicionales basadas en texto mientras que el nuestro solo utiliza percepción visual. Estos resultados brindan un sólido respaldo a la viabilidad y promesas de los agentes de GUI que navegan el mundo digital como lo hacen los humanos.
Presentamos UniMuMo, un modelo multimodal unificado capaz de tomar datos de texto, música y movimiento arbitrarios como condiciones de entrada para generar resultados en las tres modalidades. Para abordar la falta de datos sincronizados en el tiempo, alineamos datos de música y movimiento no emparejados basándonos en patrones rítmicos para aprovechar conjuntos de datos existentes a gran escala de solo música y solo movimiento. Al convertir música, movimiento y texto en una representación basada en tokens, nuestro modelo conecta estas modalidades a través de una arquitectura de transformador codificador-decodificador unificada. Para admitir múltiples tareas de generación dentro de un solo marco, introducimos varias mejoras arquitectónicas. Proponemos codificar el movimiento con un libro de códigos de música, mapeando el movimiento en el mismo espacio de características que la música. Introducimos un esquema de generación paralela música-movimiento que unifica todas las tareas de generación de música y movimiento en una sola arquitectura de decodificador de transformador con una única tarea de entrenamiento de generación conjunta música-movimiento. Además, el modelo está diseñado mediante el ajuste fino de modelos pre-entrenados de una sola modalidad, reduciendo significativamente las demandas computacionales. Experimentos extensos demuestran que UniMuMo logra resultados competitivos en todos los puntos de referencia de generación unidireccional en las modalidades de música, movimiento y texto. Los resultados cuantitativos están disponibles en la página del proyecto: https://hanyangclarence.github.io/unimumo_demo/.
La estimación de la geometría a partir de escenas dinámicas, donde los objetos se mueven y deforman con el tiempo, sigue siendo un desafío fundamental en visión por computadora. Los enfoques actuales a menudo dependen de tuberías de múltiples etapas u optimizaciones globales que descomponen el problema en subtareas, como profundidad y flujo, lo que conduce a sistemas complejos propensos a errores. En este artículo, presentamos Motion DUSt3R (MonST3R), un enfoque novedoso centrado en la geometría que estima directamente la geometría por paso de tiempo en escenas dinámicas. Nuestra idea clave es que al estimar simplemente un mapa de puntos para cada paso de tiempo, podemos adaptar de manera efectiva la representación de DUST3R, utilizada anteriormente solo para escenas estáticas, a escenas dinámicas. Sin embargo, este enfoque presenta un desafío significativo: la escasez de datos de entrenamiento adecuados, es decir, videos dinámicos posados con etiquetas de profundidad. A pesar de esto, demostramos que al plantear el problema como una tarea de ajuste fino, identificar varios conjuntos de datos adecuados y entrenar estratégicamente el modelo con estos datos limitados, podemos habilitar sorprendentemente al modelo para manejar la dinámica, incluso sin una representación explícita del movimiento. Basándonos en esto, introducimos nuevas optimizaciones para varias tareas específicas de video y demostramos un rendimiento sólido en la estimación de profundidad de video y pose de cámara, superando el trabajo previo en términos de robustez y eficiencia. Además, MonST3R muestra resultados prometedores para la reconstrucción principalmente de 4D de avance directo.
A pesar de los avances en los métodos de texto a música (TTM) basados en difusión, la generación eficiente y de alta calidad sigue siendo un desafío. Presentamos Presto!, un enfoque para acelerar la inferencia en transformadores de difusión basados en partituras mediante la reducción tanto de pasos de muestreo como del costo por paso. Para reducir los pasos, desarrollamos un nuevo método de destilación de coincidencia de distribución basado en partituras (DMD) para la familia de modelos de difusión EDM, el primer método de destilación basado en GAN para TTM. Para reducir el costo por paso, desarrollamos una mejora simple pero potente a un reciente método de destilación de capas que mejora el aprendizaje al preservar mejor la varianza del estado oculto. Finalmente, combinamos nuestros métodos de destilación de pasos y capas para un enfoque dual. Evaluamos nuestros métodos de destilación de pasos y capas de forma independiente y demostramos que cada uno produce un rendimiento de primera clase. Nuestro método de destilación combinado puede generar salidas de alta calidad con una diversidad mejorada, acelerando nuestro modelo base de 10 a 18 veces (latencia de 230/435 ms para 32 segundos mono/estéreo a 44.1 kHz, 15 veces más rápido que el estado del arte comparable) -- el TTM de alta calidad más rápido que conocemos. Ejemplos de sonido se pueden encontrar en https://presto-music.github.io/web/.
Este informe técnico presenta un Referente de Reconocimiento de Entidades Clínicas Nombradas para evaluar modelos de lenguaje en el ámbito de la salud, abordando la crucial tarea de procesamiento del lenguaje natural (PLN) de extraer información estructurada de narrativas clínicas para respaldar aplicaciones como codificación automatizada, identificación de cohortes para ensayos clínicos y soporte a decisiones clínicas. El tablero de líderes proporciona una plataforma estandarizada para evaluar diversos modelos de lenguaje, incluidas arquitecturas codificadoras y decodificadoras, en su capacidad para identificar y clasificar entidades clínicas en múltiples dominios médicos. Se utiliza una colección seleccionada de conjuntos de datos clínicos disponibles públicamente, abarcando entidades como enfermedades, síntomas, medicamentos, procedimientos y mediciones de laboratorio. Es importante destacar que estas entidades se estandarizan de acuerdo con el Modelo de Datos Comunes de la Asociación de Resultados Médicos Observacionales (OMOP), garantizando consistencia e interoperabilidad entre diferentes sistemas y conjuntos de datos de atención médica, y una evaluación exhaustiva del rendimiento del modelo. El rendimiento de los modelos se evalúa principalmente utilizando la puntuación F1, complementada por varios modos de evaluación para proporcionar percepciones completas sobre el rendimiento del modelo. El informe también incluye un breve análisis de los modelos evaluados hasta la fecha, destacando tendencias y limitaciones observadas. Al establecer este marco de referencia para la evaluación, el tablero de líderes tiene como objetivo promover la transparencia, facilitar análisis comparativos y fomentar la innovación en tareas de reconocimiento de entidades clínicas, abordando la necesidad de métodos de evaluación sólidos en el PLN de la salud.
Aunque los modelos de recompensa han tenido éxito en mejorar los modelos de lenguaje multimodales a gran escala, los propios modelos de recompensa siguen siendo rudimentarios y contienen información mínima. Es importante destacar que los modelos de recompensa existentes solo imitan las anotaciones humanas asignando solo un feedback binario a cualquier texto, sin importar su longitud. En el ámbito de los modelos de lenguaje multimodales, donde se requiere que los modelos procesen tanto imágenes como textos, un modelo de recompensa ingenuo puede aprender sesgos implícitos hacia los textos y volverse menos fundamentado en las imágenes. En este documento, proponemos un Modelo de Recompensa Detectivo a Nivel de Token (TLDR, por sus siglas en inglés) para proporcionar anotaciones detalladas a cada token de texto. Primero introducimos un método basado en perturbaciones para generar negativos sintéticos difíciles y sus etiquetas a nivel de token para entrenar los modelos TLDR. Luego mostramos la gran utilidad de los modelos TLDR tanto para ayudar a los modelos listos para usar a corregir sus generaciones, como para servir como una herramienta de evaluación de alucinaciones. Finalmente, demostramos que los modelos TLDR pueden acelerar significativamente la anotación humana en 3 veces para adquirir un rango más amplio de datos de lenguaje visual de alta calidad.
Los modelos de lenguaje de gran escala (LLMs) recientes han demostrado capacidades versátiles en escenarios de largo contexto. Aunque se han desarrollado algunos benchmarks recientes para evaluar las capacidades de largo contexto de los LLMs, hay una falta de benchmarks que evalúen las habilidades de razonamiento matemático de los LLMs sobre contextos largos, lo cual es crucial para la aplicación de los LLMs en escenarios del mundo real. En este artículo, presentamos MathHay, un benchmark automatizado diseñado para evaluar las capacidades de razonamiento matemático de largo contexto de los LLMs. A diferencia de benchmarks anteriores como Needle in a Haystack, que se centran principalmente en la recuperación de información dentro de textos largos, MathHay requiere modelos con habilidades tanto de búsqueda de información como de razonamiento matemático complejo. Realizamos experimentos extensos en MathHay para evaluar las habilidades de razonamiento matemático de largo contexto de ocho LLMs con mejor rendimiento. Incluso el modelo de mejor rendimiento, Gemini-1.5-Pro-002, aún tiene dificultades con el razonamiento matemático sobre contextos largos, logrando solo un 51.26% de precisión en 128K tokens. Esto resalta el considerable margen de mejora en el benchmark MathHay.
A medida que la aplicación de Modelos de Lenguaje Grandes (MLGs) se expande, la demanda de evaluaciones confiables aumenta. Los bancos de pruebas existentes para evaluar MLGs se basan principalmente en conjuntos de datos estáticos, lo que dificulta evaluar el rendimiento del modelo en interacciones dinámicas con los usuarios. Además, estos bancos de pruebas a menudo dependen de conocimientos específicos, lo que complica la medición de las capacidades de razonamiento lógico de un modelo. Otros métodos de evaluación dinámica basados en modelos sólidos o esfuerzos manuales pueden introducir sesgos y conllevar altos costos y demandas de tiempo, dificultando su aplicación a gran escala. Para abordar estos problemas, proponemos TurtleBench. TurtleBench recopila suposiciones reales de usuarios de nuestra plataforma en línea Turtle Soup Puzzle que desarrollamos. Este enfoque permite la generación relativamente dinámica de conjuntos de datos de evaluación, mitigando el riesgo de trampas del modelo y alineando las evaluaciones de manera más cercana a las necesidades genuinas de los usuarios en cuanto a capacidades de razonamiento, mejorando así la fiabilidad de las evaluaciones. TurtleBench incluye 1,532 suposiciones de usuarios junto con la corrección de las suposiciones después de la anotación. Utilizando este conjunto de datos, evaluamos a fondo nueve de los MLGs más avanzados disponibles hoy en día. Es notable que los modelos de la serie o1 de OpenAI no lograron resultados líderes en estas evaluaciones. Proponemos varias hipótesis para investigaciones futuras, como "el razonamiento latente de o1 utiliza técnicas triviales de Cadena de Pensamiento (CoT)" y "aumentar la longitud de CoT no solo proporciona beneficios de razonamiento, sino que también conlleva costos de ruido".
Presentamos OmniBooth, un marco de generación de imágenes que permite control espacial con personalización multimodal a nivel de instancia. Para todas las instancias, la instrucción multimodal se puede describir a través de indicaciones de texto o referencias de imágenes. Dado un conjunto de máscaras definidas por el usuario y orientación de texto o imagen asociada, nuestro objetivo es generar una imagen donde múltiples objetos estén posicionados en coordenadas especificadas y sus atributos estén alineados de manera precisa con la orientación correspondiente. Este enfoque amplía significativamente el alcance de la generación de texto a imagen, elevándolo a una dimensión más versátil y práctica en términos de controlabilidad. En este documento, nuestra contribución principal radica en las señales de control latentes propuestas, una característica espacial de alta dimensionalidad que proporciona una representación unificada para integrar las condiciones espaciales, textuales e de imagen de manera fluida. La condición de texto extiende ControlNet para proporcionar generación de vocabulario abierto a nivel de instancia. La condición de imagen además permite un control detallado con identidad personalizada. En la práctica, nuestro método otorga a los usuarios una mayor flexibilidad en la generación controlable, ya que los usuarios pueden elegir condiciones multimodales de texto o imágenes según sea necesario. Además, experimentos exhaustivos demuestran nuestro rendimiento mejorado en fidelidad de síntesis de imágenes y alineación en diferentes tareas y conjuntos de datos. Página del proyecto: https://len-li.github.io/omnibooth-web/
La fusión de modelos tiene como objetivo combinar múltiples modelos expertos en un solo modelo más capaz, ofreciendo beneficios como la reducción de costos de almacenamiento y servicio, una mejor generalización y soporte para el desarrollo descentralizado de modelos. A pesar de su promesa, estudios anteriores se han centrado principalmente en fusionar unos pocos modelos pequeños. Esto deja muchas preguntas sin respuesta sobre el efecto de escalar el tamaño del modelo y cómo interactúa con otros factores clave, como la calidad del modelo base y el número de modelos expertos, para afectar el rendimiento del modelo fusionado. Este trabajo evalúa sistemáticamente la utilidad de la fusión de modelos a escala, examinando el impacto de estos diferentes factores. Experimentamos fusionando modelos completamente ajustados utilizando 4 métodos de fusión populares: Promedio, Aritmética de Tareas, Dare y TIES, en tamaños de modelos que van desde 1B-64B parámetros y fusionando hasta 8 modelos expertos diferentes. Evaluamos los modelos fusionados tanto en tareas retenidas, es decir, las tareas de entrenamiento de los expertos, como en generalización de cero disparos a tareas no vistas. Nuestros experimentos proporcionan varias ideas nuevas sobre la fusión de modelos a escala y la interacción entre diferentes factores. Primero, encontramos que la fusión es más efectiva cuando los expertos se crean a partir de modelos base sólidos, es decir, modelos con buen rendimiento de cero disparos. En segundo lugar, los modelos más grandes facilitan una fusión más sencilla. En tercer lugar, la fusión mejora consistentemente las capacidades de generalización. Especialmente, al fusionar 8 grandes modelos expertos, los modelos fusionados a menudo generalizan mejor en comparación con los modelos entrenados con multitareas. En cuarto lugar, podemos fusionar mejor más modelos expertos al trabajar con modelos más grandes. Quinto, diferentes métodos de fusión se comportan de manera muy similar en escalas mayores. En general, nuestros hallazgos arrojan luz sobre algunas propiedades interesantes de la fusión de modelos, al mismo tiempo que destacan algunas limitaciones. Esperamos que este estudio sirva como punto de referencia sobre la fusión a gran escala para investigaciones futuras.
La curación de datos es el problema de cómo recopilar y organizar muestras en un conjunto de datos que respalde un aprendizaje eficiente. A pesar de la centralidad de la tarea, se ha dedicado poco trabajo a una comparación sistemática a gran escala de varios métodos de curación. En este trabajo, damos pasos hacia una evaluación formal de estrategias de curación de datos e introducimos SELECT, el primer banco de pruebas a gran escala de estrategias de curación para clasificación de imágenes. Para generar métodos de referencia para el banco de pruebas SELECT, creamos un nuevo conjunto de datos, ImageNet++, que constituye el mayor superset de ImageNet-1K hasta la fecha. Nuestro conjunto de datos extiende ImageNet con 5 nuevos desplazamientos de datos de entrenamiento, cada uno aproximadamente del tamaño de ImageNet-1K en sí mismo, y cada uno ensamblado utilizando una estrategia de curación distinta. Evaluamos nuestras líneas de base de curación de datos de dos maneras: (i) utilizando cada desplazamiento de datos de entrenamiento para entrenar modelos de clasificación de imágenes idénticos desde cero (ii) utilizando los datos mismos para ajustar una representación auto-supervisada preentrenada. Nuestros hallazgos muestran tendencias interesantes, especialmente relacionadas con métodos recientes de curación de datos como la generación de datos sintéticos y la búsqueda basada en incrustaciones CLIP. Mostramos que aunque estas estrategias son altamente competitivas para ciertas tareas, la estrategia de curación utilizada para ensamblar el conjunto de datos original ImageNet-1K sigue siendo el estándar de oro. Anticipamos que nuestro banco de pruebas puede iluminar el camino para que nuevos métodos reduzcan aún más la brecha. Publicamos nuestros puntos de control, código, documentación y un enlace a nuestro conjunto de datos en https://github.com/jimmyxu123/SELECT.
La síntesis de movimientos humanos en entornos 3D, especialmente aquellos con actividades complejas como locomoción, alcance de manos e interacción humano-objeto, presenta demandas sustanciales de puntos de referencia definidos por el usuario y transiciones de etapas. Estos requisitos plantean desafíos para los modelos actuales, lo que resulta en una brecha notable en la automatización de la animación de personajes a partir de entradas humanas simples. Este artículo aborda este desafío al presentar un marco integral para sintetizar movimientos de interacción con el entorno en múltiples etapas directamente a partir de una sola instrucción de texto y una ubicación objetivo. Nuestro enfoque emplea un modelo de difusión auto-regresivo para sintetizar el siguiente segmento de movimiento, junto con un programador autónomo que predice la transición para cada etapa de acción. Para garantizar que los movimientos sintetizados se integren de manera fluida en el entorno, proponemos una representación del escenario que considera la percepción local tanto en el inicio como en la ubicación objetivo. Mejoramos aún más la coherencia del movimiento generado al integrar incrustaciones de fotogramas con la entrada de lenguaje. Además, para respaldar el entrenamiento del modelo, presentamos un conjunto de datos de captura de movimiento integral que comprende 16 horas de secuencias de movimiento en 120 escenas interiores que cubren 40 tipos de movimientos, cada uno anotado con descripciones de lenguaje precisas. Los resultados experimentales demuestran la eficacia de nuestro método en la generación de movimientos de alta calidad y en múltiples etapas, estrechamente alineados con las condiciones ambientales y textuales.
Los métodos de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) están surgiendo como una forma de ajustar los modelos de difusión (DMs) para la generación visual. Sin embargo, las estrategias comúnmente utilizadas en política son limitadas por la capacidad de generalización del modelo de recompensa, mientras que los enfoques fuera de política requieren grandes cantidades de datos emparejados anotados por humanos difíciles de obtener, especialmente en tareas de generación visual. Para abordar las limitaciones tanto de RLHF en política como fuera de política, proponemos un método de optimización de preferencias que alinea los DMs con las preferencias sin depender de modelos de recompensa o datos emparejados anotados por humanos. Específicamente, presentamos un método de Optimización de Preferencias Semi-Política (SePPO). SePPO aprovecha los puntos de control anteriores como modelos de referencia mientras los utiliza para generar muestras de referencia en política, que reemplazan las "imágenes perdedoras" en pares de preferencias. Este enfoque nos permite optimizar utilizando solo "imágenes ganadoras" fuera de política. Además, diseñamos una estrategia para la selección de modelos de referencia que amplía la exploración en el espacio de políticas. Es importante destacar que no tratamos simplemente las muestras de referencia como ejemplos negativos para el aprendizaje. En su lugar, diseñamos un criterio basado en anclas para evaluar si las muestras de referencia probablemente sean imágenes ganadoras o perdedoras, lo que permite que el modelo aprenda selectivamente de las muestras de referencia generadas. Este enfoque mitiga la degradación del rendimiento causada por la incertidumbre en la calidad de las muestras de referencia. Validamos SePPO en benchmarks tanto de texto a imagen como de texto a video. SePPO supera todos los enfoques anteriores en los benchmarks de texto a imagen y también demuestra un rendimiento sobresaliente en los benchmarks de texto a video. El código será publicado en https://github.com/DwanZhang-AI/SePPO.
Los modelos de difusión han revolucionado la generación de imágenes, y su extensión a la generación de videos ha mostrado promesa. Sin embargo, los modelos de difusión de video actuales (VDM) se basan en una variable de paso escalar aplicada a nivel de clip, lo que limita su capacidad para modelar dependencias temporales complejas necesarias para diversas tareas como la generación de imágenes a video. Para abordar esta limitación, proponemos un modelo de difusión de video consciente de los fotogramas (FVDM), que introduce una nueva variable de paso vectorizada (VTV). A diferencia de los VDM convencionales, nuestro enfoque permite que cada fotograma siga un programa de ruido independiente, mejorando la capacidad del modelo para capturar dependencias temporales detalladas. La flexibilidad de FVDM se demuestra en múltiples tareas, incluyendo la generación de videos estándar, generación de imágenes a video, interpolación de video y síntesis de videos largos. A través de un conjunto diverso de configuraciones de VTV, logramos una calidad superior en los videos generados, superando desafíos como el olvido catastrófico durante el ajuste fino y la limitada generalización en métodos de cero disparo. Nuestras evaluaciones empíricas muestran que FVDM supera a los métodos de vanguardia en calidad de generación de videos, destacándose también en tareas extendidas. Al abordar deficiencias fundamentales en los VDM existentes, FVDM establece un nuevo paradigma en la síntesis de videos, ofreciendo un marco robusto con implicaciones significativas para la modelización generativa y las aplicaciones multimedia.
Introducimos una tarea y un conjunto de datos para la generación y comprensión de expresiones de referencia en entornos corporales multiagentes. En esta tarea, dos agentes en una escena compartida deben tener en cuenta la perspectiva visual del otro, que puede ser diferente de la suya, para tanto producir como entender referencias a objetos en una escena y las relaciones espaciales entre ellos. Recopilamos un conjunto de datos de 2,970 expresiones de referencia escritas por humanos, cada una emparejada con juicios de comprensión humana, y evaluamos el rendimiento de modelos automatizados como hablantes y oyentes emparejados con socios humanos, encontrando que el rendimiento del modelo tanto en la generación como en la comprensión de referencias está por detrás del de pares de agentes humanos. Finalmente, experimentamos entrenando un modelo de hablante de peso abierto con evidencia de éxito comunicativo cuando se empareja con un oyente, lo que resulta en una mejora del 58.9 al 69.3% en el éxito comunicativo e incluso superando al modelo propietario más fuerte.
La inferencia de LLM para casos de uso empresariales populares, como la sumarización, RAG y la generación de código, generalmente observa longitudes de indicación órdenes de magnitud más largas que las longitudes de generación. Esta característica conlleva un alto costo de precarga y un aumento en la latencia de respuesta. En este documento, presentamos SwiftKV, un procedimiento novedoso de transformación y destilación de modelos diseñado específicamente para reducir el tiempo y el costo de procesamiento de tokens de indicación mientras se preserva la alta calidad de los tokens generados. SwiftKV combina tres mecanismos clave: i) SingleInputKV, que precarga la caché KV de capas posteriores utilizando la salida de una capa mucho más temprana, permitiendo que los tokens de indicación omitan gran parte de la computación del modelo, ii) AcrossKV, que fusiona las cachés KV de capas vecinas para reducir la huella de memoria y admitir un tamaño de lote más grande para un mayor rendimiento, y iii) un procedimiento de destilación que conserva el conocimiento y que puede adaptar LLMs existentes para SwiftKV con un impacto mínimo en la precisión y bajos requisitos de cómputo y datos. Para Llama-3.1-8B y 70B, SwiftKV reduce el requisito de cómputo de precarga en un 50% y el requisito de memoria de la caché KV en un 62.5%, con un deterioro mínimo en la calidad en una amplia gama de tareas. En el servicio de inferencia de extremo a extremo utilizando una implementación optimizada de vLLM, SwiftKV logra hasta 2 veces más rendimiento agregado y un 60% menos de tiempo por token de salida. Puede alcanzar un asombroso rendimiento de inferencia normalizado de 560 TFlops/GPU, lo que se traduce en 16K tokens/s para Llama-3.1-70B en precisión de 16 bits en 4x H100 GPUs.