Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos phi-4, un modelo de lenguaje de 14 mil millones de parámetros desarrollado con una receta de entrenamiento centrada principalmente en la calidad de los datos. A diferencia de la mayoría de los modelos de lenguaje, donde el pre-entrenamiento se basa principalmente en fuentes de datos orgánicos como contenido web o código, phi-4 incorpora estratégicamente datos sintéticos a lo largo del proceso de entrenamiento. Mientras que los modelos anteriores en la familia Phi en gran medida destilan las capacidades de un modelo docente (específicamente GPT-4), phi-4 supera sustancialmente a su modelo docente en capacidades de preguntas y respuestas centradas en STEM, evidenciando que nuestras técnicas de generación de datos y post-entrenamiento van más allá de la destilación. A pesar de cambios mínimos en la arquitectura de phi-3, phi-4 logra un rendimiento sólido en relación con su tamaño, especialmente en pruebas centradas en el razonamiento, debido a la mejora en los datos, el plan de entrenamiento y las innovaciones en el esquema de post-entrenamiento.
La creación de sistemas de IA que puedan interactuar con entornos durante largos períodos, similar a la cognición humana, ha sido un objetivo de investigación de larga data. Los avances recientes en modelos de lenguaje multimodal grandes (MLLMs, por sus siglas en inglés) han logrado avances significativos en la comprensión de entornos abiertos. Sin embargo, el desafío de la percepción continua y simultánea en tiempo real, memoria y razonamiento sigue siendo en gran medida inexplorado. Los MLLMs actuales están limitados por su arquitectura de secuencia a secuencia, lo que restringe su capacidad para procesar entradas y generar respuestas simultáneamente, similar a no poder pensar mientras se percibe. Además, depender de contextos largos para almacenar datos históricos resulta poco práctico para interacciones a largo plazo, ya que retener toda la información se vuelve costoso e ineficiente. Por lo tanto, en lugar de depender de un único modelo base para realizar todas las funciones, este proyecto se inspira en el concepto de la IA Generalista Especializada e introduce mecanismos de percepción, razonamiento y memoria en tiempo real y desacoplados, permitiendo la interacción en tiempo real con entradas de video y audio en continuo. El marco propuesto, InternLM-XComposer2.5-OmniLive (IXC2.5-OL), consta de tres módulos clave: (1) Módulo de Percepción en Tiempo Real: Procesa información multimodal en tiempo real, almacenando detalles clave en la memoria y activando el razonamiento en respuesta a consultas de usuario. (2) Módulo de Memoria Larga Multi-modal: Integra memoria a corto y largo plazo, comprimiendo memorias a corto plazo en memorias a largo plazo para una recuperación eficiente y una precisión mejorada. (3) Módulo de Razonamiento: Responde a consultas y ejecuta tareas de razonamiento, coordinándose con los módulos de percepción y memoria. Este proyecto simula la cognición similar a la humana, permitiendo que los modelos de lenguaje multimodal grandes proporcionen un servicio continuo y adaptativo con el tiempo.
Los modelos de lenguaje multimodales grandes (MLLMs) han avanzado rápidamente en los últimos años, pero siguen teniendo dificultades con la percepción visual de bajo nivel (LLVP), en particular con la capacidad de describir con precisión los detalles geométricos de una imagen. Esta capacidad es crucial para aplicaciones en áreas como la robótica, el análisis de imágenes médicas y la fabricación. En este documento, primero presentamos Geopercepción, un banco de pruebas diseñado para evaluar la capacidad de un MLLM para transcribir con precisión información geométrica 2D de una imagen. Utilizando este banco de pruebas, demostramos las limitaciones de los principales MLLMs, y luego realizamos un estudio empírico exhaustivo para explorar estrategias para mejorar su rendimiento en tareas geométricas. Nuestros hallazgos resaltan los beneficios de ciertas arquitecturas de modelos, técnicas de entrenamiento y estrategias de datos, incluido el uso de datos sintéticos de alta fidelidad y entrenamiento en múltiples etapas con un plan de estudios de datos. Notablemente, encontramos que un plan de estudios de datos permite a los modelos aprender tareas desafiantes de comprensión de geometría que no logran aprender desde cero. Aprovechando estos conocimientos, desarrollamos Euclides, una familia de modelos optimizados específicamente para una sólida percepción geométrica de bajo nivel. Aunque entrenado exclusivamente con datos multimodales sintéticos, Euclides muestra una sólida capacidad de generalización a formas geométricas novedosas. Por ejemplo, Euclides supera al mejor modelo de código cerrado, Gemini-1.5-Pro, hasta en un 58.56% en ciertas tareas del banco de pruebas de Geopercepción y un 10.65% en promedio en todas las tareas.
A medida que los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) evolucionan, es esencial expandirse más allá de las capacidades de un solo dominio para satisfacer la demanda de una IA más versátil y eficiente. Sin embargo, los omni-modelos anteriores han explorado insuficientemente el habla, descuidando su integración con la multimodalidad. Presentamos Lyra, un MLLM eficiente que mejora las habilidades multimodales, incluyendo la comprensión avanzada de largos discursos, la comprensión del sonido, la eficiencia de la interacción entre modalidades y la interacción de habla fluida. Para lograr eficiencia y capacidades centradas en el habla, Lyra emplea tres estrategias: (1) aprovechar modelos grandes de código abierto existentes y un LoRA de multimodalidad propuesto para reducir costos de entrenamiento y requisitos de datos; (2) utilizar un regularizador y extractor latente de multimodalidad para fortalecer la relación entre el habla y otras modalidades, mejorando así el rendimiento del modelo; y (3) construir un conjunto de datos extenso y de alta calidad que incluye 1.5M de muestras de datos multimodales (lenguaje, visión, audio) y 12K de muestras de largos discursos, lo que permite a Lyra manejar entradas de largos discursos complejos y lograr una cognición omni más robusta. En comparación con otros métodos omni, Lyra logra un rendimiento de vanguardia en varios puntos de referencia de visión-lenguaje, visión-habla y habla-lenguaje, al mismo tiempo que utiliza menos recursos computacionales y menos datos de entrenamiento.
Los modelos generativos multimodales requieren un enfoque unificado para manejar tanto datos discretos (por ejemplo, texto y código) como datos continuos (por ejemplo, imagen, audio, video). En este trabajo, proponemos Modelado de Lenguaje Latente (LatentLM), que integra de manera fluida datos continuos y discretos utilizando Transformadores causales. Específicamente, empleamos un autoencoder variacional (VAE) para representar datos continuos como vectores latentes e introducimos difusión de siguiente token para la generación autoregresiva de estos vectores. Además, desarrollamos sigma-VAE para abordar los desafíos de colapso de varianza, lo cual es crucial para la modelización autoregresiva. Experimentos extensos demuestran la efectividad de LatentLM en diversas modalidades. En generación de imágenes, LatentLM supera a los Transformadores de Difusión tanto en rendimiento como en escalabilidad. Cuando se integra en modelos de lenguaje grandes multimodales, LatentLM proporciona una interfaz de propósito general que unifica la generación y comprensión multimodal. Los resultados experimentales muestran que LatentLM logra un rendimiento favorable en comparación con Transfusion y modelos cuantificados por vectores en el contexto de aumentar los tokens de entrenamiento. En síntesis de texto a voz, LatentLM supera al modelo VALL-E 2 de vanguardia en similitud y robustez del hablante, al tiempo que requiere 10 veces menos pasos de decodificación. Los resultados establecen a LatentLM como un enfoque altamente efectivo y escalable para avanzar en modelos multimodales grandes.
Los agentes de Interfaz Gráfica de Usuario (GUI) tienen un gran potencial para automatizar tareas complejas en diversos entornos digitales, desde aplicaciones web hasta software de escritorio. Sin embargo, el desarrollo de tales agentes se ve obstaculizado por la falta de datos de trayectorias de múltiples pasos de alta calidad necesarios para un entrenamiento efectivo. Los enfoques existentes dependen de una anotación humana costosa y laboriosa, lo que los hace insostenibles a gran escala. Para abordar este desafío, proponemos AgentTrek, un proceso de síntesis de datos escalable que genera trayectorias de agentes GUI de alta calidad aprovechando tutoriales web. Nuestro método recopila automáticamente textos similares a tutoriales de internet, los transforma en objetivos de tarea con instrucciones paso a paso y emplea un agente de modelo de lenguaje visual para simular su ejecución en un entorno digital real. Un evaluador basado en VLM garantiza la corrección de las trayectorias generadas. Demostramos que el entrenamiento de agentes GUI con estas trayectorias sintetizadas mejora significativamente su fundamentación y rendimiento de planificación en comparación con los modelos actuales. Además, nuestro enfoque es más rentable en comparación con los métodos tradicionales de anotación humana. Este trabajo subraya el potencial de la repetición guiada con tutoriales web como una estrategia viable para el entrenamiento a gran escala de agentes GUI, allanando el camino para agentes digitales más capaces y autónomos.
Los modelos de difusión texto-a-imagen (T2I) existentes enfrentan varias limitaciones, incluyendo grandes tamaños de modelo, ejecución lenta y generación de baja calidad en dispositivos móviles. Este artículo tiene como objetivo abordar todos estos desafíos mediante el desarrollo de un modelo T2I extremadamente pequeño y rápido que genere imágenes de alta resolución y alta calidad en plataformas móviles. Proponemos varias técnicas para lograr este objetivo. En primer lugar, examinamos sistemáticamente las elecciones de diseño de la arquitectura de red para reducir los parámetros del modelo y la latencia, asegurando al mismo tiempo una generación de alta calidad. En segundo lugar, para mejorar aún más la calidad de generación, empleamos la destilación de conocimiento entre arquitecturas de un modelo mucho más grande, utilizando un enfoque multinivel para guiar el entrenamiento de nuestro modelo desde cero. En tercer lugar, permitimos una generación en pocas etapas mediante la integración de orientación adversarial con destilación de conocimiento. Por primera vez, nuestro modelo SnapGen demuestra la generación de imágenes de 1024x1024 px en un dispositivo móvil en alrededor de 1.4 segundos. En ImageNet-1K, nuestro modelo, con solo 372M parámetros, logra un FID de 2.06 para la generación de 256x256 px. En los benchmarks de T2I (es decir, GenEval y DPG-Bench), nuestro modelo con apenas 379M parámetros supera a modelos a gran escala con miles de millones de parámetros en un tamaño significativamente menor (por ejemplo, 7 veces más pequeño que SDXL, 14 veces más pequeño que IF-XL).
Se han presenciado logros significativos en la personalización de modelos de difusión. Los métodos convencionales sin ajuste mayormente codifican múltiples imágenes de referencia promediando sus incrustaciones de imagen como condición de inyección, pero tal operación independiente de la imagen no puede interactuar entre imágenes para capturar elementos visuales consistentes dentro de múltiples referencias. Aunque la Adaptación de Bajo Rango (LoRA) basada en ajuste puede extraer de manera efectiva elementos consistentes dentro de múltiples imágenes a través del proceso de entrenamiento, requiere un ajuste fino específico para cada grupo de imágenes distinto. Este documento presenta EasyRef, un novedoso método de adaptación plug-and-play que permite a los modelos de difusión condicionarse en múltiples imágenes de referencia y la indicación de texto. Para explotar efectivamente elementos visuales consistentes dentro de múltiples imágenes, aprovechamos las capacidades de comprensión de imágenes múltiples y seguimiento de instrucciones del modelo de lenguaje multimodal grande (MLLM), incitándolo a capturar elementos visuales consistentes basados en la instrucción. Además, inyectar las representaciones del MLLM en el proceso de difusión a través de adaptadores puede generalizarse fácilmente a dominios no vistos, extrayendo los elementos visuales consistentes dentro de datos no vistos. Para mitigar costos computacionales y mejorar la preservación de detalles finos, introducimos una estrategia eficiente de agregación de referencias y un esquema de entrenamiento progresivo. Finalmente, presentamos MRBench, un nuevo banco de pruebas de generación de imágenes de múltiples referencias. Los resultados experimentales demuestran que EasyRef supera tanto a métodos sin ajuste como IP-Adapter y a métodos basados en ajuste como LoRA, logrando una calidad estética superior y una generalización de cero disparos robusta en diversos dominios.
Dado el rápido progreso de la inteligencia artificial generativa, existe una necesidad apremiante de comparar y elegir sistemáticamente entre los numerosos modelos y configuraciones disponibles. La escala y versatilidad de tales evaluaciones hacen que el uso de jueces basados en LLM sea una solución convincente para este desafío. Es crucial que este enfoque requiera primero validar la calidad del juez LLM en sí mismo. Trabajos anteriores se han centrado en la evaluación basada en instancias de jueces LLM, donde un juez es evaluado sobre un conjunto de respuestas, o pares de respuestas, sin importar sus sistemas de origen. Sostenemos que esta configuración pasa por alto factores críticos que afectan la clasificación a nivel de sistema, como el sesgo positivo o negativo de un juez hacia ciertos sistemas. Para abordar esta brecha, llevamos a cabo el primer estudio a gran escala de jueces LLM como clasificadores de sistemas. Los puntajes del sistema se generan mediante la agregación de puntajes de juicio sobre múltiples salidas del sistema, y la calidad del juez se evalúa comparando la clasificación resultante del sistema con una clasificación basada en humanos. Más allá de la evaluación general del juez, nuestro análisis proporciona una caracterización detallada del comportamiento del juez, incluyendo su decisión y sesgo.
Recuperar la geometría y los materiales de objetos a partir de una sola imagen es desafiante debido a su naturaleza subdeterminada. En este documento, presentamos Neural LightRig, un marco novedoso que potencia la estimación intrínseca al aprovechar condiciones auxiliares de iluminación múltiple de difusión 2D. Específicamente, 1) primero aprovechamos priors de iluminación de modelos de difusión a gran escala para construir nuestro modelo de difusión de luz múltiple en un conjunto de datos de relighting sintético con diseños dedicados. Este modelo de difusión genera múltiples imágenes consistentes, cada una iluminada por fuentes de luz puntual en diferentes direcciones. 2) Utilizando estas imágenes de iluminación variadas para reducir la incertidumbre de la estimación, entrenamos un gran modelo de búfer G con una estructura de U-Net para predecir con precisión las normales de superficie y los materiales. Experimentos extensos validan que nuestro enfoque supera significativamente a los métodos de vanguardia, permitiendo una estimación precisa de las normales de superficie y los materiales PBR con efectos de relighting vívidos. El código y el conjunto de datos están disponibles en nuestra página de proyecto en https://projects.zxhezexin.com/neural-lightrig.
La aproximación de Ecuaciones en Derivadas Parciales (EDPs) utilizando redes neuronales ha experimentado avances significativos a través de las Redes Neuronales Informadas por la Física (PINNs, por sus siglas en inglés). A pesar de su marco de optimización sencillo y flexibilidad en la implementación de diversas EDPs, las PINNs a menudo sufren de una precisión limitada debido al sesgo espectral de los Perceptrones Multicapa (MLPs), los cuales tienen dificultades para aprender de manera efectiva componentes no lineales y de alta frecuencia. Recientemente, las representaciones de malla paramétrica en combinación con redes neuronales han sido investigadas como un enfoque prometedor para eliminar los sesgos inductivos de las redes neuronales. Sin embargo, suelen requerir rejillas de alta resolución y un gran número de puntos de colocación para lograr una alta precisión y evitar problemas de sobreajuste. Además, las posiciones fijas de los parámetros de la malla restringen su flexibilidad, lo que dificulta la aproximación precisa de EDPs complejas. Para superar estas limitaciones, proponemos los Gaussianos Informados por la Física (PIGs, por sus siglas en inglés), que combinan incrustaciones de características utilizando funciones gaussianas con una red neuronal ligera. Nuestro enfoque utiliza parámetros entrenables para la media y la varianza de cada gaussiana, lo que permite el ajuste dinámico de sus posiciones y formas durante el entrenamiento. Esta adaptabilidad permite que nuestro modelo aproxime óptimamente las soluciones de EDPs, a diferencia de los modelos con posiciones de parámetros fijos. Además, el enfoque propuesto mantiene el mismo marco de optimización utilizado en las PINNs, lo que nos permite beneficiarnos de sus excelentes propiedades. Los resultados experimentales muestran el rendimiento competitivo de nuestro modelo en diversas EDPs, demostrando su potencial como una herramienta robusta para resolver EDPs complejas. Nuestra página del proyecto está disponible en https://namgyukang.github.io/Physics-Informed-Gaussians/
Los sensores modernos producen flujos de datos cada vez más ricos en alta resolución. Debido a limitaciones de recursos, los sistemas de aprendizaje automático descartan la gran mayoría de esta información mediante la reducción de resolución. El aprendizaje en dominio comprimido permite que los modelos operen en representaciones latentes compactas, lo que proporciona una mayor resolución efectiva para el mismo presupuesto. Sin embargo, los sistemas de compresión existentes no son ideales para el aprendizaje comprimido. La codificación de transformación lineal y los sistemas de compresión aprendidos de extremo a extremo reducen el bitrate, pero no reducen uniformemente la dimensionalidad; por lo tanto, no aumentan significativamente la eficiencia. Los autoencoders generativos reducen la dimensionalidad, pero sus objetivos adversariales o perceptuales conducen a una pérdida significativa de información. Para abordar estas limitaciones, presentamos WaLLoC (Compresión Perdida Aprendida por Wavelet), una arquitectura de códec neuronal que combina la codificación de transformación lineal con autoencoders no lineales de reducción de dimensionalidad. WaLLoC coloca un autoencoder asimétrico superficial y un cuello de botella de entropía entre una transformación de paquetes de wavelet invertible. En varios métricas clave, WaLLoC supera a los autoencoders utilizados en los modelos de difusión latente de última generación. WaLLoC no requiere pérdidas perceptuales o adversariales para representar detalles de alta frecuencia, lo que permite la compatibilidad con modalidades más allá de las imágenes RGB y el audio estéreo. El codificador de WaLLoC consiste casi en su totalidad de operaciones lineales, lo que lo hace excepcionalmente eficiente y adecuado para la informática móvil, la percepción remota y el aprendizaje directamente a partir de datos comprimidos. Demostramos la capacidad de WaLLoC para el aprendizaje en dominio comprimido en varias tareas, incluyendo clasificación de imágenes, colorización, comprensión de documentos y separación de fuentes musicales. Nuestro código, experimentos y códecs de audio e imagen pre-entrenados están disponibles en https://ut-sysml.org/walloc.
Este estudio presenta una nueva técnica de super-resolución de imágenes (SR) basada en la inversión de difusión, con el objetivo de aprovechar los ricos conocimientos previos de imagen encapsulados en grandes modelos de difusión pre-entrenados para mejorar el rendimiento de SR. Diseñamos una estrategia de Predicción parcial de ruido para construir un estado intermedio del modelo de difusión, que sirve como punto de muestreo inicial. En el centro de nuestro enfoque se encuentra un predictor profundo de ruido para estimar los mapas de ruido óptimos para el proceso de difusión hacia adelante. Una vez entrenado, este predictor de ruido puede utilizarse para inicializar parcialmente el proceso de muestreo a lo largo de la trayectoria de difusión, generando el deseado resultado de alta resolución. En comparación con enfoques existentes, nuestro método ofrece un mecanismo de muestreo flexible y eficiente que admite un número arbitrario de pasos de muestreo, que van desde uno hasta cinco. Incluso con un solo paso de muestreo, nuestro método demuestra un rendimiento superior o comparable a enfoques de vanguardia recientes. El código y el modelo están disponibles públicamente en https://github.com/zsyOAOA/InvSR.
Con la creciente adopción y capacidades de los modelos visión-lenguaje (VLMs) surge la necesidad de referencias que capturen interacciones auténticas entre usuarios y VLMs. En respuesta, creamos VisionArena, un conjunto de datos de 230K conversaciones del mundo real entre usuarios y VLMs. Recopilado de Chatbot Arena, una plataforma de código abierto donde los usuarios interactúan con VLMs y envían votos de preferencia, VisionArena abarca 73K usuarios únicos, 45 VLMs y 138 idiomas. Nuestro conjunto de datos contiene tres subconjuntos: VisionArena-Chat, 200k conversaciones de un solo y múltiples turnos entre un usuario y un VLM; VisionArena-Battle, 30K conversaciones que comparan dos VLMs anónimos con votos de preferencia de usuarios; y VisionArena-Bench, una referencia automática de 500 estímulos diversos de usuarios que aproximan eficientemente las clasificaciones del modelo en vivo de Chatbot Arena. Además, destacamos los tipos de preguntas realizadas por los usuarios, la influencia del estilo de respuesta en la preferencia y las áreas donde los modelos a menudo fallan. Encontramos que las tareas abiertas como la descripción y el humor dependen en gran medida del estilo, y los VLMs actuales tienen dificultades con el razonamiento espacial y las tareas de planificación. Por último, demostramos que el ajuste fino del mismo modelo base en VisionArena-Chat supera a Llava-Instruct-158K, con una mejora de 17 puntos en MMMU y 46 puntos en el referente WildVision. Conjunto de datos en https://huggingface.co/lmarena-ai
La práctica estándar para desarrollar MLLMs contemporáneos es alimentar características de un o más codificadores de visión en el LLM y entrenar con supervisión de lenguaje natural. En este trabajo, planteamos una oportunidad pasada por alto para optimizar las representaciones intermedias del LLM a través de una perspectiva visual (objetivo), es decir, que únicamente la supervisión de lenguaje natural es subóptima para la capacidad de comprensión visual del MLLM. Con este fin, proponemos OLA-VLM, el primer enfoque que destila conocimiento en las representaciones ocultas del LLM a partir de un conjunto de representaciones visuales objetivo. En primer lugar, formulamos el objetivo durante la etapa de preentrenamiento en MLLMs como una optimización acoplada de incrustación visual predictiva y predicción del siguiente token de texto. En segundo lugar, investigamos MLLMs entrenados únicamente con supervisión de lenguaje natural e identificamos una correlación positiva entre la calidad de las representaciones visuales dentro de estos modelos y su rendimiento posterior. Además, al sondear nuestro OLA-VLM, observamos una mejora en la calidad de representación debido a la optimización de la incrustación. En tercer lugar, demostramos que nuestro OLA-VLM supera a los baselines de codificador único y multi, demostrando la superioridad de nuestro enfoque sobre alimentar explícitamente las características correspondientes al LLM. En particular, OLA-VLM mejora el rendimiento en un margen promedio de hasta un 2.5% en varios benchmarks, con una notable mejora del 8.7% en la tarea de Profundidad en CV-Bench. Nuestro código está disponible en https://github.com/SHI-Labs/OLA-VLM.
Este documento presenta RuleArena, un nuevo y desafiante banco de pruebas diseñado para evaluar la capacidad de los grandes modelos de lenguaje (LLMs) para seguir reglas complejas del mundo real en el razonamiento. Cubriendo tres dominios prácticos -- tarifas de equipaje aéreo, transacciones de la NBA y regulaciones fiscales -- RuleArena evalúa la competencia de los LLMs en el manejo de instrucciones intrincadas en lenguaje natural que requieren comprensión de contexto extenso, razonamiento lógico y cálculos matemáticos precisos. Dos atributos clave distinguen a RuleArena de los bancos de pruebas tradicionales de razonamiento basado en reglas: (1) se extiende más allá de las representaciones lógicas de primer orden estándar, y (2) se fundamenta en escenarios auténticos y prácticos, proporcionando información sobre la idoneidad y confiabilidad de los LLMs para aplicaciones del mundo real. Nuestros hallazgos revelan varias limitaciones notables en los LLMs: (1) tienen dificultades para identificar y aplicar las reglas apropiadas, a menudo confundiéndose con regulaciones similares pero distintas, (2) no pueden realizar cálculos matemáticos precisos de manera consistente, incluso cuando identifican correctamente las reglas relevantes, y (3) en general, tienen un desempeño deficiente en el banco de pruebas. Estos resultados resaltan desafíos significativos en el avance de las capacidades de razonamiento guiado por reglas de los LLMs en aplicaciones de la vida real.
El uso de materiales con derechos de autor en el entrenamiento de modelos de lenguaje generativo plantea preguntas legales y éticas críticas. Este documento presenta un marco y los resultados de evaluar empíricamente el impacto de los materiales con derechos de autor en el rendimiento de grandes modelos de lenguaje (LLMs) para el noruego. Descubrimos que tanto los libros como los periódicos contribuyen positivamente cuando los modelos son evaluados en un conjunto diverso de pruebas noruegas, mientras que las obras de ficción posiblemente conducen a un rendimiento disminuido. Nuestros experimentos podrían informar la creación de un esquema de compensación para autores cuyas obras contribuyen al desarrollo de la IA.
La Desambiguación del Sentido de las Palabras (WSD, por sus siglas en inglés) es la tarea de asociar una palabra en un contexto dado con su significado más adecuado entre un conjunto de posibles candidatos. Aunque la tarea ha experimentado un renovado interés recientemente, con sistemas que logran un rendimiento por encima del acuerdo interanotador estimado, en el momento de escribir esto aún lucha por encontrar aplicaciones prácticas. Sostenemos que una de las razones detrás de esto es la dificultad de aplicar WSD al texto plano. De hecho, en la formulación estándar, los modelos trabajan bajo la suposición de que a) todos los fragmentos a desambiguar ya han sido identificados, y b) se proporcionan todos los posibles sentidos candidatos de cada fragmento, ambos requisitos que están lejos de ser triviales. En este trabajo, presentamos una nueva tarea llamada Vinculación del Sentido de las Palabras (WSL, por sus siglas en inglés) donde, dada un texto de entrada y un inventario de sentidos de referencia, los sistemas deben tanto identificar qué fragmentos desambiguar como luego vincularlos con su significado más adecuado. Proponemos una arquitectura basada en transformadores para la tarea y evaluamos exhaustivamente tanto su rendimiento como el de los sistemas de WSD de última generación adaptados a WSL, relajando iterativamente las suposiciones de WSD. Esperamos que nuestro trabajo fomente una integración más sencilla de la semántica léxica en aplicaciones prácticas.
Los Flujos Normalizantes (NFs) son modelos basados en verosimilitud para entradas continuas. Han demostrado resultados prometedores tanto en la estimación de densidad como en tareas de modelado generativo, pero han recibido relativamente poca atención en los últimos años. En este trabajo, demostramos que los NFs son más potentes de lo que se creía anteriormente. Presentamos TarFlow: una arquitectura simple y escalable que permite modelos NF altamente eficientes. TarFlow puede ser considerado como una variante basada en Transformadores de Flujos Autoregresivos Enmascarados (MAFs): consiste en una pila de bloques autoregresivos de Transformadores en parches de imagen, alternando la dirección de autoregresión entre capas. TarFlow es fácil de entrenar de principio a fin y capaz de modelar y generar píxeles directamente. También proponemos tres técnicas clave para mejorar la calidad de las muestras: aumento de ruido gaussiano durante el entrenamiento, un procedimiento de desruido posterior al entrenamiento y un método efectivo de guía tanto para configuraciones condicionales por clase como incondicionales. Al combinar estos elementos, TarFlow establece nuevos resultados de vanguardia en la estimación de verosimilitud para imágenes, superando los métodos anteriores por un amplio margen, y genera muestras con calidad y diversidad comparables a los modelos de difusión, por primera vez con un modelo NF independiente. Ponemos nuestro código a disposición en https://github.com/apple/ml-tarflow.
Los avances recientes en personalización de texto a imagen han permitido la generación de imágenes personalizadas de alta fidelidad y ricas en contexto, lo que posibilita que conceptos específicos aparezcan en una variedad de escenarios. Sin embargo, los métodos actuales tienen dificultades para combinar múltiples modelos personalizados, a menudo resultando en enredos de atributos o requiriendo entrenamientos separados para preservar la distinción de conceptos. Presentamos LoRACLR, un enfoque novedoso para la generación de imágenes multi-concepto que fusiona múltiples modelos LoRA, cada uno ajustado para un concepto distinto, en un único modelo unificado sin necesidad de ajustes individuales adicionales. LoRACLR utiliza un objetivo contrastivo para alinear y fusionar los espacios de pesos de estos modelos, asegurando compatibilidad y minimizando interferencias. Al imponer representaciones distintas pero cohesivas para cada concepto, LoRACLR permite una composición eficiente y escalable de modelos para síntesis de imágenes multi-concepto de alta calidad. Nuestros resultados resaltan la efectividad de LoRACLR en fusionar con precisión múltiples conceptos, avanzando en las capacidades de generación de imágenes personalizadas.
Los modelos de reconstrucción de vista dispersa existentes dependen en gran medida de poses de cámara conocidas precisas. Sin embargo, derivar extrínsecos e intrínsecos de cámara a partir de imágenes de vista dispersa presenta desafíos significativos. En este trabajo, presentamos FreeSplatter, un marco de reconstrucción altamente escalable y de avance directo capaz de generar gaussianas 3D de alta calidad a partir de imágenes de vista dispersa no calibradas y recuperar sus parámetros de cámara en cuestión de segundos. FreeSplatter se basa en una arquitectura de transformador simplificada, que consta de bloques de autoatención secuenciales que facilitan el intercambio de información entre tokens de imagen de múltiples vistas y los decodifican en primitivas gaussianas 3D píxel a píxel. Las primitivas gaussianas predichas se sitúan en un marco de referencia unificado, lo que permite una modelización 3D de alta fidelidad y una estimación instantánea de parámetros de cámara utilizando solucionadores listos para usar. Para adaptarse tanto a la reconstrucción centrada en objetos como a nivel de escena, entrenamos dos variantes de modelo de FreeSplatter en conjuntos de datos extensos. En ambos escenarios, FreeSplatter supera a los baselines de vanguardia en cuanto a calidad de reconstrucción y precisión de estimación de pose. Además, demostramos el potencial de FreeSplatter para mejorar la productividad de aplicaciones posteriores, como la creación de contenido texto/imagen a 3D.
La animación de imágenes humanas controlables tiene como objetivo generar videos a partir de imágenes de referencia utilizando videos de conducción. Debido a las señales de control limitadas proporcionadas por una guía dispersa (por ejemplo, pose de esqueleto), trabajos recientes han intentado introducir condiciones densas adicionales (por ejemplo, mapa de profundidad) para garantizar la alineación del movimiento. Sin embargo, una guía densa estricta como esta perjudica la calidad del video generado cuando la forma del cuerpo del personaje de referencia difiere significativamente de la del video de conducción. En este documento, presentamos DisPose para extraer señales de control más generalizables y efectivas sin una entrada densa adicional, que descompone la pose de esqueleto dispersa en la animación de imágenes humanas en una guía de campo de movimiento y correspondencia de puntos clave. Específicamente, generamos un campo de movimiento denso a partir de un campo de movimiento disperso y la imagen de referencia, lo que proporciona una guía densa a nivel de región manteniendo la generalización del control de pose disperso. También extraemos características de difusión correspondientes a puntos clave de pose de la imagen de referencia, y luego estas características de puntos se transfieren a la pose objetivo para proporcionar información de identidad distintiva. Para integrarse sin problemas en modelos existentes, proponemos un ControlNet híbrido de plug-and-play que mejora la calidad y consistencia de los videos generados mientras se mantienen los parámetros del modelo existente congelados. Experimentos cualitativos y cuantitativos extensos demuestran la superioridad de DisPose en comparación con los métodos actuales. Código: https://github.com/lihxxx/DisPose.
Los conjuntos de pruebas fijos tradicionales resultan insuficientes para evaluar las capacidades abiertas de los modelos base. Para abordar esto, proponemos ONEBench (OpeN-Ended Benchmarking), un nuevo paradigma de pruebas que consolida conjuntos de evaluación individuales en un pool de muestras unificado y en constante expansión. ONEBench permite a los usuarios generar benchmarks de evaluación abiertos personalizados a partir de este pool, correspondientes a capacidades específicas de interés. Al agregar muestras de diferentes conjuntos de pruebas, ONEBench posibilita la evaluación de capacidades diversas más allá de las cubiertas por los conjuntos de pruebas originales, al tiempo que mitiga el sobreajuste y el sesgo del conjunto de datos. Lo más importante es que enmarca la evaluación del modelo como un proceso colectivo de selección y agregación de pruebas a nivel de muestra. El cambio de benchmarks específicos de tarea a ONEBench introduce dos desafíos: (1) heterogeneidad y (2) incompletitud. La heterogeneidad se refiere a la agregación de diversas métricas, mientras que la incompletitud describe la comparación de modelos evaluados en diferentes subconjuntos de datos. Para abordar estos desafíos, exploramos algoritmos para agregar medidas dispersas en puntajes de modelo confiables. Nuestro algoritmo de agregación garantiza identificabilidad (recuperando asintóticamente los puntajes verdaderos) y una convergencia rápida, lo que permite una clasificación precisa de modelos con menos datos. En conjuntos de datos homogéneos, demostramos que nuestro algoritmo de agregación proporciona clasificaciones que se correlacionan fuertemente con las producidas por puntajes promedio. También demostramos robustez ante ~95% de medidas faltantes, reduciendo el costo de evaluación hasta 20 veces con poco o ningún cambio en las clasificaciones de modelos. Presentamos ONEBench-LLM para modelos de lenguaje y ONEBench-LMM para modelos de visión-lenguaje, unificando evaluaciones en estos dominios. En general, presentamos una técnica para evaluación abierta, que puede agregar mediciones de muestra incompletas y heterogéneas para hacer crecer continuamente un benchmark junto con los modelos base en desarrollo rápido.
El campo académico de la navegación visual guiada por instrucciones de aprendizaje se puede categorizar generalmente en búsqueda específica de categorías de alto nivel y navegación guiada por lenguaje de bajo nivel, dependiendo de la granularidad de la instrucción de lenguaje, en el que el primero enfatiza el proceso de exploración, mientras que el segundo se concentra en seguir comandos textuales detallados. A pesar de los enfoques diferentes de estas tareas, los requisitos subyacentes de interpretar instrucciones, comprender el entorno e inferir decisiones de acción siguen siendo consistentes. Este documento consolida diversas tareas de navegación en un marco unificado y genérico: investigamos las dificultades principales de compartir conocimiento general y explotar capacidades específicas de la tarea en el aprendizaje de la navegación y proponemos un nuevo modelo de Mezcla de Expertos Adaptativa al Estado (SAME, por sus siglas en inglés) que permite efectivamente a un agente inferir decisiones basadas en instrucciones de diferente granularidad y observaciones dinámicas. Impulsado por SAME, presentamos un agente versátil capaz de abordar siete tareas de navegación simultáneamente que supera o logra un rendimiento altamente comparable a agentes específicos de tarea.
Abordamos el problema de la estimación del objetivo de la mirada, que tiene como objetivo predecir hacia dónde está mirando una persona en una escena. Predecir el objetivo de la mirada de una persona requiere razonar tanto sobre la apariencia de la persona como sobre el contenido de la escena. Trabajos previos han desarrollado tuberías cada vez más complejas y elaboradas para la estimación del objetivo de la mirada que fusionan cuidadosamente características de codificadores de escena separados, codificadores de cabeza y modelos auxiliares para señales como la profundidad y la pose. Motivados por el éxito de los extractores de características de propósito general en una variedad de tareas visuales, proponemos Gaze-LLE, un nuevo marco de transformadores que simplifica la estimación del objetivo de la mirada aprovechando características de un codificador DINOv2 congelado. Extraemos una única representación de características para la escena y aplicamos una indicación posicional específica de la persona para decodificar la mirada con un módulo ligero. Demostramos un rendimiento de vanguardia en varios benchmarks de mirada y proporcionamos un análisis exhaustivo para validar nuestras decisiones de diseño. Nuestro código está disponible en: http://github.com/fkryan/gazelle.
Los modelos de Traducción Automática Neural (NMT, por sus siglas en inglés) suelen entrenarse en conjuntos de datos con exposición limitada a dominios Científicos, Técnicos y Educativos. Por lo tanto, en general, los modelos de traducción enfrentan dificultades con tareas que implican comprensión científica o jerga técnica. Se ha observado que su rendimiento es aún peor para los idiomas indios de recursos limitados. Encontrar un conjunto de datos de traducción que se centre en estos dominios en particular representa un desafío difícil. En este artículo, abordamos este problema creando un corpus paralelo multilingüe que contiene más de 2.8 millones de filas de pares de traducción de alta calidad del inglés al indio y del indio al indio en 8 idiomas indios. Logramos esto mediante la minería de bitextos de transcripciones traducidas por humanos de conferencias en video de NPTEL. También ajustamos y evaluamos los modelos NMT utilizando este corpus y superamos a todos los demás modelos disponibles públicamente en tareas dentro del dominio. Además, demostramos el potencial de generalización a tareas de traducción fuera del dominio al mejorar la línea base en más de 2 BLEU en promedio para estos idiomas indios en el benchmark Flores+. Nos complace compartir nuestro modelo y conjunto de datos a través de este enlace: https://huggingface.co/SPRINGLab.